Databricks
Databricks是一家基于云计算Spark大数据的软件运营商,于2013年1月1日正式成立,总部设在美国旧金山。作为大数据处理领域的领军企业,Databricks专注于提供基于Spark的云服务,涵盖数据集成、数据清洗、数据管理等多个环节,致力于为企业打造高效、安全的数据处理解决方案。现任首席执行官为阿里・戈西(Ali Ghodsi)。
发展历程 编辑本段
Databricks由Apache Spark的7位初始成员(Ali Ghodsi、Andy Konwinski、Arsalan Tavakoli-Shiraji、Ion Stoica、Matei Zaharia、Patrick Wendell和Reynold Xin)共同创立。2016年,Databricks与微软达成合作,开启了其在云计算领域的重要布局。2017年11月,Databricks成功成为微软Azure的第一方服务平台,进一步巩固了其在云市场的地位。
2018年:Databricks发布了MLflow,这是一款用于管理机器学习项目的开源平台,旨在简化数据科学家构建、测试和部署机器学习模型的复杂过程。
2019年:Databricks发布了Delta Lake,构建了数据湖屋架构的存储框架,为数据湖的构建和管理提供了有力支持。
2020年:6月,Databricks宣布收购以色列初创公司Redash,并基于其技术推出了数据湖屋关键开源技术Delta Engine,该技术可在Delta Lake之上分层,显著提高查询性能。11月,Databricks推出了Databricks SQL,用于在数据湖上运行商业智能和分析报告,进一步丰富了其产品线。
2021年:Databricks与谷歌云建立合作,使用户能够在谷歌云上应用Databricks平台的功能,成为当时唯一一个可以在谷歌、亚马逊和微软三大云平台上使用的统一数据平台。10月,Databricks收购了德国无代码公司8080Labs,降低了平台的使用门槛,并在CIDR 2021发表论文,首次正式提出了数据湖屋(Lakehouse)的概念。
2023年:为了应对OpenAI的ChatGPT,Databricks推出了开源语言模型Dolly,展现了其在人工智能领域的创新能力。
2024年:3月,Databricks推出了一款名为DBRX的通用大型语言模型,进一步提升了其在人工智能领域的竞争力。
2023年6月26日:Databricks正式宣布以约13亿美元收购生成式人工智能初创公司MosaicML,旨在为企业提供构建类ChatGPT工具的服务,交易预计于7月31日前完成。
2023年9月14日:Databricks完成了超过5亿美元的I轮融资,为其后续发展提供了强大的资金支持。
2024年12月7日:Databricks宣布完成100亿美元J轮融资,公司估值从此前的430亿美元攀升至620亿美元。本轮融资由Thrive Capital领投,多家知名投资机构参与,包括Andreessen Horowitz、DST Global、GIC、Insight Partners和WCM Investment Management作为共同领投方。
2025年8月19日:Databricks发布公告称,正在进行一轮超过10亿美元的K轮融资,各方已经签署了投资条款清单,对应估值将超过1000亿美元。
机构治理 编辑本段
管理团队
联合创始人兼首席执行官阿里・戈西(Ali Ghodsi)
全球现场运营总裁安迪・科福德(Andy Kofoid)
首席财务官大卫・孔特(David Conte)
首席人力官艾米・赖克南德特(Amy Reichanadter)
高级副总裁兼总法律顾问特兰・菲(Trâm Phi)
首席营收官罗恩・加布里斯科(Ron Gabrisko)
首席营销官里克・舒尔茨(Rick Schultz)
首席运营官哈蒂姆・沙菲克(Hatim Shafique)
业务服务 编辑本段
主营业务
Databricks旗下主要产品为大数据平台Spark,该平台基于Apache Spark开源大数据框架,是统一的数据分析平台,定义了云计算时代数据处理标准的引擎,为企业提供了高效、灵活的数据处理能力。
产品服务
Data Sharing(数据共享平台):Databricks和Linux基金会联合开发了Delta Sharing数据共享平台,为跨数据、分析和人工智能的数据共享提供了一个开源方法。客户可以在高度安全和治理的平台区域之间共享实时数据,适用于企业内部业务线共享、B2B分享与数据货币化等场景。
Unity Catalog(统一管理方法):Databricks Unity Catalog为Databricks数据智能平台内的数据和人工智能提供了统一的管理方法。组织可以在任何云或平台上无缝地管理其结构化和非结构化数据、机器学习模型、笔记本、仪表板和文件。数据科学家、分析师和工程师可以使用Unity Catalog发现、访问可信数据和人工智能资产并进行协作,利用人工智能提高生产力并释放数据湖屋架构的全部潜力。该功能能够提高生产力,简化许可模型,进行人工智能监控并提高可视性。
Mosaic AI(统一构建工具):Databricks Mosaic AI能够提供统一的工具来构建、部署和监控人工智能和机器学习解决方案,包括构建预测模型、最新的GenAI和大型语言模型。基于Databricks数据智能平台,Mosaic AI使组织能够安全且经济高效地将企业数据集成到AI生命周期中。在保证企业对模型和数据的所有权的同时,提供准确、安全和可控的AI应用程序,并以更低的成本为用户培训定制化的大语言模型。
DBRX(通用大语言模型):DBRX是Databricks下一代GenAI产品的核心支柱,是由Databricks创建的开放的通用大语言模型,采用了创新的先进技术。它为开放社区和企业提供了构建定制化大语言模型的功能,可供Databricks客户通过应用程序接口使用。根据Databricks的测试,它超过了GPT-3.5,与Gemini 1.0 Pro有相似的竞争力。另外,DBRX在开放模型中提高了效率,是同类型的模型计算速度的2倍。
Delta Lake(构建湖屋架构的存储框架):Delta Lake是DataBricks公司开源的、用于构建数据湖屋架构的存储框架,是可以在开放格式之间自动即时转换的开放格式存储层,能够支持Spark、Flink、Hive、PrestoDB、Trino等查询计算引擎。数据湖和数据库、数据仓库一样,都是数据存储的设计模式。区别在于,数据库和数据仓库通常采用明确的模式设计,即先定义好数据模型和数据结构,再将数据整合到这个模型中,因此数据库和数据仓库更固定、更静态;而数据湖则更注重数据的采集和存储,采用更灵活的架构对各种异构的数据源和数据格式进行处理,因此数据湖更加动态和灵活。数据湖屋结合了两者的优势,并且通过打通数据湖和数据仓库,能有效消除用户组织内部的数据壁垒。
Data Streaming(数据流):Databricks数据智能平台极大地简化了数据流,在一个平台上提供实时分析、机器学习和应用程序。Data Streaming能够帮助用户使用已知的语言和工具构建数据平台,通过自动化构建和维护实时数据,简化开发和操作流程,并通过流的方式批量处理数据,消除数据孤岛。Spark结构化流是实现Databricks数据智能平台上数据流的核心技术,为批处理和流处理提供统一的应用程序接口。Databricks是运行Apache Spark工作负载的最佳场所,其托管服务能够达到99.95%的正常运行率。
MLflow(开源的机器学习平台):MLflow是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的平台,旨在简化数据科学家构建、测试和部署机器学习模型的复杂过程。MLflow的第一个alpha版本有三个组件,其中"跟踪"组件(Tracking)支持记录和查询实验周围的数据,如评估指标和参数;"项目"组件(Projects)提供了可重复运行的简单包装格式;"模型"组件(Models)提供了管理和部署模型的工具。
相关事件 编辑本段
2024年,Databricks陷入了一场版权纠纷。多名作家在旧金山联邦法院对Databricks提起集体诉讼,指控该公司在训练大模型时“未经同意、未经认可、无补偿”地复制和借鉴了他们的书籍。根据起诉书,Databricks被指控使用盗版数字电子书库Books3的数据训练了公司旗下的大模型MosaicML。原告认为,Databricks收购了MosaicML公司,而MosaicML生产MPT系列大型语言模型中使用了含有盗版内容的数据集进行训练,因此构成著作权侵权。这一事件对Databricks的声誉和市场形象造成了一定的影响。
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

