+ J6 E' m) M3 ]3 i6 V7 f, W) o对数据更加关注的结果是,数据管理业务已经成为基础设施增长最快的领域之一,据估计价值超过700亿美元,占2021年所有企业基础设施支出的五分之一以上。这个市场形成的美妙之处在于,它结合了软件工程、分析和人工智能领域,同时借助云计算的潮流势头。' X9 A x6 V- S( S3 s
- P5 M4 Q7 h" D6 w& p$ J在过去的几年里,数据产业的增长也催生了一些最令人兴奋和最有影响力的企业软件公司。最近上市的巨头,如Snowflake和Confluent已经改变了数以千计的企业运作方式和数以百万计的产品构建。然而,大多数人都不太熟悉那些有影响力的,下一代定义类别的公司。 % ?/ e* w: [: b s / V1 U5 G P/ P k5 `在创纪录的2021年,数据公司获得了数百亿的风险投资,2022年的风险投资也已经很强劲。我们编制了首批数据50强名单。这些是数据领域的领头羊公司。这50家公司的总市值超过1000亿美元,总共筹集了约145亿美元的资金,其中20家在2021年达到独角兽地位。 3 w! e; A0 u$ C9 d Z$ l, R# Q' o, f8 Q7 M" [" e言归正传,我们很高兴地介绍2022年的数据50强。! K( X" D8 x( ~% E7 r$ e. t
2 x$ L/ A) z! l" F6 B : L" X. r. |7 {; A6 `- d$ K 7 B+ w! u, I1 L+ a! D" A 4 a8 m5 S8 E% K1 o& L) [. [9 { 7 K |( U7 F( W6 L, W5 k" B) O0 k / o. l' W2 ?* R# g0 p& u , _: K; `0 p( |& V/ Q( F! K这些公司是在2008年之后成立的,在过去两年中已经筹集了新的资金,并且他们的员工人数每年至少增长30%。他们的产品是为各行业的数据或数据应用团队服务的水平技术。1 S$ ~ n. c" q# R0 f$ {9 k
q1 a0 {) E: E" a排名综合考虑了最近的估值、公司规模、过去两年的员工增长、过去几年的运营情况以及当前的收入规模。员工数据基于LinkedIn公开提供的数据。融资数据基于Pitchbook和Crunchbase的公开数据,截至2022年3月22日。( ?% y# |% c' |& u+ Y( R
9 _% L6 W3 ^" A9 U: I# N; e7 L# t
请注意,这份名单不包括交易型数据库公司,如CockroachDB、PlanetScale和Yugabyte,因为这些技术的数据本身就是交易性的,而不是分析性的。% D2 M3 i5 L1 \5 w! i# ]. P
8 {- x1 s2 `0 J* z2 A2 V2 U) ^我们将Data50分解为7个子类别。( Z* |; U: I% n7 Q& a1 m% b
8 b$ Z8 v& a7 h c
查询和处理技术是访问、聚合和计算数据的核心引擎。它涉及两大类:批处理(如Databricks和Starburst)和实时处理(如ClickHouse和Imply)。在过去的几年里,由于对实时应用的需求不断增加,后者得到了越来越多的关注。- Q* k& t9 F$ {; }* B% G
/ R& L; r- C, s/ Q5 {$ a
AI/ML(人工智能和机器学习)包括应用算法建模和机器学**规模数据的软件。从上榜公司的数量来看,这一领域正在成熟和繁荣。一些公司专注于特定类型的数据(如Rasa和Hugging Face的自然语言),而其他公司则专注于不同的领域,如人工智能的产品化(如Scale、Tecton和Weights and Biases)或充当运行人工智能工作负载的 "计算层"(如Anyscale)。. `0 l$ k$ q7 f8 U4 m3 b( X( g
% X7 |$ S! ^8 { C9 ?8 kELT & orchestration支持数据的移动。它是保证数据准确、准时到达目的地的传输层。此类别是从基于本地拖放界面的传统ETL供应商演变而来的。另一方面,新类别的厂商大多是云原生的(如Fivetran和dbt),对开发者友好的(如Astronomer和Prefect),并处理不同数据环境中更复杂的依赖关系。 - y- Z* n$ X2 T9 D, q9 x3 T( o, M" V4 |4 A7 ?( F. R* h5 v
随着数据堆栈变得越来越复杂,越来越多的利益相关者参与进来,数据治理和安全正成为关键问题。治理工具是必需的,尤其是在高度规范的行业中来确保数据的安全并在整个数据生命周期中保持合规性(例如OneTrust和Collibra)。这一类别相对较新,通常服务于受监管的大型企业公司。 9 y$ o. O1 L8 P! e& J% w , w2 y" A" l) g& s, Z% f- X: S: M传统上,客户数据分析由营销团队负责。然而,由于其重要性的增加,数据团队现在更多地参与到将客户数据与中央数据平台的整合中。这个类别主要是捕捉客户数据(如Rudderstack和ActionIQ)或将数据操作化以服务于一线业务用例(如Census和Hightouch)。 , r' J3 X6 e! G; t1 P& ? ! s7 Z4 h. E4 CBI & notebooks覆盖了数据的消费层。尽管它是一个成熟的类别,但像Preset或Metabase这样的新玩家正在采取开源优先的方法吸引技术数据工程师和商业智能团队。数据需求的快速变化也创造了对迭代和交互式笔记本(如Hex)和自动洞察力生成(如Sisu)的更多需求。: t s$ W) k( |) p6 Y
- ]$ n: x( \& n( `9 ~数据可观察性从软件工程堆栈中的最佳实践中获得灵感。随着数据堆栈越来越依赖于上游和下游的工具,数据的准确性也有了更广泛的影响,可观察性作为最新的类别出现,为整个数据流提供监控和诊断能力。 8 o& B6 F9 N5 f* ^9 j. `0 M+ T5 n% i* |
尽管市场采用的主要推动力是数据量和使用量的增加,但每个类别的潜在驱动力各不相同。例如,查询和处理领域的进步主要是由计算和存储的分离、向云计算的迁移和以及更廉价的计算能力驱动的。与此同时,在数据治理和数据可观察性中采用操作性工具在很大程度上是由不断增长的操作性用例和数据工作流的复杂性驱动的。, k. R: A- T% Q+ r
% I g5 O) ?" T" d
查询和处理公司筹集了最大的资本份额 0 p5 m4 L( [! G( z5 w8 K7 R$ |; k( ^, {% {/ g4 ~% y3 k! R
查询和处理类别只占Data50公司的五分之一,但投资在这一类别的资金数额(几乎占所有资金的50%)是惊人的。尽管这一数据受到了Databricks最近16亿美元融资的影响,但如果没有它,这一类别仍将占所有融资的37%,是下一个类别的两倍多。 + w7 f& E5 C; i! K1 h/ N 4 g. y: a1 D* t- f a * Q! N2 {7 l9 N6 Q1 L A ; W* {! M) F; T8 F9 }. I# ?* x s( M3 h7 z C
* y ^; T% {7 ?
5 ]% \( Z2 f8 s3 {; j8 G
- a! V, V2 O$ V, U1 ~按公司数量查看类别时,分布更为均衡。就公司数量而言,AI/ML是最大的类别,这主要是因为该领域仍在发展,需要一套新的独立工具来训练、测量和生产模型。 5 X6 B) `( ~% s6 h0 l& j0 k S# `+ C* Z3 u$ u9 n$ J$ L
7 K6 `" V5 k6 f& y$ ?0 L1 }" m
2 H0 M# R, t( k8 ]9 e3 K, H6 @1 d' `4 [7 K# t8 ?7 c$ m
, s j7 c: J0 [# p9 X. B6 Q$ S4 x
2 O L' B# A/ Q( D
Data50群集在湾区 ; m2 b# M: c5 z4 ]4 k, M - b0 Z6 F+ X" i9 M在这50家公司中,46家(92%)位于美国,4家是国际公司。这些公司大多位于旧金山湾区,有9家位于华盛顿特区、费城、纽约和波士顿。其中两家位于西雅图,一家位于辛辛那提,还有一家位于亚特兰大。; {& m4 I5 p" B" q0 u! C