
OceanBase首席技术官(CTO)杨传辉
2025年,开源AI模型DeepSeek、OpenAI推出的GPT-4.5引爆全球新一轮生成式AI热潮。
作为AI技术发展“数据、算法、算力”三大要素之一,数据已经成为推动AI技术发展的关键因素,也是数字时代的新型核心生产要素。
IDC数据显示,2024年,全球大数据IT总投资规模约为3540亿美元。预计到2028年,这一规模接近6440亿美元,五年复合增长率(CAGR)约16.8%。其中,2028年中国大数据IT支出规模预计为621.7亿美元,全球占比约10%,复合增长率24.9%位居全球第一。而当前,中国的数据产量已经占全球数据总产量的23%。
OceanBase CTO杨传辉对钛媒体AGI表示,AI时代来临,数据处理的边界得到进一步延伸,如多模态大模型图片、文本、视频等富媒体的无结构化数据规模增长。而且,数据扩展性、数据规模、碎片化等行业挑战不断加剧,OceanBase希望形成一体化数据处理平台,解决客户需求和难题。
据悉,OceanBase创立于2010年,是国内领先的一体化分布式数据库公司。2020年,蚂蚁集团旗下的OceanBase成立北京奥星贝斯科技有限公司并开始商业化运作,陆续发布自研OceanBase4.0、4.2、4.3版本等系列技术产品和解决方案。目前,OceanBase已助力金融、政务、运营商、零售、互联网等多个行业的2000多家客户实现关键业务系统升级。
2025年4月,OceanBase CEO杨冰发布全员信,宣布OceanBase将全面进入AI时代,打造“DATA×AI”核心能力,建设AI时代的一体化数据底座,蚂蚁集团接下来也将向OceanBase开放全部AI场景。同时,为保障战略推进,OceanBase启动人才和组织体系升级,任命公司CTO杨传辉担任AI战略一号位,并成立AI平台与应用部、AI引擎组等新部门。
5月17日,OceanBase将举办2025开发者大会,大会主题同样与AI相关。大会前夕,钛媒体AGI与OceanBase CTO杨传辉进行了一场独家对话。这也是杨传辉被任命为OceanBase公司AI战略一号位之后的首次公开对话。
杨传辉对钛媒体AGI表示,打造“AI时代的一体化数据底座”是OceanBase现有战略的自然延伸,这来自于市场需求以及OceanBase已经具备的产品技术能力。AI时代下,数据规模和数据种类越来越复杂多样,数据库与AI的关系不是简单的DATA+AI,应该是DATA×AI,背后则是处理海量数据和不同结构数据的能力,以及将数据与模型融合的工程能力。作为一体化分布式数据库平台,OceanBase将成为AI时代下的最好选择。
杨传辉强调,要实现这一目标,OceanBase还面临不少挑战,包括技术创新、生态建设等,因此OceanBase需要不断把握策略定力,让时间和足够坚持来确保公司的未来发展。
“我们坚信,AI时代的一体化数据底座,一定能够满足用户需求。”杨传辉称。
以下是钛媒体AGI和杨传辉独家交流速记整理(有部分删减):
钛媒体AGI:最近许多公司都宣布加码AI战略,而OceanBase也提出战略升级到“AI时代的一体化数据底座”,那么对于外界来说,如何思考OceanBase这个转变?
杨传辉:首先要明确的是,不是因为有AI热潮OceanBase才提出AI战略。本质上,要做“AI时代的一体化数据底座”,是OceanBase现有战略的一个延伸。
原本数据库处理大部分是结构化数据,及少部分半结构化数据。随着IT发展,尤其AI时代来临后,数据处理的边界就得到了延伸,需要在数据层面直接处理无结构化的数据,如多模态大模型的图片、文本、视频等富媒体数据。同时,AI大模型也使得数据规模变得比以前更大。
OceanBase是一个原生分布式数据库,我们经历了双11海量数据场景考验,也具备金融场景数据库的稳定性安全性,同时我们的一体化能力又原生支持多种数据类型,提供向量能力,这种分布式和一体化产品特色,在AI时代的用武之地会变得更大。
所以,我们战略由一个“数据库”,慢慢延伸成“数据底座”,我们希望全方位、一体化处理结构化、半结构化、无结构化数据,同时数据库的研发团队天然具备AI基础设施的工程能力,我们希望将数据与模型也实现一体化融合,这是DATA×AI的关键。
从全球来看,最有名的数据库公司包括甲骨文Oracle、Snowflake、Databricks等,随着业务场景的不断变化和演进,它们也会随着趋势变化。如今AI时代下,我们也要确保OceanBase的未来会比今天更流行,在AI趋势下抓住新的应用场景。大家会发现TP/AP负载、向量、搜索等技术的边界会越来越模糊,最终企业需要AI时代下的一体化“数据底座”,这会让OceanBase成为AI时代下最好的一个选择。
钛媒体AGI:2024年钛媒体和ITvalue举办的数字价值年会上,OceanBase CEO杨冰提到AI对于数据库的重要性:一个是AI for DB,一个是 DB for AI,如今,OceanBase提出的DATA×AI是怎样一种新变化?
杨传辉:我们对数据库、AI两者关系进行了深入思考,我们认为,两者不是简单的DATA+AI,而应该是DATA×AI。
一方面,客户的数据天然存储在OceanBase这类数据库,而AI大模型原本也具备token这类公有的通用数据,两者应该有更融合的化学反应。另一方面,大模型在技术层面主要分为算法能力、工程能力、数据能力、应用能力,在工程能力上,由于工作的本质都在于如何让数据处理更高效,解决计算、资源、效率等问题,除了数据能力外,数据库的研发团队也天然具备这一工程能力,这能够帮助DATA与AI技术进一步融合,也就是实现DATA×AI,在开发者大会上我也会进一步阐释清楚。
钛媒体AGI:目前,生成式AI技术面临数据量通货膨胀、数据孤岛碎片化严重、数据分析需求爆发等挑战,对于这些变化,OceanBase做了哪些新的工作?
杨传辉:AI确实给数据处理的工作带来了挑战,比如你提到的数据规模、数据孤岛、多模态挑战,尤其是数据规模会变得越来越大,对数据库的要求很高。
OceanBase的分布式能力、一体化架构都能解决相关问题,但只是在个别问题上还没有做到完美,所以我们一直在坚持加强扩展性、工程能力等层面。
我们的4.3版本和4.4版本,基本上都沿着一体化方向继续前进。AI 时代更是一种延伸,变化在于,我们的发展会更大胆一些,例如更好地处理无结构化数据,进一步加强我们的向量能力等。
钛媒体AGI:今年OceanBase开发者大会主题也是AI,预计会有哪些发布?
杨传辉:首先,我们会发布AI相关的数据库产品和能力,在包括向量数据库等一体化数据底座的数据处理能力上有很大提升。无论在性能,还是性价比上,我们基本都达到了业界一流水平。
其次,我们会发布RAG服务。我们在 AI 领域原本就有很强的技术能力,将以RAG服务方式帮助企业通过一体化把自有数据和采用公开数据模型相结合,获得更大的业务价值。
最后,我们也会发布OceanBase自身应用大模型取得的成果。
钛媒体AGI:现在做AI基座模型的企业越来越少,很多模型企业已经不再做预训练,而是做推理模型,或是行业模型,数据参数规模没有之前那么大了。那么,客户数据处理需求会持续不断吗?
杨传辉:这可能是两个问题。
第一,我是这么理解预训练技术的。本身预训练门槛越来越高,像考试考到90分以后,再往上评分就越来越难,需要更多的数据和工程能力积累。但是,我们也可以看到,也有很多企业对预训练模型进行更大的投入。未来我相信,少数几家公司还是会不断提升能力,尤其后续强化学习可以挖掘的空间很大。
第二,预训练和对数据的需求是两个问题,特别是对于OceanBase这样的一体化数据底座来说,我们的数据量会越来越大。因为数据底座的数据量跟预训练数据不一样,预训练可能是把token拿过来,但一体化数据底座的数据量取决于AI应用量级。AI应用越多,数据量越大,而当下AI应用需求不断爆发,加上 AI 应用对数据需求、数据种类、数据结构需求不断增加,最终AI对数据的需求只会越来越大。
钛媒体AGI:随着企业在使用大模型过程中越来越多采用自有数据,模型的“幻觉”未来会变为0吗?“幻觉”会影响AI发挥价值吗?
杨传辉:模型的“幻觉”不能完全消除,但会降低“幻觉”。
有时候我们需要换一种思维模式,AI大模型原理是预测下一个token,这就对算力的要求很高,是从很多词语当中进行选择。同时,AI调用模型也是一个“炼丹”的过程,不是一个确定性问题,而是概率性问题。我们需要从两方面看待“幻觉”这件事。
一、随着AI推理训练、强化学习等技术发展,模型幻觉肯定会变得越来越低,而且语料准确率也会不断提升,它有一个技术红利。
二、尽管有幻觉因素,但今天的AI技术水平,已经能够在很多场景当中应用,未来慢慢还有很多新的产品浮出水面。未来5年,如果AI部分幻觉降低,另一部分的技术能力充分发挥出来,在各个应用场景里面使用,将会有非常巨大潜力。
钛媒体AGI:要实现面向AI时代的一体化数据底座,OceanBase还面临哪些挑战?未来的更大终极目标和发展前景有哪些?
杨传辉:挑战还是比较多的。
第一是技术本身的挑战。我们对于发展前景想得很清楚,OceanBase优势也很多,但是如何真正让DATA x AI,两者结合在一起,把幻觉、成本变得更低,让数据融入AI,这本身的技术挑战就是世界级的,大家都在探索。
第二是生态的挑战。无论是数据底座,还是数据库,本质上还是要转化为千万家企业要用的技术产品,这是一个过程,涉及开源策略、商业策略、服务能力、生态层面等细节,这些都需要策略、时间和足够的坚持,一个都不能少。具体来说,策略包括两个部分:一是由数据库产品到AI时代的一体化数据底座,适应AI时代需求,让产品迭代速度更快、更敏捷;二是更加开放,锻炼研发团队能力,让团队扩展外部能力。
从数据库生态来讲,OceanBase的开源社区已经是国内最强、最流行的数据库社区,但在全球我们还有差距,如何让生态真正做到“全球级”,也是一个重要课题。
至于终极目标,我认为OceanBase无论是做数据库,还是做数据底座,本身依然专注于数据处理,这是我们的核心。随着数据种类,数据规模不断变化,OceanBase要帮助用户完成数据处理,成为全球数据处理领域最好的一个选择,这个目标永远都没有变。
很多人认为,OceanBase是强大的“分布式关系型数据库”,但我们的未来在于做AI时代的一体化数据底座。所以我们不想把自己用“关系型数据库”的标准来卡在“舒适圈”里面。我们产品是一流的,我们工程能力是一流的,因此需要用一种更开放的心态看待最新的业务场景和数据。
我们坚信,AI时代的一体化数据底座,一定能够满足用户需求。
(本文首发于钛媒体App,作者|林志佳)