这种范式的核心,还是“先有理论,再用计算机验证”,计算机只是个“超级计算器”。缺点是如果理论模型建错了,模拟出来的结果就全错了——比如你用了一个错误的“西红柿炒鸡蛋配方”输进电脑,电脑模拟出来的味道再香,实际做出来还是难吃。
(四)第四范式:数据密集型科学——让数据自己说规律
这就是Jim Gray最核心的贡献,也是最符合现在大数据、AI时代的研究范式。它的核心逻辑和前三个都不一样:不再需要先提出理论假设,直接让计算机从海量数据里找规律。
简单说,前三种范式都是“假设驱动”:先猜一个规律(比如“盐放少了菜会淡”),再用实验、理论或计算去验证;而第四范式是“数据驱动”:直接把海量数据扔给计算机,让AI算法自己从数据里扒拉“什么因素和结果有关”,甚至能发现人类根本想不到的规律。
举个真实的例子:科学家把160万份医院病历数据输进计算机,AI从里面发现“做过阑尾切除手术的人,患帕金森病的概率比普通人低40%”——这个规律人类之前完全没意识到,既没有理论假设,也没法通过实验刻意验证,就是数据自己“说”出来的。再比如金融机构用第四范式的思路,把几千万条交易数据给AI分析,AI能找出人类看不到的“欺诈交易特征”,比如“某个时间段、某个地区的小额转账,大概率是诈骗”,这就是数据驱动的威力。
还是拿西红柿炒鸡蛋举例,这就像你把全世界几亿人做西红柿炒鸡蛋的配方、食材、口味评价数据都输进智能系统,系统自己分析出“在南方,西红柿炒鸡蛋放糖的比例是80%,且糖放0.8勺时好评率最高;在北方,只有30%的人放糖,盐放0.6勺时好评率最高”——你不用先猜“南方人是不是爱吃甜”,数据直接告诉你答案,甚至还能发现“用熟透的西红柿做,口感评分高20%”这种你根本没想到的细节。
三、第四范式的核心特点:为啥它是数据时代的“新套路”?
Jim Gray提出的第四范式,不是凭空来的,而是跟着大数据、云计算、AI技术的发展应运而生的。它有三个最核心的特点,每一个都戳中了现在“数据爆炸”的时代痛点:
(一)数据是“主角”,不是“配角”
在前三个范式里,数据只是用来验证理论的“工具”,比如做实验测几个数据,用来证明牛顿定律是对的;而在第四范式里,数据本身就是研究的核心资源。现在的传感器、手机、互联网,每天都会产生海量数据——比如一辆新能源汽车每天产生TB级的行驶数据,一个医院每天产生几十万条病历数据,一个电商平台每天产生几亿条消费数据。这些数据就像一座“金矿”,第四范式就是用AI当“挖矿工具”,从金矿里挖规律。
而且这些数据是“全量数据”,不是以前的“抽样数据”。比如以前做市场调研,只能抽1000个人问“喜欢什么产品”;现在直接分析1亿用户的消费记录,数据更全面,找出来的规律也更靠谱。
(二)计算机是“规律发现者”,不是“计算器”
在前三个范式里,计算机最多只是个“超级计算器”,帮人类算复杂的公式、做模拟;但在第四范式里,计算机成了“主角”,用AI算法自主挖掘规律。比如用机器学习的算法分析工业设备的运行数据,AI能自己找出“温度超过80℃、转速达到3000转时,设备故障概率会增加5倍”的规律,这个过程不需要人类提前设定“温度和故障有关”的假设,全是AI从数据里分析出来的。
这就突破了人类的认知局限——人类的大脑最多能同时思考几个因素,而AI能同时分析几千、几万个因素之间的关系,找到那些人类根本想不到的关联。
(三)不追求“因果关系”,先抓“相关关系”
前三个范式都特别在意“为什么”,也就是因果关系,比如“因为万有引力,所以苹果落地”;但第四范式更在意“是什么”,也就是相关关系——只要从数据里发现“两个事物同时出现的概率很高”,就算暂时不知道为什么,也能用来做预测。
比如电商平台通过数据发现“买尿不湿的顾客,有30%会同时买啤酒”,虽然暂时搞不懂“尿不湿和啤酒有啥因果关系”,但平台可以把尿不湿和啤酒放在一起卖,提升销量;再比如气象数据显示“当东南风风速达到5级、湿度超过70%时,明天大概率下雨”,就算不知道具体的气象原理,也能靠这个规律精准预报天气。
当然,这不是说因果关系不重要,而是第四范式告诉我们:在数据足够多的情况下,先抓住相关关系解决实际问题,再慢慢研究因果关系,效率会高得多。
四、第四范式对现实的影响:不止是科学研究,还改变了企业做事的逻辑
本小章还未完,请点击下一页继续阅读后面精彩内容!
喜欢大白话聊透人工智能请大家收藏:(m.2yq.org)大白话聊透人工智能爱言情更新速度全网最快。