快科技1月13日消息,馬斯克在CES期間接受采訪時(shí)指出,現(xiàn)實(shí)世界能用來訓(xùn)練AI模型的資料,已經(jīng)消耗的差不多了。
馬斯克表示,基本上,AI訓(xùn)練已經(jīng)將人類累計(jì)的知識全數(shù)耗盡,而這個(gè)時(shí)間點(diǎn)就是去年(2024年)。 馬斯克的這一觀點(diǎn)呼應(yīng)了OpenAI前科學(xué)長Ilya Sutskever在去年12月機(jī)器學(xué)習(xí)會議“NeurIPS”上的說法,Sutskever當(dāng)時(shí)表示,AI產(chǎn)業(yè)能夠消耗的數(shù)據(jù)已經(jīng)達(dá)到了頂峰。 面對現(xiàn)實(shí)世界數(shù)據(jù)的枯竭,馬斯克暗示合成數(shù)據(jù)(synthetic data)將是未來的發(fā)展方向。 他指出,補(bǔ)充現(xiàn)實(shí)世界數(shù)據(jù)的唯一方法就是合成數(shù)據(jù),由AI自行生成用于訓(xùn)練的數(shù)據(jù),通過合成數(shù)據(jù),AI將能夠?yàn)樽约捍蚍?,并展開自我學(xué)習(xí)的過程。 事實(shí)上,許多科技巨頭已經(jīng)開始使用合成數(shù)據(jù)來訓(xùn)練AI模型,微軟、Meta、OpenAI及Anthropic等企業(yè)已經(jīng)在其AI模型訓(xùn)練中廣泛應(yīng)用合成數(shù)據(jù)。 科技市場研究機(jī)構(gòu)Gartner估計(jì),2024年AI及分析項(xiàng)目使用的數(shù)據(jù)中,約60%是合成數(shù)據(jù)。 例如,微軟在1月8日開源的AI模型“Phi-4”就是通過合成數(shù)據(jù)結(jié)合現(xiàn)實(shí)世界數(shù)據(jù)進(jìn)行訓(xùn)練的,谷歌的“Gemma”模型也采用了類似的方法。 Anthropic使用部分合成數(shù)據(jù)開發(fā)了表現(xiàn)最佳的系統(tǒng)之一“Claude 3.5 Sonnet”,而Meta則運(yùn)用AI生成數(shù)據(jù)來微調(diào)其最新推出的Llama系列模型。
目前,北信源信源密信AI能力平臺可為行業(yè)客戶提供私有化大模型訓(xùn)練,面向客戶業(yè)務(wù)更有針對性,且更加注重安全性。