第307章 模型崩潰(4506)
“訓練十輪後,使用了原始數據的模型2未出現性能下滑,過擬合的現象可以通過正則以及數據清洗來進行過調整。”
“而使用橘子大模型生成圖片進行訓練的模型1,出現了明顯的過擬合,老闆,你看一下,十輪之後,生成的圖片開始出現趨同性。”
“而使用模型1每一輪生成數據進行訓練的模型3……”
杜長庚臉上閃過一絲憂色:“到了第5輪,模型3的過擬合就已經超過了經過十輪訓練的模型1,而到了第九輪,整個模型已經瀕臨崩潰,幾乎已經無法輸出有意義的數據。”
“這個結果讓我們很驚訝,於是用不同模型生成的數據來訓練一個新的3b子模型,命名為模型4,最終訓練後的性能與模型1非常類似,並沒有什麼改善。”
“在最初,我們認為是數據質量的問題,橘子大模型圖片類數據中可能存在一定的失真,因此又採用文字進行了重複訓練。”
“橘子大模型生成的文字數據錯誤率遠比模型2使用的原始數據錯誤率更低,但最終採用橘子大模型生成的文字數據進行訓練的模型1,仍舊出現了性能下降,多輪訓練後的過擬合現象比模型2高出近五倍。”
“而在這種情況下,模型3同樣在八到九輪之後,也出現了模型崩潰。”
“也就是說,無論ai生成的數據質量高低,只要採用ai生成的數據訓練大模型,就會造成大模型性能下降,這……這簡直不可思議!”
“簡直就像……”
“近親繁殖?”陸嘉言好奇的接了一句。
“對!近親繁殖!沒錯!”杜長庚一拍巴掌,驚訝的看了一眼陸嘉言,沒想到這個小老闆娘明明是個外行,理解力還真不錯。
方豫摸著下巴若有所思。
對這個結果,他自己早就有所猜測,否則也不會提出做對比實驗的辦法。
楊子龍和杜長庚所發現的問題,粗看上去確實有點詭異,相同的數據,被ai處理過一遍,再用來訓練另一個ai,效果居然比不上質量更差的人工清洗的數據。
而再用這個訓練後的ai生成的數據繼續訓練ai,無論是訓練哪個ai,又會造成性能進一步下降。
這個問題看上去詭異,但實際上,只要稍稍思考一下也就能明白,應該還是數據多樣性和複雜性不斷被ai簡化所造成的問題。
不用說橘子大模型,即使是柚子,生成的數據也不可能是百分之百完全正確的,雖然這些錯誤可能比人工數據要少,但錯誤的方式卻缺乏多樣性和複雜性。
說白了,就是ai聰明的千篇一律,但人類卻愚蠢的千奇百怪。
但在種族傳承的角度上來說,愚蠢的千奇百怪的人類,卻比自己創造出比人類更聰明的ai具備更強的種族傳承能力。
窩草?這麼一想,孟廣康那種傻x,對人類文明的傳承貢獻還不小?
差點把我的厭蠢症都治好了?
重複使用這種數據進行訓練,類似的錯誤會被大模型認為是真實,從而變成“思想鋼印”,繼續產出錯誤更多的內容。
再用這些內容進行訓練,就會產生“偏差-方差權衡”,也就是說,越大概率的內容被進一步強化,小概率的內容被不斷忽視。
越是下一代模型,損失的數據反而會越多。
同時,因為大模型的特性,又會產生“函數近似誤差”,大模型會把學的錯誤的東西也保留下來,一代代的積累,最終變成全部都是錯誤,從而喪失糾錯能力。
這種情況,確實和近親繁殖所導致的近交衰退非常類似。
從這個角度上看,ai大模型其實已經具備了一定的生物性。
只不過這種生物種群過於單一,造成了近親繁殖。
這個問題目前還不算太緊迫,畢竟互聯網上可以使用的原始數據非常多,無非就是加大數據組的投入,獲取更多的原始數據,增加數據預處理人手和方式就能夠解決。
但從長遠來看,不,不用太長遠,ai的爆發一定是指數級的。可能兩到三年後,互聯網上可能超過百分之七十的數據就都是ai所生成的,而人類幾乎無法區分這究竟是ai生成的數據還是真實的人工數據。
那時候,ai大模型不管參數有多龐大,可能都會面臨由於訓練數據被ai生成數據汙染,而造成性能下降或崩潰。
“三十萬億。”方豫快速的估算出了一個數字。
???
幾個組長都是一臉問號。
“互聯網上現存的有效數據,大概能支撐橘子大模型到三十萬億參數的規模,在此之後,就必然會受到近親繁殖的影響。”