6月15日消息,王小川新創(chuàng)業(yè)公司百川智能,推出70億參數(shù)量的中英文預訓練大模型——baichuan-7B。
目前這款大模型已在Hugging Face、Github以及Model Scope平臺發(fā)布。
公司CEO王小川表示:“本次開源模型的發(fā)布是百川智能成立2個月后的第一個里程碑,對百川智能而言是一個良好的開局。baichuan-7B模型,不僅能為中國的AGI事業(yè)添磚加瓦,也為世界大模型開源社區(qū)貢獻了新的力量?!?/p>
據(jù)了解,baichuan-7B在C-Eval、AGIEval和Gaokao三個中文評估基準進行了綜合評估。
百川智能發(fā)布開源中英文大模型,清華北大率先使用
在中文C-EVAL的評測中,baichuan-7B的綜合評分達到了42.8分,超過了ChatGLM-6B的38.9分。
百川智能發(fā)布開源中英文大模型,清華北大率先使用
C-Eval評測基準由上海交通大學、清華大學以及愛丁堡大學聯(lián)合創(chuàng)建,是面向中文語言模型的綜合考試評測集,覆蓋了52個來自不同行業(yè)領(lǐng)域的學科。
在AGIEval的評測里,baichuan-7B綜合評分達到34.4分,超過LLaMa-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他開源模型。
AGIEval評測基準由微軟研究院發(fā)起,旨在全面評估基礎(chǔ)模型在人類認知和問題解決相關(guān)任務上的能力,包含了中國的高考、司法考試,以及美國的SAT、LSAT、GRE和GMAT等20個公開且嚴謹?shù)墓俜饺雽W和職業(yè)資格考試。
在GAOKAO評測中,baichuan-7B的綜合評分達到了36.2分,領(lǐng)先于同參數(shù)規(guī)模的各種其他預訓練模型。
GAOKAO評測基準是復旦大學研究團隊創(chuàng)建的評測框架,以中國高考題目作為數(shù)據(jù)集,用于測試大模型在中文語言理解和邏輯推理能力方面的表現(xiàn)。
此外baichuan-7B在英文上表現(xiàn)同樣亮眼。在MMLU的評測中baichuan-7B綜合評分高達42.5分,領(lǐng)先英文開源預訓練模型LLaMA-7B的34.2分以及中文開源模型ChatGLM-6B的36.9分。
百川智能發(fā)布開源中英文大模型,清華北大率先使用
MMLU由加州大學伯克利分校等知名高校共同打造,集合了科學、工程、數(shù)學、人文、社會科學等領(lǐng)域的57個科目,主要目標是對模型的英文跨學科專業(yè)能力進行深入測試。其內(nèi)容廣泛,從初級水平一直涵蓋到高級專業(yè)水平。
百川智能介紹稱,訓練語料對大模型的訓練結(jié)果至關(guān)重要。在構(gòu)建預訓練語料庫方面,公司以高質(zhì)量中文語料為基礎(chǔ),同時融合了優(yōu)質(zhì)的英文數(shù)據(jù)。在數(shù)據(jù)質(zhì)量方面,通過質(zhì)量模型對數(shù)據(jù)進行打分,對原始數(shù)據(jù)集進行篇章級和句子級的精確篩選;在內(nèi)容多樣性方面,利用自研超大規(guī)模局部敏感哈希聚類系統(tǒng)和語義聚類系統(tǒng),對數(shù)據(jù)進行了多層次多粒度的聚類,最終構(gòu)建了包含1.2萬億token的兼顧質(zhì)量和多樣性的預訓練數(shù)據(jù)。相較于其他同參數(shù)規(guī)模的開源中文預訓練模型,數(shù)據(jù)量提高了超過50%。
在萬億優(yōu)質(zhì)中英文數(shù)據(jù)的基礎(chǔ)上,為了更好地提升訓練效率,baichuan-7B深度整合了模型算子來加快計算流程,并針對任務負載和集群配置,自適應優(yōu)化了模型并行策略以及重計算策略。通過高效的訓練過程調(diào)度通信,baichuan-7B成功地實現(xiàn)了計算與通信的高效重疊,進而達到了超線性的訓練加速,在千卡集群上訓練吞吐達到180+Tflops的水平。
同時,已有的開源模型窗口長度在2K以內(nèi),對于一些長文本建模任務,如需要引入外部知識做搜索增強的場景,更長的處理長度有助于模型在訓練與推理階段捕獲越多的上下文信息,2K的處理長度存在比較大的制約。baichuan-7B基于高效的attention算子優(yōu)化實現(xiàn)了萬級別超長動態(tài)窗口的擴張能力,本次開源的預訓練模型開放了4K上下文窗口,使模型應用場景更加廣泛。
此外,baichuan-7B還對模型訓練流程進行了深度優(yōu)化,采用了更科學且穩(wěn)定的訓練流程和超參數(shù)選擇,使得baichuan-7B模型的收斂速度大大提升。與同等參數(shù)規(guī)模的模型相比,baichuan-7B在困惑度(PPL)和訓練損失(training loss)等關(guān)鍵性能指標上表現(xiàn)更加優(yōu)秀。
百川智能稱,baichuan-7B代碼采用Apache-2.0協(xié)議,模型權(quán)重采用了免費商用協(xié)議,只需進行簡單登記即可免費商用。
baichuan-7B此次開源的內(nèi)容包含了推理代碼、INT4量化實現(xiàn)、微調(diào)代碼,以及預訓練模型的權(quán)重。其中,微調(diào)代碼方便用戶對模型進行調(diào)整和優(yōu)化;推理代碼與INT4量化實現(xiàn)則有助于開發(fā)者低成本地進行模型的部署和應用;預訓練模型權(quán)重開源后,用戶則可以直接使用預訓練模型進行各種實驗研究。
據(jù)了解,北京大學和清華大學兩所頂尖大學已率先使用baichuan-7B模型推進相關(guān)研究工作,并計劃在未來與百川智能深入合作,共同推動baichuan-7B模型的應用和發(fā)展。