7月6日消息,谷歌更新后的隱私政策表明,諸如Bard和Cloud AI等各種人工智能服務(wù)可能是用谷歌從網(wǎng)上抓取公共數(shù)據(jù)進(jìn)行訓(xùn)練的。
本周一,谷歌更新了隱私政策。其中提到Bard、Cloud AI以及谷歌翻譯等人工智能服務(wù)可能使用了收集到的公共數(shù)據(jù)。
谷歌發(fā)言人克里斯塔·馬爾登(Christa Muldoon)表示,“我們的隱私政策一直是透明的,谷歌使用來自開放網(wǎng)絡(luò)的公開信息來訓(xùn)練語(yǔ)言模型,從而提供谷歌翻譯等服務(wù)?!薄白罱淮胃轮皇钦f明像Bard這樣的新服務(wù)也在內(nèi)。我們將隱私原則和保障措施納入人工智能技術(shù)的開發(fā)中,這與我們的人工智能原則是一致的。”
在2023年7月1日進(jìn)行更新后,谷歌隱私政策顯示,“谷歌使用信息來改進(jìn)服務(wù),開發(fā)有利于用戶和公眾的新產(chǎn)品、功能和技術(shù)”,公司可能“使用公開可用的信息來幫助訓(xùn)練谷歌人工智能模型,開發(fā)諸如谷歌翻譯、Bard以及Cloud AI等產(chǎn)品和功能?!?/p>
從谷歌隱私政策的歷次更新中可以看出,關(guān)于使用收集的公開數(shù)據(jù)訓(xùn)練哪些服務(wù),這次谷歌的說法更為明確。例如,谷歌的隱私政策現(xiàn)在顯示,這些信息可能用于“人工智能模型”,而不只是“語(yǔ)言模型”,這讓谷歌在用公共數(shù)據(jù)訓(xùn)練和開發(fā)大語(yǔ)言模型以外的其他系統(tǒng)方面有了更大自由度。但這條注釋被藏在隱私政策中“你的本地信息”標(biāo)簽“公共可訪問資源”的嵌入式鏈接之下,用戶必須點(diǎn)擊這個(gè)鏈接才能看到相關(guān)內(nèi)容。
更新后的隱私政策說明,“公開信息”將用于訓(xùn)練谷歌的人工智能產(chǎn)品,但沒有說明谷歌是否或者如何阻止受版權(quán)保護(hù)的內(nèi)容進(jìn)入訓(xùn)練數(shù)據(jù)庫(kù)。許多可公開訪問的網(wǎng)站都有相關(guān)政策,禁止為了訓(xùn)練大語(yǔ)言模型和其他人工智能工具集開展的數(shù)據(jù)收集或網(wǎng)絡(luò)抓取行為。因?yàn)椤锻ㄓ脭?shù)據(jù)保護(hù)條例》(GDPR)等法規(guī)保護(hù)用戶數(shù)據(jù)不會(huì)在未經(jīng)明確許可的情況下被濫用。
這些法規(guī)加上日益激烈的市場(chǎng)競(jìng)爭(zhēng),使得GPT-4等主流生成式人工智能系統(tǒng)的開發(fā)商對(duì)他們從哪里獲得用于訓(xùn)練模型的數(shù)據(jù),以及這些數(shù)據(jù)是否包括社交媒體內(nèi)容或藝術(shù)家作家的版權(quán)作品,都非常謹(jǐn)慎。
但合理使用數(shù)據(jù)的原則是否可以延伸到這類人工智能應(yīng)用,目前還處于法律監(jiān)管的灰色地帶。這種不確定性引發(fā)了各種訴訟,并促使一些國(guó)家出臺(tái)更嚴(yán)格的法律,更好地規(guī)范人工智能公司收集和使用訓(xùn)練數(shù)據(jù)的方式。這種不確定性也帶來了各種問題,比如到底該如何處理這些數(shù)據(jù)、確保不會(huì)導(dǎo)致人工智能系統(tǒng)出現(xiàn)高危故障;還有負(fù)責(zé)整理這些海量數(shù)據(jù)的人通常要忍受長(zhǎng)時(shí)間的極端工作條件。
美國(guó)最大報(bào)紙出版商Gannett正在起訴谷歌及其母公司Alphabet,聲稱人工智能技術(shù)的進(jìn)步讓這家搜索行業(yè)巨頭進(jìn)一步壟斷了數(shù)字廣告市場(chǎng)。谷歌測(cè)試版人工智能搜索等產(chǎn)品也被指是“抄襲引擎”,并因?qū)е缕渌W(wǎng)站流量枯竭而受到批評(píng)。
與此同時(shí),包含大量公共信息的社交媒體平臺(tái)推特和Reddit最近都采取了嚴(yán)厲措施,試圖阻止其他公司自由獲取他們平臺(tái)上的數(shù)據(jù)。但平臺(tái)調(diào)整和限制API現(xiàn)行機(jī)制的做法也遭到了各自用戶社區(qū)的強(qiáng)烈反對(duì),因?yàn)檫@種出于反對(duì)網(wǎng)絡(luò)抓取數(shù)據(jù)的調(diào)整措施對(duì)核心用戶體驗(yàn)產(chǎn)生了負(fù)面影響。