位置:
首頁
學術
DeepSeek技術應用的侵權責任風險

DeepSeek技術應用的侵權責任風險

來源:中國社會科學網(wǎng) 發(fā)布時間: 2025-07-10 瀏覽:258 次

近期,國產(chǎn)AI大模型DeepSeek受到了海內(nèi)外廣泛關注,它不僅在性能上可比肩ChatGPT等頭部AI大模型產(chǎn)品,而且訓練成本相比傳統(tǒng)AI大模型節(jié)省了約96%。使用了中文語料進行訓練的DeepSeek不僅具備展現(xiàn)邏輯推理過程的“深度思考”模式,還加入了“聯(lián)網(wǎng)模式”以實時更新數(shù)據(jù)庫,使得生成內(nèi)容更智能、更準確和更懂中文用戶。DeepSeek的創(chuàng)新技術和新型功能給AI行業(yè)帶來了驚喜,但也存在著相應的侵權責任風險。

“蒸餾技術”引發(fā)的侵權責任挑戰(zhàn)

DeepSeek之所以能夠高效率和低成本地訓練模型,一個重要原因是采取了模型“蒸餾技術”(Distillation)?!罢麴s”的過程通過從性能強大、數(shù)據(jù)豐富的教師模型中提取輸出數(shù)據(jù)樣本,由學生模型模仿教師模型的運算邏輯,并利用監(jiān)督微調(diào)技術(SFT)、強化學習技術(RL)來不斷校準和驗證輸出結(jié)果、優(yōu)化計算結(jié)構(gòu),最終使學生模型在參數(shù)量減少逾90%的情況下,仍能保留教師模型90%以上的性能表現(xiàn)。然而,“蒸餾技術”不僅顛覆了傳統(tǒng)大模型從零訓練數(shù)據(jù)的原始方案,也與開源替代、新增差異化模塊等簡單“做加法”的方案存在很大的區(qū)別,“蒸餾”極為依賴教師模型,通俗來講就是對教師模型的優(yōu)化甚至“拷貝”。這不禁引起我們的思考:將他人研發(fā)的大模型用作自家大模型訓練、輔助決策的工具,這究竟構(gòu)成合理使用還是侵權?

一方面,雖然“蒸餾”技術本身并不違法,但在某些情況下可能引發(fā)侵權糾紛。在未取得合法授權的情況下,學生模型優(yōu)化、改良教師模型的行為有可能構(gòu)成侵犯他人復制權、改編權等權利,還可能構(gòu)成《反不正當競爭法》中的“搭便車行為”以及侵犯他人商業(yè)秘密的行為。即使學生模型取得了教師模型的合法授權,由于“蒸餾技術”借助他人模型來輸出生成數(shù)據(jù)并開展標注作業(yè),這意味著需依賴既有的教師模型來生成數(shù)據(jù)標簽,此類數(shù)據(jù)不再是原始數(shù)據(jù)而是衍生數(shù)據(jù),若利用數(shù)據(jù)的行為超出了授權范圍,仍然可能會侵犯教師模型開發(fā)者、提供者的一系列數(shù)據(jù)權益。當然,目前沒有任何證據(jù)顯示DeepSeek存在“非法蒸餾”行為,并且OpenAI采取閉源策略,其推理過程是隱形的,指控DeepSeek通過蒸餾技術獲取其內(nèi)部數(shù)據(jù)純屬無稽之談。

另一方面,“蒸餾技術”還可能引發(fā)對外共同侵權中的責任承擔問題。由于監(jiān)督微調(diào)技術并不需要洞悉教師模型的具體運算過程,“蒸餾”過程中的強化學習獎勵機制具有不確定性,加上學生模型本身的誤差形成了“雙重黑箱”。因此,當學生模型生成了虛假信息、有害信息等侵權內(nèi)容時,很難對侵權內(nèi)容的來源以及生成機理進行追溯,究竟是學生模型學藝不精還是教師模型錯誤教學導致侵權不得而知。此時,若要求教師模型與學生模型承擔連帶責任,對于教師模型而言肯定不公正,畢竟教師模型并未直接生成侵權內(nèi)容,否則有違自己責任的基本法理。對此,出于激勵技術改良和進步的目的,并且依據(jù)侵權法中的“報償理論”,由學生算法對其輸出的侵權內(nèi)容單獨承擔責任更具有合理性。

聯(lián)網(wǎng)增強模式下的侵權責任風險

大數(shù)據(jù)模型分為純離線模式、聯(lián)網(wǎng)增強模式與混合架構(gòu)模式。此前,大多數(shù)主流的大模型如ChatGPT-4、Claude等默認不具備實時聯(lián)網(wǎng)生成功能,它們的知識主要依賴訓練時吸收的離線數(shù)據(jù)庫。而現(xiàn)在,DeepSeek、Kimi智能助手、文心一言等大模型均加入了自帶實時聯(lián)網(wǎng)生成功能,可以供用戶自主選擇,OpenAI也將訂閱才能支持的ChatGPT Search(聯(lián)網(wǎng)搜索)功能面向所有用戶開放。然而,訓練大模型所需要的大規(guī)模、高質(zhì)量、多模態(tài)數(shù)據(jù)集,通常是從各個領域和多個數(shù)據(jù)源收集的。這些數(shù)據(jù)來源繁雜且內(nèi)容混雜,如果不經(jīng)解析、清理和篩選,不僅會對模型性能的提升造成障礙,還有可能不分真假好壞地收集信息,更容易生成具有危害性的內(nèi)容,而實時聯(lián)網(wǎng)生成功能很難迅速、高效地過濾掉數(shù)據(jù)中的“雜質(zhì)”。

從性質(zhì)上看,DeepSeek等大模型提供者同時具有網(wǎng)絡服務提供者、網(wǎng)絡信息內(nèi)容生產(chǎn)者、大模型訓練者、個人信息處理者等多重身份,既需要對前端訓練數(shù)據(jù)的質(zhì)量和合法性負擔注意義務,也需要對后端生成內(nèi)容承擔信息治理義務。一方面,根據(jù)《生成式人工智能服務管理暫行辦法》規(guī)定,生成式人工智能服務提供者有義務使用具有合法來源的數(shù)據(jù)和基礎模型,采取有效措施提高訓練數(shù)據(jù)質(zhì)量,增強訓練數(shù)據(jù)的真實性、準確性、客觀性、多樣性,從前端確保生成內(nèi)容不違反法律法規(guī)的要求。DeepSeek自帶實時聯(lián)網(wǎng)生成功能供用戶選擇使用,在數(shù)據(jù)處理流程中對原始數(shù)據(jù)的清洗精度與廣度存在天然局限,難以確保完全剔除不良信息。此種背景下,DeepSeek作為大模型提供者有義務構(gòu)建一套可靠高效的數(shù)據(jù)實時過濾機制,保證實時聯(lián)網(wǎng)模式下大模型的穩(wěn)定性和可靠性。

另一方面,DeepSeek實時聯(lián)網(wǎng)生成功能依托在線網(wǎng)絡抓取信息,具備顯著的時效性和實用性優(yōu)勢,卻也陷入信息更新過快導致真實合法性受質(zhì)疑的泥沼?;诖?,大模型提供者需承擔如下義務:一是鏈接義務,向用戶展示使用的所有搜索鏈接網(wǎng)頁,同時在生成內(nèi)容的各個部分附上對應的鏈接,方便用戶知曉生成內(nèi)容的來源素材。二是提示義務,以醒目、突出的方式向用戶附上明晰、無歧義的免責聲明,提醒用戶利用該功能生成的內(nèi)容有潛在風險,可能存在敏感、虛假、有害等信息,以便共同預防和制止侵權行為的發(fā)生。三是救濟義務,大模型提供者還必須設立多元、便捷、暢通的反饋與投訴路徑,配套高效的響應流程。一旦接獲侵權通知,應當及時對涉事侵權內(nèi)容采取停止生成、停止傳輸、消除、模型優(yōu)化訓練等措施,確保大模型不再生成侵權內(nèi)容。

推理可視化功能帶來的侵權責任難題

深度思考模式是DeepSeek的重要技術特色之一,旨在通過模擬人類認知過程,提供更精準、連貫且富有邏輯性的輸出,并且會向用戶展示大模型的邏輯推演過程。這使得DeepSeek更加智能和人性化,可降低算法不透明帶來的信任問題,但也不可避免地引發(fā)一個傳統(tǒng)大模型未曾遭遇的困境,即在生成侵權內(nèi)容的情況下,這樣的推演過程可能會成為主動暴露的侵權證據(jù)。

一方面,深度思考模式通過多層級推理生成更“擬人化”的輸出,其邏輯鏈條可能更接近人類專家的表達方式,若訓練數(shù)據(jù)中包含未授權的版權內(nèi)容(如書籍、論文、代碼、圖像等)或者其他侵權內(nèi)容,而生成內(nèi)容又恰好與之相似,無疑會增加侵權概率。與此同時,當前對大模型生成內(nèi)容的權利歸屬仍存在爭議,若用戶基于暴露的邏輯推演過程二次創(chuàng)作衍生作品,可能引發(fā)權利鏈條斷裂。而根據(jù)《著作權法》等相關規(guī)定,獨創(chuàng)性判斷標準在人類與人工智能協(xié)作場景下尚未明晰,大模型提供者還可能因“實質(zhì)性相似+接觸可能性”原則承擔共同侵權責任。這些以往很難被證明的內(nèi)容極易通過深度思考功能被展示得一覽無余,由此增加大模型提供者承擔侵權責任的風險。

另一方面,雖然深度思考下的推演過程屬于一種“中間結(jié)論”而非正式生成文本,但仍有可能被視為生成內(nèi)容的一部分,并且推演過程可能比最終生成內(nèi)容更詳細。因此,推演過程展示也應當構(gòu)成生成內(nèi)容,需要與最終結(jié)論承擔同樣的合規(guī)義務。不僅如此,相較于正式生成文本部分,深度思考模式在處理多源數(shù)據(jù)和展示推理過程時,可能更容易引用未經(jīng)授權的版權內(nèi)容或者其他侵權內(nèi)容,而且多模態(tài)支持可能涉及圖片、視頻等各類素材的使用,進而增加侵權風險的預防難度。因此,大模型提供者應當針對深度思考模式下的推理過程建立敏感信息實時過濾機制,對多模態(tài)輸入進行合法性校驗,避免推演過程引發(fā)侵權或成為證明侵權的直接證據(jù)。

 ?。ㄗ髡哙嵵痉?,系西南政法大學民商法學院教授)