人工知能データ訓練段階での関連リスクについて
馮超 森康晃 王潤菁
泰和泰(北京)法律事務所
中国初の生成式人工知能図面著作権侵害事件の一審判決がこのほど言い渡され、
人工知能生成物の著作権の問題について学界、業界で再び活発な議論が巻き起こったが
生成式人工知能にかかわる問題は
まだ定説のない人工知能生成物の著作権の問題のほかに、
生成式人工知能データ訓練段階で関連権利者の権益を侵害するか否かについても一部の論争がある。
この問題について、筆者は本文で簡単にまとめ、
足りないところは、またご批判、ご指摘を受ける。
● 生成型人工知能データ訓練には、どのような面で法的リスクがあるのであろう。
『生成式人工知能サービス管理暫定弁法』第七条に基づき、
生成式人工知能サービス提供者のデータ訓練についての関連具体的な要求は以下の通り:
「(一)合法的な出所を有するデータと基礎モデルを使用する、
(二)知的財産権に関わる場合、他人が法により享有する知的財産権を侵害してはならない、
(三)個人情報に関わる場合、個人の同意を得なければならない、又は
法律、行政法規が規定するその他の状況に合致しなければならない、
(四)効果的な措置を講じて訓練データの質を高め、
訓練データの真実性、正確性、客観性、多様性を強化する、
(五)『中華人民共和国ネットワークセキュリティ法』、『中華人民共和国データセキュリティ法』、
『中華人民共和国個人情報保護法』などの法律、行政法規のその他の関連規定と
関連主管部門の関連監督管理要求。」
以下では、(一)から(三)について具体的に述べる。
一、合法的な出所を有するデータを使用する
要求は第七条第(一)項に由来し、「合法的な出所を有するデータ」を使用する。
実践において、非合法はデータを不正にクローリングしたり、
クレデンシャルスタッフィング攻撃で他人のデータベースを取得したりすることなどとして多く現れ、
不正競争を構成する場合※1、『反不正競争法』によって規制され
関連する判例は以下の通り:
序 | 事件号及び事由 | 裁判要旨 | 適用法条 |
1 |
●(2017)粤03民初822号 ●深セン市谷米科技有限公司と武漢元光科技有限公司等との不正競争紛争 |
被告である元光公司がクローリング技術を利用して原告である谷米公司のソフトウェア「酷米客」のリアルタイムバス情報データを大量に取得し、無償で使用する行為は、実際には「労せずして手に入れる」、「人を食べて肥やす」行為であり、他人の無形財産の権益を不法に占用し、他人の市場競争優位性を破壊し、かつ自分のために競争優位性を獲得する主観的故意があり、信義誠実の原則に違反し、競争秩序を乱し、不正競争行為を構成する。 | 旧『反不正競争法』第2条 |
2 |
●(2018)浙江01民終7312号 ●淘宝(中国)ソフトウェア有限公司と安徽美景信息科技有限公司との不正競争紛争事件 |
美景公司は経営活動において信義誠実の原則と商業道徳に反し、淘宝公司のビジネス参謀のユーザーを違約してアカウントを共有するよう唆し、これにより淘宝公司が大量の人力と物力を投入して開発したビッグデータを不正に取得した後に流通させて利益をむさぼり、その行為は市場競争秩序を乱し、淘宝公司の合法的権益に損害を与え、不正競争を構成する。 | 『反不正競争法』第2条 |
3 |
●(2018)浙江8601民初956号 ●杭州執掌科技有限公司、杭州利導科技有限公司等と浙江中服網絡科技有限公司との不正競争紛争 |
係争販売代理店のデータベースは積極的な効果を持っている。浙江中服公司はクレデンシャルスタッフィング攻撃の不正な手段で係争販売店のデータを取得した後、係争2つのウェブサイトが提供するサービスが同質化されている状況において、主観的に「便乗」、「労せずして手に入れる」の故意があった※2。 | 『反不正競争法』第2条 |
4 |
●(2020)浙江01民終5889号 ●深セン市テンセント計算機系統有限公司、テンセント科技(深セン)有限公司と浙江搜道網絡技術有限公司、杭州聚客通科技有限公司との不正競争紛争 |
ネットワーク運営者が管理するデータは、オリジナルデータと派生データに分けられる。単一オリジナルデータに対し、データ管理主体はネットワークユーザー情報の権益にのみ依存し、ユーザーとの約束に基づきオリジナルデータの限定使用権を享有する;単一オリジナルデータを集約したデータ資源全体に対し、データ管理主体は競争的権益を享有する。 許可を得ずに他人が管理する単一オリジナルデータを使用し、「合法的、必要で、ユーザーの同意を得る」原則に違反しない場合、一般的に不正競争と認定されない;許可を得ずに他人が管理するデータ資源を大規模化し破壊的に使用した場合、不正競争と認定することができる。 許可を得ずに他人の既存データ資源を基礎として革新的競争を展開する場合、「合法的、適度、ユーザーの同意を得る、効率的」の原則に合致しなければならない。いわゆる「革新的競争成果」が市場競争の効果において利益よりも弊害が大きい場合には、不当性があると認定すべきである※3。 |
『反不正競争法』第2条 |
また、筆者は『著作権法』第49条、53条でも
合法的な取得方法を規定していると言われたことがあると気づいた。
ただし、49条第3項では
「本法にいう技術措置とは、権利者の許可を得ずに
著作物、実演、録音録画製品を閲覧・鑑賞し、又は
情報ネットワークを通じて公衆に著作物、実演、録音録画製品を提供することを
防止、制限するための有効な技術、装置又は部品を指す。」と明確に定義されている。
生成式人工知能サービス提供者はほとんどの場合、
関連作品をそのまま提供することはないので
この条を適用することはできないと筆者は考える。
二、知的財産権に関わる場
要求は第七条第(二)項に由来し、
「知的財産権に関わる場合、
他人が法により享有する知的財産権を侵害してはならない」。
生成式人工知能はデータ訓練段階において、
通常はデータマイニングに関わり、非電子データをデジタル化する過程は
複製権の侵害を構成する可能性がある。特に永久に複製する場合では※4。
中国には現在、生成式人工知能の合理的使用に関する訴訟はない。
最も類似しているのは、
これまでの人工知能分野での王莘がグーグルを訴えた事件である。
一審法院は、全文複製行為が『著作権法』に規定された複製行為に該当し、
かつ、「全文複製を行う行為は原告の作品の正常な使用と抵触しており、
著作権者の合法的利益を不当に損なうことにもなり、
この複製行為は合理的な使用行為を構成しておらず、
原告の著作権に対する侵害を構成している」と認定した※5。
二審法院は原判決を維持したが、
米国の合理的使用の「四要素」認定方法を参考にして、
「許可を得ていない複製行為は原則的に侵害を構成するが、
合理的使用行為のために特に行われた複製は、
その後の使用行為と合わせて見るべきであり、
同様に合理的使用を構成する可能性がある」と述べた。
また、「『著作権法』第22条に規定された具体的な状況以外で
合理的な使用を認定する場合には、
認定基準を厳しく把握しなければならない」とも述べた。
その事件では、グーグル社は複製行為が合理的使用を構成するか否かについて
証拠を提出していないため、
複製行為が合理的使用を構成すると主張することについて証拠が不足である※6。
一審と二審の法院では、合理的使用に対する認定に若干の違いがあった。
現在、中国の『著作権法』第24条は、
合理的に使用する12種類の具体的な状況
及び「その他の状況」の基本条項を規定している。
生成式人工知能データ訓練は
12種類の具体的な合理的使用状況に帰属することは難しいが、
第13項の包括条項はその合理的使用の判断のために余地を残している。
『最高人民法院による知的財産権裁判の職能・役割を十分に発揮させて
社会主義文化の大発展・大繁栄を推進し、
経済の自主的・協調的発展を促進する若干の問題に関する意見』第8条 ※7にてでは、
「四要素」の判断方法についても述べている。
しかし、多くの学者は
立法がそのような新しい状況に対して具体的な規定をしていないため、
法律の明確性が不足する一連の弊害を引き起こす可能性があると評した。
「法院は現在、著作権規定を突破する疑いがあるようで、
判断には常に『三段階測定法』と『四要素法』とを併用しており、
判決結果は予測が困難である。」※8、
「このような裁判において合理的使用の類別の解明を意図的に無視することは、
合法性において重大なリスクが存在する。
人工知能産業が急速に発展している現在、
今後ますます多くの作品の使用状況が現れる可能性があり、
人工知能のディープラーニングの行為の性質について
明確な立法定義を行わなければ、
大量の訴訟を誘発する恐れがあり、
インターネット産業の健全な発展に役立たない」と指摘した。※9
「中国の司法裁判における認定基準が入りまじっており、
あまりにも恣意的な概念の移植が頻発しており、
法域の異なる著作権の例外の柔軟性と安定性についての争論が
まだ定まっていない状況において、
中国の著作権の合理的使用の司法認定基準は、
異なる法院がそれぞれ独立して行政することになるのは不思議ではない。」※10
そのため、生成式人工知能データ訓練を合理的使用の範囲に組み入れ、
『著作権法』の改正で
人工知能データ訓練の障害物を取り除くことを主張している学者もいる。
例えば徐小奔氏は
データの価値を原初の価値と分析後の知識による価値増加した価値に分け、
機械学習は作品の原初の価値に関わるものではないとし、
「人工知能のディープラーニングのプロセス自体に対して
その価値性が評価されることはなく、
コンテンツを出力した後にのみ、価値があるかどうかを判断することができる」と主張した。
一方、機械学習の知識による価値増加については、
機械分析は元の作品をそのまま提示することができず、
それによって形成される知識付加価値は
作品の原初の価値と独立していると考えられている。
また、そのような知識付加価値は
著作物の原初の価値と市場利益に影響を及ぼさないので、
著作権者が複製権を通じて人工知能の使用行為を管理し、
付加価値の利益を共有しようとすることは正当性の基礎を持たない。
人工知能のディープラーニング行為は
著作権制度における合理的な使用の範囲に入ることができる。※11
これと類似しているのは、
焦和平氏が「表現的使用」と「非表現的使用」で
作品の使用を区別していることである。
しかし、焦和平氏は、
「非表現的使用」は「転換的使用」で抗弁することができるが、
「表現的使用」は依然として権利侵害のリスクに直面しているが、
価値を考えると、制度的に対応し、
人工知能データの利用を合理的使用の範囲に入れるべきであると考えている。※12
林秀芹氏は、
「伝統的な著作権法の『著作者中心主義』と
厳格な『三段階検証法』はAI技術の変革の需要に適応できない。
イノベーションとAI技術の発展を促進するため、
合理的使用を拡張し、制度の再構築を行うべきだ」と述べた。※13
劉友華氏は、
「著作権制度の厳格な保護モデルは機械学習技術の発展を制限するだろう」と言及し、
同時に、「緩やかな著作権保護モデルは著作者の創作意欲を抑制するだろう」と述べ、
「当面、機械学習を合理的使用制度から完全に排除すべきではなく、
完全に組み入れてはならず、
機械学習の具体的な状況について具体的に分析すべきである」と述べた。
具体的には商業と非商業で区別すると言っている。※14
同様に司法裁量を肯定する学者もいる。
例えば從立先氏等は
「包括条項の合理的な使用は司法ルートの中で
比較的実行可能な解決方式の一つである。
しかし、権利に対する制限が過度に「開放」されるべきではないとして、
具体的な事件で三段階測定法と米国の四要素法を重ねて適用して
総合的に判断することが比較的実行可能なやり方である」と述べた。※15
三、個人情報に関わる場合
第(三)項の個人情報に関わる状況について、
生成式人工知能サービス提供者が参考にできる典型的な事例は、
「脈脈」によるweiboユーザー情報の不正取得・使用不正競争紛争事件であり、
この事件では「三つ重授権原則」が確立されている。
序 | 事件号及び事由 | 裁判要旨 | 適用法条 |
1 |
●(2016)京73民終588号 ●北京淘友天下技術有限公司等と北京微夢創科網絡技術有限公司との不正競争紛争 |
Open API開発協力モデルにおいて、データ提供者が第三者にデータを開放する前提は、データ提供者がユーザーの同意を得ることであり、同時に、第三者プラットフォームはユーザー情報を使用する際に、その使用の目的、方式及び範囲をユーザーに明確に告知し、再度ユーザーの同意を得なければならない。したがって、Open API開発協力モデルでは、第三者がOpen APIを通じてユーザー情報を取得する際には「ユーザー授権」+「プラットフォーム授権」+「ユーザー授権」の三つ重の授権原則を堅持すべきである。 | 『中華人民共和国消費者権益保護法』第29条、 『ネットワーク情報保護の強化に関する決定』第2条 |
新浪-脈脈事件は
2016年度の北京法院知的財産権司法保護10大事例に選ばれ、
その後の多くの類似事件の裁判に影響を与えた。
2021年『個人情報保護法』第23条では
「個人情報取扱者が取扱個人情報を
他の個人情報取扱者に提供する場合には、
受取人の名称又は氏名、連絡先、取扱目的、取扱方法
及び個人情報の種類を個人に通知し、
個人の個別の同意を得なければならない。
受信者は、上記の処理目的、処理方法
及び個人情報の種類等の範囲内で個人情報を処理しなければならない。
受取人が当初の処理目的、処理方式を変更する場合には、
本法の規定に基づき改めて個人の同意を得なければならない」と
三つ重授権原則について回答した。
しかし、三つ重授権原則については、学界と業界とで見解が異なっている。
肯定的な意見を持つ例えば薛軍氏は、
三重授権は各方面の利益のバランスが良く、
「中国の将来の個人情報保護
及びデータ情報産業の健全な発展にとって指導的意義がある」と考えている。※16
反対意見を持つ例えば徐娟氏は、
ゲーム均衡モデルの下で企業の意思決定について分析を行い、
三つ重授権原則は「利益決定モデルに合致しない」とし、
「技術革新に不利であり、偽のプライバシー保護の疑いもあり、
強い市場保護の効果に基づいて意思決定はない」と主張した。※17
折衷の観点例えば徐偉氏は、
三つ重授権原則はすべてのデータタイプに普遍的に適用すべきではなく、
個人情報に関わるデータタイプを
識別可能なオリジナルデータと識別不可能な派生データに分け、
状況によって異なる規則を採用すべきであると考えている。※18
四、終わりに
生成式人工知能などの新興技術の急速な発展は
伝統的な法体系に一連の挑戦をもたらし、
学界と業界の多くの異なる観点を生み出す。
『生成式人工知能サービス管理暫定弁法』は
中国の新興分野における立法の最新の成果であり、
中国の新技術・新応用・発展に対する規制戦略の持続的な推進を体現している。
うち第七条は、生成式人工知能サービス提供者のデータ訓練に
明確な指針を提供している。
今後は関連法体系がさらに整備され、
関連規則の解釈がさらに具体的に明らかになるかもしれない。
関連主体はそれに注意する必要がある。
------------------------
※1:二者は競争関係であるか判断する必要がある
※2:https://www.chinacourt.org/article/detail/2019/11/id/4608921.shtml
※3:https://www.thepaper.cn/newsDetail_forward_10852599
※4:万勇:『人工知能時代の著作権法合理的使用制度のジレンマと活路』、
『社会科学雑誌』、2021年第5号掲載
※5:北京市第一中級人民法院(2011)一中民初字第1321号
※6:北京市高級人民法院(2013)高民終字第1221号
※7:「合理的使用と法定許可行為を正しく認定し、法により著作物の正当な利用と伝達を保護する。
技術革新と商業発展の促進が確かに必要である特殊な状況の下で、
著作物の使用行為の性質と目的、使用される著作物の性質、
使用される部分の数量と質、使用が著作物の潜在的市場
又は価値に与える影響等の要素を考慮し、
当該使用行為が著作物の正常な使用と抵触しない場合、
かつ著作者の正当な利益を不当を損なわない場合、合理的使用と認定することができる。」
※8:張金平:『人工知能作品の合理的使用のジレンマとその解決』、
『環球法律評論』、2019年第3期掲載
※9:徐小奔、楊依楠:『人工知能ディープラーニングにおける著作権の合理的使用について』、
『交通大学法学』、2019年第3期掲載
※10:熊琦:『著作権の合理的使用の司法認定基準に関する疑義の解明』、
『法学』、2018年第1期掲載
※11:同前※9
※12:焦和平:『人工知能創作におけるデータ取得と利用の著作権リスク及び解消経路』、
『現代法学』、2022年第4期掲載
※13:林秀芹『人工知能時代における著作権合理的使用制度の再構築』、
『法学研究』、2021年第6期掲載
※14:劉友華、魏遠山:『機械学習の著作権侵害問題及びその解決』、『華東政法大学学報』、
2019,22(02):68-79. 掲載
※15:從立先,李泳霖
『チャットボット生成コンテンツの著作権リスクと
そのガバナンス--ChatGPTの応用を視角とする』、『中国出版』、2023年第5号掲載
※16:https://www.law.pku.edu.cn/xwzx/pl/38788.htm
※17:許娟:『インターネット難解事件におけるデータ権利保護のリスク決定ツリーモデル』、
『南京社会科学』、2019年第3期掲載
※18:徐偉:『企業データ取得「三つ重授権原則」の反省及び類型化構築』、
『交通大学法学』2019年第4期掲載