WebページがAIにより学習されないように、拒否できるようにしようという議論があります。
具体的には、ai.txtやrobots.txtなどを使って拒否する提案が出ています。
ai.txt (spawing)
https://spawning.ai/ai-txt で 定義されている。
ai.txtの形で配置する
例:
User-Agent: * Disallow: *.txt Disallow: *.pdf Disallow: *.doc Disallow: *.docx Disallow: *.odt (略)
robots.txt のAI向け拡張 (Microsoft)
Microsoftの方らが『Robots Exclusion Protocol Extension to manage AI content use』という提案をIETFに提出している
という目的ベースで許可・拒否が出来る
- AllowAITraining
- DisallowAITraining
また、meta タグでの指定も規定している
<meta name="robots" content="DisallowAITraining"> <meta name="examplebot" content="AllowAITraining">
robots.txt の目的指定拡張 (Google)
Googleの方が『Robots Exclusion Protocol User Agent Purpose Extension』という提案をIETFに提出している。
User-Agent-Purposeとして目的毎に許可・拒否できる
# robots.txt with purpose # FooBot and all bots that are crawling for EXAMPLE-PURPOSE-1 are disallowed. User-Agent: FooBot User-Agent-Purpose: EXAMPLE-PURPOSE-1 Disallow: / # EXAMPLE-PURPOSE-2 crawlers are allowed. User-Agent-Purpose: EXAMPLE-PURPOSE-2
ベンダー定義
もちろん、各ベンダーが定義している UA を指定して拒否することも出来る。
たとえば、OpenAIは User-Agentを公開しており拒否できるようにしている。
platform.openai.com
Appleも同様にUser-Agentを記載している他、"Applebot-Extended"というUAで生成AIについて言及しています
Applebot-Extended を許可すると、時間の経過とともに Apple の生成 AI モデルの機能と品質が向上します。
おまけ: IETF動向
IETFにrobots.txtの拡張案が提出されているように、なにかしらの仕組みづくりについて議論しています (ML)。
CloudflareやGihutbやIBMからもポジションペーパーも出されている。
IAB Workshop on AI-CONTROL (aicontrolws)
来月行われる IETF 121 でも、サイドミーティングという形でオフライン議論が行われる予定です。
https://mailarchive.ietf.org/arch/msg/ai-control/LNFeTDhm5GbxbbroZXSTR3RWTf8/