WebサイトのAI学習利用を拒否するrobots.txt拡張の議論

WebページがAIにより学習されないように、拒否できるようにしようという議論があります。

具体的には、ai.txtやrobots.txtなどを使って拒否する提案が出ています。

ai.txt (spawing)

https://spawning.ai/ai-txt で 定義されている。
ai.txtの形で配置する

例:

User-Agent: *
Disallow: *.txt
Disallow: *.pdf
Disallow: *.doc
Disallow: *.docx
Disallow: *.odt
(略)

robots.txt のAI向け拡張 (Microsoft)

Microsoftの方らが『Robots Exclusion Protocol Extension to manage AI content use』という提案をIETFに提出している

という目的ベースで許可・拒否が出来る

  • AllowAITraining
  • DisallowAITraining

また、meta タグでの指定も規定している

<meta name="robots" content="DisallowAITraining">
<meta name="examplebot" content="AllowAITraining">

robots.txt の目的指定拡張 (Google)

Googleの方が『Robots Exclusion Protocol User Agent Purpose Extension』という提案をIETFに提出している。

User-Agent-Purposeとして目的毎に許可・拒否できる

# robots.txt with purpose
# FooBot and all bots that are crawling for EXAMPLE-PURPOSE-1 are disallowed.
User-Agent: FooBot
User-Agent-Purpose: EXAMPLE-PURPOSE-1
Disallow: /
# EXAMPLE-PURPOSE-2 crawlers are allowed.
User-Agent-Purpose: EXAMPLE-PURPOSE-2

ベンダー定義

もちろん、各ベンダーが定義している UA を指定して拒否することも出来る。
たとえば、OpenAIは User-Agentを公開しており拒否できるようにしている。
platform.openai.com

Appleも同様にUser-Agentを記載している他、"Applebot-Extended"というUAで生成AIについて言及しています

Applebot-Extended を許可すると、時間の経過とともに Apple の生成 AI モデルの機能と品質が向上します。

support.apple.com

おまけ: IETF動向

IETFrobots.txtの拡張案が提出されているように、なにかしらの仕組みづくりについて議論しています (ML)。

CloudflareやGihutbやIBMからもポジションペーパーも出されている。
IAB Workshop on AI-CONTROL (aicontrolws)


来月行われる IETF 121 でも、サイドミーティングという形でオフライン議論が行われる予定です。
https://mailarchive.ietf.org/arch/msg/ai-control/LNFeTDhm5GbxbbroZXSTR3RWTf8/