Exemple de rapport — Audit AI Crawlers
Échantillon complet d'un audit livré à un client réel (anonymisé : « TechCorp SaaS B2B »). Format, profondeur et correctifs identiques à ce que vous recevrez en 48h.
À améliorer
Score global de visibilité IA
Score pondéré sur 100, calculé à partir du statut de 10 crawlers IA majeurs et de la présence éventuelle de meta/headers conflictuels.
Matrice détaillée des crawlers
Statut exact de chaque bot dans le robots.txt analysé. « Not specified » = pas de règle dédiée, comportement implicite dépendant du moteur.
| Crawler | Moteur / Usage | Statut | Détail |
|---|---|---|---|
| GPTBot | OpenAI — entraînement | Not specified | Pas de règle dédiée. Tombe sur User-agent: * → Disallow: /admin |
| ChatGPT-User / OAI-SearchBot | OpenAI — ChatGPT Search live | Not specified | Aucune règle. Comportement implicite = autorisé. |
| ClaudeBot | Anthropic — entraînement | Blocked | Disallow: / hérité d'un robots.txt 2022. |
| anthropic-ai | Anthropic — Claude.ai live | Not specified | Pas de directive. Crawl autorisé par défaut. |
| PerplexityBot | Perplexity | Allowed | Allow: / explicite. OK. |
| Google-Extended | Google — Gemini + AI Overviews | Blocked | Disallow: / ajouté en 2023 par défaut CMS. |
| CCBot | Common Crawl (dataset upstream) | Blocked | Disallow: / présent. |
| Bytespider | ByteDance — TikTok/Doubao | Not specified | Aucune règle. Crawl agressif documenté. |
| Amazonbot | Amazon — Alexa/Rufus | Not specified | Aucune règle. |
| Applebot-Extended | Apple — Apple Intelligence | Not specified | Aucune règle. Opt-in implicite. |
Findings — ce que ça implique
Traduction des données techniques en impact business concret.
ClaudeBot entièrement bloqué
Le robots.txt contient Disallow: / pour ClaudeBot — vraisemblablement hérité d'un template 2022. Conséquence : aucune page n'apparaîtra jamais dans les réponses Claude.ai pour des requêtes du domaine du client.
Google-Extended bloqué → exclusion Gemini + AI Overviews
Disallow: / pour Google-Extended bloque l'utilisation des contenus dans Gemini et les AI Overviews Google Search. Le bot Googlebot classique reste autorisé (SEO non impacté), mais la visibilité IA générative côté Google est nulle.
GPTBot non explicitement autorisé
Aucune directive User-agent: GPTBot. Le bot tombe sur le bloc générique User-agent: * qui contient Disallow: /admin. OpenAI documente le respect de la dernière directive matching ; l'absence de règle explicite expose à un changement de comportement futur.
CCBot bloqué — impact training datasets tiers
Common Crawl alimente une partie des datasets d'entraînement de plusieurs LLM (open + commerciaux). Disallow: / sur CCBot exclut le site de ces corpus.
Aucun meta robots ni X-Robots-Tag conflictuel détecté
Scan des 12 pages principales : aucune balise <meta name="robots" content="noai, noimageai"> ni header HTTP X-Robots-Tag bloquant. Le seul vecteur de blocage est le robots.txt.
Correctifs — prêts à coller
Extraits robots.txt et commandes de vérification, applicables par n'importe quel développeur web en moins de 10 minutes.
Débloquer ClaudeBot, Google-Extended et CCBot
Annule les 3 blocages critiques identifiés en Section 2 sans toucher au SEO classique.
# robots.txt — autoriser explicitement les crawlers IA majeurs
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /Déclarer explicitement GPTBot et la famille OpenAI
Évite la dépendance au bloc User-agent: * et clarifie l'intention. Recommandé par OpenAI dans sa doc officielle.
# robots.txt — famille OpenAI
User-agent: GPTBot
Allow: /
Disallow: /admin
Disallow: /api/private
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /Vérifier le déploiement avec curl
Confirme que le robots.txt servi en production correspond bien à la version éditée (cache CDN, règles middleware Next.js, etc.).
# Depuis n'importe quel terminal
curl -A "ClaudeBot/1.0" -I https://votresite.com/
curl -A "GPTBot/1.2" -I https://votresite.com/
curl https://votresite.com/robots.txt | grep -E "GPTBot|ClaudeBot|Google-Extended"Le rapport complet livré inclut en plus : instructions spécifiques par stack (Next.js, WordPress, Webflow, Shopify), checklist post-déploiement et second scan de vérification à J+7 inclus dans le prix.
Commander mon audit personnalisé
Même format, même profondeur, livré sous 48h ouvrées sur votre domaine. Paiement Stripe, remboursé si nous dépassons le délai.
— Kairos Lab Team