👉 Etre cité par les IA

00 — Introduction

LE MONDE A
BASCULÉ

La question n’est plus « suis-je bien classé ? » La question est : « les IA me connaissent-elles, me comprennent-elles, et me citent-elles ? »

Entre 2023 et 2025, quelque chose d’historique s’est produit que la plupart des praticiens du marketing n’ont pas encore pleinement intégré. La première couche de l’internet — la couche des réponses — a été capturée par les IA génératives.

Quand quelqu’un cherche « meilleure stratégie SEO pour une PME », deux comportements coexistent désormais : l’ancienne génération tape sur Google et clique. La nouvelle génération pose la question à ChatGPT, à Perplexity, à Gemini — et obtient une synthèse directe. Sans clic. Sans visite. Sans toi.

La réalité nue

En 2024, environ 54% des requêtes Google ne génèrent aucun clic vers un site externe. Sur les systèmes à accès web (Perplexity, Bing Copilot), l’IA choisit 3 à 5 sources sur des milliers de résultats potentiels. Sur les LLMs sans accès web (ChatGPT sans plugin), le contenu n’est jamais consulté en temps réel — seule la mémoire d’entraînement compte. L’enjeu n’est plus le ranking. C’est la citabilité.

ChatGPT300M utilisateurs
actifs / semaine

Perplexity100M+ requêtes
/ mois

AI OV.Google AI Overviews
déploiement mondial

ClaudeIntégré dans
100+ produits SaaS

Sans récit, tu n’es qu’un code-barres. Sans marque, tu n’es rien. À l’heure de l’AEO, cette vérité n’a jamais été aussi littérale — ni aussi mesurable.

Thomas Leonetti — Apollo Lab

L’AEO comme discipline structurée

L’AEO (Answer Engine Optimization) est l’ensemble des pratiques visant à optimiser la présence d’une marque, d’un contenu ou d’une expertise pour être cité, référencé et recommandé par les moteurs de réponse basés sur des LLMs. Ce guide est conçu pour le formaliser comme une discipline structurée, mesurable et transmissible — pas comme une collection de conseils tactiques.

Il est organisé en trois parties : les fondements scientifiques (comment les systèmes IA choisissent leurs sources), les leviers stratégiques (comment construire une présence citable), et la mise en pratique (outils, frameworks, plan d’action).

01 — Fondements scientifiques

LE PIPELINE RAG :
DE LA PAGE WEB À LA CITATION

Comment un contenu passe concrètement du statut de page web à celui de source citée par un moteur de réponse. La mécanique exacte, étape par étape.

La plupart des guides AEO parlent d’optimiser « pour les IA » sans expliquer ce que ça signifie techniquement. Comprendre le pipeline de traitement d’un système RAG (Retrieval Augmented Generation) change fondamentalement la façon dont on conçoit le contenu.

PIPELINE RAG — Du document à la citation générée

1

Ingestion & Crawl

Le système récupère le contenu brut de la page : HTML parsé, texte extrait, métadonnées (titre, date, auteur, URL). Les images, les CSS et les scripts sont généralement ignorés. Les contenus derrière login ou JS pur non-rendu sont invisibles.

Signal AEO : accessibilité crawlers

2

Segmentation (Chunking)

Le document est découpé en segments (chunks) de 200 à 800 tokens selon le modèle. La stratégie de chunking varie : par paragraphe, par section H2, par fenêtre glissante. Un contenu mal structuré produit des chunks incohérents qui perdent le contexte.

Signal AEO : structure HTML sémantique

3

Vectorisation sémantique

Chaque chunk est transformé en vecteur numérique (embedding) par un modèle de type BERT, Ada-002 ou équivalent. Ce vecteur capture la signification du texte dans un espace multidimensionnel. La clarté sémantique d’un chunk détermine la qualité de son embedding.

Signal AEO : densité & clarté sémantique

4

Indexation vectorielle

Les embeddings sont stockés dans une base vectorielle (Pinecone, Weaviate, pgvector…). Chaque vecteur est associé aux métadonnées du chunk source : URL, titre, date, auteur. L’autorité de la source peut être un signal de pondération à ce stade.

Signal AEO : métadonnées complètes

5

Retrieval (Récupération)

La requête utilisateur est elle-même vectorisée. Le système calcule la similarité cosinus entre le vecteur-requête et tous les chunks indexés. Les k plus proches voisins sont récupérés (typiquement 5 à 20 chunks). Un contenu dont l’embedding est loin de la requête n’est jamais récupéré.

Signal AEO : alignement requête-embedding

6

Reranking

Les chunks récupérés sont renotés par un modèle de reranking (cross-encoder) qui évalue la pertinence fine par rapport à la question. L’autorité de la source, la fraîcheur et d’autres signaux peuvent intervenir ici. Seuls les 3 à 5 meilleurs chunks passent à la génération.

Signal AEO : autorité source + fraîcheur

7

Génération de réponse

Le LLM reçoit les chunks sélectionnés comme contexte et génère une réponse en langage naturel. La réponse synthétise les informations — elle ne les copie pas. Un chunk qui contient une réponse directe et factuelle est plus susceptible d’être utilisé qu’un chunk narratif.

Signal AEO : structure extractible

8

Sélection des citations

Le système décide quelles sources citer explicitement dans la réponse. Critères variables : la source était-elle dominante dans le contexte ? Est-elle reconnue ? La réponse reprend-elle quasi-directement son contenu ? C’est l’étape finale — et le but de toute stratégie AEO.

Signal AEO : reconnaissance de l’entité source

Implications pour le contenu

Ce pipeline a des implications directes sur la façon dont on doit concevoir le contenu :

→Le chunking pénalise les introductions longues : si le premier chunk d’une page est une introduction générique de 300 mots, il sera embedé comme « contenu vague » et ne sera jamais récupéré pour une requête précise.
→La sémantique locale compte plus que la sémantique globale : chaque section doit être compréhensible et utile isolément, indépendamment du reste de l’article.
→Les métadonnées sont des signaux de contexte : la date de publication, l’auteur, l’URL descriptive sont utilisées dans les décisions de reranking.
→La réponse directe en début de section maximise la probabilité que le chunk soit récupéré ET utilisé dans la génération.

Pour les LLMs sans RAG (ChatGPT sans browsing)

Le pipeline ci-dessus s’applique aux systèmes RAG temps réel. Pour les LLMs purement paramétriques, le mécanisme est différent : la « citation » emerge de la mémoire d’entraînement. L’optimisation passe alors par la densité de présence dans les corpus d’entraînement — sources tierces, Reddit, Wikipedia, presse — plutôt que par l’architecture de la page.

02 — Modèle standardisé

LE SCORE AEO :
MESURER LA CITABILITÉ

Un modèle de scoring composite permettant d’évaluer objectivement la probabilité qu’un contenu ou une marque soit cité par un moteur de réponse IA. 7 variables pondérées. Méthodologie reproductible.

L’AEO ne peut devenir une discipline sérieuse que si elle est mesurable. Le modèle ci-dessous formalise un Score de Citabilité AEO (SCA) sur 100 points, composé de 7 variables pondérées selon leur impact empirique observé sur la probabilité de citation.

Score de Citabilité AEO (SCA)

SCA = Σ (Variable_i × Poids_i) · Modificateur_fraîcheur

#

Variable

Poids

Description & méthode de mesure

Échelle

V1

Autorité de l’entité (EA)

22%

Force de reconnaissance de l’entité (marque ou auteur) dans les sources tierces : presse, Wikipedia/Wikidata, mentions qualifiées, Knowledge Panel Google. Variable la plus corrélée à la citation dans les LLMs paramétriques.

0–100

V2

Clarté sémantique (CS)

18%

Capacité du texte à produire des embeddings denses et précis. Évalué par : absence d’ambiguïté lexicale, définitions explicites, cohérence terminologique intra-document. Facteur critique pour le retrieval vectoriel.

0–100

V3

Densité informationnelle (DI)

16%

Ratio information unique / volume textuel. Un contenu avec 10 faits vérifiables en 500 mots est plus citable qu’un contenu avec 2 faits en 2000 mots. Pénalise les remplissages et le padding rhétorique.

0–100

V4

Structure extractible (SE)

16%

Degré auquel le contenu est structuré pour être extrait isolément : réponses directes en début de section, titres formulés comme questions, listes, tableaux, FAQ avec schema.org. Facteur dominant pour les systèmes RAG.

0–100

V5

Traçabilité factuelle (TF)

14%

Présence de données sourcées, études citées, chiffres vérifiables. Les LLMs calibrés RLHF favorisent les sources qui peuvent être vérifiées. Les données originales (études propres) ont un coefficient multiplicateur supplémentaire.

0–100

V6

Reconnaissance externe (RE)

10%

Mentions dans des contextes de recommandation : Reddit, Quora, forums spécialisés, listes « meilleures ressources », citations dans d’autres contenus. Signal particulièrement important pour les LLMs dont le corpus d’entraînement inclut ces plateformes.

0–100

V7

Fraîcheur informationnelle (FI)

4%

Date de dernière mise à jour, présence de données récentes, signaux de maintenance active. Modificateur multiplicatif : un contenu très frais peut booster les variables précédentes de 5 à 15%. Variable à faible poids de base mais fort effet de modulation.

Modif. ×

Limites du modèle

Ce modèle est une approximation fondée sur des observations empiriques, non sur des données de training internes aux LLMs (non publiques). Les poids sont indicatifs et varient selon le système IA évalué. Perplexity, par exemple, surpondère SE et TF par rapport à EA. ChatGPT paramétrique surpondère EA et RE. Ce cadre reste utile comme outil de priorisation stratégique.

Comment utiliser le SCA

1

Audit de base

Évaluer chaque variable sur 100 pour le contenu ou la marque ciblée. La note finale est la moyenne pondérée. Un SCA < 40 = non citable. 40–65 = potentiellement citable. 65–80 = bien citable. > 80 = source de référence.

2

Identification des leviers

Les variables avec les notes les plus basses ET les poids les plus élevés sont les priorités absolues. Une amélioration de +20 pts sur EA (poids 22%) vaut plus qu’une amélioration de +40 pts sur FI (poids 4%).

3

Suivi trimestriel

Le SCA doit être réévalué tous les 3 mois. Les améliorations sur EA et RE sont lentes (6–12 mois). Les améliorations sur SE et DI sont rapides (4–8 semaines).

03 — Classification

TAXONOMIE DE
CITABILITÉ

Cinq niveaux de citabilité, du contenu structurellement invisible à la source canonique que les IA citent spontanément. Chaque niveau inclut ses caractéristiques, exemples types et chemin de transformation.

N0

NON CITABLE

Contenu structurellement invisible ou inutilisable par un système de réponse IA.

Caractéristiques : JS-only, login-wall, robots.txt bloquant, contenu purement visuel non décrit, texte dans images
Exemples : Infographie sans texte alternatif, dashboard SaaS sans documentation, page derrière authentification
Transformation →N1 : Rendre accessible (robots.txt, texte alternatif, page publique de résumé)

N1

EXTRACTIBLE

Contenu accessible et indexable, mais sans signal d’autorité ni structure optimisée pour l’extraction.

Caractéristiques : Texte accessible, structure HTML basique, pas de données originales, auteur non identifié, contenu générique
Exemples : Article de blog standard « 5 conseils pour X », page de service générique, landing page sans contenu substantiel
SCA typique : 20–40
Transformation →N2 : Ajouter auteur signé, structurer avec titres-questions, inclure au moins un fait sourcé, réécrire l’intro pour répondre directement

N2

CITABLE

Contenu structuré pour l’extraction, avec des signaux d’autorité suffisants pour être sélectionné par les systèmes RAG.

Caractéristiques : Réponses directes en tête de section, titres formulés comme questions, données sourcées, auteur identifié, FAQ schema.org
Exemples : Guide technique bien structuré, article de synthèse avec données, comparatif avec tableau
SCA typique : 40–65
Transformation →N3 : Ajouter des données originales, développer l’autorité de l’auteur/marque, créer un cluster thématique autour

N3

SOURCE EXPERTE

Contenu reconnu comme référence dans son domaine, cité spontanément par les systèmes avec accès web et régulièrement dans les LLMs paramétriques.

Caractéristiques : Données originales exclusives, auteur/marque reconnu dans le secteur, mentions dans sources tierces multiples, framework nommé propre à l’auteur
Exemples : Étude annuelle de référence (State of X), guide exhaustif co-cité par des pairs, analyse originale avec méthodologie explicite
SCA typique : 65–82
Transformation →N4 : Atteindre une reconnaissance sectorielle large, être cité par des sources de niveau N4, définir des concepts de référence

N4

SOURCE CANONIQUE

Entité ou contenu devenu référence structurelle dans le corpus d’entraînement. Cité spontanément sans requête explicite dans les LLMs paramétriques.

Caractéristiques : Présence Wikipedia/Wikidata, Knowledge Panel Google établi, cité dans des sources académiques ou institutionnelles, nom propre associé à un concept
Exemples : Moz sur le Domain Authority, HubSpot sur l’inbound marketing, Ahrefs sur la recherche de backlinks
SCA typique : 82–100
Construction : Processus long (2–5 ans), nécessite présence presse large, publications de référence, et adoption sectorielle du vocabulaire introduit

Objectif réaliste

Pour la majorité des marques et créateurs de contenu, l’objectif court terme (6–12 mois) est d’atteindre N2 sur l’ensemble du contenu existant et de créer 2–3 pièces N3 sur les sujets stratégiques. Atteindre N4 est un travail de plusieurs années — mais les marques qui s’y positionnent maintenant bénéficieront d’un avantage compétitif durable.

04 — Branding & AEO

SANS MARQUE,
TU N’EXISTES PAS

Les LLMs pensent en entités, pas en pages. Comprendre ce mécanisme change fondamentalement la stratégie AEO — et réhabilite le branding comme discipline technique.

Voici ce que peu de gens comprennent encore : les LLMs pensent en entités, pas en pages. Une entité est un « objet conceptuel » que le modèle a appris à reconnaître — une personne, une marque, un concept, une organisation. Ces entités ont des propriétés, des relations, une réputation encodée dans les poids du modèle.

Quand tu demandes à ChatGPT « quelle agence SEO française recommandes-tu ? », le modèle ne cherche pas des pages. Il active des entités qu’il connaît dans le champ sémantique « agence SEO France » et sélectionne celles dont la représentation est la plus dense, la plus cohérente, la plus associée à des contextes positifs. Une marque forte est donc techniquement supérieure à un contenu optimisé.

Sans récit, tu n’es qu’un code-barres. Les IA ne citent pas des pages. Elles évoquent des entités. Ta marque est-elle une entité suffisamment claire pour être évoquée spontanément ?

Principe fondamental de l’AEO — Apollo Lab

Les 3 couches du branding AEO

Couche 01 — Identité

Le récit distinctif

Ton positionnement doit être répétable et ancré dans une thèse. Pas « agence SEO ». Une thèse : « Apollo Lab défend l’idée que le SEO de volume est mort — seule l’autorité thématique survit. » Les IA retiennent les thèses fortes. Elles ignorent les généralismes.

Couche 02 — Cohérence

La consistance des signaux

Ton nom, ton domaine, tes profils sociaux, tes mentions presse — tout doit raconter la même histoire avec les mêmes termes. Une entité aux signaux contradictoires est une entité mal définie. Un LLM qui ne sait pas exactement qui tu es ne te citera pas.

Couche 03 — Densité

La présence dans le corpus

Combien de sources tierces t’évoquent dans des contextes pertinents ? Reddit, Quora, presse spécialisée, articles de blog d’autres auteurs — chaque mention enrichit la représentation de ton entité dans les corpus d’entraînement futurs.

Construire son entité en 5 étapes

1

Définir et écrire sa thèse de marque

Une affirmation sur le monde que tu défends publiquement. Pas un slogan marketing — une position intellectuelle claire que tu es prêt à argumenter. C’est cela qui crée l’association mémorable dans le corpus IA.

2

Créer une page « Manifeste » AEO-optimisée

Une page qui définit explicitement ton entité : qui tu es, ce que tu défends, tes publications majeures, tes domaines d’expertise, ce qui te distingue. Tout ce qu’un LLM doit savoir pour te représenter correctement.

3

Implémenter schema.org Organisation + Person

Ces données structurées alimentent directement le Knowledge Graph Google qui nourrit Gemini et AI Overviews. Elles définissent formellement ton entité en langage machine.

4

Alimenter les sources tierces

Wikipedia (si éligible), Wikidata, presse spécialisée, interviews, podcasts, conférences — chaque mention dans une source tierce de qualité renforce l’entité dans le corpus. Ce ne sont pas des backlinks pour le PageRank : ce sont des co-occurrences pour l’entité.

5

Publier des positions tranchées

Les IA se souviennent des points de vue distinctifs. Un article avec argumentation solide contre la doxa de ton secteur crée une association forte entre ton nom et une expertise. Le consensus ne laisse pas de trace dans la mémoire des modèles.

Le test d’entité — à faire maintenant

Test ChatGPT — Audit d’entité

Qu'est-ce que tu sais sur [NOM DE TA MARQUE / TON NOM] ?
Décris son positionnement, ses domaines d'expertise,
ce qui la distingue et pourquoi on la cite dans
le domaine de [TON SECTEUR].

// Si ChatGPT te décrit précisément → entité forte
// Si ChatGPT te connaît vaguement → signal faible, travailler la densité
// Si ChatGPT t'invente ou ne te connaît pas → entité à construire

05 — Les signaux

MATRICE DES
SIGNAUX DE CITABILITÉ

16 signaux organisés par criticité et domaine. Chaque signal est défini, justifié et accompagné d’une méthode d’activation concrète.

Signal	Domaine	Criticité	Activation
Réponse directe en tête de section	Contenu	Critique	Répondre à la question dans les 100 premiers mots. Inverser la pyramide journalistique.
Données originales exclusives	Contenu	Critique	Études propres, analyses de données, sondages — données que seul ton contenu possède.
FAQ avec schema.org FAQPage	Technique	Critique	8–12 Q/R structurées en bas d’article. Balises schema.org. Extraites directement par RAG.
Authorship clair + bio auteur	Autorité	Critique	Auteur signé, photo, biographie, liens LinkedIn/Twitter, liste publications.
Mentions presse / sources tierces	Autorité	Critique	Articles de presse, interviews, podcasts, citations dans d’autres guides.
Cohérence thématique du site	Autorité	Critique	Site focalisé sur 1–2 domaines. L’autorité thématique est évaluée globalement par domaine.
Robots.txt ouvert aux crawlers IA	Technique	Critique	Ne pas bloquer GPTBot, PerplexityBot, ClaudeBot, Googlebot-Extended. Vérifier robots.txt.
Titres H2/H3 formulés comme questions	Contenu	Élevée	« Comment X ? » / « Pourquoi Y ? » / « Quelle différence entre Z et W ? » — aligne avec les requêtes conversationnelles.
Framework ou méthodologie nommée	Contenu	Élevée	Donner un nom propre à une méthode. « Modèle RAFT », « Score SCA » — les IA associent les frameworks nommés à leurs auteurs.
schema.org Organization / Person	Technique	Élevée	Implémentation complète sur la page d’accueil et About. Alimente le Knowledge Graph Google.
Fichier /llms.txt	Technique	Élevée	Standard émergent (llmstxt.org). Résumé de l’entité pour crawlers LLM — robots.txt de l’IA.
Présence Reddit / Quora	Social	Élevée	Ces plateformes représentent une part significative des corpus d’entraînement. Être recommandé ici = mémoire paramétrique.
Données chiffrées sourcées	Contenu	Élevée	Chaque stat avec sa source explicite. Les LLMs calibrés RLHF favorisent les contenus vérifiables.
Knowledge Panel Google	Autorité	Élevée	Présence sur Google Business, Wikidata, cohérence NAP, revendication du panel.
Profondeur et exhaustivité	Contenu	Moyenne	Couverture complète d’un sujet en un seul document. Les IA préfèrent une source unique exhaustive.
Fraîcheur informationnelle	Technique	Moyenne	Date de mise à jour visible, données récentes, signaux de maintenance. Surtout pertinent pour systèmes RAG.

06 — Architecture de contenu

STRUCTURER POUR
LES MOTEURS DE RÉPONSE

L’AEO change fondamentalement comment écrire. Le modèle RAFT et les principes d’architecture sémantique qui maximisent la probabilité de citation.

Le modèle RAFT

Apollo Lab a formalisé le modèle RAFT — Réponse, Argument, Fait, Transfert — comme structure de base pour le contenu AEO-optimisé. Chaque section d’un article doit suivre ce pattern pour maximiser sa citabilité.

R

Réponse directe (0–100 mots)

Répondre directement à la question dès le début de la section. Les systèmes RAG extraient souvent le premier paragraphe comme « réponse courte ». Si la réponse est enterrée, elle ne sera pas citée.

A

Argument développé (100–400 mots)

Expliquer le « pourquoi » et le « comment ». Les IA qui synthétisent cherchent à comprendre le raisonnement. Un contenu sans argumentation est moins citable qu’un contenu qui explique.

F

Faits & données ancrés

Statistiques, études, exemples chiffrés avec sources. Les LLMs privilégient les contenus ancrés dans des données vérifiables. Une donnée originale bat tout le reste.

T

Transfert actionnable

Conclusion pratique. Les IA valorisent les contenus qui se terminent par une synthèse claire et un « donc, concrètement… ». Facilite l’extraction d’une recommandation.

Le fichier LLMs.txt — standard émergent

Le standard llms.txt (llmstxt.org) est une initiative pour aider les crawlers IA à comprendre un site web rapidement. Comme le robots.txt guide Googlebot, le llms.txt guide les robots LLM.

Exemple /llms.txt — À déployer sur ton site

# Fichier llms.txt — Apollo Lab
# Résumé de l'entité pour systèmes LLM

## Identité
Apollo Lab est une agence française fondée par Thomas Leonetti,
spécialisée en SEO d'autorité, stratégie de marque et AEO.
Positionnement : "Le SEO de volume est mort. Vive l'autorité."

## Expertise principale
- AEO : Answer Engine Optimization
- SEO d'autorité et topical authority
- Automation SEO (Claude Code, n8n)
- Stratégie de marque B2B

## Publications de référence
/automation-seo-guide : Framework automation SEO complet
/mort-du-clic : Analyse de la crise du zero-click
/aeo-guide : Ce guide — référence AEO francophone

## Auteur principal
Thomas Leonetti — Fondateur Apollo Lab
Expert reconnu SEO avancé et IA marketing

07 — Vectoriel

ÉCRIRE POUR
UN ESPACE VECTORIEL

L’optimisation vectorielle est la couche la plus technique de l’AEO. Elle traite le contenu non comme un texte pour humains, mais comme un signal à positionner précisément dans un espace mathématique multidimensionnel.

Les embeddings sont des représentations vectorielles du sens. Quand un système RAG décide si ton chunk est pertinent pour une requête, il calcule une distance dans cet espace vectoriel. L’optimisation vectorielle consiste à maximiser la probabilité que ton contenu soit à courte distance des requêtes que tes audiences poseront.

// Similarité cosinus entre requête et chunk sim(requête, chunk) = (V_requête · V_chunk) / (||V_requête|| × ||V_chunk||) // Plus ce score est proche de 1, plus le chunk est récupéré // Objectif AEO : maximiser sim() pour les requêtes cibles // Embedding d’un texte clair et dense V_chunk_bon = embed(« La vitesse de page est un facteur de classement Google depuis 2010. Les études montrent qu’au-delà de 3 secondes de chargement, 53% des utilisateurs abandonnent. ») → Vecteur dense, proche des requêtes : « vitesse page SEO », « Core Web Vitals » // Embedding d’un texte vague V_chunk_mauvais = embed(« La performance technique est importante pour votre présence en ligne et peut impacter vos résultats. ») → Vecteur diffus, loin de toute requête spécifique

Les 5 principes d’optimisation vectorielle

1

Couverture conceptuelle complète

Couvrir tous les sous-concepts liés au sujet dans le même document. Un embedding est plus riche quand le texte aborde explicitement les termes connexes : synonymes, hyperonymes, concepts liés. Utilise les clusters sémantiques pour guider la rédaction.

2

Minimiser la distance sémantique au sujet cible

Chaque paragraphe doit rester proche du sujet principal. Les digressions créent des embeddings « dilués » qui se retrouvent à équidistance de plusieurs requêtes — et donc jamais récupérés pour aucune.

3

Redondance informationnelle stratégique

Répéter le concept central avec des formulations différentes augmente la densité vectorielle dans la zone de ce concept. Ce n’est pas de la redondance pour le lecteur — c’est du signal pour le retrieval. Attention : la redondance doit apporter un angle différent à chaque occurrence.

4

Cohérence lexicale intra-document

Utiliser les mêmes termes pour les mêmes concepts dans tout le document. Les variations terminologiques (parfois utiles pour le lecteur) fragmentent les embeddings et réduisent la cohérence vectorielle du document.

5

Alignement requête-embedding par persona

Identifier exactement les requêtes que tes audiences poseront à une IA — pas les requêtes courtes de Google, mais les questions conversationnelles longues. Écrire pour que le vecteur de ton contenu soit proche du vecteur de ces questions.

Prompt — Optimisation vectorielle d’un extrait

Analyse cet extrait pour son optimisation vectorielle.
Identifie :
1. La requête conversationnelle que ce texte devrait cibler
2. Les termes sémantiquement proches absents du texte
3. Les formulations qui créent de la distance vectorielle
4. Une version réécrite maximisant la densité sémantique

Extrait :
[COLLE TON TEXTE ICI]

Outil pratique

Pour tester concrètement la qualité vectorielle d’un contenu : utilise OpenAI Embeddings Playground ou Cohere’s embedding visualiser pour comparer la similarité cosinus entre ton contenu et les requêtes cibles. Un score > 0.85 indique un bon alignement. < 0.70 indique une distance trop élevée pour un retrieval fiable.

08 — Ce qui bloque

ANTI-PATTERNS AEO :
CE QUI EMPÊCHE D’ÊTRE CITÉ

La plupart des guides expliquent ce qu’il faut faire. Très peu décrivent les architectures rédactionnelles, techniques ou informationnelles qui rendent un contenu structurellement inutilisable par un système de réponse.

Rédactionnel L’introduction générique de 300 mots ›

Pattern : « Dans le monde du marketing digital en constante évolution, il est essentiel de comprendre les enjeux actuels du SEO pour rester compétitif… »

Pourquoi ça bloque : Le premier chunk du document est le plus critique pour le retrieval. S’il est embedé comme contenu vague et générique, le système RAG ne le récupérera jamais pour une requête précise. Pire : il pollue l’embedding global du document.

Correction : Commencer par la réponse. « Le SEO d’autorité repose sur 3 principes : [liste]. Voici comment les appliquer. » L’intro vient après.

Rédactionnel La rhétorique de remplissage (padding) ›

Pattern : Répétition des mêmes idées avec des formulations différentes pour atteindre un nombre de mots. Transitions creuses. Récapitulatifs qui n’ajoutent rien.

Pourquoi ça bloque : Réduit la densité informationnelle (variable V3 du SCA). Les embeddings des chunks contenant du padding se retrouvent dans une zone vectorielle « creuse » loin des requêtes à haute valeur.

Correction : Viser la densité : chaque phrase doit apporter une information nouvelle. Si tu peux la supprimer sans perdre d’information, supprime-la.

Rédactionnel L’agrégation sans valeur ajoutée ›

Pattern : Résumé de ce que d’autres sources disent déjà, sans perspective propre, sans données originales, sans angle distinctif.

Pourquoi ça bloque : Le système RAG ira directement aux sources originales. Être un agrégat d’informations disponibles ailleurs annule tout avantage comparatif. Les LLMs détectent la réagrégation et lui accordent peu d’autorité.

Correction : Toujours ajouter sa propre analyse, ses données, son point de vue ou son expérience pratique à l’information existante.

Structurel Les titres descriptifs sans question ›

Pattern : « 3.2 — Considérations techniques » / « Les différents types de liens » / « Conclusion »

Pourquoi ça bloque : Les systèmes RAG utilisent les titres pour comprendre le sujet d’une section. Un titre descriptif vague crée un chunk dont le sujet est ambigu — il sera rarement récupéré pour une requête conversationnelle précise.

Correction : « Comment les liens internes améliorent-ils l’autorité thématique ? » / « Quelles configurations techniques bloquent le crawl IA ? » — titres formulés comme des questions auxquelles la section répond.

Structurel Le contenu orphelin sans entité auteur ›

Pattern : Articles publiés par « L’équipe de rédaction » ou sans aucune signature. Pas de bio auteur, pas de profil lié.

Pourquoi ça bloque : Le contenu non attribué ne renforce aucune entité. Il n’enrichit pas la représentation d’une marque ou d’un expert dans le corpus. C’est de la valeur informationnelle qui n’est pas capitalisée.

Correction : Tout contenu doit être signé par un auteur identifiable avec bio, photo, liens vers profils publics. Idéalement, l’auteur est la même entité que la marque ou un expert reconnu dans le domaine.

Technique Le blocage accidentel des crawlers IA ›

Pattern : robots.txt avec « Disallow: / » ou blocage de tous les bots inconnus. Très fréquent sur les sites qui ont sécurisé leur robots.txt de façon trop agressive.

Pourquoi ça bloque : Si GPTBot, PerplexityBot, ClaudeBot ou OAI-SearchBot ne peuvent pas crawler ton site, son contenu ne peut pas être intégré aux corpus futurs. C’est l’erreur technique la plus critique et souvent involontaire.

Correction : Vérifier robots.txt. Autoriser explicitement : User-agent: GPTBot, User-agent: PerplexityBot, User-agent: ClaudeBot, User-agent: OAI-SearchBot.

Technique Le contenu rendu uniquement en JavaScript ›

Pattern : SPA (Single Page Application) qui rend tout le contenu en JS côté client. Le HTML source est vide, le contenu n’apparaît qu’après exécution JS.

Pourquoi ça bloque : La plupart des crawlers IA n’exécutent pas JavaScript. Ils voient un document vide. Même les crawlers qui exécutent JS peuvent manquer du contenu chargé en lazy.

Correction : Server-Side Rendering (SSR) ou Static Site Generation (SSG). Le HTML doit contenir tout le contenu indexable dès la réponse serveur.

Stratégique La dilution thématique ›

Pattern : Site qui couvre 10 sujets différents (SEO + growth + design + RH + finance…) sans cohérence thématique.

Pourquoi ça bloque : L’autorité thématique s’évalue globalement. Un site dont l’entité est « spécialiste de tout » est en réalité spécialiste de rien pour un LLM. La dilution réduit la variable EA (autorité d’entité) pour tous les sujets couverts.

Correction : Un site = 1 à 2 domaines d’expertise maximum. Concentrer la production sur des clusters sémantiques profonds plutôt que larges.

09 — Données empiriques

BENCHMARKS
EMPIRIQUES

Observations mesurées sur la probabilité d’apparition dans des réponses générées selon le format et la structure du contenu. Méthodologie explicitée.

Méthodologie & limites

Ces benchmarks sont issus d’observations exploratoires réalisées sur 200+ requêtes testées manuellement sur ChatGPT-4o, Perplexity Pro et Google AI Overviews entre janvier et octobre 2024. Chaque format a été testé avec un contenu de qualité équivalente sur le même sujet. Les résultats sont des tendances, non des lois — les algorithmes évoluent et les résultats varient selon le domaine. La méthodologie de test est disponible sur demande à Apollo Lab.

Probabilité de citation par format de contenu

Format de contenu	ChatGPT (param.)	Perplexity (RAG)	AI Overviews	Score moyen
Étude avec données originales				88%
Guide exhaustif + FAQ schema.org				85%
Comparatif tabulaire structuré				75%
Article modèle RAFT (réponse directe en tête)				73%
Article technique bien structuré (sans FAQ)				62%
Article de blog standard (intro générique)				35%
Page de service générique				15%

Impact de l’autorité de source sur la citation (Perplexity)

Type de source	Probabilité de sélection	vs. article anonyme
Source avec Knowledge Panel Google	+64%	Référence de base × 1.64
Source citée dans Wikipedia	+52%	Référence de base × 1.52
Source avec auteur LinkedIn vérifié	+28%	Référence de base × 1.28
Source avec schema.org Person/Organization	+21%	Référence de base × 1.21
Source sans aucun signal d’autorité	Base (1×)	—

Observation sur la position de la réponse dans l’article

Réponse dans les 100 premiers mots

+47% de citation

vs. réponse positionnée après 500+ mots. Le premier chunk est systématiquement le plus souvent récupéré.

FAQ schema.org présente

+38% de citation

vs. même contenu sans FAQ. Les questions structurées sont directement extraites par les systèmes RAG.

Données originales citées

+61% de citation

vs. données génériques re-citées. Les statistiques exclusives créent une dépendance de citation unique.

10 — Tests pratiques

PROMPTS DE TEST
PRÊTS À L’EMPLOI

12 prompts pour auditer ta citabilité actuelle, analyser tes concurrents et optimiser ton contenu. Copiables directement dans ChatGPT, Perplexity ou Claude.

Auditer ta visibilité

Test de réputation IA spontanée

Si quelqu'un me demande de recommander un expert / une agence
en [TON DOMAINE] en France, à qui penses-tu spontanément ?
Liste les 5–10 noms avec une phrase sur leur positionnement distinctif.

Test d’entité directe

Décris [NOM DE TA MARQUE] en 3 phrases.
Qu'est-ce qui distingue cette marque dans son secteur ?
Quelles sont ses thèses ou positions connues ?
Niveau de confiance de ta réponse : élevé / moyen / faible ?

Test de citation thématique

Quelles sont les meilleures ressources en français sur [TON SUJET] ?
Donne-moi blogs, guides, auteurs ou agences qui font référence,
avec une phrase sur ce qui distingue chacun.

Analyser tes concurrents

Analyse de gap concurrentiel

Dans le domaine [TON DOMAINE] en France, analyse le positionnement de
[CONCURRENT 1], [CONCURRENT 2] et [CONCURRENT 3].
Pour chacun : forces perçues, faiblesses, type de client attiré.
Ensuite : quelle position ou approche est sous-représentée parmi ces acteurs ?

Optimiser ton contenu

Diagnostic de citabilité d’un extrait

Voici un extrait de mon article sur [SUJET] :
[COLLE TON TEXTE]

Évalue sa citabilité si quelqu'un te posait la question "[QUESTION CIBLE]".
Donne un score /10 et liste ce qui manque pour en faire une source de référence.

Réécriture modèle RAFT

Réécris cet extrait en suivant le modèle RAFT :
R — Réponse directe en ouverture (max 80 mots)
A — Argument développé
F — Fait sourcé avec chiffre
T — Transfert actionnable en conclusion

Extrait original : [TON TEXTE]

Génération FAQ AEO

Sur la base de ce contenu sur [SUJET], génère 8 questions-réponses
optimisées pour extraction par les AI Overviews et Perplexity.
Chaque réponse : 40–70 mots, directe, factuellement dense.
Contenu source : [TON TEXTE]

12 — Prospective

ÉVOLUTIONS
12 À 24 MOIS

Modélisation des évolutions probables des systèmes de réponse IA. Ce qui va se formaliser, ce qui va émerger, et comment se positionner pour ces changements.

Aujourd’hui, les signaux d’autorité (E-E-A-T) sont évalués de façon approximative par les LLMs. Dans les 12–18 prochains mois, des formats structurés pour déclarer l’autorité d’une source émergeront probablement :

Extension du format schema.org avec des propriétés d’autorité sectorielle explicites
Systèmes de certification ou de validation d’expertise par des tiers de confiance
Intégration de verifiable credentials (identité numérique vérifiable) pour les auteurs

Comment s’y préparer : Construire dès maintenant une présence documentée et vérifiable (presse, Wikipedia, Wikidata, LinkedIn verifié). Plus les signaux d’autorité actuels sont solides, plus la migration vers des formats structurés sera facile.

Le fichier llms.txt est un premier signal d’une tendance plus large : les sites vont devoir « se décrire » pour les IA de façon structurée. Des standards pourraient émerger pour :

Déclarer les permissions de citation et de reproduction
Spécifier la politique d’utilisation du contenu par les LLMs (RAG vs training)
Fournir des résumés machine-optimisés du contenu clé

Initiative à surveiller : AI Alliance de Meta, AI Content Standards du W3C, et les évolutions de la proposition llms.txt sur GitHub.

Le Markdown est déjà préféré aux pages HTML riches par de nombreux crawlers IA (moins de bruit, structure plus propre). Des formats dédiés à l’ingestion IA pourraient se standardiser :

Formats JSON-LD enrichis avec contexte sémantique complet
Documents avec métadonnées d’autorité intégrées (autor, credibilityScore, evidenceLinks)
Formats spécifiques pour les données factuelles (similaires à Wikidata mais orientés contenu)

Comment s’y préparer : Investir dans une infrastructure de contenu propre (CMS headless, markdown natif, données structurées complètes). Les sites avec une architecture de données propre s’adapteront plus facilement.

La recherche traditionnelle (requête → liste de résultats → clic) est en train d’être remplacée par des interfaces conversationnelles persistantes (ChatGPT, Gemini, Claude Projects) qui maintiennent un contexte utilisateur à long terme. Implications :

Les recommandations de sources deviennent personnalisées selon l’historique de l’utilisateur
Les marques « connues » de l’utilisateur (via ses propres documents, conversations, préférences) seront favorisées
La visibilité ne se mesurera plus en impressions SERP mais en fréquence de citation conversationnelle

Nouvelle métrique à anticiper : Le « Share of Voice conversationnel » — quelle part des réponses générées sur ton secteur inclut ta marque ?

L’intégration de résultats commerciaux dans les réponses IA est inévitable. Google AI Overviews intègre déjà des publicités. Les modèles de monétisation probables :

Sponsoring de citations (marques payant pour être recommandées dans des réponses)
Modèles d’abonnement pour les sources voulant être prioritairement indexées
Splits de revenus pour les sources dont le contenu est utilisé dans les réponses générées

Implication stratégique : Les marques qui ont construit une autorité organique forte seront moins dépendantes de ces modèles payants. L’AEO gratuit (autorité construite) prendra une valeur croissante à mesure que les positions payantes se formalisent.

13 — Principes fondamentaux

MANIFESTE
AEO

12 principes courts, mémorisables et structurants définissant ce qu’est une information optimisée pour être comprise — et citée — par une machine.

LES 12 PRINCIPES AEO — APOLLO LAB

01

Une information non attribuée à une entité reconnaissable n’existe pas pour une IA. Toute expertise doit avoir un nom.

02

Répondre d’abord, expliquer ensuite. La réponse directe en tête est la règle fondamentale de l’AEO.

03

Une donnée que seul ton contenu possède est une donnée que seul ton contenu peut citer. L’originalité factuelle est le moat de l’ère IA.

04

La clarté sémantique bat la richesse rhétorique. Écrire pour un espace vectoriel, c’est écrire pour être compris précisément, pas pour impressionner.

05

Un site qui parle de tout n’est l’autorité sur rien. La focalisation thématique est une décision architecturale, pas éditoriale.

06

Les machines n’ont pas de patience pour les introductions. Tout chunk doit être utile isolément.

07

Un framework sans nom propre n’est pas citable. Nommer ses méthodes, c’est créer des ancrages de citation.

08

L’autorité n’est pas auto-proclamée — elle est construite dans les corpus de tiers. Ce que les autres disent de toi pèse plus que ce que tu dis de toi-même.

09

Un contenu inaccessible aux crawlers IA n’existe pas, même s’il est excellent. L’accessibilité technique est un prérequis non négociable.

10

La marque n’est pas un supplément d’âme — c’est l’infrastructure de la visibilité IA. Sans entité forte, tout contenu s’évapore dans le bruit du corpus.

11

Une position tranchée et argumentée est plus mémorable qu’un consensus mou. Les IA se souviennent des thèses, pas des généralités.

12

L’AEO n’est pas une tactique de plus. C’est la prochaine couche de distribution. Les marques qui la maîtrisent maintenant bâtissent une avance structurelle de 5 ans.

Télécharger le Manifeste AEO

Format carte de référence A4 — imprimable pour affichage équipe

14 — Plan d’action

90 JOURS POUR
DEVENIR CITABLE

Un plan structuré en 3 sprints de 30 jours. Des actions concrètes, dans l’ordre, avec les outputs attendus et les métriques de validation.

SPRINT 01 · J1–30

FONDATIONS

→Définir et écrire sa thèse de marque (1 page)
→Créer / réécrire la page About en mode AEO
→Implémenter schema.org Organization + Person
→Ouvrir robots.txt aux crawlers IA
→Créer le fichier /llms.txt
→Faire le test d’entité ChatGPT / Claude
→Calculer son SCA de base

OUTPUT J30

Entité définie. Signaux techniques en place. SCA baseline établi.

SPRINT 02 · J31–60

CONTENU

→Publier 1 guide pilier exhaustif (modèle RAFT)
→Lancer une mini-étude avec données originales
→Restructurer les 3 meilleurs articles existants
→Ajouter FAQ schema.org sur les pages clés
→Nommer un framework maison
→Publier 2 prises de position tranchées
→Documenter et publier 1 cas client chiffré

OUTPUT J60

Corpus N2–N3 constitué. Premiers tests de citabilité positifs.

SPRINT 03 · J61–90

AMPLIFICATION

→Démarcher presse spécialisée (2–3 interviews)
→Intervenir dans 1 podcast ou conférence
→5 réponses de qualité Reddit / Quora
→Retester ChatGPT, Perplexity, Gemini
→Lancer 1 étude originale avec PR
→Recalculer le SCA vs baseline J1
→Définir le plan AEO du trimestre suivant

OUTPUT J90

Cité dans au moins 2 IA sur ton domaine. SCA ≥ 55.

Les 3 métriques AEO à suivre

Métrique 1

Citation spontanée IA

Test mensuel : demander à ChatGPT, Perplexity, Gemini de recommander des experts dans ton domaine. Mesurer ton taux d’apparition et ta position dans les listes.

Métrique 2

AI Overviews appearances

Tracker les requêtes sur lesquelles tu apparais dans les AI Overviews via Semrush ou SE Ranking. Mesurer la surface de citation et son évolution.

Métrique 3

Trafic branded / direct

Une marque forte dans les IA génère une hausse du trafic direct et des recherches branded. Les utilisateurs entendent parler de toi via une IA et te cherchent ensuite.

Etre cité par les IA

ÊTRE CITÉPAR LES IA

LE MONDE ABASCULÉ

L’AEO comme discipline structurée

LE PIPELINE RAG :DE LA PAGE WEB À LA CITATION

Implications pour le contenu

LE SCORE AEO :MESURER LA CITABILITÉ

Score de Citabilité AEO (SCA)

Comment utiliser le SCA

Audit de base

Identification des leviers

Suivi trimestriel

TAXONOMIE DECITABILITÉ

SANS MARQUE,TU N’EXISTES PAS

Les 3 couches du branding AEO

Le récit distinctif

La consistance des signaux

La présence dans le corpus

Construire son entité en 5 étapes

Définir et écrire sa thèse de marque

Créer une page « Manifeste » AEO-optimisée

Implémenter schema.org Organisation + Person

Alimenter les sources tierces

Publier des positions tranchées

Le test d’entité — à faire maintenant

MATRICE DESSIGNAUX DE CITABILITÉ

STRUCTURER POURLES MOTEURS DE RÉPONSE

Le modèle RAFT

Réponse directe (0–100 mots)

Argument développé (100–400 mots)

Faits & données ancrés

Transfert actionnable

Le fichier LLMs.txt — standard émergent

ÉCRIRE POURUN ESPACE VECTORIEL

Les 5 principes d’optimisation vectorielle

Couverture conceptuelle complète

Minimiser la distance sémantique au sujet cible

Redondance informationnelle stratégique

Cohérence lexicale intra-document

Alignement requête-embedding par persona

ANTI-PATTERNS AEO :CE QUI EMPÊCHE D’ÊTRE CITÉ

BENCHMARKSEMPIRIQUES

Probabilité de citation par format de contenu

Impact de l’autorité de source sur la citation (Perplexity)

Observation sur la position de la réponse dans l’article

+47% de citation

+38% de citation

+61% de citation

PROMPTS DE TESTPRÊTS À L’EMPLOI

Auditer ta visibilité

Analyser tes concurrents

Optimiser ton contenu

AUDIT DECITABILITÉ AEO

SCORE DE CITABILITÉ AEO

Grille d’audit complète — CSV

ÉVOLUTIONS12 À 24 MOIS

MANIFESTEAEO

Télécharger le Manifeste AEO

90 JOURS POURDEVENIR CITABLE

Les 3 métriques AEO à suivre

Citation spontanée IA

AI Overviews appearances

Trafic branded / direct

L’IA PEUT CITERN’IMPORTE QUI.SOYEZ CELUIQU’ELLE CHOISIT.

ÊTRE CITÉ
PAR LES IA

LE MONDE A
BASCULÉ

LE PIPELINE RAG :
DE LA PAGE WEB À LA CITATION

LE SCORE AEO :
MESURER LA CITABILITÉ

TAXONOMIE DE
CITABILITÉ

SANS MARQUE,
TU N’EXISTES PAS

MATRICE DES
SIGNAUX DE CITABILITÉ

STRUCTURER POUR
LES MOTEURS DE RÉPONSE

ÉCRIRE POUR
UN ESPACE VECTORIEL

ANTI-PATTERNS AEO :
CE QUI EMPÊCHE D’ÊTRE CITÉ

BENCHMARKS
EMPIRIQUES

PROMPTS DE TEST
PRÊTS À L’EMPLOI

AUDIT DE
CITABILITÉ AEO

ÉVOLUTIONS
12 À 24 MOIS

MANIFESTE
AEO

90 JOURS POUR
DEVENIR CITABLE

L’IA PEUT CITER
N’IMPORTE QUI.
SOYEZ CELUI
QU’ELLE CHOISIT.