Formation référencement naturel – Devenir premier sur Google

Partager sur facebook
Partager sur twitter
Partager sur pinterest

Référencement technique

Dans un monde idéal, les moteurs de recherche seraient en mesure de trouver et de comprendre tout le contenu n’importe où sur le Web et de renvoyer des résultats pertinents pour votre recherche, indépendamment des considérations techniques. Le web est une plate-forme technique, cependant, et il existe des façons correctes et incorrectes de construire des sites Web. Certains types de problèmes peuvent rendre votre site Web invisible aux moteurs de recherche, ce qui le rend moins susceptible de bien se classer et offre une expérience utilisateur exceptionnelle.

Alors que certains de ces problèmes sont causés par des erreurs ou des erreurs qui devraient clairement être évitées, d’autres découlent simplement du choix de certaines façons de présenter un contenu qui ne serait pas nécessairement “incorrect” dans un sens strict du développement web.

Afin d’être un SEO efficace, il est essentiel que vous compreniez comment les moteurs de recherche découvrent, comprennent et classent les pages web d’un point de vue technique. Cela vous aidera à diagnostiquer les problèmes inévitables, à améliorer les sites Web existants et à spécifier des reconfigurations à haute performance ou des constructions fraîches.
Dans cette leçon, nous couvrirons:
Rampant
Sitemaps XML
Indexage
Obstacles à l’exploration et à l’indexation
JavaScript
Flash
Cadres
Biscuits
Emulation de Googlebot
Autres types de contenu
Images
PDFs
Documents Microsoft Office
Vérification de l’indexation
Contrôler les robots de recherche
Choisir un type de directive
Implémentation – Robots.txt
Implémentation – Meta Robots

Rampant
Les moteurs de recherche trouvent du contenu en envoyant des robots (communément appelés «bots», «araignées» ou «crawlers») à une page Web où ils suivent des liens sur cette page vers d’autres éléments de contenu. Ces liens sont à la fois internes et externes, de sorte que le contenu découvert sera sur le site Web initial et les sites Web auxquels il renvoie.

En tant que tel, il est vraiment important de mettre en œuvre un bon lien interne pour s’assurer que les moteurs de recherche sont en mesure de découvrir tout le contenu de votre site Web. Les robots continuent à suivre les liens sur chaque page suivante pour découvrir de plus en plus de contenu. Cette action consistant à suivre les liens pour découvrir de nouveaux contenus sur le Web est appelée “exploration”.

Sitemaps XML
Les moteurs de recherche peuvent également découvrir du contenu via des sitemaps XML, qui sont des listes d’URL. Les moteurs de recherche accéderont au fichier de sitemap XML d’un site, puis exploreront ces pages pour découvrir de nouveaux contenus.

Alors que les sitemaps XML aident les moteurs de recherche à découvrir votre contenu, ils n’aident pas les pages à mieux se classer. Ils existent simplement pour faciliter la découverte de contenu.

Il est important de s’assurer que l’existence de sitemaps XML n’excuse pas une architecture de site médiocre. Les sitemaps XML ne devraient jamais être la seule stratégie pour obtenir du contenu découvert.

Indexage
Lorsque les robots explorent une page, ils “lisent” le contenu de la page et l’associent à une URL. Cette information est ensuite placée dans l’index de Google (base de données de contenu et URL) et devient accessible via la recherche. Ce processus s’appelle l’indexation.

Lorsque Google indexe une page, c’est un peu comme ouvrir un livre ou un magazine, photocopier un article, puis le placer dans un classeur dans un classeur où vous pourrez le retrouver.

L’exploration et l’indexation sont des processus qui dépendent les uns des autres et vont de pair. Ils sont souvent utilisés de manière interchangeable.

Obstacles à l’exploration et à l’indexation
Les moteurs de recherche peuvent rencontrer des obstacles les empêchant d’indexer le contenu. En bref, tout le contenu doit être en HTML pour que les moteurs de recherche puissent y accéder et l’indexer.

JavaScript
Les moteurs de recherche ont toujours été incapables d’exécuter JavaScript. Cela signifie que si le contenu est contenu dans JavaScript, il sera invisible pour les moteurs de recherche. De même, les liens créés en JavaScript ne peuvent pas être vus par Google. Cela signifie que si votre navigation principale dépend de JavaScript, l’intégralité de votre architecture de site est invisible pour les moteurs de recherche.

Google a apporté des améliorations pour être capable d’explorer JavaScript, mais n’est pas capable de le faire universellement ou bien. Actuellement, si vous implémentez la fonction JavaScript window.history.pushState () (qui fait partie de l’API HTML5 History), vous pourrez créer un site AJAX explorable. pushState () accomplit ceci en changeant le chemin de l’URL qui apparaît dans la barre d’adresse de l’utilisateur. Cela permet aux moteurs de recherche d’exécuter des liens et de lire du contenu codé en JavaScript.

Alors que Google fait des progrès pour mieux exécuter JavaScript et qu’il sera probablement un jour capable de le faire, vous ne devriez pas compter sur cela; vous devez vous assurer que votre contenu est accessible via HTML.

Flash
Google a annoncé qu’il est en mesure de “mieux” indexer le contenu Flash dans le contenu .swf. Cela dit, Google est à peu près incapable d’indexer le contenu contenu dans Flash. Lorsque Google est en mesure de voir le contenu Flash, il est très difficile d’associer des parties spécifiques du contenu au bon endroit du fichier. C’est parce que Flash est fluide, comme un film. Google n’a pas d’URL spécifique à associer au contenu. Donc, si Google est capable de lire du contenu dans un fichier Flash, il sera incapable d’envoyer les utilisateurs à un emplacement utile.

Pour ces raisons, Flash devrait être largement évité. Cela dit, Flash peut ajouter beaucoup de valeur à un site Web, mais il devrait être utilisé avec parcimonie. Faire un site Web en utilisant Flash peut être comparé à la cuisson avec de l’ail: cela peut rendre votre repas beaucoup meilleur s’il est utilisé avec parcimonie, mais vous ne voudrez jamais manger un repas entièrement composé d’ail. De même, Flash peut être implémenté d’une manière qui ajoute vraiment à l’expérience utilisateur d’un site Web, mais vous ne devriez jamais créer un site entièrement dans Flash (ou une partie significative).

Avec l’avènement et le soutien croissant de HTML5, il y a de moins en moins de raisons d’utiliser Flash car HTML5 peut accomplir tout ce que vous voulez faire avec Flash.

Cadres
Si votre page contient un élément <frame> ou <iframe>, les moteurs de recherche ne considéreront rien dans cette image comme faisant partie de cette page d’hébergement. Par exemple, si your-site.com/hunting-knives.html utilise un iframe pour afficher du contenu trouvé sur other-site.com/hunting-knives.html, les moteurs de recherche ne créditeront pas votre-site.com de l’un des éléments suivants: le les mots-clés et les signaux de pertinence du contexte qu’il aurait sinon assignés à ce contenu encadré s’il se trouvait sur la page /hunting-knives.html elle-même.

Biscuits
Un cookie est un petit fichier de données qui peut être stocké dans votre navigateur Internet. Assez souvent, vous entendrez ce que l’on appelle «laisser tomber les cookies». Ils ont plusieurs objectifs et sont souvent utilisés pour suivre les utilisateurs lorsqu’ils se déplacent sur Internet et interagissent avec des sites Web. Par exemple, un cookie peut être utilisé par un site Web pour vous «souvenir» afin qu’il puisse reconnaître si vous êtes un nouveau visiteur ou un visiteur de retour.

Les cookies peuvent également être utilisés pour changer la façon dont un site Web est affiché pour vous. Par exemple, si vous êtes sur un site de commerce électronique que vous changez la devise par défaut, un cookie sera souvent déposé sur votre navigateur Internet de sorte que lorsque vous reviendrez sur ce site Web, le site affichera les prix dans la devise précédemment sélectionnée. Contrairement à vous d’avoir à le sélectionner à nouveau ce qui peut être ennuyeux.

Le fait qu’un cookie puisse modifier l’affichage d’un site Web peut entraîner des problèmes d’exploration, car les moteurs de recherche ne peuvent généralement pas accepter les cookies provenant de sites Web. Donc, en utilisant l’exemple ci-dessus, il n’est pas possible pour un robot d’exploration de voir qu’un site Web offre des prix dans plusieurs devises, il ne verra que la devise par défaut.

Pour cette raison, il est conseillé de rendre le contenu disponible sans devoir utiliser de cookies, permettant ainsi à un moteur de recherche d’explorer ce contenu.

Emulation de Googlebot
Si vous n’êtes pas sûr de la façon dont Google interagit avec le contenu de votre site, vous pouvez émuler Googlebot pour afficher votre site Web comme le ferait Googlebot. Vous pouvez le faire en procédant comme suit:

Définissez votre user-agent sur Googlebot – vous pouvez le faire dans FireFox en installant le plugin UserAgent Switcher et en sélectionnant Googlebot comme agent utilisateur, ou en utilisant la fonctionnalité ‘émuler’ dans les outils de développement dans Chrome.
Désactiver JavaScript – vous pouvez le faire dans FireFox en installant la barre d’outils Web Developer puis en cliquant sur disable> JavaScript> All JavaScript. Dans Chrome, vous devez ouvrir les outils de développement, puis cliquer sur “cog” pour ouvrir les paramètres dans lesquels vous trouverez une case à cocher “Désactiver JavaScript”.
La navigation en tant que Googlebot avec JavaScript désactivé devrait vous montrer assez rapidement si votre contenu ou vos liens sont inaccessibles à Googlebot. En outre, vous devriez être en mesure de dire si un site cache du contenu – montrant un contenu différent de Googlebot qu’il ne montre aux utilisateurs.

Cependant, il s’agit d’une approche limitée – elle ne vous montrera pas s’il y a une dissimulation de propriété intellectuelle.

Si vous souhaitez être sûr que Googlebot puisse accéder à votre site comme vous le souhaitez, utilisez l’outil “Récupérer en tant que Googlebot” dans Google Webmaster Tools.

Autres types de contenu
Les moteurs de recherche sont bons pour explorer et indexer le contenu HTML, mais ont du mal avec de nombreux autres formats de fichiers.

Images
Les moteurs de recherche sont capables de détecter les images mais sont incapables de discerner le contenu contenu dans l’image. Pour aider les moteurs de recherche à comprendre le contenu, ils consultent:

image alt tag et le titre
texte entourant l’image
liens pointant vers l’image
Ainsi, vous voulez vous assurer que toutes vos images ont les informations appropriées (alt tags / titres) et sont entourées de texte approprié.

PDFs
Les documents PDF peuvent être explorés et indexés par les moteurs de recherche. L’envoi de chercheurs vers des documents PDF n’est pas toujours la meilleure option, car vous ne pouvez pas engager l’utilisateur en dehors du contenu de PDF. Cela signifie que vous ne pouvez pas proposer d’incitation à l’action ou faciliter la navigation vers d’autres parties de votre site Web.

Il y a deux solutions. Le premier est d’empêcher les moteurs de recherche d’accéder à ce contenu afin qu’ils n’envoient pas d’utilisateurs. Cela peut être fait en plaçant des fichiers PDF dans un dossier (comme / assets /), puis en bloquant l’accès des robots à ce fichier via le fichier robots.txt (ceci est couvert plus en profondeur dans une leçon suivante).

L’inconvénient de cette tactique est que tout lien associé à ces fichiers PDF sera “orphelin”, ou perdu, car Google ne peut pas accéder à ces fichiers.

La meilleure solution consiste à implémenter la version HTTP de la balise canonique (pointant vers une version HTML du contenu), ce qui permettra aux utilisateurs d’accéder au contenu et de transmettre l’équité du lien à la version HTML.

Remarque: La version HTTP de la balise canonique est uniquement prise en charge par Google.

Documents Microsoft Office
Tout comme les fichiers PDF, les moteurs de recherche peuvent accéder au contenu des fichiers Microsoft Office et les indexer, mais cela présente une expérience utilisateur négative. Cela devrait être combattu en bloquant le contenu avec un fichier robots.txt ou en implémentant la balise canonique HTTP, comme décrit dans la version PDF.

Vérification de l’indexation
Il est important de vérifier les niveaux d’indexation, car c’est un moyen d’évaluer l’efficacité de vos efforts pour indexer votre contenu.

Il existe différentes façons d’évaluer ou de vérifier l’indexation. Utiliser le site: la recherche (par exemple, entrer le site: distilled.net comme requête de recherche) a longtemps été une méthode de vérification de l’indexation. Alors que cela vous permet de vérifier rapidement les niveaux d’indexation d’un site, les données rapportées sont souvent inexactes et n’incluent que des détails limités.

Par exemple, si vous avez indexé 55 851 pages, une recherche de site fournit des détails limités en signalant 55 800 pages. En outre, vous pouvez obtenir 55 800 la première fois que vous exécutez cette requête et relancez immédiatement votre requête pour trouver un nombre significativement différent. Ou vous pouvez paginer à travers les résultats seulement pour trouver le nombre de résultats décroissants.

Le moyen le plus précis de vérifier votre indexation consiste à envoyer un sitemap XML dans Google Webmaster Tools. Dans la section sitemaps, Google vous dira exactement combien de pages sont indexées, tout comme Bing. Il y a deux inconvénients à cette tactique:

Vous ne pouvez pas faire d’analyse concurrentielle
Vous ne pouvez pas voir spécifiquement quelles pages sont indexées, seulement le nombre de pages indexées
Pour avoir une idée du nombre de pages indexées et de celles qui sont indexées, c’est-à-dire celles que Google considère comme utiles, accédez à Google Analytics et affichez les principales pages de destination. Configurez-le pour afficher uniquement le trafic de recherche naturelle de Google. Cela vous montrera le nombre de pages vers lesquelles Google envoie du trafic. ou plutôt les pages que Google considère comme précieuses.

Contrôler les robots de recherche
Alors que les robots de recherche agissent en fonction de leur logique programmée, leurs actions peuvent être contrôlées par des directives de robot. Il y a trois manières différentes de le faire:

Robots.txt – un fichier dans le répertoire racine qui indique aux moteurs de recherche ce qu’ils ne sont pas autorisés à explorer
Meta Robots – placé dans la section <head> d’un site Web et contrôle la façon dont les bots interagissent avec le contenu et affichent les résultats de la recherche
X Robots – placés dans les en-têtes HTTP et contrôlant la façon dont les bots interagissent avec le contenu et comment ils affichent les résultats de la recherche
Les robots robots.txt et meta sont les moyens les plus courants de contrôler les robots, car ces conseils de mise en œuvre seront centrés sur ceux-ci. Vous trouverez ci-dessous un tableau présentant les avantages et les pièges de chaque méthode.

Robots.txt

Meta Robots

X Robots

Empêcher l’exploration

Oui

Non

Non

Empêcher l’indexation

Oui

Oui

Oui

Empêcher l’affichage de l’URL dans l’index

Non

Oui

Oui

Supprimer le contenu de l’index

Non

Oui

Oui

Facilement mettre en œuvre sur des pages spécifiques

Non

Oui

Oui

Choisir un type de directive
Robots.txt – Cela doit être utilisé lorsque vous voulez empêcher l’exploration d’une page. La plupart du temps, cela permet de garder les pages hors de l’index, mais ne supprime pas une page de l’index. C’est vraiment bon pour bloquer tout le contenu d’une catégorie (comme un dossier d’actifs), bien qu’il puisse également être utilisé au niveau de la page.

La directive robots.txt est la meilleure pour bloquer les robots à partir de fichiers non-HTML comme des images, des PDF, des documents Word, etc.

Meta Robots – Ceci est bon pour garder certaines pages hors de l’index ou les supprimer complètement de l’index, mais n’est pas aussi facile que le fichier robots.txt à appliquer en échelle. La balise meta robots est mieux utilisée dans les cas où vous souhaitez empêcher l’affichage de pages spécifiques dans les résultats de recherche, tout en suivant les liens sur la page (noindex, commande follow).

X Robots – Cela devrait être utilisé dans des situations similaires à la balise meta robots, mais vous n’êtes pas en mesure d’accéder au code source (mais vous pouvez toujours apporter des modifications à l’en-tête HTTP).

Implémentation – Robots.txt
Le fichier robots.txt est un fichier texte placé dans le répertoire racine d’un site Web ou d’un sous-domaine et doit être nommé “robots.txt”.

Lorsque vous créez un fichier robots.txt, commencez par indiquer à quels robots ces directives s’appliqueront. Google (Googlebot) et tous les robots (*) sont les entrées les plus courantes.

Après avoir indiqué à qui les directives sont destinées, dites aux robots ce qu’ils ne sont pas autorisés à explorer. Ceci est fait en listant tous les dossiers qui ne devraient pas être explorés.

De plus, vous devez spécifier l’emplacement de votre sitemap XML dans votre fichier robots.txt afin que les moteurs de recherche puissent facilement le trouver.

Voici un exemple de fichier robots.txt.

agent utilisateur: *

Disallow: /register.html
Disallow: / assets /
Disallow: / catégorie /

Plan du site: http://www.johnsgokarts.com/sitemap.xml

Implémentation – Meta Robots
La balise meta robots est implémentée simplement en insérant une ligne de code dans la section <head> d’une page Web. Voici un exemple d’une directive sur les méta-robots.

<meta name = “robots” content = “COMMANDE”>
Voici une liste de commandes qui peuvent être combinées et insérées dans l’exemple ci-dessus et mises sur votre page.

index – Cette page devrait être dans l’index; cette commande est implicite et n’a pas besoin d’être déclarée
noindex – Ne placez pas cette page dans l’index, ou supprimez cette page de l’index
suivez – Suivez tous les liens sur cette page; ceci est implicite et n’a pas besoin d’être déclaré
nofollow – Ne suivez aucun des liens de cette page
noarchive – Les moteurs de recherche ne doivent pas afficher une version mise en cache de la page dans les résultats de recherche
nosnippet – Les moteurs de recherche ne doivent pas afficher un extrait de la page dans les résultats de recherche ni une version mise en cache de la page dans les résultats de recherche
noodp – Ne pas utiliser le titre et la description de la liste du répertoire ODP d’un site dans les résultats de recherche
Voici un exemple d’une commande meta robots.

<meta name = “robots” content = “noindex, suivez”>
Les commandes ci-dessus
peut également être utilisé comme directive x robots.

Actions de la leçon:
En utilisant la requête site: domain.com, recherchez toutes les pages indexées d’un domaine spécifique.
Émuler googlebot dans Firefox et afficher un site Web Flash. Que voyez-vous (ou ne voyez-vous pas)?
Trouver un site avec une balise meta robots qui comprend les deux commandes noindex et nofollow.
Dans cette leçon, nous couvrirons:
Les codes d’état les plus courants
Comment trouver le code d’état d’une page
Ressources
Les codes de statut peuvent être considérés comme un signe «Ouvert» ou «Fermé» des pages aux robots de recherche. Lorsque Googlebot, Bingbot ou les autres moteurs de recherche accèdent à une page de votre site Web, les informations d’en-tête du serveur leur sont servies. Dans cette information est le code d’état, qui indique au robot d’exploration de continuer ou non, et aussi comment traiter le contenu sur la page.

Le code d’état erroné peut envoyer un mauvais signal à un moteur de recherche et affecter négativement la possibilité d’exploration et la classabilité d’une page de site Web.

Les codes d’état les plus courants
Les codes d’état les plus courants sont:

200. Tout va bien avec la page et le robot doit explorer, mettre en cache et indexer la page.
301. La page a été déplacée définitivement sur une autre page, de sorte que le robot d’exploration devrait à la place explorer, mettre en cache et indexer la nouvelle page finale. Le robot et l’algorithme transmettent également l’égalité de lien de l’ancienne page à la nouvelle page. Les visiteurs sont également redirigés.
302. La page a été déplacée temporairement. La page ne doit pas être supprimée de l’index et l’équité du lien n’est pas transmise, mais les robots d’exploration et les visiteurs sont redirigés.
404. La page n’existe plus ou est accessible aux robots de recherche. Crawlers finira par supprimer la page de l’index et les utilisateurs recevront généralement une page 404 à partir du site Web.
500. Une erreur de serveur existe et aucun contenu n’est accessible aux robots d’exploration ou aux moteurs de recherche.
503. Un code d’état “temporairement indisponible” qui informe les robots d’exploration et les utilisateurs de revenir plus tard. Le 503 est le meilleur choix pour la maintenance du site, car il est compatible avec les robots.
Comment trouver le code d’état d’une page
L’un des premiers points à prendre en compte lors du diagnostic des problèmes d’indexation de sites Web consiste à s’assurer que l’en-tête du serveur approprié est diffusé aux robots de recherche.

Pour vérifier le code d’état d’une seule page, de nombreux excellents outils existent. Ils comprennent:

Outil gratuit de SEOconsultants.com – http://www.seoconsultants.com/tools/check-server-headers-tool/
Web Developer Toolbar dans Firefox – https://addons.mozilla.org/fr-FR/firefox/addon/web-developer/

Pour vérifier les codes d’état des pages sur votre site entier, les deux suivantes le feront avec une exploration complète du site:

Screaming Frog (versions payantes et gratuites)

Xenu Link Sleuth
Ressources
Une bonne ressource à laquelle se référer est cette infographie de codes d’état HTTP par Moz:

Voir le message d’origine Moz
Un ensemble complet de codes d’état de serveur peut être trouvé ici: http://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html

Actions de la leçon:
Utilisez l’outil gratuit SEOconsultants pour afficher le code d’état de http://apple.com. En quoi cela diffère-t-il du code d’état de http://www.apple.com?
Quand utiliseriez-vous un code d’état 302?
Dans cette leçon, nous couvrirons:
Construction
Sous-domaines
Optimisation
Autres considérations
Paramètres favorables au référencement
Contrôle des paramètres indexés
Chaque page de votre site Web doit avoir une URL unique ou une adresse Web. Le contenu ne devrait être disponible qu’à partir d’une URL, afin d’empêcher les moteurs de recherche d’indexer le contenu en double et de diviser la valeur du lien entre les multiples URL.

Construction
Chaque URL est construite en quatre, et éventuellement en plusieurs parties:

Protocole – HTTP ou HTTP
Sous-domaine – www ou personnalisé
Domaine – votre nom personnalisé
Domaine de premier niveau (TLD) – .com, .org, etc
Les sections facultatives de l’URL incluent:

Slug – Tout ce qui suit le http: // (sous-domaine). (Domaine). (TLD) /
Catégorie – Avant la limace
Sous-domaines
Les sous-domaines sont le plus souvent utilisés pour désigner une section du site Web qui ne doit pas être considérée comme faisant partie de la version principale du site Web. Ceux-ci seront souvent pour un panier de caisse ou une nouvelle aile de l’entreprise.

Les sous-domaines sont personnalisés et sont mieux adaptés aux mots clés, tout comme les noms de domaine et le slug de l’URL. Il est important de se rappeler qu’un sous-domaine est traité comme un site Web distinct par les moteurs de recherche, et par conséquent toute autorité acquise par la section principale du site Web ne sera pas transférée au sous-domaine. Par conséquent, pour que les sous-domaines se classent, ils doivent avoir leurs propres liens.

Optimisation
Les URL sont une grande partie de l’optimisation sur site. Chaque URL devrait être:

Unique
Aussi court que possible
Mot clé ciblé
Les URL sont mieux construites en utilisant un séparateur entre les mots de la limace, car cela a été montré pour aider les moteurs de recherche à les analyser au mieux. Les types de séparateurs acceptables sont, dans l’ordre:

Trait d’union (c’est-à-dire construit comme ça)
Underscore (c’est-à-dire built_like_this)
Plus (c’est-à-dire construit + comme + ceci)
Autant que possible, le trait d’union devrait être utilisé, car c’est la meilleure pratique. Les directives de construction d’URL peuvent être trouvées ici dans le Moz Guide du débutant.

autres considérations
Les URL peuvent également contenir des paramètres permettant d’afficher un contenu différent ou d’ancrer une section de la page. Bien que ceux-ci puissent être extrêmement utiles, ils doivent être mis en œuvre correctement afin de ne pas causer de problèmes de contenu en double.

Paramètres SEO-Friendly
Les ancres (hashs) sont souvent utilisées pour diriger les gens vers une certaine section d’une page de site Web. Cette URL ressemblera alors à http: // (sous-domaine). (Domaine). (TLD) / slug-of-url # section.

Le hachage est convivial parce que les moteurs de recherche ont été jugés ignorer quelque chose après un hachage. Ceci est un problème avec la technologie AJAX, mais est utile à d’autres fins.

D’autres paramètres conviviaux incluent des paramètres de suivi tels que utm_source, qui peuvent être créés à l’aide de l’outil Google URL Builder.

Contrôle des paramètres indexés
Il est possible, si votre site utilise des paramètres dans les URL, de demander à Google de ne pas indexer certains paramètres en utilisant la section des paramètres d’URL de Google Webmaster Tools (et dans une moindre mesure Bing Webmaster Tools). Les paramètres qui ne doivent pas être indexés sont placés ici, mais vous devez veiller à ne pas exclure les paramètres qui font partie intégrante de la partie de classement d’une URL (si l’URL n’est pas accessible depuis une autre URL).

Actions de la leçon:
Compte tenu de l’URL http://www.domain.com, quel serait un exemple d’un sous-domaine?
Trouvez deux exemples pour la même recherche – un où l’URL est coupée et l’autre où elle ne l’est pas. Quel rang est le plus élevé? Pourquoi?
Dans cette leçon, nous couvrirons:
Page d’accueil Canonicalisation
Canonicalisation Solution Set
Boîtier de chameau
Sous-domaines, HTTPS et liens relatifs
Sites en miroir
Sites internationaux
Tag / Catégorie Pages
Versions d’impression
Mobile
Paramètres d’URL
Rechercher des pages
Pagination
Noms de produits similaires
Géographie basée
Du contenu en double est quelque chose qui arrive à de nombreux sites. Dit simplement, le contenu en double est lorsque le même contenu apparaît sur plusieurs URL. Souvent, le contenu en double n’est pas intentionnel et créé par le CMS (Content Management System) ou le serveur d’hébergement du site. Il existe d’autres types de contenu en double qui sont intentionnels et ont la possibilité de nuire à la performance d’un site entier.

Ce qui doit être compris à propos du contenu dupliqué, c’est que ce n’est pas une pénalité ni une cause. À moins que la majeure partie de votre site ne soit intentionnellement composée de contenu dupliqué, quelques pages répétées n’entraîneront pas de problèmes pour votre site avec les moteurs de recherche. Il peut, cependant, diminuer le trafic potentiel d’un site en raison de la mauvaise compréhension de la page qui est la meilleure pour une requête spécifique. Voici quelques exemples spécifiques de contenu en double et comment les corriger.

Page d’accueil Canonicalisation
C’est le premier type de contenu dupliqué que la plupart des sites rencontreront. C’est quand votre page d’accueil a plus d’une URL.

domain.com
www.domain.com
domain.com/index.html
www.domain.com/index.html
Chacune de ces URL est une page différente pour les moteurs de recherche. Avoir tous les quatre rendus sans redirection peut confondre les robots des moteurs de recherche avec ceux vers lesquels vous voulez diriger les gens. Cela devient pire si votre site référence plusieurs URL pour d’autres pages sur votre site.

Canonicalisation Solution Set
Il y a quelques choses que vous pouvez faire pour arrêter ce problème. La première consiste à définir une redirection côté serveur afin de garantir qu’une seule page d’accueil est déjà diffusée. Le “comment” dépend de la configuration de votre serveur.

Plus sur les redirections canoniques ASP / IIS.

L’autre façon d’aider ce problème de duplication de contenu consiste à définir le sous-domaine préféré (www ou non-www) dans Google Webmaster Tools. Vous ne pouvez pas le faire dans Bing pour le moment. Google a quelques instructions sur la façon de choisir votre domaine préféré.

Boîtier de chameau (Windows Server)
L’environnement Windows est connu pour être difficile à travailler avec une redirection de tout type. Le plus ennuyeux est lorsque plusieurs URL sont indexées car une ou plusieurs lettres sont en majuscules. Les URL avec ces majuscules et sans sont deux pages différentes pour les moteurs de recherche.

http://www.domain.com/page1.aspx
http://www.domain.com/Page1.aspx
Camel Casing Solution
La solution réside dans la mise à jour de votre serveur IIS et le téléchargement de l’extension Microsoft URL Rewrite. Suivez ensuite les instructions sur le blog de Scott Gu. Il explique comment résoudre un certain nombre de problèmes d’URL dans un article.

Sous-domaines, HTTPS et liens relatifs
L’utilisation de sous-domaines est généralement découragée par les référenceurs, mais parfois nécessaire en raison de décisions d’affaires et de configurations d’hébergement. L’un des problèmes avec les sous-domaines est le potentiel de contenu dupliqué.

Lorsqu’un site est configuré à l’aide de liens internes relatifs (<a href=”../page.html”>) plutôt que de liens absolus (<a href=”http://www.domain.com/page.html”> ), la copie de certains éléments de navigation comme la navigation vers le sous-domaine peut envoyer les utilisateurs à la mauvaise URL mais avec le même contenu. Cela peut également se produire avec https par rapport aux pages http. Si les liens sont relatifs sur une page https, les éléments de navigation peuvent envoyer des personnes vers des pages qui ne sont pas censées être https.

Exemple de chemin de navigation de sous-domaine
Début: www.domain.com
Cliquez pour bloguer: blog.domain.com
Clique sur la page: blog.domain.com/aboutus.html qui est la même que www.domain.com/aboutus.html
Exemple de chemin de navigation HTTP
Début: http://www.financialdomain.com
Cliquez pour accéder aux informations sur le produit: http://www.financialdomain.com/product1.html
Clics pour obtenir plus d’informations: https://www.financialdomain.com/info.html
(Supposons que ce formulaire demande des informations financières personnellement identifiables comme SSN)
L’utilisateur décide de ne pas remplir le formulaire, clique sur “Accueil”: https://www.financialdomain.com qui est le même que http://www.financialdomain.com
Solution de liaison relative
Lorsque vous créez des liens internes sur votre site, utilisez toujours des liens absolus plutôt que des liens relatifs. Portez une attention particulière si votre site utilise des zones sécurisées ou des sous-domaines. En outre, vous pouvez utiliser un rel-canonical auto-référentiel, mais cela n’est pas garanti de fonctionner dans tous les moteurs de recherche pour annuler le problème.

Sites en miroir
Une autre façon d’avoir du contenu en double sans le savoir est de diriger un nouveau domaine (domain.net) sur votre site actuel. Plutôt que d’être configuré comme redirection 301, le nouveau domaine pointe vers votre site actuel, ce qui en fait un site miroir. Vous pouvez dire si cela se produit en tapant le nouveau nom de domaine dans un navigateur. Si le domaine est remplacé par votre domaine principal (domain.net à domain.com), une redirection est en place. Si le nouveau domaine reste après le chargement de la page, vous avez un site en miroir.

Solution de domaine en miroir Cela va dépendre de votre hôte ou serveur, mais après avoir vérifié si le domaine est en fait reflété, la solution est de rediriger le domaine entier en utilisant une redirection côté serveur vers le domaine principal.

Sites internationaux
Les sites internationaux peuvent être une source de contenu en double, mais ne le sont pas toujours. Du contenu en double avec des sites internationaux se produit lorsque le site d’origine (généralement www.domain.com) est copié et placé dans un domaine de premier niveau basé sur un pays (comme www.domain.co.uk). Cela arrive parce qu’il est supposé que pour se classer dans Google UK, un site .co.uk est requis, ce qui est une erreur. La copie du contenu anglais vers un autre domaine ciblé vers un autre pays anglophone est toujours un contenu dupliqué.

Solution de contenu de duplication de site international
Les nouveaux domaines basés dans le pays qui sont lancés devraient être ciblés sur ce pays (pas seulement traduit si c’est un autre pays qui parle principalement une autre langue). Si le contenu n’est pas différent, le site principal devrait être maintenu, et l’argent et les efforts pour lancer ce domaine devraient viser à améliorer le site original avec du contenu, du marketing et des liens.

Tag / Catégorie Pages
Dans les situations de blogage, l’utilisation de balises et de catégories peut entraîner un contenu en double lorsque plusieurs pages de tag ou de catégorie ont le même contenu qu’une autre balise ou page de catégorie.

Par exemple, si vous avez commencé un blog et que vous avez reçu trois messages ci-dessous:

Titre du message: comment arrêter le contenu en double
Tags: dupliquer le contenu, seo, comment, conseils
Catégorie: SEO, Comment, Contenu
Titre du message: Dupliquer du contenu n’est pas une pénalité
Tags: contenu en double, pénalité, seo
Catégorie: SEO, Contenu
Titre du post: Comment écrire du bon contenu
Tags: contenu, comment, conseils, brainstorming
Catégorie: SEO, Contenu, Comment
C’est ce que les articles apparaîtraient dans chaque page tag et catégorie. La seule page qui est différente est la page de balise “penalty”, et cela changera au fil du temps.

Comment arrêter le contenu en double

Dupliquer le contenu n’est pas une pénalité

Comment écrire un bon contenu

Tag: dupliquer le contenu

X

X

Étiquette: seo

X

X

X

Tag: comment

X

X

Tag: conseils

X

X

Tag: pénalité

X

Tag: contenu

X

Étiquette: brainstorming

X

Catégorie: SEO

X

X

X

Catégorie: Comment

X

X

Catégorie: Contenu

X

X

X

Solution de tag et catégorie de page
La solution dépend de la façon dont vous utilisez les balises et les catégories et du nombre d’éléments ajoutés à chaque publication. Si vous êtes un utilisateur de quelques catégories et de plusieurs tags (comme la plupart des gens le sont), noindex, nofollow vos pages tag. Vos pages de catégorie devraient faire un bon travail pour obtenir le contenu indexé. Si vous l’utilisez en sens inverse (plusieurs catégories, quelques tags); alors noindex, nofollow vos pages de catégorie.

À la fin, vous voulez que les robots trouvent votre contenu et le comprennent et que vous souhaitiez fournir aux chercheurs un moyen de trouver du contenu sur le sujet qu’ils recherchent. Mais vous ne voulez pas deux pages après le même trafic: http://www.domain.com/blog/tag/seo et http://www.domain.com/blog/seo.

Versions d’impression
Un problème de contenu en double plutôt caché est dans un bouton embêtant appelé Imprimer. Cela arrive principalement avec les fournisseurs de nouvelles. Le bouton d’impression produit généralement une page qui est dépouillé des images inutiles et du style CSS pour produire la meilleure page pour un utilisateur à imprimer.

Le problème réside dans l’URL. Plusieurs fois, la fonction d’impression crée une nouvelle URL différente de l’URL principale.

www.domain.com/story-of-the-day
www.domain.com/story-of-the-day/print
Version imprimable Solution
La chose la plus facile à faire est de placer un rel = canonical sur les pages d’impression à l’article principal. Si vous utilisez des paramètres pour servir la page d’impression, vous pouvez simplement placer un rel = canonical auto-référentiel sur la page de l’article qui peuplera toute autre page créée à partir de cette page. Donc, www.domain.com/story-of-the-day?id=print aurait une rel = canonique à www.domain.com/story-of-the-day.

Mobile
La même chose peut se produire avec les versions mobiles de vos pages. Si le contenu est le même et qu’il existe deux URL, cela peut entraîner une certaine confusion quant à la meilleure URL pour le contenu.

www.domain.com/page.html
m.domain.com/page.html
www.domain.com/m/page.html
Les deux derniers sont des URL mobiles possibles pour le même contenu.

Solutions mobiles
Il existe quelques solutions en fonction des ressources dont vous disposez. La solution préférée est d’avoir une URL par page sur votre site, et en utilisant des identifiants de navigateur, servir une feuille de style CSS différente qui présentera l’information de la meilleure façon possible en fonction de la technologie de l’utilisateur de son choix.

Si ce n’est pas possible, il est recommandé d’implémenter le tag mobile ‘switchboard’ (comme rel = canonique mais spécifique pour une version mobile – voir la section ‘The Rel = “Canonique” Tag “de notre module’ Construire un Mobile-Friendly ‘ Site Internet’). Cela indiquera à Googlebot que la page est une version mobile, et pas seulement du contenu dupliqué. Assurez-vous que la détection est correctement effectuée afin que lorsque les utilisateurs de bureau cliquent sur une URL pour mobile, ils sont redirigés vers l’URL principale et inversement.

Paramètres d’URL
Il y a n’importe quel nombre de paramètre s qu’un site peut utiliser: les filtres pour les produits (prix, couleur, longueur, forme, marque, notation), les identifiants de session (pour le suivi) et les codes d’affiliation sont parmi les plus courants. Le problème est que beaucoup de ces paramètres sont uniquement à des fins de suivi et ne modifient pas le contenu de la page. La plupart des paramètres qui changent la page ne sont pas nécessaires pour les moteurs de recherche (qui cherche des «robes bleues pour femmes 30 $ – 50 $»?).

www.domain.com/womens/dresses?color=blue&price-low=30&price-high=50
Paramètre
Couleur
prix bas
prix élevé
Paramètre Solutions
La solution à tout problème de paramètre consiste à définir rel = canonical qui renvoie à la page d’origine. Ce mouvement simple corrigera tout paramètre parasite de prendre l’amour de la recherche de la page d’origine. Veillez à ce que les paramètres nécessaires ne soient pas annulés. C’est à votre entreprise et à votre recherche de mots clés de déterminer quels paramètres sont nécessaires pour l’indexation. Sachez que le rel = canonique n’est vraiment bien suivi que par Google; Bing peut être connu pour ignorer les balises rel = canonique.

L’autre option dans Google et Bing est de spécifier quels sont vos paramètres dans les zones Outils pour les webmasters. Google vous permettra de leur dire ce que le paramètre fait à votre site et ce que vous pensez qu’ils devraient faire avec lui. Bing vous permet simplement de définir un paramètre à ignorer. Les deux sont une bonne utilisation du temps si votre site utilise beaucoup de paramètres.

Rechercher des pages
Les pages de recherche ne sont pas toujours un problème, mais elles peuvent l’être pour certains sites. Si vous autorisez l’indexation de vos pages de recherche, deux pages de recherche peuvent être dupliquées et dans certains cas, les résultats de recherche peuvent imiter des pages de catégorie.

Pages de recherche
La solution simple pour les pages de recherche est de noindex, suivez ces pages si vous voulez que leur contenu soit indexé. Ou juste robots.txt commande les moteurs de recherche pour ne pas explorer ces pages. Tout dépend de l’importance de la recherche sur votre site. Si la recherche est la pierre angulaire de votre site (pensez aux pages de recherche iStockPhoto ou Yelp), laissez-les être!

Pagination
La pagination est quand un article ou une liste de produits a plus d’une page. La deuxième et les autres pages, bien qu’elles aient un contenu différent, sont axées sur le même sujet. Ce fut un gros problème lorsque les journaux sont entrés en ligne et sont maintenant plus d’un problème avec les détaillants avec des centaines de produits dans une catégorie.

Solutions de pagination
La pagination est résolue beaucoup plus facilement aujourd’hui qu’il y a 5 ans. Il y a maintenant les tags suivant et précédent qui permettent aux moteurs de recherche de comprendre que la page quarante de votre liste de montres n’a pas besoin d’être indexée, mais les produits font partie d’une liste plus grande.

Une autre solution consiste à prendre le paramètre qui indique à votre serveur la page à afficher (www.domain.com/list.html?page=5) et entrez-le dans les outils pour les webmasters. Un rel = canonique peut aussi fonctionner, mais comme les pages ne sont pas les mêmes, ce n’est pas la meilleure solution.

Noms de produits similaires
Parfois, le contenu dupliqué n’est pas dupliqué du tout, mais il apparaît comme tel. Dans certains cas en ligne, il existe deux ou plusieurs noms de produits qui sont exactement les mêmes. Nous ne parlons pas seulement de la couleur d’un vêtement, bien que ce soit un exemple. Ceci est souvent vu avec le contenu généré par l’utilisateur. Prenez Etsy par exemple, ces deux pages ont le nom exact du produit mais sont des produits différents.

http://www.etsy.com/listing/91697468/red-infinity-scarf
http://www.etsy.com/listing/89808439/red-infinity-scarf
Ces deux produits peuvent causer des problèmes avec des identifiants de contenu en double (balise de titre principalement). S’il n’y a pas d’autre contenu sur la page autre que le nom du produit et un moyen d’acheter, il peut être difficile de distinguer la page.

Produits similaires Solution
Le moyen de contourner ce problème est de différencier la balise title par un identifiant comme le nom de l’utilisateur / vendeur ou le numéro de produit. Mais ce n’est pas assez. La prochaine chose est de s’assurer que la page a un texte différent sur chaque page en demandant aux utilisateurs d’entrer un nom unique si le nom du produit existe déjà dans la base de données. Il doit être unique au produit représenté. Si la couleur est tout ce qui change, consultez la section des filtres eCommerce.

Géographie basée
Ce cas de contenu dupliqué se produit principalement avec des sites liés au voyage ou d’autres qui sont géographiquement basés. Aux États-Unis et à travers le monde, les noms des villes sont répétés. Il y a deux Weidens en Allemagne et un Paris, Texas. Le simple fait d’utiliser un nom de ville peut entraîner un contenu en double si le contenu n’est pas assez spécifique.

Solutions de géographie
Dit simplement, soyez aussi précis que possible dans la balise de titre et dans le texte sur la page. Assurez-vous que lorsque vous travaillez avec la géographie, vous pouvez prendre le temps de connaître l’emplacement avant de faire les pages. Inclure les états, les territoires, les noms de comtés, les pays et tous les autres détails qui fonctionnent pour cette région.

Actions de la leçon:
Recherchez un site mobile qui utilise une balise rel = canonical. Essayez de localiser le même contenu sur le site parent.
Visitez un site d’actualités important et voyez si leurs liens d’impression utilisent des balises rel = canonique.
Trouver un site Web qui utilise les réactions (c’est-à-dire aucun site mobile). Quels sont les avantages de ces sites?
Dans cette leçon, nous couvrirons:
Comment mesurer la vitesse de la page
Obtenir buy in pour le réparer
Démonstrations vidéo
Les données
Que faire à ce sujet
De loin la plus grande raison d’améliorer la vitesse de votre site est parce que les visiteurs préfèrent les sites de chargement rapide. Dans la mesure où votre rôle implique de vous soucier des conversions réelles plutôt que du nombre de visiteurs sur le site, vous devez accorder une attention particulière au temps nécessaire pour télécharger et afficher des pages sur votre site.

Il y a trois facteurs supplémentaires à considérer d’un point de vue SEO:

La vitesse du site est un facteur de classement direct (quoique faible) dans Google – toutes choses étant égales par ailleurs, un site plus rapide devrait être meilleur qu’un site plus lent – ceci est mesuré à l’aide des données de la barre d’outils. Centres de données CA utilisés par googlebot.
Les mêmes facteurs qui rendent les gens plus susceptibles de se convertir sur des sites rapides les rendent plus susceptibles de visiter plus de pages, de consommer plus de contenu et de partager / créer des liens vers ce contenu.
Sur les grands sites, le nombre de pages indexées (ou la fraîcheur des pages indexées) est souvent limité par le nombre de pages que googlebot peut explorer. Plus votre site répond rapidement, plus le nombre de pages susceptibles d’être indexées est important.
Comment mesurer la vitesse de la page
D’un point de vue technique, il y a trois éléments importants pour la vitesse de la page. Dans l’ordre du temps croissant:

Time To First Byte: Il s’agit du temps nécessaire au serveur pour répondre à une demande. C’est le plus facile à mesurer, mais le moins pertinent pour les utilisateurs ou googlebot. Vous pouvez mesurer et suivre cela en utilisant le compte gratuit de pingdom.
Temps de téléchargement total: Cela inclut le temps de réponse initial et le temps nécessaire pour télécharger la page entière (avec ou sans ressources externes telles que des images, JavaScript, etc.). Il s’agit encore largement des performances de votre serveur et est la statistique la plus pertinente pour googlebot. Vous pouvez analyser les facteurs contribuant à cela en utilisant des outils comme YSlow.
Temps total de rendu: Cela inclut les deux éléments ci-dessus, mais inclut également le téléchargement de tous les éléments et leur affichage dans le navigateur. Le JavaScript complexe et toute forme de fonctions asynchrones (par exemple AJAX) peuvent retarder cela. C’est le plus difficile à mesurer car il dépend tellement des ordinateurs et des navigateurs des utilisateurs, mais c’est aussi le plus pertinent pour eux car c’est le facteur qui est le plus étroitement lié à l’expérience de l’utilisateur. La façon la plus simple d’analyser cela pour la plupart des webmasters est d’utiliser Google Analytics qui suit maintenant la vitesse de chargement de la page par défaut.
Obtenir Buy In pour fixer la vitesse du site
L’un des ensembles d’outils les plus puissants qu’un praticien SEO peut avoir dans sa boîte à outils est un ensemble d’outils pour convaincre les clients et / ou les patrons que quelque chose est important et devrait être une solution prioritaire.

Si vous trouvez que la vitesse de chargement de votre page doit être améliorée mais que vous avez du mal à obtenir l’adhésion, nous avons trouvé les arguments et les outils suivants convaincants:

Démonstrations vidéo
En comparant le chargement de votre page à des concurrents et des sites de haut niveau (rapides!), Vous pouvez souvent créer des arguments convaincants. L’outil de comparaison de vidéos de webpagetest est fantastique pour créer des vidéos attrayantes pour les boss – voici un exemple du site distillé par rapport à Moz, Amazon et Google (les pages deviennent grises une fois le chargement terminé):

Voir la vidéo de comparaison de chargement

Les données
Les grands sites ont réalisé des études approfondies sur l’importance de la vitesse de chargement des pages pour leurs conversions et leurs revenus. Deux grandes ressources sont l’analyse de Walmart et les données de High Scalability:

“Amazon a trouvé que chaque 100ms de latence leur coûtait 1% des ventes”
“Google a trouvé un .5 secondes supplémentaires dans le temps de génération de la page de recherche a diminué le trafic de 20%”
Que faire à ce sujet
Il est relativement improbable sur quoi que ce soit d’autre que sur les plus petits sites que ce soit votre travail d’améliorer directement la vitesse du site. Plus probablement, il sera assis entre les développeurs et les administrateurs système.

En bref, cependant, les trois plus grands coupables sont:

Ralentissement du “délai avant le premier octet” ou vitesse de téléchargement lente pour les ressources statiques – probablement résolu avec des mises à niveau de serveur, des mises en cache supplémentaires ou des réseaux de diffusion de contenu
Pages dynamiques lentes – probablement résolues avec des améliorations du code ou une mise en cache plus agressive
Ralentissement total du téléchargement ou du rendu – provoqué par des pages Web complexes ou asynchrones ou par le chargement de nombreuses ressources externes – très probablement résolu par des améliorations apportées au code frontal ou par la consolidation de services externes
Il peut être utile d’utiliser des outils tels que pagespeed de Google pour diagnostiquer les liens les plus faibles dans la vitesse de votre site.

Actions de la leçon:
Utilisez Google pagespeed pour analyser le temps de chargement d’un site Web.
Comparez le nombre de pages de deux concurrents directs. Voyez si ces résultats reflètent leurs classements de recherche.
Dans cette leçon, nous couvrirons:
XML ou HTML
Sitemaps XML
Formatage
Création de sitemap
Déclaration aux moteurs de recherche
Sitemaps HTML
Considérations à éviter
Flux RSS – meilleures pratiques
Les sitemaps sont un moyen pour les SEO et les webmasters de dire à Google la structure de leur site et les URL importantes sur leur site web. Les flux RSS sont un moyen de syndiquer votre nouveau contenu de blog pour les lecteurs qui s’inscrivent à votre flux RSS.

Ce module couvrira les deux types de sitemaps, XML et HTML, et comment chacun fonctionne. Nous aborderons également des considérations importantes à éviter avec les sitemaps. Enfin, nous couvrirons les flux RSS et les meilleures pratiques pour la distribution de contenu RSS.

XML ou HTML
Il existe deux types de sitemaps. Elles sont:

XML
HTML
Sitemaps XML
Les sitemaps XML sont construits en utilisant XML (eXtensible Markup Language). Pour en savoir plus sur XML et apprendre à utiliser ce langage structuré et bien formaté, consultez les tutoriels W3Schools.com.

Les sitemaps XML devraient être considérés comme un guide pour votre site web pour les moteurs de recherche. Ils sont un moyen pour les webmasters d’organiser les URL sur le site et les prioriser pour les moteurs de recherche. Souvent, les robots d’exploration utilisent des sitemaps pour découvrir un nouveau contenu.

Formatage
Chaque sitemap XML commence par les deux lignes suivantes, qui déclarent le sitemap comme étant au format XML pour les moteurs de recherche:

<? xml version = “1.0” encoding = “UTF-8”?>
<urlset xmlns = “http://www.sitemaps.org/schemas/sitemap/0.9”>
Chaque entrée d’un sitemap XML est formatée ainsi:

<url>
<loc> http://www.domain.com/ </ loc>
<lastmod> 2012-01-01 </ lastmod>
<changefreq> mensuel </ changefreq>
<priorité> 1.0 </ priorité>
</ url>
Le sitemap se termine par la ligne suivante:

</ urlset>
Création de sitemap
De nombreux outils existent pour vous aider à créer des sitemaps XML pour votre site. Les outils Web les plus populaires sont:

GsiteCrawler
IntelliMapper
Les sitemaps XML peuvent également être créés manuellement, mais cela est fastidieux pour les grands sites et même les petits sites qui publient semi-fréquemment. Par conséquent, il est recommandé d’utiliser un système de gestion de contenu ou une plate-forme qui génère automatiquement votre sitemap et pings les moteurs de recherche. Si votre système ne le prend pas automatiquement en charge, un travail CRON peut être créé pour mettre à jour le sitemap à une heure donnée.

Pour plus d’informations sur la syntaxe correcte, consultez sitemaps.org.

Déclaration aux moteurs de recherche
Une fois le sitemap XML créé, il doit être soumis à Google et aux outils pour les webmasters de Bing. Le processus pour cela est simple. Voici comment faire avec Google:

Premièrement, connectez-vous à Google Webmaster Tools.
Accédez à la section Sitemaps, comme indiqué dans la capture d’écran ci-dessous:

Vous êtes alors en mesure de soumettre un sitemap XML en utilisant le bouton en haut à droite de la capture d’écran ci-dessous. Une fois que le plan du site a été soumis pour une courte période de temps, les graphiques s’affichent et vous indiquent le nombre d’URL que vous avez soumises.

L’emplacement du sitemap doit également être ajouté au fichier robots.txt à l’aide de la ligne suivante:

Plan du site: http://www.domain.com/sitemap.xml
Il est important de noter que les sitemaps n’ont pas besoin d’être nommés “sitemap.xml”, car il arrive qu’un site comporte plusieurs sitemaps, comme mentionné ci-dessous.

Grands sites

Les grands sites doivent prendre en compte le fait que les moteurs de recherche, et Google en particulier, ont une taille maximale pour les sitemaps. Selon cet article du Forum WebmasterWorld, la taille maximale est:

50 000 URL, et
Fichier 10 Mo après avoir été décompressé.
Pour cette raison, les sites volumineux contiennent souvent un fichier d’index de sitemaps contenant des liens vers tous les sitemaps. D’autres auront des sitemaps distincts pour des sections distinctes du site. Par exemple, Moz a les sitemaps suivants:

Plan du site: http://moz.com/blog-sitemap.xml
Plan du site: http://moz.com/ugc-sitemap.xml
Plan du site: http://moz.com/profiles-sitemap.xml
Plan du site: http://app.wistia.com/sitemaps/2.xml
Sitemaps HTML
Les sitemaps HTML sont publiquement accessibles, généralement liés au pied de page du site Web, et sont utilisés comme un moyen alternatif pour les utilisateurs de trouver le contenu sur votre site Web. Les sitemaps HTML sont également un autre moyen de s’assurer que les robots de recherche explorent et indexent autant de vos URL que possible.

Considérations à éviter
Selon cette interview avec Duane Forrester de Bing à partir de septembre 2011, Bing peut perdre confiance dans les sitemaps qui ont plus de 1% de «saleté». Duane a déclaré:

“Vos sitemaps doivent être propres. Nous avons une tolérance de 1% pour la saleté dans un sitemap. Des exemples de saleté sont si nous cliquons sur une URL et nous voyons une redirection, un code 404 ou 500. Si nous voyons plus de 1% de saleté, nous commençons à perdre confiance dans le Sitemap “.

Une URL “sale” dans un sitemap peut être l’une des suivantes:

URL qui redirige vers une autre URL
Une URL qui renvoie une erreur 404
Une URL qui renvoie une erreur 500 “Serveur introuvable”
Les URL répertoriées dans le sitemap ne doivent être que l’URL finale.

Afin de vérifier la “saleté” dans votre sitemap, l’outil Map Broker existe. Vous pouvez télécharger votre fichier XML et il retournera un score de votre sitemap. Ou vous pouvez utiliser un robot comme Screaming Frog:

Flux RSS: bonnes pratiques
RSS (Real Simple Syndication) les flux ont été un moyen courant de distribuer du nouveau matériel pendant une longue période. C’est un moyen pour les utilisateurs du site de s’abonner au site afin qu’ils soient alertés via leur lecteur RSS de choix lors de la publication de nouveaux contenus.

La principale préoccupation technique avec un flux RSS est de s’assurer qu’il n’est pas indexé par les moteurs de recherche, car ils ont dit qu’ils préfèrent ne pas indexer les flux RSS. Cependant, il est généralement bon d’autoriser le moteur de recherche à explorer le flux afin de faciliter la découverte du contenu. Ils peuvent alors décider de ne pas l’indexer eux-mêmes.

Actions de la leçon:

Recherchez un exemple de sitemap XML en utilisant ces termes de recherche – site: domain.com inurl: sitemap.xml
Trouvez un exemple de sitemap HTML.
Dans cette leçon, nous couvrirons:
Blocage du site avec robots.txt
Blocage du site avec des robots Meta
Erreurs de tags canoniques
Déplacement d’URL (301 redirection vers la page d’accueil)
Redirection de la chaîne 301
Déplacer des URL (302s contre 301s)
URL non statiques
Non 404 pages non valides
Pas de sitemap
Il y a beaucoup d’erreurs courantes que les sites font d’un point de vue technique qui nécessitent alors un travail supplémentaire pour être convivial. Cela peut prendre beaucoup de temps, donc le but de cette section est de vous alerter sur les erreurs courantes que nous voyons sur les sites Web, de sorte que vous pouvez créer un plan d’urgence pour les éviter.

Blocage du site avec Robots.txt
Il est étonnamment facile de bloquer un site Web entier à l’aide de robots.txt. Lorsqu’un site est supprimé de l’index par Google, la première chose à vérifier est de savoir si le site est bloqué par les robots de recherche avec la ligne suivante:

Disallow: /
Blocage du site avec des robots Meta
Il est également possible de bloquer incorrectement l’ensemble du site en utilisant la balise meta robots. Si le site est supprimé de l’index par les moteurs de recherche, vérifiez la balise META suivante:

<meta name = “robots” content = “noindex, nofollow” />
Erreurs de tags canoniques
La balise canonique a été lancée en 2009 (lire le post sur Moz ici) en coopération entre les moteurs de recherche comme un moyen de traiter le contenu en double.

Parce que l’étiquette peut être si importante pour la santé d’un site Web, un simple faux pas peut entraîner des blessures dans le classement d’un site, ou pire, un désindexage du site dans les moteurs de recherche.

Les erreurs d’étiquette canoniques les plus courantes sont:

Plus d’une étiquette canonique sur chaque page.
Les points canoniques de chaque page à la page d’accueil.
Vérifiez la balise canonique par:

Voir la source de la page (CTRL + U dans Chrome, CMD + U sur un Mac)
Recherche de “canonique”. (Si plus d’une instance existe, vous avez un problème)
Pour six exemples de la façon dont les balises canoniques peuvent affecter l’indexation, lisez ce post sur Moz.

Voici un exemple où le site avait duel des étiquettes canoniques (résultat d’une pagination et de mauvais canoniques):

URL: http://migraine.com/blog/living-with-migraine/marijuana-and-migraine/

<link rel = “canonical” href = “http://migraine.com/blog/living-avec-migraine/marijuana-and-migraine/”>
<link rel = “canonical” href = “http://migraine.com/blog/living-avec-migraine/marijuana-and-migraine/comment-page-1/”>
Cela a entraîné l’indexation des trois copies suivantes de la page:

Déplacement d’URL (301 Redirection vers la page d’accueil)
Lorsqu’un site est déplacé d’un ancien domaine ou d’une structure d’URL vers un nouveau, les développeurs voudront parfois simplement rediriger toutes les anciennes URL vers la nouvelle page d’accueil. Ne le permets pas.

Les redirections 301 transmettent environ 90% de l’équité du lien. Ainsi, en redirigeant toutes les anciennes URL vers la page d’accueil, vous risquez de voir les classements et les baisses de trafic sur l’ensemble du forum. Il est préférable de rediriger les URL en tête-à-tête. En d’autres termes, chaque ancienne URL doit correspondre à une nouvelle URL.

Enchaîner 301 redirections
Une autre perte commune de classements, en particulier avec les changements de structure d’URL internes, consiste à enchaîner 301 redirections. Cela signifie qu’une ancienne URL (Start) a été redirigée vers URL2 (OLD). URL2 est en cours de redirection vers URL3 (NEW). Il est illustré ci-dessous:

Au lieu de cela, ce qui devrait être fait est OLD est toujours 301 redirigé vers NEW. Cependant, Start doit également être redirigé vers NEW pour conserver l’équité du lien pointant toujours sur Start, comme illustré ci-dessous:

Déplacer des URL (302s contre 301s)
Lors de la migration d’un site, les développeurs utilisent parfois une redirection 302 au lieu d’une redirection 301. Comme indiqué ci-dessus, une redirection 302 signifie “temporairement déplacé” et 301 signifie “déplacé de façon permanente”.

En outre, étant donné que la redirection 302 ne respecte pas l’équité des liens, les classements et le trafic seront supprimés si 302 sont utilisés au lieu des redirections 301.

URL non statiques
Les URL non statiques, en particulier avec les paramètres d’utilisateur ou de session, peuvent générer de gros problèmes de contenu en double, en particulier sur les très grands sites Web. Par conséquent, nous recommandons, dans la mesure du possible, d’utiliser des URL statiques et permanentes pour toutes les pages au lieu de variables.

Si les variables ne peuvent pas être évitées, une balise canonique doit être utilisée pour spécifier l’URL que vous souhaitez indexer par les moteurs de recherche.

Pas 404 pages non valides
Parfois, les sites n’appliquent pas les codes d’état corrects aux pages qui ne sont plus disponibles. Ceci est particulièrement problématique avec les pages qui ont été définitivement supprimées et doivent être étiquetées avec le code d’état 404.

Pour une ressource sur l’utilisation d’un serveur IIS pour spécifier le code d’état, lisez ce site.

Pour obtenir une ressource sur l’utilisation d’un serveur Apache pour spécifier le code d’état, lisez ce site.

Il est préférable de demander à un administrateur système autorisé la meilleure façon de mettre en œuvre ces codes d’état.

Pas de sitemap
De nombreux sites n’ont pas non plus de sitemap XML. Reportez-vous à la section “Sitemaps et flux RSS” pour plus d’informations sur la création et la soumission d’un sitemap.

Deux méthodes rapides existent pour diagnostiquer si un sitemap XML existe:

Vérifiez le fichier robots.txt (situé sur http://domain.com/robots.txt)
Faire un site: domain.com inurl: sitemap.xml recherche dans Google. Si rien n’est renvoyé, aucun sitemap n’existe.
Actions de la leçon:
Trouver un site avec une redirection 302
Était-ce une bonne décision compte tenu de son contexte?
Imaginez que vous déplacez votre site vers un nouveau domaine. Pourquoi serait-ce une mauvaise idée de rediriger toutes vos anciennes pages vers votre nouvelle page d’accueil?
Dans cette leçon, nous couvrirons:
Google Chrome (inspecter la fonctionnalité)
Pyromane
SEObook Barre d’outils
MozBar
USER Switcher d’agent
Barre d’outils du développeur Web
Contrôle de ref
Grenouille hurlante
Xenu
Microsoft IIS SEO toolkit
Google Chrome (fonction d’inspection)
C’est bon pour inspecter le code source d’une page Web. Pour l’utiliser, faites un clic droit sur un élément de la page Web (lorsque vous êtes dans Chrome) et cliquez sur “Inspecter l’élément”.

Pyromane
Cela fonctionne de la même manière que la fonctionnalité d’inspection de Chrome, mais est un plugin pour FireFox.

SEObook Barre d’outils
Ceci est un plugin FireFox qui a beaucoup de fonctionnalités intégrées:

Met en évidence les éléments sur site pour un audit visuel rapide
Afficher la date de cache / cache
Afficher le classement
MozBar
C’est un plugin pour FireFox et Chrome qui offre des scores de domaine et d’autorité de page, ainsi qu’un accès rapide aux outils Moz. La barre d’outils affichera les métriques de liens en superposition sur les pages de résultats de recherche.

Sélecteur d’agent utilisateur
Ceci est un plugin FireFox et Chrome qui vous permet de définir votre agent utilisateur sur Googlebot.

Barre d’outils du développeur Web
Ceci est une barre d’outils Firefox qui vous permettra d’activer et de désactiver JavaScript, afficher / modifier les cookies, activer et désactiver CSS, afficher / modifier les informations relatives aux éléments sur site.

Contrôle de ref
Ceci est un plugin FireFox qui vous permet de définir votre référent.

Grenouille hurlante
Il s’agit d’un programme qui explorera les sites Web et rapportera des données sur chaque page explorée, y compris le code de réponse HTTP, les liens sur la page, la taille et le titre de la page. Des versions gratuites et payantes sont disponibles.

Xenu
Ce programme est similaire à Screaming Frog mais moins intuitif et moins fonctionnel.

Microsoft IIS SEO toolkit
Un autre outil d’exploration qui fournit de bonnes données sur les chemins d’exploration, c’est-à-dire le nombre minimum de clics pour atteindre une page.

Actions de la leçon:
Installez la barre d’outils Moz et comparez les valeurs DA relatives des meilleurs sites de classement dans un ensemble de résultats de recherche.
Installez la version gratuite de Screaming Frog et analysez les liens externes d’un domaine spécifique.
Quels sont les deux principaux moyens utilisés par les moteurs de recherche pour découvrir le contenu?
Liens sur des pages Web et des sitemaps XML
Nommez deux technologies Web qui provoquent généralement des problèmes pour les moteurs de recherche lors de l’exploration et de l’indexation.
Tout de – AJAX, Javascript, Flash
Quelles sont les deux façons de vérifier combien de pages de votre propre site Google a indexé?
Le site: commande de l’opérateur de recherche pour la recherche Google. Exemple: site: domain.com
L’envoi d’un sitemap XML aux outils Google pour les webmasters vous indique le nombre d’URL que Google contient dans son index.
Quel est le nom du fichier que vous pouvez mettre dans le répertoire racine de votre site Web pour indiquer aux moteurs de recherche les pages qu’ils peuvent et ne peuvent pas explorer?
robots.txt (Même Google.com a un fichier robots.txt).
Quelle est la différence entre une redirection 301 et une redirection 302?
Une redirection 301 est permanente, une 302 est temporaire.

Laisser un commentaire

webinaire agence webmarketing

Profitez maintenant du meilleur Webinaire composé des secrets et stratégies que personne ne vous dévoilera, rejoignez maintenant plus de 24.500 entreprises qui ont profité des secrets.

Partagez cet article avec vos amis

Partager sur facebook
Partager sur google
Partager sur twitter
Partager sur linkedin