Evitar contenido duplicado en tu web

17 de noviembre de 2019

Creo que el contenido duplicado es uno de los errores más comunes para el SEO, como no tener tus imágenes optimizadas. Cuando usamos WordPress es más o menos fácil de solucionar si tenemos herramientas como Yoast!.

¿Qué es el contenido duplicado?

El contenido duplicado se produce cuando dos o más URL muestran el mismo contenido, o contenido suficientemente parecido, como pueden ser variantes de un mismo producto.

Esto dificulta el trabajo de clasificación de los buscadores, que tienen dos opciones: repartir el valor, o penalizar unas URL y beneficiar a otras.

En cualquier caso, no beneficia el SEO de tu contenido.

¿Cuándo se produce el contenido duplicado?

El contenido duplicado puede darse en dos formas:

Contenido duplicado externo porque alguien copia, o has copiado, contenido de otra página de internet.
Contenido duplicado interno porque tienes varias páginas con contenido equivalente, o porque tienes varias URL que apuntan al mismo contenido, ésto último es lo más común.

Abriendo los ojos

Aprendí mucho sobre este tema de la mano de Wajari Velásquez, consultor SEO en Ku-seo y autor del podcast SEO para WordPress.

Una de las cosas que me sorprendió, por lógica y por no haberme dado cuenta, es la cantidad de URL que devuelven el mismo contenido y que no somos conscientes de que existen.

http://miweb.es
http://miweb.es/
http://www.miweb.es
http://www.miweb.es/
https://miweb.es
https://miweb.es/
https://www.miweb.es
https://www.miweb.es/

Las URL anteriores muestran el mismo contenido y son direcciones diferentes. Hablaré de la URL canónica más adelante, ya que puede ayudar a minimizar el problema.

Por otro lado, WordPress genera otras URL que van a tener influencia en el contenido duplicado. Son las URL de archivo: de autor, de categoría, de etiquetas, de tipo de contenido…

Lo ideal es que estas páginas muestren los títulos o un pequeño resumen de los artículos publicados. Pero, de manera consciente o inconsciente, muchas veces se muestran los artículos completos en estas páginas participando en la generación de contenido duplicado.

Ahora piensa: Por cada etiqueta de tu post, por cada categoría de tu post, por cada autor de tu blog(aunque solo haya uno), por cada tipo de post de tu web se genera una url. Además, puede que responda con http, con https, con www y sin www. ¿Te das cuenta la cantidad de URL que muestran el mismo contenido?

¿Cómo solucionarlo?

No creo que haya una solución mágica, dado que Google tiene la costumbre de, de vez en cuando, saltarse todas las indicaciones y hacer lo que le da la gana. Pero, si eres usuario de Yoast! te voy a contar algunos truquitos que te pueden ayudar.

Establece una URL canónica en cada uno de tus artículos.

Piensa si quieres que se indexen etiquetas, categorías, autores, tipos de post.
2.1. Si quieres que se indexen, vas a tener que planificar qué quieres que se muestre en las páginas de archivo, para que no sean duplicados.
2.2. Si no es relevante, deberías modificar tu configuración para que marque estas páginas como noindex follow. Esto puedes hacerlo en la sección «Apariencia en el buscador» en Yoast!.

Configuración de apariencia en el buscador de Yoast!

Con estas recomendaciones, digamos que le sugieres amablemente al robot de turno una idea sobre lo que es o no importante para ti.

Normalmente hace caso, a medias, y respeta bastante estas indicaciones. Pero es una inteligencia artificial, programada para indexar y clasificar toda la información y, en ocasiones sigue un enlace nofollow, descubre algo interesante y decide que esa página marcada como noindex debería darse a conocer al mundo.

La URL canónica

Entendiendo el problema de que una misma página pueda tener varias URL, Google recomienda usar enlaces canónicos, marcados mediante la relación «canonical». Con ella, se pretende informar al robot del buscador de que hay una URL principal, y que las demás referencian a ésta. Así, llegue desde http://miweb.es o desde https://www.miweb.es/, el robot puede saber que realmente ha llegado al mismo sitio, el que establece en el link canonical.

Como lo anterior, y pese a que es una recomendación de Google, el robot, a veces, no hace caso de esta marca, y decide indexar todas las URL.

La solución buena, «the hard way». Redirecciones 301

Es mucho más trabajo que simplemente establecer la URL canónica, pero creo que es la mejor solución dado que imposibilitas el acceso a las URL que no sean la que tú quieres que sea “canónica”. De esta manera, cuando el robot llega y pide, por ejemplo, http://miweb.es, el servidor le dice:

— «No, esa URL es en realidad https://www.miweb.es/, vuelve a intentarlo.» —

Por lo que el robot, A. Sabe que esa URL es inválida, y, B. pedirá la buena.

Carlos A. Sobrino