Cuando hablamos de Rastreo y de Indexación siempre está asociado a Google. Nos basamos en sus propias patentes para determinar cómo vamos a optimizar nuestros contenidos. Pero lo mejor es entender cómo funciona el buscador de Google.
En pocas palabras Google rastrea mediante sus robots (la araña) miles de millones de urls y las almacena en sus dispositivos de almacenamiento. Una vez almacenados los clasifica y los filtra con el fin de poder establecer qué urls se van a indexar y qué urls no se indexarán.
Y para rizar un poco más el rizo podemos hacer una pequeña diferencia entre indexación y listado.
Indexación: Google incluye la url dentro de su índice de urls (base de datos de contenido).
Listado: contenido que se muestra al usuario en los resultados de búsqueda..
No todo el contenido que está indexado se muestra al usuario, ya que eso depende de de un montón de algoritmos, y filtros que harán que Google muestre esos contenidos a una consulta de usuario..
Índice de contenidos
Significado de Rastreo
Por tanto, rastreo es la búsqueda de nuevo contenido que hace el motor o los motores de búsqueda en una determinada url. El motor de búsqueda (araña) va rastreando todo el contenido de una url concreta y va saltando y descubriendo otras urls (nuevas o antiguas) a través de los enlaces
¿Cómo podemos evitar que una página sea rastreada?
La única forma que tenemos para evitar que una página sea rastreada es con el robots.txt. Simplemente tenemos que añadir la línea de bloqueo de la url en el fichero robots.txt.
Aquí te dejo el vídeo completo donde te lo explico todo paso por paso.
Debemos tener en cuenta que los motores de búsqueda de Google pueden comenzar el rastreo de una determinada web por dos razones:
- Sitemap enviado por el dueño del sitio web.
- Enlaces externos apuntando al sitio web.
En este enlace puedes saber un poco más de cómo funciona la búsqueda y el rastreo de Google
Significado de indexación
La indexación se produce cuando una determinada url es incluida por Google en su índice de páginas web.
Una página indexable es quella que permite la indexación en Google.
¿Qué hace que una página sea indexable?
Una página indexable será aquella que tenga un status 200 y además no tenga la etiqueta de metarobots noindex, no esté redireccionada y no esté canonicalizada. Hay algunas otras razones, pero son más rebuscadas.
Hay que tener en cuenta que si no ponemos la etiqueta noindex en metarobots, Google la tomará como index.
Si no ponemos el canonical de la página Google tomará el canonical que le venga en gana. Incluso si nos equivocamos demasiado con los canonicals, Google no nos hará caso y también tomará el canonical que estime oportuno.
Debemos recordar que el canonical es una etiqueta de sugerencia a Google, donde le estamos “sugiriendo” que la página realmente importante es la que hemos puesto en ese canonical.
Cuando una url tiene un canónical distinto a si mismo se dice que está canonicalizada.
Una página redireccionada es aquella que cuando entras (usuario y motores de búsqueda) te redirige a otra página distinta. Hay dos tipos de redireccionamientos: 302 (temporales) y 301 (Definitivos). Lo normal es usar los redireccionamientos 301, ya que al usar los redireccionamientos 302 Google no va a pasar la autoridad de la primera a la segunda.
¿Cómo sabemos las urls indexadas que tenemos?
Podemos usar una herramienta como Screaming Frog para saber realmente cuales son las urls indexables.
Una vez que analizamos en modo spider con screaming Frog un proyecto hacemos lo siguiente:
- Seleccionamos ver sólo urls HTML, para que no nos enseñe los js, css o imágenes.
- Pinchamos en indexability para filtrar por esa columna.
De esta forma podemos ver que el número de urls indexables es 53.
¿Es lo mismo indexables que indexadas?
Pues no. Una cosa es que nosotros las optimicemos para que se puedan indexar y otra es que Google las haya indexado.
¿Cómo podemos ver las páginas que no están indexadas en Google?
Al hilo de lo anterior, si usamos Screaming Frog integramos la api de Search Consol y nos va a incluir una columna llamada indexability status. Pero esta columna no dice si está o no está indexada.
Por tanto necesitamos otro método. Yo lo hago de dos formas:
1ª forma con Sheet y Search console.
- Exportamos las urls indexables (del punto anterior) de screaming frog. Y las incluimos en un Sheet.
- Entramos en Search Console. Y realizamos lo siguiente:
- Pinchamos en Cobertura
- Seleccionamos “Válidas”
- Exportamos.
- Montamos el Google Sheet
- 1ª página ponemos las urls indexables
- Añadimos una columna “indexada”
- 2ª hoja para urls exportadas de Search Console.
- Y añadimos a todas ellas una columna y ponemos “si” en todas las filas.
- Volvemos a la primera hoja y usamos la formula buscarv para que busque la url que hay en la primera columna en la hoja de Search console y devuelva la columna 2. La fórmula sería
=SI.ERROR(BUSCARV(A2;'Search console'!$A$2:$B$94;2;FALSO);"No")
Es una forma un poco más laboriosa, pero es la única forma que conocemos para poder comprobar la indexación de un proyecto de forma gratuita. Antes se podía hacer de otra forma totalmente gratis también, pero… ya no.
La creación de la tabla con la fórmula que te he puesto es muy sencilla. No obstante si lo necesitas, te dejo la plantilla por aquí para que la uses más fácil todavía. Acuérdate de hacer una copia de la plantilla, ya que no puedes modificar la mía.
2ª forma de comprobar la indexación: URL profiler
Es una función de pago. Para ello necesitas contratar Urlprofiler. Puedes probarlo durante 14 días. Pero es casi obligatorio usar proxys.
Por lo que tendrás que contratar un paquete de proxys para usarlo con esta herramienta.
3ª Opción: Una herramienta sorpresa…
Todavía no es oficial, pero se espera que en las próximas semanas tengamos una herramienta desarrollada por un SEO español, capaz de comprobar la indexación, sin proxys, sin nada.
Diferencia entre Reastreo e Indexación
Las dos palabras son totalmente diferentes. El rastreo es la búsqueda de contenido por parte de Google y la indexación es la inclusión en su índice. Pero hay mucha controversia con esto del rastreo y la indexación.
¿Entonces si una url no se puede rastrear tampoco se puede indexar?
Pues no. Esto es totalmente falso. Una Url puede ser bloqueada en el robots.txt y ser indexada al mismo tiempo.
Si la url en concreto tiene otra señal muy potente (enlaces internos, enlaces externos) que indica a Google que puede ser interesante, Google la va a indexar, pero no mostrará la metadescripción ni los datos estructurados.
Además el título suele ser el Anchor del enlace desde donde ha llegado Google.
Un ejemplo lo tenemos en la página de los amigos de Funnel Punk (Lino Urruñuela y Dani Pinillos).
Como comprobamos en la imagen, el robots.txt está bloqueando totalmente al todos los robots.
Y como podemos comprobar en la imagen, la url está indexada en Google.
Por tanto la respuesta es Rotundamente NO.
Si queremos que una url no se indexe debemos hacer lo siguiente:
- Ponerla como noindex
- Canonicalizarla (ojo con esto)
- Poner contraseña a la página o al directorio.
- Redireccionarla
- Cambiar el status a 410 (significa que la página no va a existir nunca)
Yo realmente he usado otros métodos, como forzar un error 50x (error de servidor) para conseguir desindexar un contenido y usarlo en otro dominio distinto… pero eso es otra historia.
Si ha sido de utilidad pues pónmelo en los comentarios. Estaré atento a cualquier sugerencia o pregunta para responderla lo antes posible.
Antonio López Tomás
Antonio López Tomás es fundador y Director SEO en Elblogdelseo.com y en Seostar.es. Profesor de SEO y Marketing digital en varias universidades (Unizar, UMU, UCAM, UNAE, U. Pompeu Fabra...) y Escuelas de negocios (EAE, IEBS. Marketing and Web, Seoworking, AulaCM...). Speaker en eventos de Marketing Digital y Autor de "Pensamientos Viajeros".
Muy interesante el articulo, me saco de algunas dudas que me habianm quedado pendientes .
Citar Comentario
Hola Juan Carlos, muchas gracias. Me alegro que te haya podido ayudar el artículo. Saludos
Citar Comentario
Un articulo muy completo sobre el rastreo y la indexación, que son muy útiles a la hora de posicionar la web y es necesario tenerlos en cuenta.
Citar Comentario
Muchas gracias por el comentario.
Citar Comentario