Configuracion basica de Screaming Frog y Auditoría para encontrar errores de rastreo

Hola, soy Harold y vengo con la 3ª entrega de esta serie de posts acerca de Screaming Frog y auditoría SEO.

Todos hemos pasado por esto: escuchamos auditoria por aquí, auditoria por allá, Screaming Frog es la navaja suiza del SEO, etc, pero siempre tenemos tropiezos para arrancar con estos temas.

Esta vez voy a mostrar cómo realizar una auditoría básica con Screaming Frog, para que empieces a familiarizarte con la herramienta, sus reportes y comenzar a sacarle provecho.

¿Y si te dijera que los problemas técnicos están afectando más al posicionamiento que antes? De seguro pensarías que estoy exagerando o que soy un alarmista, pero la realidad es que el mismo Google ha mencionado esto en un par de ocasiones, como en la SMX Virtual 2020, donde John Mueller entre muchas cosas dijo lo siguiente:

  • Sites that are technically better with technical SEO have an advantage (Sitios que son técnicamente mejores con el SEO Técnico tienen una ventaja)
  • Technical SEO in general is harder so get help (El SEO Técnico en general es más complicado, así que es mejor buscar ayuda)

Fuente: https://www.seroundtable.com/2021-google-seo-advice-30686.html.

Mi intención no es alarmarte ni asustarte, al contrario, mi intención es poder ayúdate a identificar estos problemas y solventarlos en la medida y sea posible.

Existen diversos y variados problemas técnicos que pueden afectar el posicionamiento, aunque las más comunes son los enlaces rotos y errores de servidor.

Nota sobre Screaming Frog
Cabe mencionar que si tienes la version FREE, muchas opciones no podrás activarlas o desactivarlas y estarás limitado a 500 elementos rastreados, esto incluye HTML, CSS, Javascript etc. Así que si me ves configurar algo que tú no puedes configurar, no te preocupes, las auditorias y revisiones que haremos en este momento no requieren mayores configuraciones pero en mi caso particular, como estoy usando la versión de pago y muevo la configuración a cada momento según sea necesario, tratar de emular la configuración para la versión FREE, empecemos.
Nota sobre la guía
Te recomiendo primero leer todo y luego hacer tu primera práctica para que ya tengas una idea de lo que tendrás que hacer. Por el otro lado, la auditoria basica la estaré dividiendo en un par de artículos para que sea mas facil de llevar.

Configuración a utilizar

Para la primera auditoría no vas a necesitar una configuración especial, con la configuración básica que viene por defecto basta. Así que manos a la obra, empieza eligiendo una de tus webs, preferiblemente una que sepas que no vaya a pasar de los 500 elementos rastreados si estas usando al versión FREE, si tienes la versión de pago, para efectos prácticos, elige una de tus webs pequeñas para que no sea abrumador tu primer auditoria.

En mi caso utilizare el blog del grupo de Facebook (hablemos de SEO) como hice mención en el primer post de esta serie, cuya URL es https://www.hablemosdeseo.net/.

Otras herramientas a utilizar

Para esta auditoria básica utilizaremos la información en Google Search Console.

Primer Rastreo

Lo primero como deberás imaginarte, es introducir la URL de la web a rastrear y haces clic en el botón START. Deberás esperar a que el rastreo finalice, el cual tardara dependiendo del tamaño y respuesta del servidor de la web rastreada.

screaming frog - introducir URL

Problemas conocidos en esta parte

No realiza el rastreo

El problema más común es que no rastree más que la homepage, y esto por lo general se debe a alguna configuración en el robots.txt o etiquetas que evitan el rastreo. Para poder verificarlo ve a ‘Configuration > Robots > Setttings’ y elige la opción “Ignore robots.txt” y vuelve a iniciar el rastreo, si esta vez realiza el rastreo sin problemas, significa que el bloqueo está en el robots.txt así que revisa.

Si nuevamente no rastrea, entonces ve al navegador y revisa el código fuente de la página o utiliza extensiones de Chrome como SEO Minion y Robots Exclusion Checker para verificar si alguna meta etiqueta o header está bloqueando el rastreo.

Realiza un rastreo parcial

Si el rastreo se hace parcialmente, es decir, que únicamente rastreo algunos recursos, entonces utiliza la extensión de Chrome SEO Minion y/o Robots Exclusion Checker para verificar alguno de los recursos no rastreados y verificar si están como NOINDEX o algo similar.

Si tienes algún problema y no logras resolverlo, déjame un comentario y con gusto puedo ayudarte a revisar.

Que empiece la Auditoría: Encontrando problemas de rastreo

Ahora a lo que nos interesa, hagamos una pequeña auditoria básica, ojo, esto no es todo lo que se puede hacer y no significa que no existan más cosas que incluir en la auditoria, pero por el momento con esto es suficiente.

Si tienes un inventario de URL (sino sabes que es, puedes leer el primer artículo de esta guía sobre la iniciación en Screaming Frog), ya que te ayudará a poder identificar qué tan grave puede ser un error de rastreo según la indexabilidad y el contenido de las URL con problemas.

Puede interesarte  Optimización avanzada de imágenes con Screaming Frog

Rastreo

El primer paso es encontrar problemas de rastreo ya que son problemas que pueden evitar todo el proceso de indexación.

Ahora veremos algunos puntos sobre el rastreo. Para esto se va a necesitar la información rastreada de Screaming Frog asi como los datos de Google Search Console (GSC).

Errores 4XX

Quiero comenzar con los enlaces rotos (cuando el HTTP Response es el código 404) y errores 4xx. Google necesita ser cada vez más eficiente con lo que hace y rastrear páginas con errores 404 solo hace que pierda tiempo valioso de rastreo, no solo hacia tu web, sino que es tiempo que podría usar para rastrear otras webs.

Desde el punto del usuario también es una molestia ya que no hay nada más pesado que seguir un enlace por algo que te interesa y que te muestre un error de que la pagina no existe.

Pero ojo, que también hay enlaces rotos “invisibles” como por ejemplo enlazar CSS o JS que no existen y que para Google o el navegador signifiquen información importante para presentar la web.

Como ves, no pueden tomarse tan a la ligera, pero no te preocupes, identificarlos y corregirlos no es tan complicado, aquí te explico una forma de hacerlo con Screaming Frog.

Errores 404 detectados

Ve a GSC > Cobertura > Excluidas y toma nota de cuantas están excluidas por errores 404 y soft 404 (al final de la guía he dejado un excel que te puede servir)
gsc - cobertura - excluidas

gsc - cobertura - excluidas - 404

En el caso de la web de ejemplo tengo 8 con error 404 y 5 con soft 404.

Anomalías de rastreo

Ahora anota también las que están excluidas por “Anomalía en el rastreo”, que en mi caso son 57, así que anoto sí.
gsc - cobertura - anomalia en el rastreo

Las URLs que aparecen aquí casi siempre es correcto que estén excluidas, pero siempre es bueno revisarlas y decidir según convenga, en el caso de la auditoria solo procedemos a anotar si tenemos o no de estos problemas.

Debes prestarle mucha atención a las anomalías de rastreo que si sean un problema ya que suelen ser problemas importantes si se dan sobre contenido rastreable e indexable.

Errores de rastreo de Googlebot

Básicamente es lo que encontrarías si analizaras los logs de tu web, no es 100% exacto pero una aproximación que sirve bastante.
Para esto ve a GSC > Ajustes > Estadísticas de Rastreo > No se ha encontrado (404) y todos los 4xx que tengas, anótalos. En mi caso tengo 10% de 404, así que anoto que tengo problemas en el rastreo.
gsc - estadisticas de rastreo - por respuesta

Si quieres profundizar más en el tema de Crawl Stats de GSC al final de la guía te dejare un video que estoy seguro te ayudara mucho.
Errores 404 en el rastreo actual

Encontrar los enlaces rotos (404) con SF es muy fácil y puedes hacerlo con la versión FREE o la de pago. Debo mencionar que puedes hacerlo únicamente analizando los enlaces internos o solo los externos o ambos a la vez, para esto debes configurar SF yendo a Configuration > Spider > Crawl y seleccionar según desees: Internal o External o ambos. También es importante marcar las casillas Follow Internal “nofollow” y/o Follow External “nofollow”.

screaming frog - configuration - crawl - links

Ahora que ya está configurado, solo sigue los siguientes pasos:

  1. Rastrear todo el sitio
  2. Ve al tab “Response Codes” y filtra por “Client Error (4XX)”
  3. Los resultados que aparezcan son los errores 404 que tiene tu web.
Corrigiendo los enlaces rotos

Si has encontrado errores y es tu web, es el momento de corregirlos, si es una auditoria para alguien mas esta parte no se realiza.

Para corregirlos debes conocer todas las URLs desde donde se enlazan las páginas, puedes ir al tab inferior “Inlinks” pero puede llegar a ser bastante ineficiente, más si tienes muchos errores y cada error tiene muchos enlaces.

Pero no te preocupes, hay una forma más sencilla de hacerlo utilizando los reportes que la misma herramienta nos da. Para esto ve en el menú principal a “Bulk Export > Response Codes > Client Error (4xx) Inlinks” y exportaras la lista de páginas con errores 404 y todos sus enlaces entrantes, el archivo luce algo así:

screenshot excel con errores 404 y sus inlinks

Ahora bien, debes tener en consideración lo siguiente, este listado te da los enlaces entrantes finales que apuntan a las páginas con errores 4xx, pero puede haber casos donde existan redirecciones o cadenas de redirecciones, cuando sea el caso, para identificarlas, en el informe que recién exportaste puedes ver la columna “Type” para saber si proviene de una redirección, dicho sea de paso, te va a servir para identificar mejor en que elemento puede estar el problema, como un enlace, una imagen, etc.

Si encontraras URLs con estos casos, puedes ir al reporte “Reports > Redirects > All redirects” y exportar la lista de las redirecciones, y busca la columna “Final status code” en la cual encontraras el error 404 en todas aquellas redirecciones donde el punto final es una página con este error. El archivo luce algo así:
screenshot excel all redirects

Puede interesarte  Auditoria OnPage con Screaming Frog

Como en hablemosdeseo.net no tengo errores de este tipo, voy a crear uno para puedas ver un ejemplo real.

He creado una entrada llamada “Entrada de prueba para Screaming Frog” y haré una redirección 301 a una entrada que no existe, luego rastrearé de nuevo la web.

La entrada en cuestión es:

https://www.hablemosdeseo.net/filoseofando/entrada-de-prueba-para-screaming-frog/

Y redireccionará a

https://www.hablemosdeseo.net/tips-y-sugerencias/como-saber-que-ha-ganado-y-perdido-despues-de-un-update-con-google-search-consoleee/

Esta última URL está mal escrita por lo tanto la redirección terminará en un 404. Vamos a rastrear todo de nuevo.

3 doritos después... 

Al terminar de rastrear la web, me voy a Response Codes y filtro por los 404 y voila:

screaming frog - redirecciones 301 que terminan en 404

El Excel con el listado de los 404 y redirects queda así (oculte algunas columnas para que la imagen no quede tan grande):

screenshot excel con errores 404 y sus inlinks - ejemplo

Y en el Excel de All redirects queda así (oculte algunas columnas y he filtrado solo la que tiene el error), la columna Source tiene la URL desde donde sale el enlace, la columna Address es hacia dónde va el enlace desde Source y Final Address es a donde termina la redirección:

screenshot excel all redirects - ejemplo

Nota
No busques estas URLs porque después de terminar la guía voy a modificarlos para otras pruebas y hasta quitarlos para no tener basura en la web.

Ahora que ya tienes identificados los enlaces rotos y desde donde provienen tienes 2 maneras de corregir:

La primera, es que si por error la URL no está disponible, pero debería lo único que debes hacer es hacer disponible dicha URL nuevamente.

La segunda lleva un poco más de trabajo y tiene diferentes formas de corregir, y es cuando los enlaces están mal. En este caso debes analizar caso por caso y tomar una acción según corresponda, a continuación, te detallo los problemas más comunes:

  • El enlace desde la página de origen está mal: por ejemplo, si por error de dedo quedo mal escrita, en este caso debes editar la página origen y corregir el enlace.
  • El enlace de destino ha cambiado: imagina que por A o B razón una URL cambió pero el enlazado interno no se corrigió. En este caso es probable que sean varios enlaces entrantes los que tengan el problema por lo que puedes optar por editar un enlace a la vez, o utilizar un plugin como “Better search replace” para reemplarlo en toda la web.
    Si tienes un plugin SEO como YOAST o Rank Math es probable que al cambiar una URL se cree una redirección 301, y es preferible no tenerla, asi que si es el caso, no te va a aparecer como error 404 pero si es bueno cambiar el enlazado interno.
  • Enlaces a imágenes HTML: estas son enlaces a las que puedes hacer clic sobre ellas, por ejemplo para hacer un zoom, donde el thumbnail está bien, pero la imagen grande no y al hacer clic la imagen no se muestra. En ese caso debes corregir la imagen de destino, o remover la acción del clic de la imagen de origen o enlace.
  • Popup no encontrado: algunas veces tienes enlaces que abren en popups y que por alguna razón dicha URL o popup no existen, ya sea por error en la URL o porque se quitó el popup pero no el enlace que lo apuntaba. En este caso debes corregir según corresponda: editar el enlace o quitarlo.
  • El enlace externo ya no está disponible: con el tiempo, cuando se enlazan páginas externas, estas pueden cambiar sin que nos demos cuenta, si este es el caso tienes dos opciones: a) buscar la nueva URL o una URL sustituta o b) quitar el enlace desde tu web.
  • Video ya no disponible: cuando enlazas a un video ya sea en Youtube, Vimeo, DailiMotion, etc vas a encontrar un enlace roto, para solucionarlo debes hacer lo mismo que con el punto anterior: encontrar un sustituto o quitar el enlace al video.

2.2 Errores 5xx

  1. Errores 5xx: ahora harás el mismo ejercicio de los errores 4xx pero con los errores 5xx, en mi caso fueron los siguientes:
    1. Errores 5xx detectados por Google: (Ir a GSC > Cobertura > Error > Error de servidor (5xx) ) No tengo.
    2. Errores de rastreo de GoogleBot: No tengo
    3. Screaming Frog: No tengo
  2. Redirecciones 302 internas detectadas por Googlebot: Ve a GSC > Ajustes > Estadísticas de rastreo > Por Respuesta > Movido Temporalmente (302) y anota si tienes o no errores 5xx.

Redirecciones 302 detectadas en el rastreo actual: Ir a SF > Response codes > filtrar por Redirection (3xx) y anotar si ha encontrado redirecciones 302. Puedes usar el filtro para separar los 301 de los 302, elige status code y filtra por 302
screaming frog - filtrado

  1. Errores 301: haz lo mismo que con las redirecciones 302, solo que esta vez anota los errores 301.

2.3 Otros

  1. Redirecciones 302 internas detectadas por Googlebot: Ir a GS > Ajustes > Estadísticas de rastreo > Por Respuesta > Movido Temporalmente (302). En mi caso tengo 2 grupos de estos errores: feeds que tuve en algún momento  y enlaces creados por el plugin ThirstyAffiliates que contabilizan clics en algunos enlaces de interés, estos últimos son correctos por lo que no se debe hacer nada, en el caso de los feeds si son un problema.
    gsc - estadisticas de rastreo - 302
  2. Redirecciones 302 internas en el rastreo actual: Ir a SF > Response codes > filtrar por Redirection (3xx) y anotar si han encontrado redirecciones 302, para esto en el campo search puedes seleccionar Status Code, para luego buscar por el código de estado.
    screaming frog - como buscar
    En mi caso los que aparecen aquí son redirecciones que yo he configurado por lo tanto todo está bien.
  3. Redirecciones 301 internas detectadas por Googlebot: Ir a GS > Ajustes > Estadísticas de rastreo > Por Respuesta > Movido Temporalmente (301), en mi caso tengo algunas redirecciones detectadas por Googlebot.
  4. Rredirecciones 301 internas en el rastreo actual: Ir a SF > Response codes > filtrar por Redirection (3xx) y anotar si ha encontrado redirecciones 301.
  5. Páginas que apuntan a páginas con redirección 301: Revisa las URLs del punto anterior y en el tab de INLINKS para encontrar si dichas URLs tienen enlaces internos apuntándoles. Si son muchas URLs e INLINKS puedes ir a “Bulk Export > Response Codes > Client Error (4xx) Inlinks” y exportaras la lista de páginas con errores 404 y todos sus enlaces entrantes.
  6. Los 3xx están redirigendo a una URL con estado 200: Ve a SF > Reports > Redirecs > All redirects y de la lista exportada identifica las que 301 que terminan en páginas que no devuelven estado 200 viendo la columna “Final status code”.
  7. Los 3xx tienen cadenas largas de redirección: Ve a SF > Reports > Redirecs > Redirect Chains e identifica cadenas largas de redirecciones. Te puedes auxiliar de httpstatus.io para validar.
  8. Los 3xx tienen un loop infinito: siempre con httpstatus.io verifica si hay 301 que estén en un loop y generen un error, en mi caso no tengo.
  9. Redirecciones con Loop: Ve a SF > Reports > Redirects > Redirect Chains y con la columna LOOP puedes identifcar si hay errores de este tipo. Te puedes auxiliar de httpstatus.io para validar.
  10. Imágenes rotas: ahora se debe verificar si hay imágenes rotas, para esto ve a SF > Internal > Filtra por Images y filtra por Status Code = 404, en mi caso no tengo.
    screaming frog - imagenes rotas
  11. CSS Rotos y Javascript Rotos: realiza el mismo proceso para las imágenes rotas, cambiando únicamente el filtro de imágenes por CSS y Javascript respectivamente.
    screaming frog - css rotos
    screaming frog - javascript rotas
  12. Canonicals apuntando a URLs no indexables: ve a SF > Canonicals > Filtra por Non-Indexable Canonical, en mi caso no tengo.
    screaming frog - canonicals no indexables
    Nota: Este filtro muestra las URLs que apuntan a recursos bloqueados por robots.txt, sin respuesta (no response), redirecciones 301, errores 4xx, errores 5xx o que son NOINDEX.
    Si quieres obtener una lista con más detalles ve a Reports > Canonicals > Non-Indexable Canonicals y el informe va a incluir el HTTP Status para que puedas tener más claro por qué aparece en la lista anterior.
  13. URLs duplicadas sin canonical: ve a GSC > Cobertura > Excluidas > Duplicada: la URL enviada no se ha seleccionado como canónica, en mi caso no tengo.
Puede interesarte  Reportes y otras hierbas de Screaming Frog

2.4 Conclusiones y recomendaciones

Por lo que he encontrado, debo revisar los errores 404 detectados, y las redirecciones internas para ver porque están y si se pueden quitar (redirecciones internas).

En el aspecto de rastreo se podría decir que todo está muy bien.

¿Qué has aprendido hoy?

Hoy has aprendido a:

  • Configurar Screaming Frog
  • Realizar el rastreo de una web
  • Resolver problemas a la hora de rastrear una web
  • Como auditar y encontrar problemas con el rastreo de una web

Ahora te toca a ti

Llegados a este punto, ahora es tu turno de hacer tu primera práctica, ve al inicio de la guía y empieza por configurar Screaming Frog, a poner tu primer rastreo y auditoria.

Es importante que vayas tomando notas de lo que vas encontrando para eso te dejo en este enlace un pequeño Excel para que hagas esta pequeña auditoria. Debo agregar que a medida se avance en la auditoría iré compartiendo otros archivos complementarios, este que te he compartido solo cubre la parte de errores de rastreo.

Por el momento es todo, nos vemos en la siguiente practica donde cubriré la parte de enlaces rotos y como corregirlos.

Y recuerda, si te gustó esta práctica compártela con otros que puedan necesitarla, y si tienes dudas, inquietudes o preguntas, déjalas en los comentarios, será un placer responderte.

Aquí puedes ver el video sobre Estadísticas de Rastreo de Iñaki Huerta:

 

 

¿Te ha sido útil este contenido?

¡Haz clic para puntuar!

Promedio de puntuación 5 / 5. Recuento de votos: 1

Hasta ahora, ¡no hay votos!. Sé el primero en puntuar este contenido.

Ya que has encontrado útil este contenido...

¡Sígueme en los medios sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Comentarios

Comenta