Como funciona Google


Sistemas que utiliza Google para rastrear, indexar y mostrar contenido de la Web

Cuando se sienta frente a su pc y realiza una búsqueda en Google, obtiene de forma prácticamente instantánea una lista de resultados de la Web.
¿Qué sistemas utiliza Google para encontrar páginas web que coincidan con su consulta y para determinar el orden de los resultados de búsqueda?

Para explicarlo de forma sencilla, realizar una búsqueda en la Web es como consultar un libro muy extenso en el que un índice exhaustivo nos indica exactamente la ubicación de cada elemento. Cuando efectúa una búsqueda en Google, los programas consultan los índices para decidir qué resultados de búsqueda son los más relevantes y mostrárselos.

Los tres procesos clave para la presentación de resultados de búsqueda son:

* Rastreo: ¿Google conoce la existencia de su sitio?; ¿puede encontrarlo?
* Indexación: ¿Google puede indexar su sitio?
* Publicación: ¿el sitio incluye contenido útil y de calidad que sea relevante respecto a la búsqueda del usuario?

Rastreo

El rastreo es el proceso mediante el cual Googlebot descubre páginas nuevas y actualizadas, y las añade al índice de Google.

Utilizan una enorme cantidad de equipos informáticos para obtener (o "rastrear") miles de millones de páginas de la Web. El programa encargado de recuperar este contenido es Googlebot, también conocido como robot o araña. Googlebot emplea un proceso basado en algoritmos: a través de programas informáticos se determinan los sitios que deben rastrearse, la frecuencia y el número de páginas que hay que obtener de cada sitio.

El proceso de rastreo de Google empieza con una lista de URL de páginas web, generada a partir de anteriores procesos de rastreo, y se amplía con los datos de los Sitemaps que ofrecen los webmasters. A medida que Googlebot visita cada uno de estos sitios web, detecta vínculos en sus páginas y los añade a la lista de páginas que debe rastrear. Los sitios nuevos, los cambios en los existentes y los vínculos obsoletos se detectan y se utilizan para actualizar el índice de Google.

Google no acepta retribuciones económicas para rastrear un sitio con mayor frecuencia y separa el servicio de búsqueda del programa de generación de ingresos, AdWords.

Indexación

Googlebot procesa todas las páginas que rastrea para elaborar un índice masivo de todas las palabras que ve y de su ubicación en cada página. Además, procesa la información incluida en las etiquetas y los atributos de contenido principales, como las etiquetas "title" y los atributos "alt". Googlebot puede procesar muchos tipos de contenido, pero no todos. Por ejemplo, no puede procesar el contenido de la mayoría de los archivos Flash o de las páginas dinámicas.

Publicación de los resultados

Cuando un usuario introduce una consulta, las máquinas buscan en el índice las páginas que coinciden con ella y muestran los resultados que creen que son más relevantes para el usuario. La relevancia se determina a partir de más de 200 factores, uno de los cuales es el PageRank de cada página. Este parámetro representa la importancia que Google asigna a una página en función de los vínculos procedentes de otras páginas web. Para que lo entendamos, cada vínculo de un sitio que enlaza con una página del suyo influye en el PageRank de su sitio. No todos los vínculos son iguales: Google se esfuerza en mejorar el servicio que ofrece al usuario identificando los vínculos fraudulentos y otras prácticas que perjudican los resultados de búsqueda. Los mejores vínculos son los que se basan en la calidad del contenido del sitio.

Para que su sitio consiga una buena posición en las páginas de resultados, es importante asegurarse de que Google pueda rastrearlo e indexarlo correctamente. En las Directrices para webmasters destacan algunas de las prácticas recomendadas para evitar errores comunes y mejorar el ranking del sitio.

0 comentarios:

 
Freudian Analisis - Templates por Freud72