martes, 16 de junio de 2015

Web superficial y Web profunda

Introducción

Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la Web superficial o visible. Lo que resta, la Web profunda o invisible, es un amplio banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito) y otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.

La Web Superficial

La Web Superficial o visible comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda. Se trata de sitios cuya información no está contenida en bases de datos, es de libre acceso y no se requiere un registro para acceder a la información.
En general se trata de sitios que poseen una URL fija y accesibles desde otro enlace.

¿Qué es la Web profunda?

La Web profunda o invisible es el término utilizado para describir toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos.

José A. Ruiz Felipe en su artículo Recuperar información de la Internet profunda señala que esta web profunda es de 400 a 550 veces más grande que la web superficial. La web profunda contiene casi 550 mil millones documentos individuales comparados a los 2500 millones de documentos del Web superficial.
Las herramientas de recuperación de información como los motores de búsqueda más utilizados no localizan el contenido de la Web profunda, incluso los más potentes como Google que superan los mil millones de páginas, no indizan más del 50% de la Red.

¿Que información se encuentra en la Web profunda?

La www es sólo una parte del contenido de Internet, hay otros protocolos de Internet, no indizables por los motores de búsqueda, y que forman la Internet Invisible: Ftp (File Transfer Protocol), e-mail, grupos de noticias, Internet Relay Chat (IRC) ...
Ente otros documentos que pueden encontrarse en al Web profunda, pueden señalarse:
  • Catálogos de bibliotecas y bases de datos bibliográficas
  • Bases de datos no bibliográficas
  • Revistas electrónicas, en las que es necesario un registro previo y las que solo se puede recuperar la información mediante búsquedas en su base de datos
  • Documentos en formatos no indizables, como documentos en pdf, word...
  • Obras de referencia: enciclopedias, diccionarios... en las que es necesario interrogar a la base de datos para acceder al contenido.
Luis Castro en la página ¿Qué es Deep Web? señala que generalmente las páginas que están en la Web profunda se pueden acceder únicamente con un URL que apunta específicamente a una página . Sin embargo, mediante la utilización de buscadores de temas específicos se puede aceder a ciertos contenidos, algunos ejemplos son:
  • Scirus: para búsquedas de información científica
  • Infomine: búsquedas de material escolar
  • FreeLunch: búsquedas de datos económicos
  • Archive, metabuscador para rastrear temas específicos
En el siguiente video Abraham Arreola brinda una clara explicación acerca de la Web profunda:




2 comentarios:

  1. Muy bueno tu trabajo, me gustó mucho y el video aunque corto explica bien las diferencias entre la web superficial y profunda

    ResponderBorrar
  2. Esta bien claro el mensaje del modulo del MOOC en tu entrada en este blog.

    ResponderBorrar