El cable del equilibrista: El bibliotecario conoce lo que esconde la Web

En la Sociedad de la Información y del Conocimiento son los documentalistas y bibliotecarios los profesionales que saben proporcionar a sus usuarios la información más conveniente a sus intereses tanto educativos y profesionales como de ocio.

Desde hace décadas, son expertos en crear catálogos off-line donde codifican información para poder recuperarla cuando sea necesaria. Crean y trabajan en catálogos que incluyen información sobre todo tipo de recursos documentales (gráficos, sonoros, etc), pero además, su información puede estar codificada siguiendo diferentes lenguajes y formatos que el documentalista domina.

Pero actualmente han habido muchos cambios que hacen necesario replantearse ir más allá del catálogo como herramienta de búsqueda, ya que disponemos de un "catálogo" mucho más amplio a nivel mundial y con todo tipo de información, datos, formatos, lenguas...que es Internet. Pero a diferencia de los minuciosos catálogos de bibliotecas y centros de documentación la información no está tan controlada y no siempre se conocen los códigos y lenguajes para preguntar a esa gran "catálogo".

Es obvio que tod@s sabemos hacerle preguntas sencillas a Google o a cualquier otro buscador, pero ¿los buscadores siempre nos dan toda la información que posee sobre la materia interrogada como sucede con los catálogos de bibliotecas y centros de documentación?

La respuesta es no. La información siempre que busquemos de manera tradicional va a venir de la Web superficial o visible, a la que tienen acceso los buscadores tradicionales, sólo ofrecen acceso a una pequeña parte de lo que existe online.

Pero también existe la Web profunda o invisible, en la que se encuentras un amplio banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login, en muchas ocasiones gratuito, y otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.

La Web Superficial o visible

La Web Superficial está formada por todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda. (Ver entrada sobre la búsqueda avanzada).

Se caracteriza porque su información no está contenida en bases de datos y es de libre acceso. No se requiere la realización de un proceso de registro para acceder a la información y mayoritariamente está formada por páginas web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

La Web Profunda o invisible

La Web profunda está formada por la información que se encuentra en Internet, pero que no se recupera utilizando los buscadores convencionales.

La mayoría es información almacenada y accesible mediante bases de datos. Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante desapareciendo una vez cerrada la consulta.

Pero según Lluis Codina: “Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web no indizable, lo cual es un término mucho más adecuado”.

Sherman y Price, establecen que el contenido de la Web profunda puede clasificarse en:

La Web opaca (the opaque Web), está compuesta por archivos que, aunque por sus características podrían pertenecer a la web superficial no lo están por alguna de las siguientes razones:

Por la extensión de la indización: en ocasiones y por diferentes motivos, como por economía, no todas las páginas de un sitio son indizadas en los buscadores.
Por la frecuencia de la indización: los buscadores no poseen la capacidad de indizar todas las páginas existentes; a diario se agregan y modifican muchas y la indización no se realiza al ritmo que permita incluirlas a todas.
Tiene una URL desconectada: muchos buscadores, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados en otros. Si un documento no tiene un link a él, desde otro documento, será imposible que la página sea encontrada, pues no se encuentra indizada.
Por el número limitado de resultados visibles: los motores de búsqueda nos dan, en la mayoría de los casos, un número de documentos limitados, generalmente entre 200 y 1000.

La Web privada (the prívate Web). Esta parte de la Web suele contener documentos excluidos deliberadamente. Son los dueños de la información los que deciden que no se encuentre disponible, por lo que difícilmente se podrán encontrar mecanismos legítimos para franquear esa barrera.

La información está en páginas Web que podrían estar indizadas en los buscadores pero son excluidas deliberadamente porque:

Las páginas están protegidas por contraseñas.
Contienen un archivo “robots.txt” para evitar ser indizadas.
Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.

La Web propietaria (the propietary Web) está compuesta por las páginas en las que es imprescindible registrarse para tener acceso al contenido, ya sea de forma gratuita o de manera onerosa.

La Web realmente invisible (the truly invisible Web) está formada por las páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.

Algunos de los recursos de búsqueda en la Web Profunda son:

The WWW Virtual Library se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee, el creador de la web.
Infoplease es una Web de consulta con más de 57.000 artículos de la prestigiosa enciclopedia Columbia. Facilita la consulta de información con opciones de búsqueda por términos o por áreas de conocimiento. Es posible acceder a un buen número de enciclopedias, atlas, y biografías. Y también tiene algunas ramificaciones interesantes como Factmonster.com para los niños y Biosearch, un motor de búsqueda sólo para biografías, o información de todo lo acontecido históricamente en un determinado día.
DeepWebTech ofrece cinco motores de búsqueda para temas específicos. Los motores de búsqueda abarcan la ciencia, medicina y negocios. El uso de estos motores de búsqueda específicos del tema, puede consultar las bases de datos subyacentes en la Web profunda.
TechXtra centra su información, en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas y podcasts.

El cable del equilibrista

domingo, 25 de octubre de 2015

El bibliotecario conoce lo que esconde la Web

La Web Superficial o visible

La Web Profunda o invisible

3 comentarios: