El cable del equilibrista: octubre 2015

martes, 27 de octubre de 2015

¿Sabes preguntarle a Internet?

En todos los aspectos de la vida, para obtener las respuestas que buscamos tenemos que hacer las preguntas correctas. Internet no permanece ajeno a esta máxima.

Cuando estamos investigando acerca de cualquier tema, a la hora de interrogar, lo primero que tenemos que hacer es recopilar y ordenar lo que ya sabemos acerca del tema, después formular una buena pregunta.

Después, los diferentes elementos identificables en la realización de una investigación tienen que ser traducidos a palabras clave o descriptores para que puedan ser interpretados por un buscador.

Nos encontramos con 3 clases de palabras claves:

Las palabras claves de campo temático. Son los nombres de las disciplinas y los términos que hablan del tema de nuestra pregunta.
Las palabras claves de problema específico. Son frases específicas o expresiones claves, segmentos de texto insertos en un contexto que intentamos rescatar. Por eso es aconsejable incluir expresiones “en uso” que tengan que ver con el lenguaje que utilizamos habitualmente.
Las palabras claves de referencias autorales. Sirven para identificar apellidos en listas bibliográficas que no siempre incluyen el nombre del autor, por lo tanto, es conveniente incluir sólo apellidos.

Google Académico

Es una herramienta de búsqueda que nos va a permitir buscar bibliografía especializada de una manera sencilla. Nos va a ayudar a encontrar el material más relevante dentro del mundo de la investigación académica.

Desde un solo sitio podemos realizar búsquedas en un gran número de fuentes como, por ejemplo, estudios revisados por especialistas, tesis, libros, resúmenes y artículos de fuentes como editoriales académicas, sociedades profesionales, depósitos de impresiones preliminares, universidades y otras organizaciones académicas. Encontrar documentos académicos, resúmenes y citas. Podemos localizar documentos académicos completos en la red y obtener información acerca de documentos académicos claves en un campo de investigación.

Aquí tenemos un ejemplo de búsqueda. Si, por ejemplo, quiero encontrar los documentos más relevantes publicados en los dos últimos años en español sobre gestión de bibliotecas podemos interrogar a Google Académico de la siguiente manera:

Aquí podemos visualizar parte de los resultados obtenidos.

Analicemos cómo se visualizan los resultados obtenidos en una búsqueda:

1. Título del artículo

2. Nombre del autor - Publicación - Año - URL en la que se encuentra disponible.

3. Tipo de documento

4. Fragmento en el que aparecen las palabras claves que utilizamos en la búsqueda.

5. Número de veces en que fue citado este artículo.

6. Links a los artículos relacionados.

7. Versión del artículo en formato HTML.

8. Links a otras versiones disponibles del mismo trabajo.

Si bien Google Académico ofrece ciertas garantías con respecto a la calidad del material disponible, es importante constatar su confiabilidad revisando si éste contiene los elementos que corresponden a un documento académico como: título, nombre del autor, datos de la publicación y/o institución que lo difunde, etc.

Estos elementos deben permitirnos formular una cita bibliográfica completa.

Si los resultados son más de 150 o 200, es necesario restringir la búsqueda; si son menos de diez, tenemos que ampliarla.

Cada vez son más las herramientas con las que podemos contar a la hora de buscar información en Internet. Podemos acceder a un sin fin de datos, información y conocimiento. Sin embargo, es necesario que conozcamos las herramientas y metodologías más apropiadas para interrogar a la Red.

domingo, 25 de octubre de 2015

El bibliotecario conoce lo que esconde la Web

En la Sociedad de la Información y del Conocimiento son los documentalistas y bibliotecarios los profesionales que saben proporcionar a sus usuarios la información más conveniente a sus intereses tanto educativos y profesionales como de ocio.

Desde hace décadas, son expertos en crear catálogos off-line donde codifican información para poder recuperarla cuando sea necesaria. Crean y trabajan en catálogos que incluyen información sobre todo tipo de recursos documentales (gráficos, sonoros, etc), pero además, su información puede estar codificada siguiendo diferentes lenguajes y formatos que el documentalista domina.

Pero actualmente han habido muchos cambios que hacen necesario replantearse ir más allá del catálogo como herramienta de búsqueda, ya que disponemos de un "catálogo" mucho más amplio a nivel mundial y con todo tipo de información, datos, formatos, lenguas...que es Internet. Pero a diferencia de los minuciosos catálogos de bibliotecas y centros de documentación la información no está tan controlada y no siempre se conocen los códigos y lenguajes para preguntar a esa gran "catálogo".

Es obvio que tod@s sabemos hacerle preguntas sencillas a Google o a cualquier otro buscador, pero ¿los buscadores siempre nos dan toda la información que posee sobre la materia interrogada como sucede con los catálogos de bibliotecas y centros de documentación?

La respuesta es no. La información siempre que busquemos de manera tradicional va a venir de la Web superficial o visible, a la que tienen acceso los buscadores tradicionales, sólo ofrecen acceso a una pequeña parte de lo que existe online.

Pero también existe la Web profunda o invisible, en la que se encuentras un amplio banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login, en muchas ocasiones gratuito, y otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.

La Web Superficial o visible

La Web Superficial está formada por todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda. (Ver entrada sobre la búsqueda avanzada).

Se caracteriza porque su información no está contenida en bases de datos y es de libre acceso. No se requiere la realización de un proceso de registro para acceder a la información y mayoritariamente está formada por páginas web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

La Web Profunda o invisible

La Web profunda está formada por la información que se encuentra en Internet, pero que no se recupera utilizando los buscadores convencionales.

La mayoría es información almacenada y accesible mediante bases de datos. Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante desapareciendo una vez cerrada la consulta.

Pero según Lluis Codina: “Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web no indizable, lo cual es un término mucho más adecuado”.

Sherman y Price, establecen que el contenido de la Web profunda puede clasificarse en:

La Web opaca (the opaque Web), está compuesta por archivos que, aunque por sus características podrían pertenecer a la web superficial no lo están por alguna de las siguientes razones:

Por la extensión de la indización: en ocasiones y por diferentes motivos, como por economía, no todas las páginas de un sitio son indizadas en los buscadores.
Por la frecuencia de la indización: los buscadores no poseen la capacidad de indizar todas las páginas existentes; a diario se agregan y modifican muchas y la indización no se realiza al ritmo que permita incluirlas a todas.
Tiene una URL desconectada: muchos buscadores, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados en otros. Si un documento no tiene un link a él, desde otro documento, será imposible que la página sea encontrada, pues no se encuentra indizada.
Por el número limitado de resultados visibles: los motores de búsqueda nos dan, en la mayoría de los casos, un número de documentos limitados, generalmente entre 200 y 1000.

La Web privada (the prívate Web). Esta parte de la Web suele contener documentos excluidos deliberadamente. Son los dueños de la información los que deciden que no se encuentre disponible, por lo que difícilmente se podrán encontrar mecanismos legítimos para franquear esa barrera.

La información está en páginas Web que podrían estar indizadas en los buscadores pero son excluidas deliberadamente porque:

Las páginas están protegidas por contraseñas.
Contienen un archivo “robots.txt” para evitar ser indizadas.
Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.

La Web propietaria (the propietary Web) está compuesta por las páginas en las que es imprescindible registrarse para tener acceso al contenido, ya sea de forma gratuita o de manera onerosa.

La Web realmente invisible (the truly invisible Web) está formada por las páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.

Algunos de los recursos de búsqueda en la Web Profunda son:

The WWW Virtual Library se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee, el creador de la web.
Infoplease es una Web de consulta con más de 57.000 artículos de la prestigiosa enciclopedia Columbia. Facilita la consulta de información con opciones de búsqueda por términos o por áreas de conocimiento. Es posible acceder a un buen número de enciclopedias, atlas, y biografías. Y también tiene algunas ramificaciones interesantes como Factmonster.com para los niños y Biosearch, un motor de búsqueda sólo para biografías, o información de todo lo acontecido históricamente en un determinado día.
DeepWebTech ofrece cinco motores de búsqueda para temas específicos. Los motores de búsqueda abarcan la ciencia, medicina y negocios. El uso de estos motores de búsqueda específicos del tema, puede consultar las bases de datos subyacentes en la Web profunda.
TechXtra centra su información, en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas y podcasts.

martes, 20 de octubre de 2015

La Búsqueda Avanzada

Los motores de búsqueda y otros programas y herramientas pueden ofrecer la opción de realizar búsqueda avanzada. A la hora de realizar una búsqueda avanzada, a través de múltiples cuadros de texto, casillas de verificación y otros elementos incluidos habitualmente en los formularios se pueden realizar búsquedas más complejas y concretas, ya que estos mecanismos aplican filtros a la búsqueda básica, para obtener resultados más exactos.

Un buen ejemplo es la búsqueda avanzada de Google, ya que nos da varias opciones para realizar búsquedas con mayor precisión y obtener resultados más útiles. Además de la introducción de términos en el campo de búsqueda, Google ofrece otras opciones, que nos permiten encontrar páginas que contengan:

Todas las palabras que se mencionan
Una frase exacta
Cualquiera de una serie de palabras
Ninguna de las palabras que se mencionan
Valores comprendidos en un determinado intervalo

Un ejemplo:

Para buscar información sobre un vuelo concreto realizado por un avión llamado Cuatro Vientos, realizado en 1933.

Otra característica de la búsqueda avanzada de Google es que podemos restringir los resultados por: idioma, región, fecha de la actualización del artículo.

Además nos permite introducir la URL de un sitio específico, dónde deben aparecer los términos que ingresamos (en el título, descripción o en cualquier parte de la página), los resultados más relevantes, el tipo de archivo (esto es muy útil ya que por ejemplo podemos seleccionar, documentos de texto, PDF, presentaciones multimedia, planillas de cálculo, entre otros) y finalmente por los derechos de uso del material.

Para buscar imágenes

La búsqueda de imágenes de Google permite además de agregar términos en el cuadro de búsqueda, buscar por imagen es decir ingresar la URL de una imagen o subir un archivo de imagen desde nuestro ordenador, eso nos permitirá encontrar la imagen u otras con características parecidas.

La Búsqueda avanzada de imágenes de Google, también nos ofrece numerosas opciones para filtrar información y realizar búsquedas con mayor precisión: entre otras posibilidades seleccionar el tamaño, proporción, color, tipo de imagen, tipo de archivo entre otras posibilidades.

Veamos un ejemplo: se buscaron imágenes del avión, del vuelo anterior, empleando criterios como fotografía en blanco y negro, sin licencia de uso.

Más información en la ayuda de Google de Búsqueda Avanzada

domingo, 18 de octubre de 2015

Búsquedas por operadores booleanos y palabras clave

El mejor método para tener buenos resultados en nuestras búsquedas de información en Internet es seleccionar las palabras claves correctas, si las utilizamos bien, los resultados que tendremos serán los que mejor satisfagan nuestras necesidades de información.

Pero su además utilizamos herramientas como los operadores lógicos o booleanos nos sirven para relacionar dos o más palabras claves y frases para ampliar la búsqueda, reducirla o reorientarla.
Estos operadores son:

AND (Y) o el signo + delante de las palabras claves, nos indican que las páginas deberán incluir todos los términos que aparecen indicados, independientemente del orden. Por ejemplo, papel+cartón, nos devolverá los resultados que tengan estos dos términos.

El operador OR (O) permite obtener registros con alguno de los términos indicados. Un ejemplo sería, la puerta está abierta o cerrada, no pueden ser posibles ambas opciones, o es una, o es la otra.

El espacio en blanco en cambio funciona como un o incluyente, ambas expresiones pueden ser posibles al mismo tiempo. Un espacio en blanco entre las dos expresiones, nos devolvería página que contengan una de las dos o las dos al mismo tiempo.

El operador NOT o el signo – (guión medio) delante de las palabras claves, las excluye de la búsqueda. Estos operadores pueden combinarse para facilitar una búsqueda. Por ejemplo: SIDA Not niños, devolvería resultados sobre sida que no afecte a niños.

El símbolo * (asterisco): sustituye una cadena de caracteres. Un asterisco puede utilizarse en una búsqueda como marcador de posición para cualquier término comodín o desconocido. Se lo puede combinar con el uso de comillas para buscar variaciones de esa frase exacta o para recordar palabras en medio de una frase. Por ejemplo: "una * vale más que * palabras"

El signo ? (de interrogación): sustituye a un solo carácter en una ubicación específica. Por ejemplo: la expresión niñ? nos permitirá obtener páginas en donde figuren las expresiones niño o niña.
Si buscamos una frase exacta o una expresión formada por varias palabras, debe encerrarse entre comillas. Por ejemplo: “Archipiélago de las Canarias”.

El símbolo @ permite buscar etiquetas sociales. Por ejemplo:@Magugaldu

El símbolo # busca temas de tendencias. Por ejemplo: #tendencias

El símbolo .. , “dos puntos sin espacios” permite obtener resultados que contengan valores incluidos en un determinado intervalo de elementos como fechas, medidas y precios.
Ejemplo: bicicleta 90..110

Operadores de búsqueda especiales

Como ya indicamos, los operadores de búsqueda son expresiones que podemos añadir a las búsquedas para restringir los resultados Al hacer búsquedas con operadores, no se deben añadir espacios entre el operador y los términos de búsqueda.

El operador define: nos permite obtener la definición de una palabra. Por ejemplo: define:metabuscador

El operador site: nos permite obtener resultados dentro de uno o de varios sitios o dominios. Por ejemplo, podemos encontrar todas las menciones del término Velázquez en el sitio del Museo del Prado: velazquez site:www.museodelprado.es

El operador link: nos permite obtener páginas que apunten a un determinado sitio. Por ejemplo, podemos encontrar todas las páginas que se dirijan al sitio de nuestra institución educativa.

El operador related: nos permite encontrar sitios similares a una URL que conocemos. Por ejemplo si buscamos sitios relacionados con elmundo.es encontraremos otros sitios de publicación de noticias que podrían interesarnos. related:elmundo.es

El operador allintitle, nos permite realizar una búsqueda por título. Por ejemplo si buscamos páginas que contengan la expresión arte digital en su título debemos ingresar en la barra de búsqueda: allintitle:”arte digital”

El operador info nos muestra información acerca de un sitio web determinado.

Para más información:

- Operadores de búsqueda

- Filtrar los resultados de búsqueda

- Página de resultados de búsqueda de Google

martes, 13 de octubre de 2015

Nuestra caja de herramientas para buscar información en Internet

La anterior entrada estuvo dedicada a explicar cómo funcionan los buscadores de Internet. En esta vamos a ampliar el número de herramientas que pueden ser interesantes para buscar en la Red.

Metabuscadores

Los metabuscadores son servidores web que buscan en el contenido de los índices de buscadores y directorios. Después eliminan las duplicaciones para proveer un resumen de los resultados obtenidos que nos van a aparecer ordenados por relevancia.

Hay que considerar que cada buscador utiliza su propia estrategia a la hora de recoger la información y ordenar los resultados.

Los metabuscadores más destacados son:

Directorios

También se llaman buscadores temáticos. Son como grandes bibliotecas virtuales. Los directorios sistematizan la información en categorías y sub-categorías. Registran las URLs (direcciones) y una pequeña descripción de los diferentes sitios que han sido indexados.

Las personas que trabajan en directorios (a veces de forma voluntaria) analizan y evalúan los sitios web y los organizan según su contenido en categorías y/o en subcategorías, como por ejemplo Educación, Salud, Gastronomía, etc. Se ordenan de manera manual a partir del registro de sitios por parte de sus autores. Después los editores seleccionan y jerarquizan la información.

Algunos buscadores incluyen un sistema de navegación en forma de directorio, además, algunos directorios complementan sus resultados con los de una búsqueda en un buscador.

Los directorios más importantes son:

Guías Temáticas

Se componen por páginas de recursos web organizadas por áreas diversas de conocimiento. Suelen ser de gran calidad ya que la selección de recursos es cuidadosa. Se actualiza de manera frecuente. Algunas son realizadas por universidades. Incluyen revistas electrónicas, tesis y proyectos o bases de datos entre otros recursos. Además de consejos para realizar trabajos académicos, estrategias de búsqueda, etc.

Algunas guías temáticas para destacar:

Universidad de Almería. Biblioteca Nicolás Salmerón: GuíasTemáticas
Universidad Carlos III de Madrid. Biblioteca: Guías derecursos
Universidad de Sevilla. Biblioteca: Guías de la BUS
Universidad de Alicante. Biblioteca: Guías temáticas
“Biblioteca Virtual WWW” (The WWW VirtualLibrary)

Software especializado

Es un software que se instalan en el ordenador y añade a los navegadores diferentes funcionalidades como el uso de conceptos para la obtención de información.

Los agentes de búsqueda son programas que recorre automáticamente Internet aprovechando la estructura de enlaces de la web. Un agente de búsqueda puede realizar diversas funciones como realizar consultas a gran velocidad y en un conjunto de fuentes muy grande. Además, informa de las actualizaciones que se producen en los sitios web que son de interés, hace más rápidas las descargas que se realizan desde Internet, elimina spam, busca noticias conforme a las preferencias.

Un ejemplo es “Copernic Agent”, una herramienta que permite la búsqueda selectiva en fuentes y las clasifica con herramientas de análisis.

Para tener esta información en un solo vistazo:

http://es.padlet.com/elcabledelequilibrista/cajadeherramientas

jueves, 8 de octubre de 2015

Las arañas de Internet

¿Quién no ha oído hablar del archiconocido Google en nuestros días? Es una herramienta que todos utilizamos para buscar cualquier tiempo de información en Internet. Aunque pocos saben que es un buscador, además de cómo funciona.

Un buscador está compuesto por cuatro componentes básicos: robot o spider, motor de indexación, índices o ficheros inversos y motor de búsqueda. Estos elementos actúan de la siguiente manera:

El robot, o spider, es un programa que va explorando la Web consiguiendo información relevante de las páginas que visita. Después es analizada y condensada.

Después, el motor de indexación organiza los datos para su presentación a los usuarios. La indexación se realiza por conceptos o palabras clave, indexando todo el texto del documento, a excepción de los artículos, preposiciones y otros términos denominados “palabras vacías”. Hay motores de búsqueda que en la indexación utilizan las palabras que más se repiten, o los vocablos que se encuentran en el título, la URL, las cabeceras, los enlaces, los primeros párrafos y las palabras claves incluidas en las etiquetas o tags.

Para facilitar la búsqueda, en la información recolectada, se utilizan estructuras de datos denominadas "índices o ficheros inversos", mediante los cuales se asocia una palabra a una lista de documentos relacionados con ella.

El motor de búsqueda procesa las consultas recibidas por los usuarios. Recorre los índices inversos (por lo que los buscadores, solo pueden recuperar una pequeña parte de todo lo que realmente hay en Internet) buscando los términos relacionados con la consulta y obteniendo los identificadores de los documentos. Además, los ordena jerárquicamente y los presenta al usuario.

Los buscadores más relevantes son:

Google (http://www.google.com)
Lycos (http://www.lycos.com/)
Bing (http://www.bing.com/)
DuckduckGo (https://duckduckgo.com/)
Yahoo buscador (https://es.search.yahoo.com/)

De manera muy similar trabajan bibliotecarios y documentalistas a la hora de elaborar información a partir de datos. Aunque, a diferencia de los motores de búsqueda, el documentalista no solo maneja información que está en Internet, sino también información impresa, sonora, etc, que no ha sido subida a la red.