viernes, 19 de junio de 2015

Web Superficial y Web Profunda


La información contenida en Internet puede ser dividida en dos grandes grupos:
Web Superficial compuesta por aquellos sitios que pueden ser accedidos por los buscadores.
Web Profunda o Invisible que comprende toda la información a la que no se puede acceder a través de los buscadores convencionales.

Sherman y Price hablan de cuatro tipos de contenidos invisibles:

            La Web Opaca
Se compone de archivos que no están incluidos en los índices de los buscadores por alguno de los siguientes motivos
·        Extensión de la indización: por economía no todas la páginas de un sitio se indezan en los buscadores
·        Frecuencia de la indización: falta de capacidad de los buscadores para indizar todas las páginas existentes
·        Número máximo de resultados visibles: generalmente los buscadores limitan el número de documentos que se muestran
·        URL desconectada: Los buscadores presentan los documentos por su relevancia, basando ésta en el número de veces en que ese elemento aparece referenciado en otros
La Web Privada
Son páginas web excluidas de los buscadores por alguna de las siguientes razones:
·        Páginas protegidas por contraseña
·        Tienen un archivo “robots.txt” para evitar ser indizadas
·        Contienen un campo “noindex” que evita que el buscador pueda indizar el cuerpo de la página
La Web Propietaria
Formada por el conjunto de páginas que requieren registrarse para tener acceso a ellas, bien sea de gorma gratuita o de pago.
La Web Realmente Invisible
Compuesta por páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores
·        Programas ejecutables y archivos comprimidos
·        Páginas generadas dinámicamente: se generan a partir de datos introducidos por el usuario
·        Información contenida en base de datos relacionales: solo se extrae si se realiza una petición específica


Algunos recursos de búsqueda en la Web Profunda

The WWW Virtual Library (vlib.org), el catálogo más antiguo en la web
Infoplease (www.infoplease.com),  web de consulta de la prestigiosa enciclopedia Columbia. Se puede acceder a un buen número de enciclopedias, atlas y biografías
DeepWebTech (www.deepwebtech.com), con cinco motores de búsqueda que abarcan la ciencia, medicina y negocios y que pueden consultar las bases de datos en la Web Profunda
TechXtra (techxtra.tradepub.com/)  con información sobre ingeniería, matemáticas e informática. Se puede navegar por una extensa lista de revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas y podcasts



Según Lluis Codina “Internet Invisible” es un término inadecuado, debería denominarse “No indizable”

1 comentario: