La información contenida en Internet puede ser dividida en
dos grandes grupos:
Web Superficial compuesta
por aquellos sitios que pueden ser accedidos por los buscadores.
Web Profunda o Invisible
que comprende toda la información a la que no se puede acceder a través de los
buscadores convencionales.
Sherman y Price hablan de cuatro tipos de contenidos invisibles:
La Web
Opaca
Se compone de archivos que no
están incluidos en los índices de los buscadores por alguno de los siguientes
motivos
·
Extensión de la indización: por economía
no todas la páginas de un sitio se indezan en los buscadores
·
Frecuencia de la indización: falta de
capacidad de los buscadores para indizar todas las páginas existentes
·
Número máximo de resultados visibles:
generalmente los buscadores limitan el número de documentos que se muestran
·
URL desconectada: Los buscadores
presentan los documentos por su relevancia, basando ésta en el número de veces en
que ese elemento aparece referenciado en otros
La Web Privada
Son páginas web excluidas de los
buscadores por alguna de las siguientes razones:
·
Páginas protegidas por contraseña
·
Tienen un archivo “robots.txt” para evitar ser
indizadas
·
Contienen un campo “noindex” que evita que el
buscador pueda indizar el cuerpo de la página
La Web Propietaria
Formada por el conjunto de
páginas que requieren registrarse para tener acceso a ellas, bien sea de gorma
gratuita o de pago.
La Web Realmente Invisible
Compuesta por páginas que no
pueden ser indizadas por limitaciones técnicas de los buscadores
·
Programas ejecutables y archivos comprimidos
·
Páginas generadas dinámicamente: se generan a
partir de datos introducidos por el usuario
·
Información contenida en base de datos
relacionales: solo se extrae si se realiza una petición específica
Algunos recursos de búsqueda en la
Web Profunda
The WWW Virtual Library
(vlib.org), el catálogo más antiguo en la web
Infoplease (www.infoplease.com), web
de consulta de la prestigiosa enciclopedia Columbia. Se puede acceder a un buen
número de enciclopedias, atlas y biografías
DeepWebTech (www.deepwebtech.com), con cinco motores de
búsqueda que abarcan la ciencia, medicina y negocios y que pueden consultar las
bases de datos en la Web Profunda
TechXtra (techxtra.tradepub.com/)
con información sobre ingeniería,
matemáticas e informática. Se puede navegar por una extensa lista de revistas
gratuitas especializadas de ingeniería, documentos técnicos, descargas y
podcasts
Según Lluis Codina “Internet Invisible” es un término
inadecuado, debería denominarse “No indizable”