Hoy en día existe un gran volumen de textos en formato electrónico dispersos por internet. De hecho, el volumen es tan grande que sobrepasa la capacidad de una persona para obtener información útil. Este hecho hace imperativo poner algo de orden en este caos de textos. Para poder hacerlo encontramos dos estrategias: La primera sería la recuperación de la información y la segunda sería la extracción de la información. Debemos tener en cuenta que estas dos estrategias son diferentes.
La recuperación de la información se refiere al hecho de obtener documentos ante una solicitud de búsqueda.
La extracción de la información, por el contrario se basa en la extracción de hechos de distintos documentos ante una solicitud de búsqueda.
Para poder crear un sistema de extracción de información, primero un sistema de recuperación de la información obtiene documentos con información significativa respecto a la solicitud de búsqueda y a continuación el sistema de extracción de información extrae y organiza la información que sea de interés.
El objetivo de los sistemas de extracción de información es obtener la información relevante e ignorar la irrelevante. La extracción de información tiene muchas aplicaciones potenciales, desde traslación de información no estructurada a bases de datos tradicionales, detección de tendencias hasta la mejora en la construcción de índices para la recuperación de la información.
A largo plazo se contempla un objetivo básico: conseguir sistemas de extracción de información precisos, teniendo en cuenta que en la actualidad, los sistemas de extracción de información sólo trabajan con algunos tipos de textos y no son muy precisos.
Tomado de: http://extraccioninformacion.latinowebs.com/
No hay comentarios:
Publicar un comentario