Este campo de investigación lleva décadas rezagado entre las dos disciplinas que lo han configurado: la inteligencia artificial y la computación lingüística. En estos momentos tiene un futuro prometedor para el mundo educativo y como uno de los complementos para el análisis del aprendizaje junto a la autorregulación y autogestión del aprendizaje. Requiere de mayor transparencia las aplicaciones que por ahora tienen su dificultad. Dentro de este se está también generando un campo como es el Sentiment Analysis (Análisis sentimental) para ver los comportamientos a través de textos en espacios interactivos como foros o en el mismo Twitter como podemos ver con Twitter Sentiment.
Dice la Wikipedia en la entrada de Text Mining que la minería de texto, a veces alternativamente denominada como minería de datos de texto, toscamente equivalente a análisis del texto, se refiere al proceso de deducir a partir de un texto la información de alta calidad. Esta información de alta calidad normalmente se deriva de la elaboración de patrones y tendencias a través de medios tales como el aprendizaje de patrones estadísticos. La minería de datos habitualmente incluye el proceso de estructuración de la entrada [input] de texto (usualmente análisis, de acuerdo con la adición de algunas características lingüísticas derivadas y la eliminación de otras, y la posterior inserción en una base de datos), deduciendo de patrones dentro de los datos estructurados, y finalmente la evaluación e interpretación de la salida [output]. “Alta calidad” en minería de texto usualmente se refiere a alguna combinación de la relevancia, novedad e interés. Habitualmente las tareas de minería de texto incluyen la categorización, agrupación de texto, extracción de la entidad (conceptos de linguística computacional), producción de taxonomías granulares, análisis de sentimientos, resumen del documento y modelización de la relación de la entidad (es decir, relaciones de aprendizaje entre las denominadas entidades).
Las técnicas de minería de texto han estado ganando en sofisticación a partir de principios de este siglo. Estas técnicas ahora ofrecen formas de descubrir redes sociales a partir de documentos publicados en Internet y de comunicación online basada en texto.
En general, para descubrir redes sociales a partir de datos textuales, se dan los siguientes pasos:
- Descubrimiento del nodo. Se identifican todas las referencias a las personas usando nombres, pronombres y dirección de correo electrónico.
- Correferencia y resolución del alias. Las ambigüedades sobre las personas se resuelven, por ejemplo, diferenciando entre personas con el mismo nombre y creando una identidad individual para esos múltiples alias.
- Descubrimiento del enlace. Las conexiones sociales están determinadas entre las personas identificadas en los dos primeros pasos.
- Identificación de la relación y del rol. Se identifica los tipos de vínculos (ej.: amigo, compañero de trabajo, compañero de clase, etc.) y se asignan los roles (ej.: gestor, subordinado, etc.) para cada persona sobre la base del contenido o patrones de la comunicación.
Hasta hace poco, los sitios web más utilizados búsquedas basadas en texto, que sólo se encuentran los documentos que contienen palabras o frases específicas definidas por el usuario. Ahora, a través del uso de la web semántica por medio de ontologías, la minería de textos pueden encontrar contenidos basada en el significado y el contexto (y no sólo por una palabra).
Minería de textos también se utiliza en algunos correo electrónico o filtros de spam y cómo determina las características de los mensajes que sean probablemente anuncios o el material no deseado.
Text Network Analysis with Gephi from Dmitry Paranyushkin on Vimeo.
Referencias:
- Entrada de la Wikipedia de Text Mining: http://en.wikipedia.org/wiki/Text_mining
- Minería de texto o Text Mining: http://textmining.galeon.com/
- Minería de texto: una herramienta de texto para mejorar…: http://bvs.sld.cu/revistas/aci/vol16_4_07/aci051007.html
- Un blog sobre Text Mining: http://datamining.typepad.com/data_mining/
- Uno de los proyectos que se desarrolló aquí en España (2006-2009): http://intime.dlsi.ua.es/text-mess/doku.php
Gracias por compartir visiones sobre esta herramienta
A tí Leticia por leerlo y que te interesen todos estos temas.