Visualización de una minería de textos. Fuente: http://bit.ly/tuwYAE

Este campo de investigación lleva décadas rezagado entre las dos disciplinas que lo han configurado: la inteligencia artificial y la computación lingüística. En estos momentos  tiene un futuro prometedor para el mundo educativo y como uno de los complementos para el análisis del aprendizaje junto a la autorregulación y autogestión del aprendizaje. Requiere de mayor transparencia las aplicaciones que por ahora tienen su dificultad. Dentro de este se está también generando un campo como es el Sentiment Analysis (Análisis sentimental) para ver los comportamientos a través de textos en espacios interactivos como foros o en el mismo Twitter como podemos ver con Twitter Sentiment.

Dice la Wikipedia en la entrada de Text Mining que la minería de texto, a veces alternativamente denominada como minería de datos de texto, toscamente equivalente a análisis del texto, se refiere al proceso de deducir a partir de un texto la información de alta calidad. Esta información de alta calidad normalmente se deriva de la elaboración de patrones y tendencias a través de medios tales como el aprendizaje de patrones estadísticos. La minería de datos habitualmente incluye el proceso de estructuración de la entrada [input] de texto (usualmente análisis, de acuerdo con la adición de algunas características lingüísticas derivadas y la eliminación de otras, y la posterior inserción en una base de datos), deduciendo de patrones dentro de los datos estructurados, y finalmente la evaluación e interpretación de la salida [output]. “Alta calidad” en minería de texto usualmente se refiere a alguna combinación de la relevancia, novedad e interés. Habitualmente las tareas de minería de texto incluyen la categorización, agrupación de texto, extracción de la entidad (conceptos de linguística computacional), producción de taxonomías granulares, análisis de sentimientos, resumen del documento y modelización de la relación de la entidad (es decir, relaciones de aprendizaje entre las denominadas entidades).
Las técnicas de minería de texto han estado ganando en sofisticación a partir de principios de este siglo. Estas técnicas ahora ofrecen formas de descubrir redes sociales a partir de documentos publicados en Internet y de comunicación online basada en texto.
En general, para descubrir redes sociales  a partir de datos textuales, se dan los siguientes pasos:

  • Descubrimiento del nodo. Se identifican todas las referencias a las personas usando nombres, pronombres y dirección de correo electrónico.
  • Correferencia y resolución del alias. Las ambigüedades sobre las personas se resuelven, por ejemplo, diferenciando entre personas con el mismo nombre y creando una identidad individual para esos múltiples alias.
  • Descubrimiento del enlace. Las conexiones sociales están determinadas entre las personas identificadas en los dos primeros pasos.
  • Identificación de la relación y del rol. Se identifica los tipos de vínculos (ej.: amigo, compañero de trabajo, compañero de clase, etc.) y se asignan los roles (ej.: gestor, subordinado, etc.) para cada persona sobre la base del contenido o patrones de la comunicación.

Hasta hace poco, los sitios web más utilizados búsquedas basadas en texto, que sólo se encuentran los documentos que contienen palabras o frases específicas definidas por el usuario. Ahora, a través del uso de la web semántica por medio de ontologías, la minería de textos pueden encontrar contenidos basada en el significado y el contexto (y no sólo por una palabra).

Además, el software de minería de texto puede ser usado para construir grandes expedientes de información sobre personas y acontecimientos específicos. Por ejemplo, grandes conjuntos de datos basados ​​en los datos extraídos de los informes de noticias pueden ser construidos para facilitar el análisis de redes sociales o contra la inteligencia. En efecto, el software de minería de textos pueden actuar en una capacidad similar a un de analista de inteligencia o el bibliotecario de investigación, aunque con un alcance más limitado de análisis.
Minería de textos también se utiliza en algunos correo electrónico o filtros de spam y cómo determina las características de los mensajes que sean probablemente anuncios o el material no deseado.
En los próximo post hablaremos de una forma de análisis textual para generar un csv y poder establecer un grafo por medio de la aplicación Gephi y con las propiedades propias del análisis de redes como podemos apreciar en este video:

Text Network Analysis with Gephi from Dmitry Paranyushkin on Vimeo.

Referencias: