data mining - Blog de Fernando Santamaría

Independientemente de la evolución de los modelos computacionales de los sistemas sociales, el análisis de redes sociales surgió en los años 1970 y 1980 de los avances en la teoría de grafos, de la investigación en estadísticas y estudios de la estructura social como un método de análisis diferente y de carácter relacional. Este se fue articulando con las investigaciones de los sociólogos como James S. Coleman, Harrison White, Linton Freeman (tiene un libro de la evolución de redes muy interesante), J. Clyde Mitchell, M. Granovetter, Ronald Burt y Barry Wellman (todo un monstruo en publicaciones y equipos de investigación desde Canadá). Aunque no sea computacional se puede uno retrotaer a la década de los años 30 del siglo pasado con las investigaciones de Jacob L. Moreno como antecedente con su sociometría y también en antropólogos y etnógrafos en décadas posteriores. La penetración cada vez mayor de las tecnologías informáticas y de las telecomunicaciones en los años 1980 y 1990 exigían técnicas analíticas, tales como el análisis de redes y la modelización multinivel, que podrían escalar a conjuntos de datos cada vez más complejos y grandes. La ola más reciente de investigaciones en sociología computacional es utilizar el análisis de redes y técnicas estadísticas avanzadas para analizar grandes bases de datos informáticos de las delegaciones electrónicas de datos de comportamiento, en lugar de emplear simulaciones. Los registros electrónicos como el correo electrónico y los registros de mensajes instantáneos, los enlaces de la web, el uso del teléfono móvil y la discusión en foros científicos permiten a los científicos sociales observar directamente y analizar el comportamiento social en múltiples puntos en el tiempo (de carácter dinámico) y múltiples niveles de análisis sin las limitaciones del tradicional método empírico, tales como entrevistas, observación de los participantes, o mejoras en una encuesta. Las mejoras continuas en los automáticos algoritmos de aprendizaje (y la relación cada vez más estrecha con el análisis del aprendizaje – Learning Analytics) han permitido asimismo a los científicos sociales y a los empresarios utilizar nuevas técnicas para identificar los patrones latentes y significativo de la interacción social y la evolución en los grandes conjuntos de datos electrónicos.

Actualmente (en la anterior década y principios de esta) se ha expandido y explosionado a otros campos del conocimiento. La forma de presentarlo se ha relacionado con los métodos de la visualización de datos y más concretamente de la visualización de redes y la parte de visualización analítica a nivel científico (campo en el que queda mucho que investigar). Presentó en forma de mapa las áreas de la sociología computacional.

Crear su propio mapa mental a MindMeister

El libro «Pulse: The New Science of Harnessing Internet Buzz to Track Threats and Opportunities» de Douglas W. Hubbard (anteriormente había publicado otro de gran interés y que no he tenido ocasión de leer. Se titula «How to Measure Anything: Finding the Value of Intangibles in Business«) describe y analiza un nuevo panorama de la ciencia por la capacidad que se tiene de generar análisis de esas huellas digitales. El le llama Pulse. También en la enseñanza tendrá una capacidad disruptiva y de ser un «trigger» (como disparador) para el cambio. Un libro recomendado y que pongo algunas de los párrafos con los que abren el Capítulo 1 «An Emerging Science: What is this new thing?». Esta ciencia emergente que analiza los datos de manera transparente y con la capacidad de poder visualizarlos en tiempo real. Una nueva era para la medición y predicción de la sociedad.

La primera mitad del siglo XXI está viendo el surgimiento de un nuevo tipo de instrumentos científicos que permitan medir las tendencias más importantes en la sociedad. Más personas pasan más tiempo haciendo más cosas en línea y al hacerlo, dejan tras de sí un gran registro digital. Mediante la combinación de esas «huellas digitales» tanto sociólogos como psicólogos, economistas e incluso los médicos están aprendiendo a medir los aspectos de nuestra sociedad que de otra manera sería prácticamente invisible. El análisis de estas huellas digitales generará nuevos descubrimientos en todos los ámbitos de la investigación. El volumen de esos datos será detectar nuevos patrones en los mercados, en la opinión pública e incluso la salud y la seguridad.

Datos disponibles al público acerca de la frecuencia de determinadas búsquedas en Google se han utilizado para rastrear los brotes de gripe, la confianza de los consumidores o el niveles de desempleo más rápido que las autoridades del gobierno son capaces de hacerlo. El análisis de millones de «tweets» en Twitter se han utilizado para predecir la popularidad de una película, las aprobación calificaciones de las presidenciales a nivel político e incluso los movimientos del mercado de valores y la bolsa. Anuncios en sitios como Craigslist se correlacionan con las ejecuciones hipotecarias y el desempleo. Los datos recogidos de forma pasiva en los teléfonos móviles pueden ser utilizados para rastrear patrones de tráfico, enfermedades, e incluso daños después de un terremoto. Y esto es sólo el principio.

En educación a la hora de establecer metodologías cuya base es la red (Networked Learning) y establecidas en ecosistemas abiertos generan multitud de tráfico y acciones interactivas sin una delimitación clara (veáse MOOC). En estos casos hacer la evaluación del propio aprendizaje de los estudiantes es tarea ingente, o, metafóricamente, matar elefantes con un matamoscas.

Por eso creo que es revolucionario y disruptivo con respecto a la concepciones de medida anteriores. Esto es un hecho más potente y disruptivo de lo que fue para la educación la web social. El problema es que vivimos en un constante devenir de formas disruptivas. Por esto, algunos autores le han llamado “la revolución de los datos sociales (Social data revolution)

Por eso, incluso los científicos más reservados describen este fenómeno como una revolución en el estudio de la humanidad y en la previsión de la conducta humana. Estas herramientas cambiará fundamentalmente la forma en que los insights serán encontrados entre el análisis de esos datos cruzados. En última instancia, esta nueva fuente de datos (datos inteligentes + sensores + tiempo real) influirá en cómo algunas de las decisiones más importantes son tomadas por individuos, empresas y gobiernos.

En la crisis actual, por ejemplo hay las suficientes “señales” (palabra clave para esta era de los datos) como para ver que deben producirse cambios reales y disruptivos para que no sea una hecatombe.

Sólo recientemente los investigadores han ido descubriendo la manera de seguir las tendencias económicas, los brotes de gripe y la opinión pública mediante el uso de los datos a disposición del público por una cantidad ingente de usuarios de Internet y de telefonía móvil. Estas huellas digitales dejadas por los pueblos del mundo, ya que utilizan la Internet y los teléfonos móviles para interactuar por Internet, buscar información,

conectarse con otras personas y jugar en línea. Este conjunto de datos es lo que le llaman los “big data”. Es la primera oportunidad para que muchas de las ciencias sociales para trabajar con una cantidad de estadísticas detalladas que rivaliza e incluso supera los conjuntos de datos de, por ejemplo, la física de partículas o la astronomía.

Al igual que el pronóstico del tiempo se hace más preciso con mayor número de sensores, así los equipos de computación y análisis han mejorado, por eso los pronósticos del «clima» de la sociedad será de corte científico.

La analogía con el mapa del tiempo funciona a varios niveles. El valor real de los mapas del tiempo no está en ver los patrones climáticos, sino las posibles «tendencias». Por eso, cuanto más macroscópico sea la focalización del mapa, más capaces seremos de ver las tendencias. Del mismo modo, muchas de las amenazas a las que nos estamos enfrentando en este siglo como son el terrorismo, el caos financiero, las epidemias, podrían ser mejor vistas (sus insights) de antemano si tuviéramos una especie de mapa del tiempo a nivel macro de la sociedad.

Observaciones individuales acerca de dónde vive alguien o la salida de una pequeña empresa no suele decir casi nada sobre las grandes tendencias. No se puede ver el tamaño y la forma de una tormenta al examinar unas gotas de lluvia, de manera similar, usted no puede ver grandes cambios en la economía o la sociedad por buscar sólo en sus otros vecinos o compañeros de trabajo. Sin embargo, un gran número de estos puntos de datos pueden mostrarnos los patrones a gran escala.

El Internet se ha utilizado para grandes oportunidades de negocio, como un depósito de todo conocimiento humano, como el medio de la colaboración de todo el

mundo y como la mejor herramienta del diálogo público. Sin embargo, vemos que hay un deficit en la propia Internet, ya que es casi totalmente subutilizada como un instrumento de medición de la sociedad. El principal método de seguimiento de las grandes tendencias en la sociedad sigue siendo el estudio y, en el caso de los negocios, el sistema de informes financieros. Negocios y gobiernos a entender la importancia de la utilización de estas encuestas tradicionales para informar a las estrategias críticas. En 2002, el Gobierno de los EE.UU. era el único gasto de más de $4 mil millones por año en las encuestas para medir la economía y otros aspectos de la sociedad. El sector comercial se gasto alrededor de $15 mil millones por año en el mismo.

Los métodos tradicionales de encuestas implican estudia cuidadosamente diseñado que permite un análisis estadístico sencillo. Desafortunadamente, son costosos, lentos, y aún con las metodologías, a menudo riguroso no captan lo que está sucediendo realmente. Ellos están plagadas de las tasas de respuesta pequeños, y en algunos casos lo que se dice en las encuestas tiene poco que ver con la realidad. Estos métodos suelen tardar semanas o meses para que el informe se termine, muchas veces esto es mucho después de que los datos hubieran sido útiles.

Internet es ya en muchos órdenes de magnitud más grande que todos los datos recopilados por los gobiernos y las empresas que utilizan las encuestas tradicionales.

La red social Facebook procesa por día 25 terabytes de datos. Esto es aproximadamente 1.000 veces la cantidad de datos por correo electrónico de EE.UU. La encuesta más grande del mundo-Censo de los EE.UU. produce menor cantidad de datos que esta en una década. En 2010, el servicio de microblogging de Twitter dio a la Biblioteca del Congreso 167 terabytes de datos que representan más de 6 mil millones de «tweets». Y estas fuentes aún sólo forman parte de los datos digitales públicamente visibles que dejamos atrás.

Los datos de Internet son, por supuesto, no estructurados y en algunos aspectos más difíciles de analizar que una encuesta especialmente diseñada para evaluar determinado comportamiento. Afortunadamente, los nuevos métodos para el análisis de estos datos científicos están evolucionando, incluso cuando el volumen de datos continúa creciendo a un ritmo endiablado. El registro digital de carácter colectivo y de datos interaccionados para ver nuestro comportamiento ha crecido hasta un punto en que puede reflejar algo útil acerca de los usuarios del sistema. Ahora podemos ver el equivalente del mapa del tiempo que depara la opinión pública (trend topics), la economía, nuestra salud y nuestras ansiedades.

Por todo ello, el autor intenta ponerle nombre a esta ciencia en proceso emergente. Habla de análisis de datos sociales, de cibersociología, de huella digital, de psicohistoria (retomando el concepto de Isaac Asimov), pero el que más le convence (por lo llamativo del término) es el de «La revolución de los datos sociales» [slides y web]. Por todo ello, podemos definirlo el término revolución social de Datos (RSD) como el cambio en los patrones de la comunicación humana (en la que conjugan en la comunicación virtual. Podemos decir que por primera vez en la historia la comunicación puede ser de «todos a todos») hacia un mayor intercambio de información personal y sus implicaciones relacionadas, hecha posible por el auge de las redes sociales en la primera década de este siglo. Mientras que las redes sociales se utilizaron en los primeros días para compartir fotos en privado y mensajes privados, la tendencia posterior de la gente es el intercambio de información personal de manera más amplia se ha traducido en cantidades sin precedentes de información pública. Y esto mezclado con la geolocalización hace posible nueva evolución en la generación de redes sociales.

Esta fuente de datos de gran tamaño y actualizada con frecuencia se ha descrito como un nuevo tipo de instrumento científico de las ciencias sociales. Varios investigadores independientes han utilizado los datos sociales para hacer un «nowcast» (como si se tratara de una predicción meteorológica a corto plazo, pero aquí es en lo social, con la amalgama de datos del contexto que queremos analizar) y prever las tendencias tales como el desempleo, los brotes de gripe, los gastos de viajes y opiniones políticas de una manera mucho más rápida, más precisa y más baratos que los informes estándar del gobierno o las encuestas de Gallup, por ejemplo.

En este vídeo da las claves de lo entiende por «Social Data Revolution» (actualizado):

L	M	X	J	V	S	D
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Etiqueta: data mining

El análisis de redes sociales en la sociología computacional

La revolución de los datos sociales: una nueva ciencia para interpretar los comportamientos sociales

Visualización de datos como composición artística

Este sitio está alojado en

Comentarios recientes

Meta

Licencia CC

Meta

Archivos

El análisis de redes sociales en la sociología computacional

La revolución de los datos sociales: una nueva ciencia para interpretar los comportamientos sociales

Visualización de datos como composición artística

Este sitio está alojado en

Comentarios recientes

Etiquetas

Meta

Licencia CC

Meta

Archivos