Datos que amenazan

Hoy he tenido otra interesante clase de El Humanista Digital. La «única» lectura eran los capítulos 13, 14, 16 y 20 de Beautiful Data: The Stories Behind Elegant Data Solutions, escrito por Toby Segaran and Jeff Hammerbacher, aunque no sé si este último es el mismo Jeff Hammerbacher que ahora trabaja para Facebook como Data Manager. Tendría sentido al menos.

El libro, muy recomendable, ha sido la introducción definitiva de los asistentes al mundo de los datos, su representación y su interpretación. Y, como buena clase de humanistas, no ha faltado la sana discordia. Debo reconocer que es la primera vez en mi vida en que escucho las palabras ataraxia, hermenéutica y epistemológico (para esta última ni siquiera hay entrada en el DRAE) en menos de tres horas y en una clase. Definitivamente estoy en el mundo humanista.

Parte I

Comenzamos la clase con un vídeo «orgánico» basado en el trabajo de Michael Ogawa. En este caso se partía del análisis pragmático del acto de habla clasificado según los criterios de J.L Austin y Juan José Calvo con la intención de identificar la figura del gracioso en una selección de las comedias de Calderón de la Barca. Tomando como medida temporal el verso, se extrajo la evolución de la frecuencia absoluta de cada acción según avanzaba la obra y se representaron simultáneamente todas las obras analizadas. Desestimando aquellas apariciones de acciones con una frecuencia menor al 0.5% se creó un vídeo en el que cada acto, de un color, se mueve alrededor del personaje que efectúa la acción cuando ésta se produce, de manera que según sea el área del círculo significará que más o menos veces se está usando el término. Es curioso ver cómo casi siempre hablan todos a la vez –¿interludios?– y usan los mismos verbos. Elegir sólo los actos más repetidos es sólo una de las miles de maneras de analizar los datos que Miriam Peña, la investigadora al mando, pudo haber seleccionado. Resulta evidente que hay otras maneras y que según se tomen o no, las representaciones de los datos serán de una u otra forma. Más importante que el porqué no se tuvieron en cuenta las frecuencias bajas es qué información nos da la visualización generada. Es fundamental ir contestando preguntas para que vayan apareciendo otras nuevas; si nos detenemos a planteárnoslo todo, si abusamos del escepticismo, será muy difícil avanzar. Juan, otro alumno, se preguntaba por qué abandonar esos verbos con poca frecuencia si quizás eran incluso más decisivos que los actos más repetidos. Un planteamiento totalmente legítimo. La respuesta es que tanto un enfoque como el otro son igualmente válidos, pero no se puede desestimar ninguno sin antes atacar el problema. Hay que avanzar, y con datos la forma de avanzar es analizándolos. Puede pasar que al no contemplar los actos poco nombrados en las obras estemos perdiendo información importante de cara a la identificación del personaje cómico en las comedias, que quizás un análisis pragmático del texto no lleve a nada, pero si no se intenta y sólo se especula no hay avance posible. Es necesario exprimir los datos para que nos digan algo. Porque la información está ahí, es sólo cuestión de darle las vueltas necesarias y, en este caso, una representación orgánica nos sirve para ver que la repetición de determinados actos de habla sí configuran y definen las intervenciones de los graciosos en las comedias de Calderón.

Parte II

Tras la presentación del vídeo, la discusión se situó en torno al proyecto Rayuela155! y la poca información que acerca de él hay por el momento. La idea iniciática partió de la clase de la semana pasada, fue un germen, pero hay visos de que quizás vaya desembocar en algo bien distinto. Al preguntarse uno mismo por la justificación de un proyecto así surge, por una parte, la visión del exceso de información y el intrincado laberinto de obstáculos, aunque también de ganancias, que implica. ¿Necesitamos «conocer» todas las lecturas posibles de Rayuela? Pregunta equivocada. No se trata de eso. Las técnicas tradicionales de interpretación seguirán siendo aplicables a cualquiera de las combinaciones que seamos capaces de obtener de Rayuela, aquellos de formación deconstruccionista seguirán aportando lo mismo que los post-modernistas. La profesionalización de la lectura debe comprender los distintos roles y contextos posibles. Rayuela155! nace como un experimento para cambiar algunas cosas en la educación humanística, con ánimo de complementar lo ya existente, nunca de desplazarlo, y conseguir así un currículo más rico para el humanista capaz ahora de disponer de la conveniencia o no de ciertas herramientas según sean las preguntas que necesita contestar.

Sin embargo, el sentimiento de desorientación ante la marasmo de información y datos en las que cava vez estamos más inmersos se hizo patente cuando un alumno planteó si se juzgaba o no el que se escogieran métodos tradicionales de investigación hermenéutica. Dio a entender que se sentía desplazado por las nuevas técnicas. Esa postura de mártir de la que sólo el Prof. Suárez se percató en el discurso denota una importante falta de conocimiento de los nuevos procesos, lo que puede llegar a mermar la capacidad de decisión y limitar la autonomía del investigador. El mundo de la obsolescencia programada está cambiando las reglas del juego, está moldeando el sistema socio-económico y la adaptación no es una desventaja necesaria, sino la posibilidad de aprovechar nuevas herramientas, de convertirse en agente activo. Ello conlleva participar y reaccionar, y dejar de resguardarse en el nicho que ya se conoce. Ninguna nueva iniciativa está exenta de crítica, ésta no es menos. Pero no hay que perder el norte, un escepticismo desmedido es un instrumento necesario pero demasiado poderoso. El pirronismo constante puede terminar por la destrucción del criterio, la suspensión del yo o la ataraxia mental, tan de moda en política actual y que tan útil resultó para la Reforma Católica. Hemos de situar el yo, remangarnos y ponernos manos a la obra. O al menos esto es lo que yo saqué de la micro-conferencia que dio en ese momento el Prof. Suárez. Vamos, no criticar por vicio. Conoce primero para poder desmontar con razón.

Como apuntaba Diego, los textos no son tan distintos de los datos y viceversa. Entonces, ¿por qué no agregar los nuevos procedimientos a las humanidades? Al fin y al cabo es un proceso de interpretación a partir de una entrada con más o menos contexto.

Parte III

La última parte de la clase se centró en un libro que no figuraba como lectura, «La medida de la realidad. La cuantificación y la sociedad occidental, 1250-1600» de A.W. Crosby, del que se desprenden algunos conceptos interesantes. Medir la realidad –explicaba el Prof. Suárez– es cuantificar lo que de ella podemos percibir. Algo para lo que a la ciencia y la tecnología nunca le faltó pudor. La obra de Crosby nos permite descubrir que esto se ha hecho desde hace mucho más tiempo del que se suele pensar, y conocer cómo eran las herramientas de entonces, basadas básicamente en los mapas. En una revisión del citado (de entre las muchas que circulan por Internet), con más o menos fortuna, se llega decir que hay un numeroso grupo de personas que «no considera a los números como parte de la cultura; me refiero claro a una cultura básicamente literaria que desprecia los fenómenos de la cuantificación como si se tratara de labores de mediocres especialistas; aquel tipo de gente que sin sensibilidad para el arte y las emociones humanas busca en esotéricas especialidades su cuota de gloria. Pues bien, es un error, un grave error». Inspirador. No conozco al autor del blog ni creo que sea necesario, sea un lector profesional o no su impresión sobre el mensaje del libro queda clara: «me da mucha pena que esta clase de libros no sean de lectura obligatoria para toda persona moderadamente ilustrada». Sólo puedo decir una cosa: ¡bravo! Si este libro viene a decirnos que los números son nuestros amigos, que no hay que sentir los datos como una amenaza, que los aprovechemos y nos apoyemos en ellos para construir nuevos procedimientos y contestar preguntas distintas, no puedo sino saltar de mi silla y abrazar como agua de mayo la obra de Crosby.

Se me antoja que es, aunque con cambios de forma, lo que Toby Segaran and Jeff Hammerbacher vienen a contarnos de una menara un poco, si me permiten la licencia, menos humanista. En el capítulo 20 de Beautiful Data se hace hincapié en el cambio de paradigma que supone pensar y organizar la estructura mental en torno a las relaciones, reducir la realidad a modelos manejables. Hecho que nuevamente las grandes instituciones utilizan para sus acciones políticas, militares o económicas. Vivir siendo conscientes de las vínculos que existen entre todo lo que nos rodea intuyo que no es fácil, hay demasiada información, no estamos preparados para afrontar tal complejidad. Necesitamos formas de representar y visualizar para sentir como asequible la red y sus comportamientos emergentes. Y esto no sería posible sin estructuras flexibles que soporten eficientemente los datos en grafo para poder trabajar con ellos. Las bases de datos tradicionales, en funcionamiento durante los últimos 40 años, han sido un importante hito en la historia de la informática y del mundo. Prácticamente todo lo que hacemos en la Red queda registrado en una base de datos. Pero esa información está mucho más relacionada de lo que cabría esperar, está interconectada, y en eso los tradicionales sistemas gestores de bases de datos se quedan cortos. Surgió no hace mucho un nuevo movimiento que intenta dar respuesta a esa necesidad, el NoSQL, dentro del que se engloban, entre otros muchos tipos, las bases de datos basadas en grafo. Éstas son capaces de almacenar de manera natural la información como un red, en la que los nodos y las relaciones entre ellos tienen atributos, con lo que es sencillo modelar prácticamente cualquier grafo, consultarlo, analizarlo o almacenarlo. Un ejemplo puede ser la base de datos basad en grafo Neo4j, núcleo fundamental –junto a Django/Python— del sistema Sylva que desarrollamos en el CulturePlex.

Insistía Juan, al final de la clase, en el dataset y el imaginario colectivo. Lo segundo quedó más o menos claro, a mi parecer al menos, resaltando la inocencia de no preguntarse porqué damos por válida la visión que Cosmos de Carl Sagan hace del Universo y en cambio martilleamos hasta la extenuación nuevas visualizaciones de trabajos humanísticos como los vídeos sobre las comedias de Calderón. Si me apuran, Cosmos, además de ser una obra brillante y excepcional, nos permite adentrarnos en el Unverso y verlo. La concepción que mucha gente tiene de los planetas es gracias a Cosmos, como defendía Juan. La representación de un planeta tiene dos partes fundamentales: la científica que subordina ciertos parámetros como el color, la composición, la presencia de atmósfera o el tamaño; y la artística, que se encarga de recoger todas las reglas y restricciones y dibujar un posible planeta que quizás exista. ¿Es acaso tan distinto de los vídeos sobre las comedias? ¿No hay también un trabajo científico detrás del artístico? En mi humilde opinión, y con las distancias evidentes, no son cosas tan distintas.

Respecto a lo primero lo explicaré con un ejemplo. Google Zeitgeist es un «producto» de los de Mountain View que se encarga de obtener la información relevante a las tendencias masivas en cuanto a búsquedas. «¿Qué pasa con lo que no se repite?», pues que no obedece a las leyes del mercado. Google es una empresa, una empresa enorme, y busca mecanismos para mejorar la experiencia de sus usuarios a través de sus hábitos, para de esta forma hacerlos consumir más publicidad, la base económica de la compañía. Lo que no se conoce no le interesa a Google, pero puede interesar a otros. Es sólo una forma de explotar los datos y la estructura. «¿Qué pasa con lo que no se repite?», mi respuesta es ¿cuál es la pregunta que quieres contestar?

1 Comment

Filed under Debates

One Response to Datos que amenazan

  1. Pingback: ¡Demonios, no nos hemos movido ni un ápice! | diariosdenada

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>