El genoma literario
La tecnología conocida como Big Data
permite analizar una gran cantidad de materiales, desde libros clásicos hasta
sitios web y redes sociales, para observar repeticiones e influencias. Un
recorrido por los avances de la ciencia para el estudio de la literatura.
Cualquier lista de principales
novelistas del siglo XIX en lengua inglesa incluiría seguramente a Charles
Dickens, Thomas Hardy, Herman Melville, Nathaniel Hawthorne y Mark Twain. Pero
ninguno de ellos aparece en los primeros lugares de los escritores más influyentes
de su época. En cambio, un estudio reciente ha encontrado que Jane Austen, la
autora de Orgullo y prejuicio , y Sir Walter Scott, el creador de Ivanhoe ,
ejerc
ieron el mayor efecto en otros autores, en cuanto a estilo y temas.
Ambos fueron “el equivalente
literario del Homo erectus , o, si usted lo prefiere, Adán y Eva”, escribió
Matthew L. Jockers en una investigación publicada el año pasado. Basaba su
conclusión en el análisis de 3.592 obras publicadas desde 1780 a 1900. Algo que
implicó excavar un montón, y lo hizo una computadora.
El estudio, que incluyó análisis
gramatical y la compilación de miles de novelas, arrojó otras observaciones
impactantes. Por ejemplo, las obras de Austen se agrupan estrechamente en
cuanto a estilo y temática, mientras que las de George Eliot (también conocida
como Mary Ann Evans) abarcan un rango más extenso, y se parecen más a los
parámetros de los escritores varones. Utilizando criterios similares, Harriet
Beecher Stowe, estaba veinte años adelante de su época, dijo Jockers, cuya
investigación va a ser publicada pronto en el libro Macroanalysis: Digital
Methods and Literary History [Macroanálisis: Métodos digitales e historia
literaria, University of Illinois Press].
Difícilmente estos hallazgos sean la
palabra final. En esta etapa, esta clase de análisis digital es más que nada un
signo cautivante de que la tecnología Big Data –manipulación de grandes
conjuntos de datos– presiona firmemente por encima de la industria de Internet
y la investigación científica hacia campos aparentemente extraños como las
ciencias sociales y las humanidades. Las nuevas herramientas de descubrimiento
permiten una mirada fresca a la cultura, en gran medida como el microscopio nos
dio una visión más cercana de las sutilezas de la vida y el telescopio abrió el
camino a las galaxias remotas.
“Tradicionalmente, la historia
literaria se hacía estudiando un puñado de textos comparativos”, dice Jockers,
profesor asistente de inglés e investigador del Centro de Investigaciones en
Humanidades de la Universidad de Nebraska. “Lo que hace esta tecnología es
permitirte ver la imagen general –el contexto en el que un escritor trabajaba–
en una escala que nunca antes vimos.” Jokers, de 46 años, personifica el avance
digital en humanidades. Obtuvo un doctorado en literatura inglesa de la
Universidad del Sur de Illinois, pero también lo fascinó la computación y se
convirtió en programador autodidacta. Antes de trasladarse a la Universidad de
Nebraska el año pasado, pasó más de una década en Stanford, donde fue fundador
del Laboratorio Literario de Stanford, que está dedicado a la exploración
digital de libros.
Hoy describe las herramientas de su
trabajo en términos familiares a los de un ingeniero de software de Internet:
algoritmos que utilizan técnicas de análisis en red y machine learning (rama de
la inteligencia artificial relacionada con la construcción y estudio de
sistemas que pueden aprender de los datos). Sus modelos matemáticos han sido
desarrollados para identificar patrones de palabras y elementos temáticos en el
texto escrito. La cantidad y la fuerza de los vínculos entre las novelas
determinan la influencia, muy a la manera en que Google categoriza los sitios
web.
Es esta capacidad para obtener, medir
y analizar datos para enfoques significativos lo que constituye la
potencialidad de la tecnología Big Data. En humanidades y ciencias sociales, el
flujo de datos nuevos proviene de muchas fuentes que incluyen libros escaneados
en forma digital, sitios web, posteos de blog y comunicaciones de redes
sociales.
El área de expertise en sistemas
centrados en datos está creciendo rápido, dando lugar a un vocabulario nuevo.
En ciencias políticas, este análisis cuantitativo se denomina metodología
política. En historia encontramos la cliometría, que aplica la econometría a la
historia. En literatura, la estilometría es el estudio del estilo de escritura
de un autor, y en el presente se inclina fuertemente a la computación y el
análisis estadístico. Culturonomía es el término paraguas utilizado para describir
las investigaciones cuantitativas rigurosas en ciencias sociales y humanidades.
“Algunos lo llaman ciencia
computarizada y otros lo llaman estadística, pero la esencia es que estos
métodos algorítmicos hoy forman parte cada vez más de todas las disciplinas”,
dice Gary King, director del Instituto para Ciencia Social Cuantitativa de
Harvard.
Los analistas de datos culturales con
frecuencia adaptan analogías biológicas para describir su trabajo. Por ejemplo,
a la presentación de su investigación Jockers la denominó “Computarización y
visualización del genoma literario del siglo XIX”.
Metáforas biológicas de este tipo
parecen aptas porque gran parte de la investigación es un examen cuantitativo
de palabras. Así como los genes son las unidades de construcción fundamentales
de la biología, las palabras son la materia prima de las ideas.
“Lo crítico y distintivo de la
evolución humana son las ideas y cómo evolucionan”, dice Jean-Baptiste Michel,
becario postdoctoral de Harvard.
Michel y otro investigador, Erez
Lieberman Aiden, dirigieron un proyecto para extraer datos del banco de libros
conocido como Google Books y rastrear el uso de palabras a lo largo del tiempo,
comparar palabras relacionadas e incluso representarlas gráficamente.
Google cooperó y produjo el software
para hacer gráficos abiertos al público. La versión inicial del sitio de
exploración cultural Google se lanzó a fines de 2010, en base a más de cinco
millones de libros, desde el año 1500 en adelante. Al día de hoy, Google ha
escaneado 20 millones de libros y el sitio se utiliza cincuenta veces por
minuto. Por ejemplo, si se escribe “mujeres” en comparación con “hombres” se
verá que durante siglos el número de referencias a hombres empequeñeció el de
mujeres. La transición se dio en 1985, con las mujeres en ventaja desde
entonces.
En material publicado en 2011 en la
revista Science, Michel y el equipo de investigación abren la válvula de Google
Books para descubrir qué rápido se destiñe el pasado en los libros. Por ejemplo,
las referencias a “1880”, que ese año alcanzó un pico, cayeron a la mitad hacia
1912, en un intervalo de 32 años. En contraste, “1973” declinó a la mitad su
pico máximo hacia 1983, apenas diez años más tarde. “Cada año que pasa
olvidamos más rápido nuestro pasado”, escribieron los autores.
Jon Kleinberg, científico
especializado en sistemas de la Universidad de Cornell, y un grupo de
investigadores abordaron la memoria colectiva desde una perspectiva muy
diferente.
El trabajo que realizaron, publicado
el año pasado, se centraba en qué hace que los diálogos de las películas sean
memorables. Las frases que perduran en la mente del público son historias de
éxito evolutivo, dice Kleinberg, comparando “la robustez del lenguaje y la
robustez de los organismos”.
Como patrón, los investigadores
usaron “citas memorables” seleccionadas de la popular Base de Datos de
Películas en Internet, o IMDB, y la cantidad de veces que determinado diálogo
de película en particular aparece en la red. Después compararon esos diálogos
memorables con los guiones completos de las películas en las que aparecían:
alrededor de mil películas.
Para practicar sus algoritmos
estadísticos en estructuras de oraciones comunes, orden de palabras y palabras
usadas más extensamente, cargaron en sus computadoras un archivo inmenso de
artículos basados en cables de noticias. Las líneas memorables constaban de
palabras sorprendentes incorporadas a frases de estructura ordinaria. “Podemos
pensar que las citas memorables consisten en una selección de palabras
inusuales montadas sobre un andamiaje de modelos comunes de categorías
léxicas”, dicen.
Considérese la oración “ You had me
at hello ” (más o menos, “Me atrapaste ya al decir hola”), de la película Jerry
Maguire . Básicamente, destaca Kleinberg, es la misma secuencia de elementos
del lenguaje que la común “ I met him in Boston ” (“Me encontré con él...”, o
“Lo conocí en Boston”). O considérese esta línea de Apocalipsis now : “ I love
the smell of napalm in the morning .” (“Me
encanta el olor del napalm a la mañana.”) Sólo una palabra separa esa expresión
de ésta: “ I love the smell of coffee in the morning .” (“Me encanta el olor
del café a la mañana.”) Esta clase de análisis puede usarse para todo tipo de
comunicaciones, incluida la publicidad. De hecho, el grupo de Kleinberg también
se fijó en los eslóganes publicitarios. Estadísticamente, los más similares a
las citas memorables de películas incluían “ Quality never goes out of style ”
(La calidad nunca pasa de moda) para los jeans Levi’s, y “ Come to Marlboro
Country ” (Venga al país Marlboro) para los cigarrillos Marlboro.
Pero los métodos algorítmicos no son
una guía infalible para el éxito en el mundo real. Un eslogan que no calzó bien
dentro de los parámetros estadísticos para frases memorables fue el de las
pilas Energizer “ It keeps going and going and going ” (“Siguen andando y
andando y andando”).
Las herramientas cuantitativas en
humanidades y ciencias sociales, como en otros campos, alcanzan su máximo poder
cuando las controla un ser humano inteligente. Se requieren expertos con
conocimientos profundos de determinados temas para formular las preguntas
adecuadas y para reconocer las limitaciones de los modelos estadísticos.
“Siempre serán necesarios ambos”,
dice Jockers, el cuantificador literario. “Pero estamos en un momento ahora en
el que hay una aceptación mucho mayor de estos métodos que en el pasado.
Llegará un punto en el cual este tipo de análisis simplemente forme parte del
conjunto de herramientas de las humanidades, al igual que de cualquiera otra
disciplina.
(c) THE NEW YORK TIMES
No hay comentarios:
Publicar un comentario