¿Qué dicen los tweets de AMLO sobre su postura ideológica? Conclusiones a partir de un análisis estadístico de texto.

Benjamín Castro Martínez

Arian S. Montiel Rojas

Resumen

La política y el conflicto suceden principalmente en la arena del lenguaje. Con las nuevas tecnologías de la información se han vuelto viables la compilación, el procesamiento y el análisis de cantidades masivas de texto, lo que nos permite estudiar las palabras con las que los actores políticos se comunican y discuten en la arena pública. En este estudio descargamos y procesamos 3,098 tweets del político Andrés Manuel López Obrador para analizar en qué medida su discurso se apega a los valores de la izquierda moderna. A menos de dos años de la elección presidencial de 2018, resulta relevante conocer qué valores pregona el candidato que lidera las encuestas de opinión. Desarrollamos un código en R para hacer un análisis automatizado de texto, usando los métodos de diccionario. Con esto obtuvimos una “nube de palabras” para conocer las palabras más usadas y diversas “tablas de correlación entre palabras”, para contextualizar el significado de las mismas. Encontramos que AMLO tiene un discurso consistente, pero que se apega parcialmente a los cánones de la izquierda moderna: critica seguido el statu quo, mas no defiende los valores liberales que caracterizan a esta corriente ideológica.

Introducción

Si queremos entender la política necesitamos entender qué dicen y escriben los actores políticos. El conflicto político se da a través de la palabra, y la palabra se transmite a través de distintos medios de comunicación; electores, funcionarios públicos y candidatos recurren a éstos para formar criterios y expresar posturas. De aquí que el uso de redes sociales se haya vuelto particularmente relevante: permiten colocar temas en la opinión pública con un bajísimo o nulo costo de entrada. La generación de esta información ha ido de la mano con un mayor número de usuarios que la consultan e interactúan con ella. Por ejemplo, hacia 2014 en México había 68 millones de usuarios de Internet, de los cuales el 98.2% de los usuarios utilizaba redes sociales.[1] Desde entonces, el número ha ido aumentando.

Como una primera aproximación al océano informativo disponible en Internet decidimos estudiar los “tweets” de Andrés Manuel López Obrador (AMLO). Elegimos Twitter por tres razones: su estructura de datos sigue estando basada principalmente en texto, lo que se publica se puede analizar velozmente (ningún “tweet” puede sobrepasar los 140 caracteres; un “tweet”: una idea), y su API permite “minar” gratuitamente 3,200 “tweets” de cualquier usuario. Es decir, la plataforma ofrece la posibilidad de obtener información útil, rápidamente. Además, decidimos estudiar a AMLO por dos motivos: es un político que ha tenido relevancia nacional desde el año dos mil (con su elección como Jefe de Gobierno del Distrito Federal), y su figura pública ha sido relacionada con un discurso incendiario y de “izquierda” ¿Concuerda esta visión con lo que el político publica en Twitter? Desde que inició su cuenta (14 de octubre del 2009) hasta el 27 de octubre del 2016, Andrés Manuel López Obrador ha publicado 3,098 tweets. Es decir, publica––en promedio––un tweet cada 20 horas a un grupo de 2.28 millones de seguidores.[2]

Exploramos esta interrogante a través del análisis estadístico de texto, un área que no es nueva pero cuya relevancia está adquiriendo nuevos matices. El supuesto subyacente es que el análisis estadístico de texto puede revelar atributos importantes de la sociedad (y sus actores sociales), y puede ser utilizado para predecir o medir variables sociales.[3] En particular, utilizamos métodos automatizados para la extracción de datos, datos que clasificamos a través de métodos de diccionario. Esta rama utiliza la frecuencia con la que aparecen ciertas palabras para clasificar documentos en categorías preestablecidas o medir el grado en que ciertos documentos pertenecen a dichas categorías.[4] Nuestro interés particular está en ver si, efectivamente Andrés Manuel López Obrador tiene un discurso de izquierda, con base en todos los tweets que ha realizado hasta la fecha.

La situación problemática

Tomar fuentes de información “tradicionales” como la televisión y el periódico para definir la postura ideológica de un candidato resulta problemático. Frecuentemente, estos medios incurren en sesgos ideológicos provenientes de intereses políticos o económicos, además de que en éstos confluyen una pluralidad de voces. De acuerdo con la encuesta mundial de valores, en México las televisoras tienden a favorecer al partido en el gobierno durante la época electoral; a la par, la mayoría de los mexicanos obtienen la información a través de la televisión[5] ¿Qué mejor cuerpo de texto para conocer el discurso de un candidato que aquel que él mismo escribe? No obstante, tomar Twitter como fuente tiene desventajas propias. Comparativamente, representa un cuerpo de texto menor y menos representativo del cúmulo de declaraciones del candidato. Se omiten, por ejemplo, discursos, declaraciones mediáticas y documentos oficiales.

Gráfico 1. Frecuencia con que las televisoras favorecen electoralmente al partido en el poder.

im1

Fuente: World Value Survey.

Hipótesis de trabajo

Sostenemos que hay consistencia ideológica en el discurso político de AMLO desde el 2009 hasta la fecha. Entenderemos ideología como de “izquierda moderna” –– según la asepción de Tatalovich y Steven –– considerando dos rubros principales: economía-política y sociedad-valores. El primero se relaciona con: Estado de Bienestar, anti-capitalismo agresivo, ecología, ser pro-aborto, un Estado laico, y ser pacifista. El segundo con Humanismo, igualdad, discriminación positiva, despenalizaciones, derechos humanos y defensa de minorías.[6] En consecuencia, la hipótesis nula es que AMLO cambia constantemente su discurso, adhiriendose a otras ideologías.

Consideraciones metodológicas

Nuestra base de datos contiene 3,098 entradas, correspondientes a todos los tweets de AMLO en el período estudiado. La información fue extraída directamente de la web, utilizando código Python para transformar los tweets a formato .csv (separado por comas).[7] La base cuenta con 3 columnas: la primera marca el código de referencia (I.D) de cada tweet (metadatos), la segunda la fecha y hora de su publicación, y la tercera el tweet.

Usamos automated content methods –– i.e., métodos de análisis automatizados, llevados a cabo por algoritmos computacionales –– pues estos nos permiten analizar textos a gran escala velozmente. Más que reemplazar la lectura cuidadosa del texto analizado, estas herramientas nos permiten amplificar y aumentar nuestro rango de análisis.

Al analizar texto tomamos en cuenta los 4 principios propuestos por Grimmer y Stewart:[8]

  • Principio 1: todos los modelos cuantitativos del lenguaje están mal, pero algunos son útiles. Así, nuestras conclusiones no pueden ser definitivas, siempre podremos mejorar el método o los algoritmos.
  • Principio 2: Los métodos cuantitativos para cuerpos de texto amplifican los recursos y aumentan a los humanos. Por lo tanto, unimos lectura atenta de los tweets a los métodos automatizados.
  • Principio 3: No hay un “mejor método general” para análisis de texto automatizado. Así, nuestro método se adecua a las intenciones de esta investigación.
  • Principio 4: Validar, validar, validar. Una vez obtenidos los resultados, los corroboramos con nuestra teoría y la evidencia observacional de toda la base de datos.

Fundamentalmente, los métodos usados para analizar textos políticos sirven para ayudarle al investigador a hacer inferencias de los datos; a diferencia de los modelos de inferencia causal, aquí no podemos conocer el data generating process. Por lo tanto, en esta área un modelo es más o menos “correcto” según su “habilidad para llevar a cabo una tarea específica en la Ciencia Social”. Así, nuestro modelo considera tres aspectos para probar nuestra hipótesis de trabajo:

  • Las palabras más utilizadas por López Obrador.
  • Relaciones binarias entre la mención de palabras que denoten “ideología de izquierda” y otras palabras.
  • Si las palabras más usadas en los tweets de AMLO varían a través del tiempo.

El método

Una vez que los documentos (un tweet = un documento) han sido extraídos, procedemos con el pre-procesamiento. Primero, eliminamos el orden en que las palabras ocurren en el texto (las consideramos como si fueran una “bolsa de palabras”). El supuesto en este punto es que una lista de palabras es suficiente para guardar el significado. Segundo, simplificamos el lenguaje a través de “stemming”, que es analizar a través de raíces lingüísticas. Así, por ejemplo, podemos ver la raíz “corrup” en lugar de tratar individualmente las palabras “corrupto”, “corrupta” y “corrupción” Finalmente, se descarta la puntuación, capitalización y palabras muy comunes o infrecuentes (el 1% y el 99% de las que aparecen, se le llama “stopwords”).

Dentro de la variedad de métodos que existen, este análisis utiliza el método de diccionario. Éste consiste en clasificar los documentos (los tweets) en categorías y medir el grado en que éstos pertenecen a alguna en particular. Todo el proceso se puede ver con claridad en el siguiente código que desarrollamos:

Preparación de las librerías e importación de texto. Nota: todo lo que está después del “#” es una nota de texto explicando el proceso.

library('tm')

library("wordcloud") #activación de las librerías Text Mining y WordCloud

lopezobrador__tweets

lopezobrador__tweets[,2]<-as.Date(lopezobrador__tweets[,2]) #coercionar los caracteres de fecha para ordenar cronológicamente

tweets<-lopezobrador__tweets[,3] #cambio de nombre del objeto de estudio

x<-Corpus(VectorSource(tweets)) #definiendo el corpus de texto como un vector que interpreta cada componente como un documento

Posteriormente, pre-procesamos el texto para obtener la “bolsa de palabras” deseada. Notar que decidimos eliminar la palabra “san” pues era una de las más recurridas según el análisis de la nube de palabras. “San” opera como prefijo a los santos, y AMLO utiliza con frecuencia esta palabra por el nombre de los lugares que visita como parte de su campaña. Consideramos que era mejor eliminarlo.

#pre-procesamiento

x<-tm_map(x,stripWhitespace) #omitir espacios en blanco (entre palabras o párrafos)

x<-tm_map(x,removePunctuation) #quitar todos los signos de puntuación

x<-tm_map(x,content_transformer(tolower)) #hacer que el programa interprete indistintamente mayúsculas y minúsculas

x<-tm_map(x,removeWords,stopwords("spanish")) #remover las "stopwords" clasificadas en el lenguaje español

x<-tm_map(x,removeWords,"san") #eliminación de la palabra "san"

x<-tm_map(x, removeNumbers) #eliminación de números

x<-tm_map(x,stemDocument,"spanish") #ejecución de stemming

Como parte del análisis exploratorio de datos decidimos hacer una “nube de palabras” de las 50 palabras más frecuentes. Se le indica al programa que muestre de color y tamaño distinto aquellas palabras más repetidas.

#Nube de palabras y características

wordcloud(x,scale=c(6,0.5),max.words = 100,random.order = FALSE, random.color = FALSE, rot.per = 0.35, use.r.layout = FALSE, colors = brewer.pal(6,"Dark2"))

Finalmente, en el análisis final hacemos un estudio de correlaciones entre palabras. Se marcan con asteriscos aquellas que resultaron importantes o interesantes para el propósito de este estudio.

#Buscando términos más frecuentes

dtm

more100<-findFreqTerms(dtm, 100)

#Busca las correlaciones

findAssocs(dtm,"pueblo",0.1) * #Buscar palabras relacionadas “pueblo” con un mínimo de 10% de correlación.

findAssocs(dtm,"impuestos",0.2) #

findAssocs(dtm,"azcárragaepn",0.1) #

findAssocs(dtm,"corrupción",0.1)

findAssocs(dtm,"prian",0.1)

findAssocs(dtm,"cambio",0.1) #

findAssocs(dtm,"radical",0.2)

findAssocs(dtm,"privilegios",0.2)

Con estas dos herramientas terminamos el análisis del texto.

Resultados

Análisis exploratorio

Comenzamos con la nube de palabras, para obtener una noción general de las palabras más mencionadas por AMLO. Corriendo el código obtenemos:

Gráfico 2. Nube de palabras.

im2

Nube de las 50 palabras más usadas por AMLO en sus tweets.

Un análisis visual de la nube nos permite ver que la palabra más usada es “epn”, que hace alusión al Presidente de la República, Enrique Peña Nieto. Hasta la fecha, lo ha mencionado en 407 ocasiones. Más adelante podremos corroborar si estas alusiones son mayoritariamente negativas. Le siguen en frecuencia las palabras “hoy”, “méxico” y “morena”. Las tres palabras tienen una connotación más bien “positiva”, en tanto que son parte del discurso propositivo de AMLO. Siguen las palabras “pueblo” y “gente”, alusión típica del lenguaje de izquierda (aunque resulta interesante ver que aparecen en mucho menor medida que la palabra principal). Finalmente, otras palabras que se relacionan mucho con el político como “mafia”, “prian”, “salinas” y “petróleo” son de las que menos aparecen dentro de las 50 más frecuentes.

Análisis confirmatorio

Resulta interesante ver qué palabras aparecen más frecuentemente junto a las más recurridas. Esto nos permitirá contextualizar las palabras que son más utilizadas e inducir la connotación con las que son mencionadas.

Cuando hace alusión a Enrique Peña Nieto, la palabra más mencionada en los Tweets de Obrador, estas son las 24 palabras más relacionadas:

Tabla 1. Correlaciones con la palabra “epn”.

im3

Aunque EPN sea muy mencionado por el candidato de estudio, notamos que las palabras que lo acompañan son en general críticas al sistema y a otros funcionarios públicos en vez de confrontaciones personales. “Avión” es la más correlacionada pues tiene que ver con la crítica constante que AMLO le ha hecho a Presidencia por la adquisición de una aeronave valuada en tres mil millones de pesos. Aparecen también “millones”, “lujo” y “corrupto”, todas alusiones negativas. Es interesante ver la palabra “Anna”, pues el político constantemente compara al presidente con Antonio López de Santa Anna, antiguo caudillo mexicano.

En un análisis más detallado para estudiar la consistencia en el discurso político de AMLO desde el 2009 hasta la fecha, nos dimos a la tarea de investigar el corte ideológico del candidato. Partiendo de que Obrador es un político de izquierda, suponemos que sus palabras deben estar relacionadas con lo que normalmente caracteriza a dicha corriente. Como ya se mencionó con anterioridad, la izquierda política que tomamos en cuenta es la moderna que se caracteriza por promover un Estado de bienestar, criticar al capitalismo agresivo, ser progresivo en políticas concernientes a temas polémicos como el aborto y la legalización de las drogas, ser un Estado laico, favorecer políticas públicas ecológicas y buscar la igualdad.

Siguiendo esta definición, relacionamos palabras que deberían ilustrar la corriente de izquierda si es que AMLO en realidad es partidario. Observamos que menciona mucho en su discurso críticas al status quo y al capitalismo que favorece solamente a unos cuantos. La palabra “privilegios” e “impuestos” se mencionan relacionadas con “abolir”, “fueros”, “funcionarios”, “aumentos” y “privatización”. El discurso reaccionario al sistema sigue con el reproche al “prian” y al nivel de corrupción.

Tablas 2 y 3. Correlaciones con las palabras “privilegios” e “impuestos”.

im4

im5

En cuanto a las propuestas progresistas del discurso de izquierda, AMLO utiliza la palabra “cambio” y “pueblo” para prometer cambios al sistema actual. Las palabras relacionadas claramente demuestran una enunciación que promueve un sistema igualitario en el que el pueblo es el protagonista. Esto relacionado con la palabra “radical” se contradice un poco con la izquierda moderna que es pacifista en la mayoría de los países de occidente.

Tablas 4, 5 y 6. Correlaciones con la palabra “pueblo”, “cambio” y “radical”.

im6

im7

im8

En “radical” hace frecuente alusión al libro de Porfirio Muñoz Ledo “La Vía Radical”. Comúnmente cuando usa este adjetivo, agrega la palabra “pacífico” y “fondo”, para atenuar el mensaje de miedo con el que frecuentemente se le relaciona. No obstante, pacífico es el único adjetivo que se relaciona directamente con una visión de izquierda moderna en el rubro sociedad-valores. En efecto, parece que el candidato omite temas como el aborto o la protección de minorías. Al menos en sus tweets, estas alusiones aparecen sólo de forma muy indirecta a través de verbos propositivos como “trabajemos”, “buscamos”, y “organizar”.

En general el discurso de AMLO es consistente con la ideología de izquierda, bajo los criterios que hemos propuesto. Sin embargo, más que proponer, se encarga de enfatizar los defectos del sistema actual. A través de una lectura exhaustiva a los Tweets de Obrador desde el 2009, concluimos que no ha caído en fuertes contradicciones, pero el político deja mucho que desear respecto a un discurso de “izquierda moderna”.

Conclusiones

Nuestra propuesta metodológica de análisis de texto ha arrojado los siguientes tres resultados interesantes:

  1. AMLO sí tiene un discurso predominantemente de izquierda los rubros económico-político, pero su alusión a valores sociales de izquierda es prácticamente nula.
  2. AMLO se ha encargado más de criticar al statu quo que ha persuadir de su proyecto político.
  3. El discurso de AMLO no se ha modificado notablemente en el tiempo. En efecto, las palabras que más utiliza aparecen junto al mismo grupo de palabras la mayor parte del tiempo.

En suma, aunque el método propuesto tiene limitaciones evidentes en cuanto a precisión (es muy poco el análisis numérico que pudimos hacer), tiene el valor de arrojarnos información pertinente respecto a un candidato de “izquierda” que ha decidido ser discursivamente menos radical que la ideología que pregona ¿AMLO es cómo lo pintan los medios de comunicación? Si la respuesta radicara en lo que el candidato tuitéa, la respuesta sería que no, que los medios exageran.

Bibliografía

  • Grimmer & Stewart, “Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts”, Political Analysis (2013) pp. 1–31
  • Goldthorpe, J. E.. An Introduction to Sociology. Cambridge, England, UK; Oakleigh, Melbourne, Australia; New York, New York, USA Pp. 156. 1986
  • Lukes, Steven. ‘Epilogue: The Grand Dichotomy of the Twentieth Century’: concluding chapter to T. Ball and R. Bellamy (eds.), The Cambridge History of Twentieth-Century Political Thought.
  • Scruton, Roger “A Dictionary of Political Thought” “pp. 281-2, Macmillian, 1996

[1] Rubén Vázquez, “México: primer lugar en penetración social media”, Red Forbes, México (2014), consultado en http://www.forbes.com.mx/mexico-primer-lugar-en-penetracion-social-media/#gs.null el 26 de Noviembre de 2016.

[2] Todos los tweets se pueden consultar en la cuenta @lopezobrador_ directamente en https://twitter.com/lopezobrador_

[3] O’Connor, Brendan T., “Statistical Text Analysis for Social Science”, Carnegie Mellon (2014) Dissertations. Paper 541, p. 14

[4] Grimmer & Stewart, “Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts”, Political Analysis (2013) p. 8

[5] World Values Survey, wave 6: 2010-2014, http://www.worldvaluessurvey.org/WVSOnline.jsp, consultado el 26 de Noviembre de 2016.

[6] Smith, T. Alexander; Tatalovich, Raymond (2003). Cultures at War: Moral Conflicts in Western Democracies. Toronto, Canada: Broadview Press. p. 30.

[7] El código utlizado se puede consultar en https://gist.github.com/yanofsky/5436496

[8] Grimmer & Stewart, op. cit. pp. 3-5

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s