Percepción de la corrupción en Chile (2020)

Luis Cuevas Parra
5 min readDec 15, 2020

--

Introducción

Por corrupción se entiende el abuso del poder para beneficio propio. Puede clasificarse en corrupción a gran escala, menor y política, según la cantidad de fondos perdidos y el sector en el que se produzca.

Con la finalidad de crear conciencia sobre sus consecuencias, cada 9 de diciembre se conmemora el Día Internacional contra la Corrupción.

Dado estos antecedentes, resulta interesante conocer la percepción que la ciudadanía tiene sobre esta temática, específicamente en Chile, analizando los mensajes de Twitter.

Análisis de datos

Los tweets analizados corresponden al periodo del 5 al 14 de diciembre del presente año. Para la recolección de datos se efectuó por medio de geo-referenciación desde 7 localidades distintas con 400 millas a la redonda. Este método obedece al hecho de que Chile es un país largo y angosto, por ende aplicar una recolección desde un punto único no genera los resultados buscados. Luego de la eliminación de duplicados, la totalidad de mensajes sujeto a análisis es de 2182 tweets.

En figura 1 se observa la distribución por día de los mensajes en Twitter. Se observa que el día miércoles 9 de diciembre cuenta con mayor mensajes usando la palabra corrupción. Este hecho no debe sorprender, dado que es el día internacional contra la corrupción.

Respecto a los días con mayores mensajes, se aprecia en figura 2 que el miércoles cuenta con la mayor frecuencia, totalizando 463 tweets, seguido por el día domingo y sábado. Sin embargo, estos dos últimos días cuentan con mensajes de dos días, no así el miércoles.

Otro punto importante a analizar es considerar la hora de publicación. En figura 3 se muestra una distribución similar a una normal, donde el peak de tweets se alcanza a las 11:00 horas.

También, resulta interesante conocer quienes son los usuarios que más publican sobre esta temática. La figura 4 ofrece un ranking sobre esto, donde se destaca la cuenta de @carolalorca, seguida por @Dpm_Chile2020. Un potencial ejercicio podría ser revisar con mayor detalle los mensajes que publican estas cuentas, dado que podrían aportar denuncias sobre temas de corrupción.

Junto con conocer quienes son los que más publican sobre esta temática, es interesante conocer las cuentas mencionadas. La figura 5 muestra que las cuentas de usuario de CGR (@contraloritocgr, @contraloriacl) son las que cuentan con mayor número de menciones. Otras cuentas mencionadas son las relacionadas con medios de prensa y políticos.

Ahora bien, se muestra las palabras con mayor uso por parte de los usuarios, cuando en sus tweets se usa la palabra corrupción.

Análisis de sentimientos

No solamente sirve conocer cuando se generan los tweets, que cuentas lo realizan, a cuales se mencionan o las palabras de mayor uso, sino que también es necesario conocer el tipo de sentimiento usado en los mensajes a fin de realizar conjeturas al respecto.

Se observa en figura 6 el tipo de sentimiento expresado en los tweets publicados. Por un lado, sentimientos negativos tales como enojo, disgusto, negatividad, tristeza están presentes en el contenido del mensaje. Por otro lado, confianza y sorpresa son los más presentes en los sentimientos positivos de los usuarios.

La figura 7 muestra el porcentaje clasificado con sentimiento positivo o negativo sobre la totalidad de mensajes extraídos desde Twitter. Se visualiza que solo el 24% de los mensajes ha sido clasificado como tal. De estos, alrededor de 1/3 ha sido clasificado de forma negativa, hecho entendible dado que gran parte de los mensajes sobre esta temática es para denunciarla.

Asignación latente de Dirichlet (LDA)

Finalmente, se realizará un análisis de datos no supervisado para identificar y clasificar a palabras que pertenecen a un tópico

En figura 8 se muestra 6 posibles temáticas detectadas del análisis no supervisado de datos. De éstas, solamente se aprecia con claridad 3 temáticas, cuales pueden clasificarse como sigue:

  • Denuncia de caso Piñera (triangulación de inversiones en AFP)
  • Abuso por parte de la clase política
  • Corrupción en partidos políticos

Estas clasificaciones pueden ser complementadas con los análisis anteriores, pudiendo con esto vincular que los sentimientos negativos están relacionados con la clase política y los sentimientos positivos hacia CGR y medios de prensa.

Conclusiones

Por medio del Procesamiento de Lenguaje Natural es posible tener una vista panorámica sobre alguna temática, en este caso sobre corrupción, donde se extraer información relevante para ser analizada y así generar valor para la toma de acciones.

Se puede ver que esta temática es de vital importancia para el combate de este tipo de acciones ilícitas que profundizan las desigualdades en las sociedades.

Es necesario profundizar este tipo de análisis, aplicando técnicas de análisis semántico, tal como el uso de Word Embeddings u otra técnica, con el objetivo de generar mejores clasificadores de temáticas y así poder usar esto como insumo en el combate contra a corrupción.

--

--