Aplicaciones de la minería de texto en la Encuesta Nacional de Transparencia 2019: una nueva alternativa de análisis para las encuestas de percepción
Abstract
Codificar y analizar preguntas abiertas provenientes de encuestas de opinión suele ser
laborioso y, además, consume tiempo. Para realizar dicho trabajo, interesa poder consignar
de forma automática las clases para las preguntas abiertas a partir de la información de las
respuestas; asimismo, interesa poder analizar de mejor forma este tipo de información. La
minería de texto ofrece una alternativa para ese tipo de problemática. En el presente trabajo,
se utilizaron los datos de 12 preguntas abiertas provenientes de la Encuesta Nacional de
Percepción sobre la Transparencia del 2019 (ENPT - 2019). Se aplica la minería de texto
tanto desde un enfoque descriptivo (frecuencias, redes, clusters y sentimientos) como desde
uno predictivo. Este último posee un interés predominante en la presente investigación dado
que pretende realizar la codificación automática de respuestas o categorías a partir del
aprendizaje automático supervisado. Se emplean algoritmos de máquinas de soporte vectorial,
clasificador ingenuo de Bayes, bosques aleatorios, XGBoost y vecinos más cercanos. Los
resultados más relevantes muestran que, a partir del análisis descriptivo, se aprecian de mejor
forma las descripciones, visualizaciones y relaciones en el análisis de las preguntas abiertas
de la ENPT – 2019. El análisis predictivo reseña que los algoritmos con mayor ocurrencia
para las preguntas abiertas fueron el clasificador ingenuo de Bayes y los bosques aleatorios,
los cuales mostraron precisiones de entre 48% y 76%. Esto permite establecer resultados
similares en comparación con los que se obtienen con las categorías que fueron codificadas
manualmente. La aplicación de la minería de texto muestra resultados satisfactorios en el
análisis integral de las 12 preguntas de la encuesta. Coding and analyzing open-ended questions from opinion surveys is laborious and
consume a considerable amount of time. The purpose of this research is to set automatically
the classes for open-ended questions based on hand classified examples, in addition to
analyze this type of information using sophisticated methods. The text mining applications
offer an alternative that facilitates the analysis of the data extracted from the answers in the
case of this type of questions in opinion surveys. Twelve open-ended questions from the 2019
National Transparency Perception Survey (ENPT - 2019) were used. Text mining was applied
for an exploratory analysis through frequencies, networks, clusters and sentiments. Also, a
predictive analysis was performed, having a predominant interest in this research since it
intends to perform the automatic coding of responses or categories using supervised machine
learning. The algorithms used were Support Vector Machines, the Naive Bayes Classifier,
Random Forests, XGBoost and K Nearest Neighbor. The descriptive analysis showed that
the representation of text in the analysis of open-ended questionsis quite good. The predictive
analysis showed that the most selected algorithms with the highest accuracy were the Naive
Bayes and Random Forests. The precision of the models selected lies between 48% and 76%.
Furthermore, it was shown that the categories predicted by the models chosen for each
question allow to establish similar results compared to those obtained with the pre-established
categories. The application of text mining showed satisfactory results in the comprehensive
analysis of the 12 questions in the analyzed survey.
Collections
- Estadística [118]