Logo Kérwá
 

Aplicaciones de la minería de texto en la Encuesta Nacional de Transparencia 2019: una nueva alternativa de análisis para las encuestas de percepción

Abstract

Codificar y analizar preguntas abiertas provenientes de encuestas de opinión suele ser laborioso y, además, consume tiempo. Para realizar dicho trabajo, interesa poder consignar de forma automática las clases para las preguntas abiertas a partir de la información de las respuestas; asimismo, interesa poder analizar de mejor forma este tipo de información. La minería de texto ofrece una alternativa para ese tipo de problemática. En el presente trabajo, se utilizaron los datos de 12 preguntas abiertas provenientes de la Encuesta Nacional de Percepción sobre la Transparencia del 2019 (ENPT - 2019). Se aplica la minería de texto tanto desde un enfoque descriptivo (frecuencias, redes, clusters y sentimientos) como desde uno predictivo. Este último posee un interés predominante en la presente investigación dado que pretende realizar la codificación automática de respuestas o categorías a partir del aprendizaje automático supervisado. Se emplean algoritmos de máquinas de soporte vectorial, clasificador ingenuo de Bayes, bosques aleatorios, XGBoost y vecinos más cercanos. Los resultados más relevantes muestran que, a partir del análisis descriptivo, se aprecian de mejor forma las descripciones, visualizaciones y relaciones en el análisis de las preguntas abiertas de la ENPT – 2019. El análisis predictivo reseña que los algoritmos con mayor ocurrencia para las preguntas abiertas fueron el clasificador ingenuo de Bayes y los bosques aleatorios, los cuales mostraron precisiones de entre 48% y 76%. Esto permite establecer resultados similares en comparación con los que se obtienen con las categorías que fueron codificadas manualmente. La aplicación de la minería de texto muestra resultados satisfactorios en el análisis integral de las 12 preguntas de la encuesta.
Coding and analyzing open-ended questions from opinion surveys is laborious and consume a considerable amount of time. The purpose of this research is to set automatically the classes for open-ended questions based on hand classified examples, in addition to analyze this type of information using sophisticated methods. The text mining applications offer an alternative that facilitates the analysis of the data extracted from the answers in the case of this type of questions in opinion surveys. Twelve open-ended questions from the 2019 National Transparency Perception Survey (ENPT - 2019) were used. Text mining was applied for an exploratory analysis through frequencies, networks, clusters and sentiments. Also, a predictive analysis was performed, having a predominant interest in this research since it intends to perform the automatic coding of responses or categories using supervised machine learning. The algorithms used were Support Vector Machines, the Naive Bayes Classifier, Random Forests, XGBoost and K Nearest Neighbor. The descriptive analysis showed that the representation of text in the analysis of open-ended questionsis quite good. The predictive analysis showed that the most selected algorithms with the highest accuracy were the Naive Bayes and Random Forests. The precision of the models selected lies between 48% and 76%. Furthermore, it was shown that the categories predicted by the models chosen for each question allow to establish similar results compared to those obtained with the pre-established categories. The application of text mining showed satisfactory results in the comprehensive analysis of the 12 questions in the analyzed survey.

Description

Keywords

encuesta de opinión, minería de texto, aprendizaje automático supervisado

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By