Comparación de técnicas de análisis multivariado para detección de valores extremos con técnicas no supervisadas, una aplicación al caso de anomalías en contratación de bienes en Costa Rica

Fecha

2024

Tipo

tesis de maestría

Autores

Arroyo Castro, Jose Pablo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

Este trabajo consiste en comparar técnicas no supervisadas del análisis multivariado para la detección de anomalías en el contexto de la contratación pública de bienes en Costa Rica durante el período 2020-2022 y proponer el enfoque más adecuado. Después de una exhaustiva investigación, se seleccionaron enfoques relacionados con la aplicación de modelos lineales, proximidad, densidad, cortes paralelos al eje y proyección de Manifolds Uniformes. Se comparó la eficiencia de las técnicas empleadas mediante 490 escenarios controlados, esto permitió evaluar la calidad predictiva de las técnicas estadísticas empleadas en diferentes contextos, considerando aspectos como la asimetría de los datos, la correlación entre las variables, el tamaño de la población y el porcentaje de anomalías presentes. Los resultados revelaron que los enfoques basados en proximidad y densidad son los que requieren mayores recursos de procesamiento de información en comparación con los enfoques con cortes paralelos al eje o modelos lineales. En cuanto a la calidad de predicción, se observó que, en la mayoría de los escenarios, esta se ve afectada por el aumento en el tamaño de la población y la cantidad de anomalías presentes. Finalmente, en la aplicación de estas técnicas con datos de Contratación Pública, no se identificó un único modelo óptimo que maximice la utilización de la información en todos los escenarios analizados. Sin embargo, se encontraron ventajas en varios enfoques y se establecieron las condiciones en las cuales algunos modelos presentan un comportamiento más estable a lo largo del tiempo. Se concluye que es necesario delimitar la población para realizar comparaciones adecuadas. Asimismo, se recomienda el análisis mediante una técnica de consenso que pondera las diferencias metodológicas de cada una de las técnicas utilizadas.
This work involves comparing unsupervised multivariate analysis techniques for anomaly detection in the context of public procurement of goods in Costa Rica during the period 2020-2022 and proposing the most suitable approach. After exhaustive research, approaches related to the application of linear models, proximity, density, axis-parallel cuts, and Uniform Manifold Projection were selected. The efficiency of the employed techniques was compared using 490 controlled scenarios, allowing for the evaluation of the predictive quality of the statistical techniques used in different contexts, considering aspects such as data skewness, correlation between variables, population size, and the percentage of anomalies present. The results revealed that approaches based on proximity and density require more information processing resources compared to those with axis-parallel cuts or linear models. Regarding prediction quality, it was observed that, in most scenarios, it is affected by the increase in population size and the amount of anomalies present. Finally, in the application of these techniques with Public Procurement data, no single optimal model was identified that maximizes the use of information in all analyzed scenarios. However, advantages were found in several approaches, and conditions were established under which some models exhibit more stable behavior over time. It is concluded that it is necessary to define the population to make appropriate comparisons. Additionally, an analysis using a consensus technique that weighs the methodological differences of each of the techniques used is recommended.

Descripción

Palabras clave

INTELIGENCIA ARTIFICIAL, CONTRATACIÓN PÚBLICA, APRENDIZAJE AUTOMÁTICO, DENSIDAD, MODELO, ANÁLISIS MULTIVARIADO, ANOMALÍAS, DETECCIÓN, TÉCNICAS NO SUPERVISADAS

Enlaces Externos

Colecciones