Análisis de datos de covid-19: imputación y rendimiento de modelos de aprendizaje supervisado

Autores/as

  • Adrián Martínez Amarilla Facultad de Ciencias Exactas y Tecnológicas - UNC

DOI:

https://doi.org/10.47133/facet-unc-2023-1-2b

Palabras clave:

Análisis de datos, Imputación de valores perdidos, Modelos de aprendizaje supervisado

Resumen

Este estudio investiga la eficacia de métodos de aprendizaje supervisado en la predicción del COVID-19 utilizando registros hospitalarios del departamento de Concepción durante el periodo 2020-2022. Se analiza el impacto de la imputación de datos faltantes en métricas de evaluación para varios modelos, incluyendo Máquinas de Vectores Soporte, Redes Neuronales Artificiales, Regresión Logística, Árbol de Decisión y Bosque Aleatorio. El preprocesamiento incluye la creación de dos conjuntos de datos: uno sin registros vacíos y otro con un 20% de datos faltantes por filas. La imputación se realiza mediante las técnicas de imputación por moda y bosque aleatorio en el conjunto con datos faltantes. La variable dependiente evaluada es la clasificación final de la enfermedad, confirmada o descartada por criterios laboratoriales. El modelo de Bosque Aleatorio destaca por su eficiencia superior en el conjunto de datos sin registros vacíos y muestra robustez ante la imputación de datos. Este estudio contribuye significativamente al proporcionar información sobre los efectos de la imputación de datos faltantes en el ámbito de la salud pública y su aplicación en la generación de modelos predictivos.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Agrusti, F., Mezzini, M., & Bonavolontà, G. (2020). Deep learning approach for predicting university dropout: A case study at Roma Tre University. Journal of e-Learning and Knowledge Society, 16(1), 44-54.

Akhtar, A., Akhtar, S., Bakhtawar, B., Kashif, A. A., Aziz, N., & Javeid, M. S. (2021). COVID-19 detection from CBC using machine learning techniques. International Journal of Technology, Innovation and Management (IJTIM), 1(2), 65-78.

Alvarez, F. (2020). Machine Learning en la detección de fraudes de comercio electrónico aplicado a los servicios bancarios. Ciencia y tecnología, 81-95.

Andrade-Girón, D., Carreño-Cisneros, E., Mejía-Dominguez, C., Marín-Rodriguez, W., & Villarreal-Torres, H. (2023). Comparación de Algoritmos Machine Learning para la Predicción de Pacientes con Sospecha de COVID-19. Salud, Ciencia y Tecnología, 3, 336-336.

Bartz, E., Bartz-Beielstein, T., Zaefferer, M., & Mersmann, O. (2023). Hyperparameter Tuning for Machine and Deep Learning with R: A Practical Guide. Springer Nature.

Bhavsar, KA, Abugabah, A., Singla, J., AlZubi, AA y Bashir, AK (2021). Una revisión exhaustiva sobre el diagnóstico médico mediante aprendizaje automático. Computadoras, Materiales y Continua , 67 (2), 1997.

Breiman, L. (2001). Random forests. Machine learning, 45, 5-32

Breiman, L., Cutler, A., Liaw, A., & Wiener, M. (2022). randomForest: Breiman and Cutler’s Random Forests for Classification and Regression [R package version 4.7-1.1]. Recuperado de https://cran.r-project.org/web/packages/randomForest/randomForest.pdf

Castro Capelo, R. M. (2022). Curvas ROC

Chiapella, L. (2020). Impacto de estrategias para el tratamiento de información faltante sobre la estimación de modelos de regresión de Cox.

Cutler, A., Cutler, D. R., & Stevens, J. R. (2012). Random forests. Ensemble machine learning: Methods and applications, 157-175.

Delisle Nyström, C., Barnes, J. D., & Tremblay, M. S. (2018). An exploratory analysis of missing data from the Royal Bank of Canada (RBC) Learn to Play–Canadian Assessment of Physical Literacy (CAPL) project. BMC Public Health, 18(2), 1-9.

Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the royal statistical society: series B (methodological), 39(1), 1-22.

Goicoechea, A. P. (2002). Imputación basada en árboles de clasificación. Eustat. Available in: http://www. eustat. es/documentos/datos/ct, 4.

Grillo, S. A., Román, J. C. M., Mello-Román, J. D., Noguera, J. L. V., García-Torres, M., Divina, F., & Sotomayor, P. E. G. (2021). Adjacent Inputs With Different Labels and Hardness in Supervised Learning. IEEE Access, 9, 162487-162498.

Haykin, S. (1998). Neural networks: a comprehensive foundation. Prentice Hall PTR.

Heckman, J. J. (1979). Sample selection bias as a specification error. Econometrica: Journal of the econometric society, 153-161.

Hernán, F. (2023). Random Forests. Consultado el 20 de octubre de 2023, Recuperado de https://fhernanb.github.io/libro_mod_pred/rand-forests.html

Jannat-Khah, D. P., Unterbrink, M., McNairy, M., Pierre, S., Fitzgerald, D. W., Pape, J., & Evans, A. (2018). Treating loss-to-follow-up as a missing data problem: a case study using a longitudinal cohort of HIV-infected patients in Haiti. BMC public health, 18, 1-11.

Kamiri, J., & Mariga, G. (2021). Research methods in machine learning: A content analysis. International Journal of Computer and Information Technology (2279-0764), 10(2), 78-91.

Kass, G. (1980). Una técnica exploratoria para investigar grandes cantidades de datos categóricos. Revista de la Royal Statistical Society: Serie C (Estadísticas aplicadas), 29(2), 119-127

Kayri, M. (2015). An intelligent approach to educational data: Performance comparison of the multilayer perceptron and the radial basis function artificial neural networks. Educational Sciences: Theory & Practice, 15(5).

Kononenko, I. (2001). Machine learning for medical diagnosis: history, state of the art and perspective. Artificial Intelligence in medicine, 23(1), 89-109.

Kröger, H. (2023). 8. Predictive machine learning approaches–possibilities and limitations for the future of life course research. Handbook of Health Inequalities Across the Life Course, 112.

Liaw, A., & Wiener, M. (2002). Classification and regression by randomForest. R news, 2(3), 18-22.

Medina, F., & Galván, M. (2007). Imputación de datos: teoría y práctica. Cepal.

Mello-Roman, J. D., & Hernandez, A. (2020). KPLS optimization with nature-inspired metaheuristic algorithms. IEEE Access, 8, 157482-157492.

Mello-Román, J. D., Hernández, A., & Mello-Román, J. C. (2021). Improved Predictive Ability of KPLS Regression with Memetic Algorithms. Mathematics, 9(5), 506.

Mello-Román, J. D., Mello-Román, J. C., Gomez-Guerrero, S., & García-Torres, M. (2019). Predictive models for the medical diagnosis of dengue: a case study in Paraguay. Computational and mathematical methods in medicine, 2019.

Meyer, D., Dimitriadou, E., Hornik, K., Weingessel, A., Leisch, F., Chang, C.-C., & Lin, C.-C. (2023). e1071: Misc Functions of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien [R package version 1.7-13]. Recuperado de https://cran.r-project.org/web/packages/e1071/index.html

Nahm, F. S. (2022). Receiver operating characteristic curve: overview and practical use for clinicians. Korean journal of anesthesiology, 75(1), 25-36.

Podder, P., Bharati, S., Mondal, M. R. H., & Kose, U. (2021). Application of machine learning for the diagnosis of COVID-19. En Data science for COVID-19 (pp. 175-194). Elsevier

Ramos, P., Silva, E., Canese, J., & Velázquez, G. (2021). Epidemiologia de los casos de COVID-19 diagnosticados en albergues sanitarios del gran Asunción, Paraguay (2020). Memorias del Instituto de Investigaciones en Ciencias de la Salud, 19(2), 69-77.

Rios-González, C. M. (2020). Conocimientos, actitudes y prácticas hacia COVID-19 en paraguayos el periodo de brote: una encuesta rápida en línea. Revista de salud publica del Paraguay, 10(2), 17-22.

Ripley, B., & Venables, W. (2023). nnet: Feed-Forward Neural Networks and Multinomial LogLinear Models [R package version 7.3-19]. Recuperado de https://cran.r-project.org/web/packages/nnet/nnet.pdf

Rubin, D. B. (1976). Inference and missing data. Biometrika, 63(3), 581-592

Segura, M., Mello, J., & Hernández, A. (2022). Machine Learning Prediction of University Student Dropout: Does Preference Play a Key Role? Mathematics, 10(18), 3359

Shawe-Taylor, J., Cristianini, N., et al. (2004). Kernel methods for pattern analysis. Cambridge university press.

Sripathi, K. N., Moscarella, R. A., Steele, M., Yoho, R., You, H., Prevost, L. B., ... & Haudek, K. C. (2024). Machine learning mixed methods text analysis: An illustration from automated scoring models of student writing in biology education. Journal of mixed methods research, 18(1), 48-70.

Therneau, T., Atkinson, B., & Ripley, B. (2023). rpart: Recursive Partitioning and Regression Trees [R package version 4.1.21]. Recuperado de https://cran.r-project.org/web/packages/rpart/rpart.pdf

Descargas

Publicado

2024-01-31

Cómo citar

Martínez Amarilla, A. (2024). Análisis de datos de covid-19: imputación y rendimiento de modelos de aprendizaje supervisado. Revista De Ingeniería, Ciencias Y Sociedad, 5(1), 12–31. https://doi.org/10.47133/facet-unc-2023-1-2b

Número

Sección

Artículos Originales