Capítulo 1 Introducción

La pandemia de COVID-19 representó uno de los mayores desafíos para los sistemas de salud a nivel mundial, generando un impacto significativo en la mortalidad, la economía y la dinámica social. En Colombia, el departamento del Atlántico fue uno de los territorios más afectados, con Barranquilla como epicentro principal de los contagios.

El seguimiento y análisis de los datos de casos positivos ha sido fundamental para comprender la evolución de la enfermedad y apoyar la toma de decisiones en salud pública. En este contexto, el uso de técnicas de análisis de datos permite identificar patrones relevantes en variables demográficas, temporales y clínicas asociadas a los pacientes.

1.1 Contexto

El COVID-19, causado por el virus SARS-CoV-2, fue declarado pandemia por la OMS en marzo de 2020. En Colombia, el primer caso se registró el 6 de marzo de 2020 y rápidamente se expandió por todo el territorio nacional. El Atlántico, siendo uno de los departamentos más poblados y con mayor actividad económica del Caribe colombiano, experimentó olas de contagio que pusieron a prueba su sistema hospitalario.

Los datos analizados en este estudio provienen del sistema oficial de vigilancia epidemiológica del Instituto Nacional de Salud (INS) y contienen información detallada sobre cada caso positivo confirmado en el departamento.

1.2 Planteamiento del problema

A pesar de la disponibilidad de datos sobre casos de COVID-19 en Colombia, no se ha explotado completamente su potencial para identificar factores asociados al tiempo de recuperación de los pacientes. La ausencia de un análisis estructurado y de modelos predictivos limita la capacidad de anticipar comportamientos y apoyar decisiones estratégicas en el ámbito de la salud.

Por ello, se plantea la necesidad de analizar los datos disponibles del departamento del Atlántico y establecer relaciones entre variables demográficas y clínicas que permitan explicar y predecir el proceso de recuperación de los pacientes con COVID-19.

1.3 Objetivos

1.3.1 Objetivo general

Analizar los datos de casos positivos de COVID-19 en el Atlántico mediante técnicas de análisis exploratorio y desarrollar un enfoque predictivo para estimar el tiempo de recuperación de los pacientes.

1.3.2 Objetivos específicos

  • Realizar la limpieza y transformación de los datos (ETL) para garantizar su calidad y consistencia.
  • Identificar el tipo y comportamiento de las variables presentes en la base de datos mediante una operacionalización detallada.
  • Explorar relaciones entre variables demográficas (edad, sexo) y clínicas (tipo de contagio, estado).
  • Analizar la distribución espacial y temporal de los casos en el departamento.
  • Analizar la distribución del tiempo de recuperación y mortalidad de los pacientes.
  • Proponer un modelo predictivo que permita estimar los días de recuperación a partir de variables explicativas.

1.4 Justificación

El análisis de datos en salud pública es una herramienta clave para la toma de decisiones informadas. En el caso del COVID-19, comprender los factores que influyen en la recuperación de los pacientes puede contribuir a mejorar la gestión hospitalaria y la asignación de recursos. Este estudio permite no solo describir el comportamiento de los datos en el Atlántico, sino también generar conocimiento útil mediante la implementación de modelos predictivos, aportando valor tanto académico como práctico para futuras situaciones de emergencia sanitaria.

1.5 Marco teórico

El Análisis Exploratorio de Datos (EDA) es una etapa fundamental en el proceso de análisis, que permite comprender la estructura, calidad y distribución de los datos antes de aplicar modelos más complejos. Incluye técnicas como estadísticas descriptivas, visualización de datos y detección de valores atípicos.

El proceso ETL (Extracción, Transformación y Carga) es esencial para preparar los datos, garantizando su consistencia y adecuación para el análisis. Esto incluye la limpieza de datos, manejo de valores faltantes y creación de nuevas variables derivadas a partir de las originales.

Los modelos predictivos, como la regresión lineal o modelos más avanzados, permiten estimar valores futuros o desconocidos a partir de variables explicativas, siendo una herramienta clave en la analítica de datos aplicada a la salud pública.

1.6 Metodología

El desarrollo de este trabajo se divide en tres etapas principales:

1. ETL (Extracción, Transformación y Carga):

  • Lectura de la base de datos oficial del INS
  • Limpieza de datos y manejo de valores faltantes
  • Conversión de variables de tipo character a formato fecha
  • Creación de nuevas variables derivadas: días de recuperación y días hasta fallecimiento
  • Normalización de la variable edad a años

2. Análisis Exploratorio de Datos (EDA):

  • Operacionalización y descripción de variables
  • Análisis descriptivo univariado y bivariado
  • Visualización de distribuciones y patrones temporales
  • Análisis por mapas de casos por municipio
  • Identificación de correlaciones entre variables numéricas

3. Modelamiento predictivo:

  • Selección de variables relevantes para la predicción
  • Construcción de un modelo para predecir el tiempo de recuperación
  • Evaluación del modelo mediante métricas de desempeño

1.7 Objetivo predictivo

El objetivo predictivo de este estudio es estimar el número de días de recuperación de los pacientes con COVID-19 en el Atlántico, en función de variables demográficas (edad, sexo) y clínicas (tipo de contagio, ubicación), mediante la implementación de un modelo estadístico que permita identificar los factores más influyentes en dicho proceso.