# **ETL: Limpieza y preparación de los datos**

## **Líbrerias y módulos necesarios**

In [1]:
import warnings
import numpy as np
import pandas as pd
import plotly.express as px
warnings.filterwarnings('ignore')
from funciones import grafico_datos_faltantes

## **Conjunto de datos 1: Cáncer de mama**

```{note}
La información utilizada para este estudio está basada en el Certificado de Defunción del Ministerio de Salud de Colombia 
{cite}`minsalud_defuncion` . En este caso, observaciones sobre casos de defunción relacionados con el cáncer de mama. 

```

Inicialmente, se importa el primer conjunto de datos que contiene información detallada sobre la defunción de pacientes debido al cáncer de mama.

In [2]:
url = r"https://github.com/sePerezAlbor/Data/blob/main/data.xlsx?raw=true"
data = pd.read_excel(url, na_values = [" "])

Veamos las primeras cinco observaciones para realizar un análisis inicial del conjunto de datos.

In [3]:
data.head()

Unnamed: 0,COD_DPTO,cod_munic,a_defun,sit_defun,cod_inst,nom_inst,ano,mes,sexo,est_civil,...,causa_666,cau_homol,EDAD,llave,CODPTO,filter_$,AÑOL,MAMA,quinquenio,REGION
0,5,1,1,1,50010210000.0,HOSPITAL PABLO TOBON URIBE,2014,7,2,1,...,208.0,24,,0500111201407 21103,5,1,a,mama,2010a201,1
1,5,45,1,1,,,1997,8,2,5,...,,24,,0504511199708 25109,5,0,a,mama,1995a199,1
2,5,266,1,2,,,1986,4,2,1,...,,24,,0526612198604 21109,5,0,a,mama,1985a198,1
3,8,1,1,1,,,1989,7,2,2,...,,24,,0800111198907 22109,8,0,a,mama,1985a198,2
4,8,1,1,1,,,1998,8,2,2,...,208.0,24,10.0,0800111199808 22103,8,1,a,mama,1995a199,2


Las primeras cinco observaciones muestran datos con valores faltantes en varias columnas, diferencias en la codificación de variables y posibles inconsistencias en los identificadores de municipios e instituciones de salud. 

In [4]:
data.shape

(46869, 53)

El conjunto de datos inicial cuenta con **53** columnas (variables) y **46869** filas (observaciones).

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46869 entries, 0 to 46868
Data columns (total 53 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   COD_DPTO    46869 non-null  int64  
 1   cod_munic   46869 non-null  int64  
 2   a_defun     46869 non-null  int64  
 3   sit_defun   46869 non-null  int64  
 4   cod_inst    19155 non-null  float64
 5   nom_inst    19316 non-null  object 
 6   ano         46869 non-null  int64  
 7   mes         46869 non-null  int64  
 8   sexo        46869 non-null  int64  
 9   est_civil   46869 non-null  int64  
 10  gru_ed1     46869 non-null  int64  
 11  nivel_edu   46869 non-null  int64  
 12  MUERTEPORO  16875 non-null  float64
 13  SIMUERTEPO  917 non-null    float64
 14  OCUPACION   11341 non-null  object 
 15  IDPERTET    16875 non-null  float64
 16  codpres     29361 non-null  float64
 17  codptore    46869 non-null  int64  
 18  codmunre    46869 non-null  int64  
 19  area_res    33952 non-nul

A primera vista, observamos que las variables tienen nombres poco descriptivos, lo que dificulta la comprensión de su significado. Además, muchas de ellas están representadas como valores numéricos de tipo *float64*, aunque en realidad corresponden a categorías. Por ello, procederemos a redefinir los tipos de datos en función del significado de cada variable. También identificamos una alta presencia de datos faltantes en algunas columnas (incluyendo dos columnas que en su totalidad son datos faltantes), lo que requerirá un tratamiento adecuado.

In [6]:
column_types = {"COD_DPTO": "object", "cod_munic": "object", "a_defun": "object", "sit_defun": "object", "cod_inst": "object", "nom_inst": "object", 
                "ano": "object", "mes": "object", "sexo": "object", "est_civil": "object", "gru_ed1": "object", "nivel_edu": "object", 
                "MUERTEPORO": "object", "SIMUERTEPO": "object", "OCUPACION": "object", "IDPERTET": "object", "codpres": "object", 
                "codptore": "object", "codmunre": "object", "area_res": "object", "seg_social": "object", "IDADMISALU": "object", 
                "IDCLASADMI": "object", "pman_muer": "object", "cons_exp": "object", "man_muer": "object", "c_muerte": "object", 
                "asis_med": "object", "IDPROFCER": "object", "causa_666": "object", "cau_homol": "object", "filter_$": "object",
                "quinquenio": "object", "REGION": "object", 'CODPTO': 'object'}


In [7]:
data = pd.read_excel(url, na_values = [" "], dtype = column_types)
data.info()

URLError: <urlopen error [Errno 11001] getaddrinfo failed>

Nótese que el cambio se ha realizado exitosamente.

### **Datos Faltantes**

Observemos a detalle los datos faltantes en este conjunto de datos.

:::{note}
En esta sección del proyecto (**ETL**), nos enfocaremos únicamente en la identificación y estandarización de los valores faltantes dentro del conjunto de datos. Para ello, se detectarán las variables con datos ausentes y se reemplazarán valores inconsistentes, como **"Sin información"**, **9** etc, por **NaN**, asegurando una representación uniforme de los datos faltantes. Además, se evaluará la cantidad de valores nulos en cada columna para determinar si es necesario eliminar aquellas con un porcentaje significativo de datos ausentes. Estas transformaciones permitirán mejorar la calidad del dataset y facilitar su posterior análisis en la fase de **EDA**.
:::

In [None]:
missing_percent = (data.isnull().sum() / len(data)) * 100
missing_percent = missing_percent.sort_values(ascending=False)
missing_percent[missing_percent > 0]

In [None]:
missing_count = missing_percent[missing_percent > 0].count()
print("La cantidad de variables con datos faltantes es de: ", missing_count)
without_missing = missing_percent[missing_percent == 0].count()
print("La cantidad de variables sin datos faltantes es de: ", without_missing)
missing_above_70 = missing_percent[missing_percent > 70]
print("La cantidad de variables con más del 70% de datos faltantes es de: ", missing_above_70.count())
missing_below_70 = missing_percent[missing_percent <= 70]
print("La cantidad de variables con menos del 70% de datos faltantes es de: ", missing_below_70.count())


Veamos esto gráficamente:

In [None]:
grafico_datos_faltantes(data)

Al observar el gráfico, se puede decir que algunas variables presentan un alto porcentaje de datos faltantes, con varias de ellas superando el 90%, como `codcur` y `codmunoc`, que tienen un 100% de datos ausentes. Otras variables también muestran valores significativos de ausencia, como `SIMURATEP` (93.35%) y `carf3` (85.7%). Sin embargo, a medida que avanzamos en la gráfica, notamos que ciertas variables tienen menor cantidad de datos faltantes, con algunas en torno al 27%. Finalmente, hay un conjunto de variables sin valores faltantes (0%), lo que indica que esos datos están completamente disponibles en el conjunto analizado.

### **Eliminación de variables**


Para optimizar el análisis, eliminamos ciertas variables que no aportan valor significativo. La decisión se tomó con base en los siguientes criterios:  



**1. Variables eliminadas por recomendación de expertos**  
Los profesionales encargados del conjunto de datos recomendaron eliminar estas variables, ya que en este conjunto de datos NO son relevantes para el estudio y están representadas por otras variables:  
(`cau_homol`, `EDAD`, `llave`, `filter_$`, `AÑOL`, `MAMA`)  



**2. Variables eliminadas por más del 75% de datos faltantes**  
Estas variables tienen un porcentaje muy alto de valores nulos, lo que dificulta su uso sin introducir sesgos en el análisis:  
**Observación:** Debido al alto porcentaje de datos faltantes, estas variables no pueden ser imputadas de manera confiable. Además, su eliminación no afecta el análisis, ya que no aportan información relevante o pueden derivarse de otras variables presentes en el conjunto de datos.

| Variable      | Porcentaje de Valores Nulos |
|--------------|----------------------------|
| `codocur`    | 100.00%                     |
| `codmunoc`   | 100.00%                     |
| `c_mcm1`     | 99.85%                      |
| `C_ANT32`    | 99.64%                      |
| `C_DIR12`    | 99.37%                      |
| `C_ANT22`    | 98.98%                      |
| `C_ANT12`    | 98.60%                      |
| `C_PAT2`     | 98.48%                      |
| `SIMUERTEPO` | 98.04%                      |
| `man_muer`   | 93.35%                      |
| `c_ant3`     | 85.70%                      |
| `c_pat1`     | 84.82%                      |
| `OCUPACION`  | 75.80%                      |


**3. Variables que no son relevantes para el estudio**
Estas variables NO serán utilizadas en el enfoque de este estudio y, además, presentan una cantidad significativa de valores nulos:

| Variable     | Motivo de Eliminación                    | Porcentaje de Valores Nulos |
|-------------|-----------------------------------------|----------------------------|
| `a_defun`   | No aporta información relevante        | 0%                         |
| `cod_inst`  | Código de institución poco útil. Alto porcentaje de datos faltantes. Quizás esta información de las instituciones sea antigua debido a las fechas en las que fueron tomadas estas observaciones. | 59.13%                     |
| `nom_inst`  | Ocurre del mismo modo que el código de la institución. No se puede imputar porque no se podría garantizar la institución. | 58.79%                     |
| `MUERTEPORO`| Alto número de faltantes. Adicional a ello, anteriormente la OCUPACIÓN fue eliminada por alto número de faltantes, entonces no tendría sentido analizar la muerte por ocupación sin tener la ocupación. | 63.99%                     |
| `codpres`   | Código no relevante para el análisis   | 37.36%                     |
| `codmunre`  | Código no relevante para el análisis   | 0%                         |
| `area_res`  | Información no necesaria               | 27.56%                     |
| `IDCLASADMI`| No aporta valor significativo y alto porcentaje de datos faltantes | 65.58%                     |
| `cons_exp`  | Código sin valor significativo en el estudio | 0%                         |
| `IDPROFCER` | No aporta valor significativo          | 63.99%                     |
| `quinquenio`| Puede calcularse a partir de la edad. Nos interesa más centrarnos en año y mes  | 0%                         |
| `codptore` | Ya se cuenta con una variable que cumple la función de grupo étnico. Aparte tiene alta cantidad de datos faltantes | 63.59%|
| `c_ant2`| Ya se cuenta con una variable relacionada a los antecendentes. Alto número de valores faltantes| 57.89%|



In [None]:
data = data.drop(columns=[
    'a_defun','cod_inst', 'nom_inst', 'MUERTEPORO', 'SIMUERTEPO', 'OCUPACION', 
    'codpres','codmunre', 'area_res', 'IDCLASADMI', 'cons_exp', 'man_muer' ,'codocur', 'codmunoc','C_DIR12', 
    'C_ANT12', 'C_ANT22','c_ant3', 'C_ANT32', 'c_pat1', 'C_PAT2',
    'c_mcm1', 'IDPROFCER',  'cau_homol', 'EDAD', 'llave', 'filter_$','AÑOL', 'MAMA', 'quinquenio','codptore', 'c_ant2'
])


In [None]:
data.shape

Nótese que la eliminación se realizó de forma exitosa y ahora el conjunto de datos cuenta con solo **21** variables.

### **Renombrado de variables**

In [None]:
data = data.rename(columns={
    'COD_DPTO': 'depto_ocurr',  # Departamento donde ocurrió la defunción (DIVIPOLA)
    'cod_munic': 'munic_ocurr',  # Municipio donde ocurrió la defunción (DIVIPOLA)
    'sit_defun': 'sitio_def',  # Sitio de la defunción
    'ano': 'año_def',  # Año en que ocurrió la defunción
    'mes': 'mes_def',  # Mes en que ocurrió la defunción
    'sexo': 'sexo',  # Sexo del fallecido
    'est_civil': 'estado_civil',  # Estado conyugal del fallecido
    'gru_ed1': 'grupo_edad',  # Agrupación de edades del fallecido
    'nivel_edu': 'nivel_edu',  # Nivel educativo del fallecido
    'IDPERTET': 'grupo_etnico',  # Pertenencia étnica del fallecido
    'CODPTO': 'depto_res',  # Departamento de residencia habitual del fallecido
    'seg_social': 'seg_social',  # Régimen de seguridad social del fallecido
    'IDADMISALU': 'ent_salud_cod',  # Código de la Entidad Administradora en Salud
    'pman_muer': 'prob_muerte',  # Probable manera de muerte
    'c_muerte': 'cert_medica',  # Cómo se determinó la causa de muerte
    'asis_med': 'asistencia_med',  # Recibió asistencia médica antes de fallecer
    'c_dir1': 'causa_directa',  # Causa directa de la defunción
    'c_ant1': 'causa_ant_1',  # Primera causa antecedente
    'c_bas1': 'causa_basica',  # Código de la causa básica de la defunción
    'causa_666': 'causa_OPS',  # Causa agrupada según la lista OPS 6/67
    'REGION': 'region'  # Región del país donde ocurrió la defunción
})


In [None]:
data.head()

Ahora los nombres de cada variable son más legibles y ordenados. Lo que facilita el análisis de estos datos. [Diccionario de Variables](https://kmarcela11.github.io/ProyectoFinal_SeminarioInvestigativo/variables.html)

In [None]:
grafico_datos_faltantes(data)

### **Re-estructuración de categorías por variables**

En esta sección, se llevarán a cabo ajustes para mejorar la claridad y usabilidad de los datos. Primero, se renombrarán las variables con nombres más legibles y comprensibles, facilitando su interpretación. Además, las categorías etiquetadas como **"Sin información"** en algunas variables serán convertidas a **NaN**, lo que permitirá un análisis más estructurado, evitando sesgos y facilitando la imputación de datos en etapas posteriores. Estas transformaciones contribuirán a una mejor comprensión y optimización del conjunto de datos para su análisis.


#### **Variable: sexo**

In [None]:
data['sexo'].replace('2', 'Femenino', inplace = True)

#### **Variable: Mes de defunción**

In [None]:
mes_dict_str = {
    "01": "Enero", "02": "Febrero", "03": "Marzo", "04": "Abril",
    "05": "Mayo", "06": "Junio", "07": "Julio", "08": "Agosto",
    "09": "Septiembre", "10": "Octubre", "11": "Noviembre", "12": "Diciembre"
}
data['mes_def'] = data['mes_def'].astype(str).str.zfill(2).replace(mes_dict_str)


#### **Variable: Estado civil**

In [None]:
data['estado_civil'].replace('5', np.nan, inplace = True)
estado_civil_dict = {"1": "Soltero", "2": "Casado", "3": "Viudo", "4": "Unión Libre, Divorciado/Otro"}
data['estado_civil'] = data['estado_civil'].replace(estado_civil_dict)


#### **Variable: Sitio de defunción**

In [None]:
data['sitio_def'].replace('4',np.nan, inplace = True)
sitio_def_dict = {"1": "Hospital o Clínica", "2": "Casa", "3": "Otro Sitio"}
data['sitio_def'] = data['sitio_def'].astype(str).replace(sitio_def_dict)

#### **Variable: Nivel educativo**

In [None]:
data['nivel_edu'].replace('9', np.nan, inplace = True)
nivel_edu_dict = {"1": "Preescolar", "2": "Primaria", "3": "Secundaria", "4": "Superior", "5": "Ninguno"}
data['nivel_edu'] = data['nivel_edu'].astype(str).replace(nivel_edu_dict)


#### **Variable: Región**

In [None]:
data['region'].value_counts(dropna = False)

In [None]:
region_dict = {"1": "Andina", "2": "Atlántica", "3": "Pacífica", "4": "Orinoquía", "5": "Pacífica"}
data['region'] = data['region'].astype(str).replace(region_dict)


#### **Variable: Causa agrupada con base en la Lista 6/67 de la OP**

In [None]:
data['causa_OPS'].value_counts(dropna = False)

In [None]:
data['causa_OPS'].replace('208', 'Tumor Maligno', inplace = True)

#### **Variable: Asistencia médica**

In [None]:
data['asistencia_med'].replace('9', np.nan, inplace = True)
asistencia_med_dict = {"1": "SI", "2": "NO", "3": "Ignorado"}
data['asistencia_med'] = data['asistencia_med'].astype(str).replace(asistencia_med_dict)


#### **Variable: Probable manera de muerte**

In [None]:
data['prob_muerte'].value_counts(dropna = False)

In [None]:
prob_muerte_dict = {"1": "Natural", "2": "Violenta", "3": "En estudio"}
data['prob_muerte'] = data['prob_muerte'].astype(str).replace(prob_muerte_dict)


#### **Variable: Grupo de edad**

In [None]:
data['grupo_edad'].value_counts(dropna = False)


In [None]:
data['grupo_edad'].fillna('25', inplace = True)

In [None]:
grupo_edad_dict = {
    "10": "15-19 años", "11": "20-24 años", "12": "25-29 años",
    "13": "30-34 años", "14": "35-39 años", "15": "40-44 años",
    "16": "45-49 años", "17": "50-54 años", "18": "55-59 años",
    "19": "60-64 años", "20": "65-69 años", "21": "70-74 años",
    "22": "75-79 años", "23": "80-84 años", "24": "85+ años",
    "25": "Edad desconocida"
}

data['grupo_edad'] = data['grupo_edad'].astype(str).replace(grupo_edad_dict)


In [None]:
data['grupo_edad'].value_counts(dropna = False)

#### **Variable: Seguridad social**

In [None]:
data['seg_social'].value_counts(dropna = False)

In [None]:
data['seg_social'].replace('9',np.nan, inplace = True)

In [None]:
seg_social_dict = {
    "1": "Contributivo", "2": "Subsidiado", "3": "Vinculado",
    "4": "Particular", "5": "Otro", "6": "Ignorado"
}

data['seg_social'] = data['seg_social'].astype(str).replace(seg_social_dict)


#### **Variable: cert_medica - ¿Cómo se determino la muerte?**

In [None]:
data['cert_medica'].value_counts(dropna = False)

In [None]:
data['cert_medica'].replace('9', np.nan, inplace = True)

In [None]:
cert_medica_dict = {
    "1": "Necropsia", "2": "Historia clínica", "3": "Pruebas de laboratorio",
    "4": "Interrogatorio a familiares o testigos"
}
data['cert_medica'] = data['cert_medica'].astype(str).replace(cert_medica_dict)

#### **Variable: Código de la entidad administradora en salud a la que pertenecía el fallecido**

In [None]:
data['ent_salud_cod'].value_counts(dropna = False)


In [None]:
data['ent_salud_cod'].replace('9', np.nan, inplace = True)

In [None]:
ent_salud_dict = {
    "1": "EPS", "2": "EPS - Subsidiado", "3": "EAPB",
    "4": "ESE", "5": "EESS"}
data['ent_salud_cod'] = data['ent_salud_cod'].astype(str).replace(ent_salud_dict)

#### **Variable: Grupo étnico**

In [None]:
data['grupo_etnico'].value_counts(dropna = False)

In [None]:
data['grupo_etnico'].replace('9', np.nan, inplace = True)

In [None]:
grupo_etnico_dict = {
    "1": "Indígena", "2": "Rom (Gitano)", 
    "3": "Raizal del archipiélago de San Andrés y Providencia",
    "4": "Palenquero de San Basilio", 
    "5": "Negro(a), mulato(a), afrocolombiano(a) o afrodescendiente",
    "6": "Ninguno de los anteriores",
}

data['grupo_etnico'] = data['grupo_etnico'].astype(str).replace(grupo_etnico_dict)


In [None]:
data['grupo_etnico'].replace({
    "Ninguno de los anteriores": "Ninguno",
    "Negro(a), mulato(a), afrocolombiano(a) o afrodescendiente": "Afrodescendiente",
    "Rom (Gitano)": "Gitano",
    "Raizal del archipiélago de San Andrés y Providencia": "Raizal",
    "Palenquero de San Basilio": "Palenquero"
}, inplace=True)


#### **Variable: municipio de defunción**

In [None]:
data["municipio"] = data["depto_ocurr"].astype(str) + data["munic_ocurr"].astype(str).str.zfill(3)

## **Conjunto de datos 2: DIVIPOLA**


Este conjunto de datos proporciona los códigos oficiales utilizados para identificar departamentos, municipios y otras divisiones territoriales. Estos códigos sirven como referencia en el Conjunto de Datos 1 para estandarizar la información geográfica y facilitar su análisis.

In [None]:
column_types = {
    "Código Departamento": "object",
    "Código Municipio": "object",
    "Código Centro Poblado": "object",
    "Nombre Departamento": "object",
    "Nombre Municipio": "object",
    "Nombre Centro Poblado	": "object",
    "Tipo": "object"
}
url = "https://raw.githubusercontent.com/sePerezAlbor/Data/refs/heads/main/Divipola.csv"
data2 = pd.read_csv(url, delimiter = ",", na_values = [" "], dtype = column_types)
data2.head(15)

In [None]:
data2.shape

In [None]:
data2.info()

Nótese que se cuenta con un conjunto de datos bastante completo. 

## **Conjunto de datos final**

Tras analizar los dos conjuntos de datos previamente, procederemos a reemplazar los códigos de departamentos y municipios utilizando el conjunto de datos ``DIVIPOLA``. El objetivo de este proceso es mejorar la claridad y comprensión de la información, asignando a cada código su departamento y municipio correspondiente. Esto permitirá un análisis más preciso, estructurado y fácil de interpretar en el conjunto de datos general.  


In [None]:
departamento_dict = dict(zip(data2['Código Departamento'], data2['Nombre Departamento']))
municipio_dict = dict(zip(data2['Código Municipio'], data2['Nombre Municipio']))
data['Nombre_Departamento'] = data['depto_ocurr'].map(departamento_dict)
data['Nombre_Municipio'] = data['municipio'].map(municipio_dict)
data['depto_res'] = data['depto_res'].map(departamento_dict)
data = data.drop(columns = ['munic_ocurr', 'municipio', 'depto_ocurr']) 
data.head()


In [None]:
data.info()

In [None]:
columnas_ordenadas = [
    'Nombre_Departamento', 'Nombre_Municipio', 'sitio_def', 'año_def', 
    'mes_def', 'sexo', 'estado_civil', 'grupo_edad', 'nivel_edu', 'grupo_etnico',
    'depto_res', 'seg_social', 'ent_salud_cod', 'prob_muerte', 'cert_medica', 'asistencia_med',
    'causa_directa', 'causa_ant_1',  'causa_basica', 'causa_OPS', 'region']
data_new = data[columnas_ordenadas]

In [None]:
data_new.head()

Finalmente, obtenemos un conjunto de datos más claro, comprensible y estructurado, lo que facilita su interpretación y lo deja listo para el análisis exploratorio.  


In [None]:
data_new.to_excel('C:\\Users\\kamac\\OneDrive\\Desktop\\SeminarioInvestigativoUN\\docs.xlsx', index=False, engine='openpyxl')

```{note}

En el siguiente enlace se encuentra el diccionario de variables utilizado en este proyecto: [Diccionario de Variables](https://kmarcela11.github.io/ProyectoFinal_SeminarioInvestigativo/variables.html)
Este diccionario incluye una descripción detallada de cada una de las variables presentes en el conjunto de datos, facilitando su comprensión y el análisis del proyecto.

```

## **Referencias**
```{bibliography} references.bib
:style: plain
