In [53]:
import os

import geopandas as gpd
import pandas as pd
import numpy as np
from dbfread import DBF



DATA_PATH = "./raw/"
assert os.path.exists(DATA_PATH)

vulnrb_shp = f"{DATA_PATH}/VULNRB_IPMxMZ.shp"
vulnrb_dbf = f"{DATA_PATH}/VULNRB_IPMxMZ.dbf"
vulnrb_prj = f"{DATA_PATH}/VULNRB_IPMxMZ.prj"
vulnrb_cpg = f"{DATA_PATH}/VULNRB_IPMxMZ.cpg"
vulnrb_shx = f"{DATA_PATH}/VULNRB_IPMxMZ.shx"

## Archivo .shp

In [28]:
shp: gpd.GeoDataFrame = gpd.read_file(vulnrb_shp)
shp

Unnamed: 0,COD_DPTO,COD_MPIO,COD_DANE,CATEGORIA,LABEL,ipm,embarazo_a,reactivaci,geometry
0,05,05001,0500110000000001010101,5.0,Vulnerabilidad baja,39.4,Vulnerabilidad media-alta,elegibilidad media-baja,"POLYGON ((-75.54267 6.30182, -75.54262 6.30175..."
1,05,05001,0500110000000001010104,5.0,Vulnerabilidad baja,25.9,Vulnerabilidad media-alta,elegibilidad media,"POLYGON ((-75.54237 6.29968, -75.54235 6.29965..."
2,05,05001,0500110000000001010105,2.0,Vulnerabilidad media-baja,14.1,Vulnerabilidad media-baja,elegibilidad media,"POLYGON ((-75.5428 6.29964, -75.54277 6.29959,..."
3,05,05001,0500110000000001010108,2.0,Vulnerabilidad media-baja,26.8,Vulnerabilidad media-baja,elegibilidad media,"POLYGON ((-75.54386 6.29974, -75.54386 6.29975..."
4,05,05001,0500110000000001010110,5.0,Vulnerabilidad baja,42.2,Vulnerabilidad baja,elegibilidad media-baja,"POLYGON ((-75.54369 6.30214, -75.54369 6.30213..."
...,...,...,...,...,...,...,...,...,...
504991,99,99773,9977320030102700010102,0.0,,0.0,,,"POLYGON ((-69.85155 4.33427, -69.85149 4.33427..."
504992,99,99773,9977320030102700010103,0.0,,0.0,,,"POLYGON ((-69.85227 4.33365, -69.85257 4.3337,..."
504993,99,99773,9977320030102700010104,0.0,,0.0,,,"POLYGON ((-69.85276 4.33338, -69.85274 4.3336,..."
504994,99,99773,9977320030102700010105,0.0,,0.0,,,"POLYGON ((-69.85313 4.33348, -69.85311 4.33368..."


## Archivo .dbf

In [6]:
table = DBF(vulnrb_dbf, load=True)
dbf = pd.DataFrame(iter(table))

dbf

Unnamed: 0,COD_DPTO,COD_MPIO,COD_DANE,CATEGORIA,LABEL,ipm,embarazo_a,reactivaci
0,05,05001,0500110000000001010101,5.0,Vulnerabilidad baja,39.4,Vulnerabilidad media-alta,elegibilidad media-baja
1,05,05001,0500110000000001010104,5.0,Vulnerabilidad baja,25.9,Vulnerabilidad media-alta,elegibilidad media
2,05,05001,0500110000000001010105,2.0,Vulnerabilidad media-baja,14.1,Vulnerabilidad media-baja,elegibilidad media
3,05,05001,0500110000000001010108,2.0,Vulnerabilidad media-baja,26.8,Vulnerabilidad media-baja,elegibilidad media
4,05,05001,0500110000000001010110,5.0,Vulnerabilidad baja,42.2,Vulnerabilidad baja,elegibilidad media-baja
...,...,...,...,...,...,...,...,...
504991,99,99773,9977320030102700010102,0.0,,0.0,,
504992,99,99773,9977320030102700010103,0.0,,0.0,,
504993,99,99773,9977320030102700010104,0.0,,0.0,,
504994,99,99773,9977320030102700010105,0.0,,0.0,,


## Análisis exploratorio de los datos

Por lo que se ve, los datos son exactamente los mismos en el formato .dbf que en el .shp, así que usaré este último.

In [15]:
display(
    shp.info(),
    shp.isna().sum() / len(shp)
)

<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 504996 entries, 0 to 504995
Data columns (total 9 columns):
 #   Column      Non-Null Count   Dtype   
---  ------      --------------   -----   
 0   COD_DPTO    504996 non-null  object  
 1   COD_MPIO    504996 non-null  object  
 2   COD_DANE    504996 non-null  object  
 3   CATEGORIA   504996 non-null  float64 
 4   LABEL       407277 non-null  object  
 5   ipm         504996 non-null  float64 
 6   embarazo_a  403916 non-null  object  
 7   reactivaci  371050 non-null  object  
 8   geometry    504996 non-null  geometry
dtypes: float64(2), geometry(1), object(6)
memory usage: 34.7+ MB


None

COD_DPTO      0.000000
COD_MPIO      0.000000
COD_DANE      0.000000
CATEGORIA     0.000000
LABEL         0.193505
ipm           0.000000
embarazo_a    0.200160
reactivaci    0.265242
geometry      0.000000
dtype: float64

In [61]:
for col in ["CATEGORIA", "LABEL", "ipm", "embarazo_a", "reactivaci"]:
    print(f"Valores únicos para {col}")
    print(f"{shp[col].unique()} - {len(shp[col].unique())}")
    print("\n")

Valores únicos para CATEGORIA
[5. 2. 4. 1. 3. 0.] - 6


Valores únicos para LABEL
['Vulnerabilidad baja' 'Vulnerabilidad media-baja'
 'Vulnerabilidad media-alta' 'Vulnerabilidad alta' 'Vulnerabilidad media'
 None] - 6


Valores únicos para ipm
[39.4        25.9        14.1        ... 69.59064327 78.28746177
 86.22222222] - 14188


Valores únicos para embarazo_a
['Vulnerabilidad media-alta' 'Vulnerabilidad media-baja'
 'Vulnerabilidad baja' 'Vulnerabilidad media' 'Vulnerabilidad alta' None] - 6


Valores únicos para reactivaci
['elegibilidad media-baja' 'elegibilidad media' 'elegibilidad alta'
 'elegibilidad baja' None 'elegibilidad media-alta'] - 6




In [21]:
shp[["LABEL", "CATEGORIA"]].drop_duplicates()

Unnamed: 0,LABEL,CATEGORIA
0,Vulnerabilidad baja,5.0
2,Vulnerabilidad media-baja,2.0
8,Vulnerabilidad media-alta,4.0
13,Vulnerabilidad alta,1.0
890,Vulnerabilidad media,3.0
13973,Vulnerabilidad baja,1.0
13974,Vulnerabilidad alta,2.0
14111,Vulnerabilidad baja,2.0
14443,,0.0
14976,Vulnerabilidad baja,3.0


In [44]:
for col in ["CATEGORIA", "LABEL", "embarazo_a", "reactivaci"]:
    display(tmp := shp[col].value_counts(dropna=False))
    print(f'{tmp.idxmax()} - {tmp.max()}')

display(shp.describe())

CATEGORIA
2.0    145742
1.0    115988
0.0     97719
3.0     81909
4.0     45240
5.0     18398
Name: count, dtype: int64

2.0 - 145742


LABEL
Vulnerabilidad baja          241961
None                          97719
Vulnerabilidad media-baja     56658
Vulnerabilidad alta           46177
Vulnerabilidad media          33699
Vulnerabilidad media-alta     28782
Name: count, dtype: int64

Vulnerabilidad baja - 241961


embarazo_a
Vulnerabilidad baja          178518
Vulnerabilidad media-baja    115927
None                         101080
Vulnerabilidad media-alta     47028
Vulnerabilidad media          41188
Vulnerabilidad alta           21255
Name: count, dtype: int64

Vulnerabilidad baja - 178518


reactivaci
elegibilidad media-baja    172737
None                       133946
elegibilidad media         130170
elegibilidad baja           40506
elegibilidad media-alta     17126
elegibilidad alta           10511
Name: count, dtype: int64

elegibilidad media-baja - 172737


Unnamed: 0,CATEGORIA,ipm
count,504996.0,504996.0
mean,1.833973,16.692899
std,1.350764,22.537556
min,0.0,0.0
25%,1.0,0.0
50%,2.0,7.3
75%,3.0,25.675676
max,5.0,100.0


## Creación del Dataset

Para la creación del dataset se hará por municipio, y para cada municipio se obtendrá para las variables categoricas la moda, y para las variables númericas (únicamente `ipm`) datos estadístico básicos.


In [85]:
cols_in = ["LABEL", "ipm", "embarazo_a", "reactivaci"]
new_cols = [
    "COD_DPTO",
    "COD_MPIO",
    "VULNERABILITY",
    "IPM-mean",
    "IPM-median",
    "PREGANCY",
    "REACTIVATION",
]

shp = shp.dropna()

dataset = gpd.GeoDataFrame(columns=new_cols)
dataset

Unnamed: 0,COD_DPTO,COD_MPIO,VULNERABILITY,IPM-mean,IPM-median,PREGANCY,REACTIVATION


In [86]:
municipalities = shp["COD_MPIO"].unique()
for i, municipality in enumerate(municipalities):
    cod_dpto = municipality[:2]
    cod_mpio = municipality[2:]

    subdf = shp.loc[shp["COD_MPIO"] == municipality]
    new_row = [cod_dpto, cod_mpio]
    for col in cols_in:
        if col == "ipm":  # La única variable numérica
            ipms = subdf[col].to_numpy()
            new_row.append(np.mean(ipms))
            new_row.append(np.median(ipms))
            continue
        
        new_row.append(subdf[col].value_counts().idxmax())

    dataset.loc[i] = new_row

In [87]:
dataset

Unnamed: 0,COD_DPTO,COD_MPIO,VULNERABILITY,IPM-mean,IPM-median,PREGANCY,REACTIVATION
0,05,001,Vulnerabilidad media-baja,14.654275,10.800000,Vulnerabilidad baja,elegibilidad media
1,05,002,Vulnerabilidad baja,23.227918,19.657494,Vulnerabilidad baja,elegibilidad media-baja
2,05,004,Vulnerabilidad baja,13.159876,4.351852,Vulnerabilidad baja,elegibilidad media-baja
3,05,021,Vulnerabilidad baja,15.517681,11.926606,Vulnerabilidad baja,elegibilidad media-baja
4,05,030,Vulnerabilidad baja,16.986427,15.300546,Vulnerabilidad baja,elegibilidad media
...,...,...,...,...,...,...,...
1097,97,666,Vulnerabilidad baja,46.997615,42.012195,Vulnerabilidad media-baja,elegibilidad media-baja
1098,99,001,Vulnerabilidad baja,41.550178,40.000000,Vulnerabilidad baja,elegibilidad media-baja
1099,99,524,Vulnerabilidad baja,57.248059,59.459459,Vulnerabilidad baja,elegibilidad media-baja
1100,99,624,Vulnerabilidad alta,49.563359,51.908397,Vulnerabilidad baja,elegibilidad media-baja


In [89]:
dataset.to_csv(f"./processed/vulnrb.csv", index=False)