###Fuente de la data

Los micro-datos gestionados en este notebook son tomados de www.datos.gov.co y corresponden a datos cuya fuente primaria es el Departamento Nacional de Planeación

In [1]:
import pandas as pd

###Descarga del dataset desde el endpoint - archivo hq2v-5umk.csv

Contiene la informacion de personas de la base de datos del Sisbén IV, del  Departamento Nacional de Planeación (DNP). Corresponden a  muestras anonimizadas de las encuestas del Sisbén. El enlace a la fuente donde puede consultarse la metadata y el diccionario de datos entre otros aspectos es: https://anda.dnp.gov.co/index.php/catalog/150/datafile/F17 y otros documentos sobre el sisben IV se pueden consultar en https://www.sisben.gov.co/Paginas/documentos-sisben.html

In [3]:
sisben_IV_personas_DNP = pd.read_csv("https://www.datos.gov.co/resource/hq2v-5umk.csv?$limit=5000000")
sisben_IV_personas_DNP.head(3)

Unnamed: 0,cod_mpio,h_5,i1,i2,i3,i4,i5,i6,i7,i8,...,per011,per012,per013,per014,per015,per016,per017,per018,per019,per020
0,5001,1,1,0,1,1,0,0,1,1,...,9,1,9,9,1,2,2,2,5,99
1,5001,1,1,0,1,1,0,0,1,1,...,9,9,9,9,1,2,2,9,4,99
2,5001,0,1,0,0,0,0,0,0,1,...,9,9,9,9,1,2,2,2,2,10


###Revisión y limpieza para integrarlo a la base de datos

### - Resumen de la estructura del dataset

In [4]:
sisben_IV_personas_DNP.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4465955 entries, 0 to 4465954
Data columns (total 48 columns):
 #   Column         Dtype  
---  ------         -----  
 0   cod_mpio       int64  
 1   h_5            int64  
 2   i1             int64  
 3   i2             int64  
 4   i3             int64  
 5   i4             int64  
 6   i5             int64  
 7   i6             int64  
 8   i7             int64  
 9   i8             int64  
 10  i9             int64  
 11  i10            int64  
 12  i11            int64  
 13  i12            int64  
 14  i13            int64  
 15  i14            int64  
 16  i15            int64  
 17  grupo          object 
 18  nivel          int64  
 19  clasificacion  object 
 20  zona           int64  
 21  llave          int64  
 22  corte          object 
 23  hogar          int64  
 24  orden          int64  
 25  fex            float64
 26  per001         int64  
 27  per002         int64  
 28  per003         int64  
 29  per004        

- Descripcion de cada columna

In [5]:
column_mapping = {
    'h_5': 'Proxy: Indicador de pobreza multidimensional IPM',
    'h11': 'Privación IPM Proxy - Bajo logro educativo',
    'h12': 'Privación IPM Proxy - Analfabetismo',
    'h13': 'Privación IPM Proxy - Insuficiencia escolar',
    'h14': 'Privación IPM Proxy - Retraso escolar',
    'h15': 'Privación IPM Proxy - Barreras a servicios para cuidado de la primera infancia',
    'h16': 'Privación IPM Proxy - Trabajo infantil',
    'h17': 'Privación IPM Proxy - Desempleo de larga duración',
    'h18': 'Privación IPM Proxy - Trabajo informal',
    'h19': 'Privación IPM Proxy - Sin aseguramiento en salud',
    'h110': 'Privación IPM Proxy - Dificultad de acceso a servicios de salud',
    'h111': 'Privación IPM Proxy - Sin acceso a fuentes de agua mejorada',
    'h112': 'Privación IPM Proxy - Material inadecuado de pisos',
    'h113': 'Privación IPM Proxy - Inadecuada alimentación de excretas',
    'h114': 'Privación IPM Proxy - Material inadecuado de paredes exteriores',
    'h115': 'Privación IPM Proxy - Material inadecuado de techo',
    'grupo': 'Grupo Sisbén',
    'nivel': 'Nivel Sisbén',
    'clasifica': 'Clasificación Sisbén',
    'zona': 'Zona',
    'llave': 'Identificación de la vivienda',
    'corte': 'Corte de los datos',
    'hogar': 'Identificación del hogar',
    'fex': 'Factor de expansión',
    'per001': 'Identificación de persona',
    'per002': 'Edad',
    'per003': 'Estado civil',
    'per004': '¿Cuál es el parentesco con el jefe del hogar?',
    'per005': '¿Es cónyuge del jefe del hogar?',
    'per006': '¿Emigró o se mudó en el hogar?',
    'per007': 'Número de la madre que vive en el hogar?',
    'per008': 'Número de orden del padre o madre',
    'per009': 'En los últimos 30 días, sufrió alguna enfermedad',
    'per010': 'Seguridad social',
    'per011': '¿Acudió a una institución prestadora de servicios de salud?',
    'per012': 'Lo está atendiendo?',
    'per013': '¿Donó o tomó desayuno o almuerzo durante la mayor parte del tiempo entre semana?',
    'per014': 'Recibe menores de 5 años... durante permanencia la mayor parte del tiempo del día?',
    'per015': 'Sabe leer y escribir',
    'per016': 'Actualmente estudia (asiste al preescolar, escuela, colegio o universidad)',
    'per017': 'Nivel educativo',
    'per018': 'Posición ocupacional',
    'per019': '¿Está afiliado a un fondo de pensiones?',
    'per020': 'Cuál fue su actividad principal en el último mes'

}

In [6]:
columns = sisben_IV_personas_DNP.columns

In [7]:
# Verificar el numero de valores únicos que se guarda en cada columna
for col in columns:
  print(f'{col}: {sisben_IV_personas_DNP[col].nunique()}')

cod_mpio: 1099
h_5: 2
i1: 2
i2: 2
i3: 2
i4: 2
i5: 2
i6: 2
i7: 2
i8: 2
i9: 2
i10: 2
i11: 2
i12: 2
i13: 2
i14: 2
i15: 2
grupo: 4
nivel: 21
clasificacion: 30
zona: 2
llave: 3401
corte: 1
hogar: 15
orden: 21
fex: 2179
per001: 2
per002: 6
per003: 19
per004: 2
per005: 3
per005b: 20
per006: 2
per006b: 20
per007: 5
per008: 2
per009: 3
per010: 3
per011: 3
per012: 3
per013: 9
per014: 3
per015: 3
per016: 3
per017: 4
per018: 4
per019: 6
per020: 11


In [8]:
# Obtener las columnas que no son numéricas
non_numeric_columns = sisben_IV_personas_DNP.select_dtypes(exclude=['int64', 'float64']).columns
print(non_numeric_columns)

Index(['grupo', 'clasificacion', 'corte'], dtype='object')


In [9]:
sisben_IV_personas_DNP[non_numeric_columns].head()

Unnamed: 0,grupo,clasificacion,corte
0,C,C3,SIV_2022
1,C,C3,SIV_2022
2,C,C8,SIV_2022
3,C,C8,SIV_2022
4,C,C8,SIV_2022


In [10]:
# Eliminar columnas que se considera innecesarias para el proyecto
delete_columns = [ ]# Eliminando las columnas especificadas
sisben_IV_personas_DNP = sisben_IV_personas_DNP.drop(delete_columns, axis=1)

### Estandarización de categorizaciones

La estandarización de categorizaciones es el proceso de uniformizar y normalizar los valores de las categorías en un conjunto de datos para asegurar la consistencia y evitar discrepancias. Esto es crucial para la calidad y precisión de los análisis

In [11]:
# Imprimir categorías únicas para columnas de tipo object
for column in non_numeric_columns:
    print(f"Categorías en la columna '{column}':")
    print(sisben_IV_personas_DNP[column].unique())
    print()

Categorías en la columna 'grupo':
['C' 'D' 'B' 'A']

Categorías en la columna 'clasificacion':
['C3' 'C8' 'D1' 'C9' 'D2' 'B6' 'C5' 'C2' 'D3' 'C1' 'D5' 'B1' 'B5' 'D9'
 'C6' 'C7' 'C4' 'B2' 'B3' 'B4' 'B7' 'D6' 'A4' 'D4' 'A5' 'D7' 'D8' 'A3'
 'A1' 'A2']

Categorías en la columna 'corte':
['SIV_2022']



In [12]:
# Mostrar los valores únicos de cada columna que tenga menos de 50 categorías
for col in non_numeric_columns:
  l = sisben_IV_personas_DNP[col].nunique()
  if l < 50:
    print(f'{col}: {sisben_IV_personas_DNP[col].unique()}')

grupo: ['C' 'D' 'B' 'A']
clasificacion: ['C3' 'C8' 'D1' 'C9' 'D2' 'B6' 'C5' 'C2' 'D3' 'C1' 'D5' 'B1' 'B5' 'D9'
 'C6' 'C7' 'C4' 'B2' 'B3' 'B4' 'B7' 'D6' 'A4' 'D4' 'A5' 'D7' 'D8' 'A3'
 'A1' 'A2']
corte: ['SIV_2022']


- Borrar espacios en blanco al principio y al final, cambiar a mayúsculas, remover acentos y eliminar signos extraños

In [13]:
import unicodedata

def remove_accents_and_special_chars(input_str):
    # Normalizar la cadena a NFKD
    nfkd_form = unicodedata.normalize('NFKD', input_str)

    # Eliminar acentos
    no_accents = ''.join([c for c in nfkd_form if not unicodedata.combining(c)])

    # Definir caracteres no deseados
    unwanted_chars = [',', ';', '!', '?', '#', '$', '%']

    # Eliminar caracteres no deseados
    cleaned_str = ''.join([c for c in no_accents if c not in unwanted_chars])

    # Remover espacios en blanco al principio y al final, y convertir a mayúsculas
    result = cleaned_str.strip().upper()

    return result

In [14]:
# Aplicar la función a todas las columnas categóricas
sisben_IV_personas_DNP[non_numeric_columns] = sisben_IV_personas_DNP[non_numeric_columns].astype(str)
for col in non_numeric_columns:
    sisben_IV_personas_DNP[col] = sisben_IV_personas_DNP[col].apply(remove_accents_and_special_chars)

### Hacer coincidir los códigos de los municipios con el formato de los códigos guardados en la base de datos

Los códigos reales de los municipios de Colombia, están almacenados en la base de datos PostgreSQL del proyecto, en la tabla municipalities dentro del campo dept_mpio_code, junto con la informacion necesaria para georeferenciar todos los municipios y departamentos de Colombia. Este campo guarda el código del municipio en un formato string de exactamente 5 caracteres, los dos primeros corresponden al departamento y los tres restantes al municipio.

En el presente df los códigos de los municipios estan en formato int64


Para hacer esta verificación, previamente exportamos desde la base de datos PostgreSQL un DataFrame con los siguientes campos: dept_name, mpio_name y dept_mpio_code, los cuales contienen la información de los departamentos y municipios oficiales, junto con sus respectivos códigos. Este DataFrame se carga en la siguiente celda y se utiliza para comparar con la columna "codigo_mpio"

In [15]:
dept_mpios_codes = pd.read_csv("/content/drive/MyDrive/analytics_data_proyect/deptos_mupios.csv", index_col=0, dtype={'dept_mpio_code': str})
print(dept_mpios_codes.info())
dept_mpios_codes.head()

<class 'pandas.core.frame.DataFrame'>
Index: 1121 entries, 0 to 1120
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   dept_mpio_code  1121 non-null   object
 1   dept_name       1121 non-null   object
 2   mupio_name      1121 non-null   object
dtypes: object(3)
memory usage: 35.0+ KB
None


Unnamed: 0,dept_mpio_code,dept_name,mupio_name
0,97001,VAUPES,MITU
1,97161,VAUPES,CARURU
2,97511,VAUPES,PACOA
3,97666,VAUPES,TARAIRA
4,97777,VAUPES,PAPUNAHUA


In [16]:
sisben_IV_personas_DNP.columns

Index(['cod_mpio', 'h_5', 'i1', 'i2', 'i3', 'i4', 'i5', 'i6', 'i7', 'i8', 'i9',
       'i10', 'i11', 'i12', 'i13', 'i14', 'i15', 'grupo', 'nivel',
       'clasificacion', 'zona', 'llave', 'corte', 'hogar', 'orden', 'fex',
       'per001', 'per002', 'per003', 'per004', 'per005', 'per005b', 'per006',
       'per006b', 'per007', 'per008', 'per009', 'per010', 'per011', 'per012',
       'per013', 'per014', 'per015', 'per016', 'per017', 'per018', 'per019',
       'per020'],
      dtype='object')

- Longitud de los códigos municipios en el df

In [17]:
# Convertir a strings
sisben_IV_personas_DNP["cod_mpio"] = sisben_IV_personas_DNP["cod_mpio"].astype(str)

# Calcular la longitud de cada valor en la columna
longitud_mpio = sisben_IV_personas_DNP["cod_mpio"].apply(len)

# Longitudes de los códigos
print(f'Los códigos de los mpios tiene longitudes de :{longitud_mpio.unique()} caracteres')

Los códigos de los mpios tiene longitudes de :[4 5] caracteres


In [18]:
# Contar registros por longitud
long_df = longitud_mpio.value_counts().reset_index()
long_df.rename(columns={'cod_mpio': 'no_dígitos_codigo_dane'}, inplace=True)
long_df['percentage'] = (long_df['count'] / len(longitud_mpio))
long_df.head()

Unnamed: 0,no_dígitos_codigo_dane,count,percentage
0,5,3858554,0.863993
1,4,607401,0.136007


In [19]:
# Mostrar una muestra de registros para cada longitud
for longitud in longitud_mpio.value_counts().index:
    print(f"Muestra de registros con longitud {longitud}:")
    muestra = sisben_IV_personas_DNP[longitud_mpio == longitud].head(5)  # Muestra de los primeros 5 registros
    print(muestra[['cod_mpio']])
    print()

Muestra de registros con longitud 5:
     cod_mpio
3159    18256
3160    50573
3161    20621
3162    17524
3163    15224

Muestra de registros con longitud 4:
  cod_mpio
0     5001
1     5001
2     5001
3     5001
4     5001



Nota: De lo anterior se notan claras inconsistencias en la columna 'codigo_dane' del df, el 86.4 tiene 5 dígitos (que corresponde con el codigo real que es de 5 dígitos), el 13.6% tiene solamente 4 dígitos (al parecer el cero a la izquierda de los códigos se suprimió).

- Verificar si los codigo_dane de 4 dígitos corresponden a departamentos que se identifican con el 0 + 1 dígito, para validar la teoria de que al generar el dataset se les suprimió el cero a la izquierda

In [20]:
# Filtrar las filas donde 'codigo_dane' tiene 7 dígitos
filtered = sisben_IV_personas_DNP[sisben_IV_personas_DNP['cod_mpio'].str.len() == 4]

# Obtener el primer dígito de cada código y convertirlo a una serie
first_digit = filtered['cod_mpio'].str[0]
# Obtener las categorías únicas de la columna 'departamento'
first_digit.unique()

array(['5', '8'], dtype=object)

Efectivamente ANTIOQUIA Y ATLANTICO son los unicos departamentos que tienen codigo Dane que inicia con un cero + un dígito, 05 y 08 respectivamente.

  - Adicionar un cero a los codigo_dane de 4 dígitos

In [21]:
# Función que agrega un '0' a la izquierda si la longitud del string es 7
def add_zero_if_length_4(codigo):
    if len(codigo) == 4:
        return '0' + codigo
    return codigo

# Aplicar la función a la columna 'codigo'
sisben_IV_personas_DNP['cod_mpio'] = sisben_IV_personas_DNP['cod_mpio'].apply(add_zero_if_length_4)

In [22]:
# Verificar cuantos codigo_dane de 4 dígitos quedaron
len(sisben_IV_personas_DNP[sisben_IV_personas_DNP['cod_mpio'].str.len() == 4])

0

- Verificar que los códigos de municipios que quedaron en el dataset correspondan solamente a códigos reales almacenados en la base de datos

In [23]:
# Función para comparar listas y mostrar diferencias
def compare_lists(df1_col, df2_col, label1, label2):
    # Extraer listas únicas y normalizar
    list1 = set(df1_col.str.strip().str.upper().unique())
    list2 = set(df2_col.str.strip().str.upper().unique())

    # Encontrar diferencias
    only_in_list1 = list1 - list2
    only_in_list2 = list2 - list1

    # Imprimir resultados
    print(f"{label1} que no están en {label2}:")
    print(only_in_list1)

In [24]:
# Comparar listas de códigos
compare_lists(sisben_IV_personas_DNP['cod_mpio'], dept_mpios_codes['dept_mpio_code'],
              "Códigos de municipios en sisben_IV_personas_DNP", "Códigos de municipios dept_mpios_codes")

Códigos de municipios en sisben_IV_personas_DNP que no están en Códigos de municipios dept_mpios_codes:
set()


### Procesamiento final como preparación para integrarlo a la bd de datos del proyecto

In [26]:
# Adicionar columna para trazabilidad de la fuente
# Lista de tuplas
sisben_IV_personas_DNP['source_id'] = 111


In [27]:
#Estructura final del dataset a integrar a la base de datos
sisben_IV_personas_DNP.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4465955 entries, 0 to 4465954
Data columns (total 49 columns):
 #   Column         Dtype  
---  ------         -----  
 0   cod_mpio       object 
 1   h_5            int64  
 2   i1             int64  
 3   i2             int64  
 4   i3             int64  
 5   i4             int64  
 6   i5             int64  
 7   i6             int64  
 8   i7             int64  
 9   i8             int64  
 10  i9             int64  
 11  i10            int64  
 12  i11            int64  
 13  i12            int64  
 14  i13            int64  
 15  i14            int64  
 16  i15            int64  
 17  grupo          object 
 18  nivel          int64  
 19  clasificacion  object 
 20  zona           int64  
 21  llave          int64  
 22  corte          object 
 23  hogar          int64  
 24  orden          int64  
 25  fex            float64
 26  per001         int64  
 27  per002         int64  
 28  per003         int64  
 29  per004        

In [28]:
sisben_IV_personas_DNP.head()

Unnamed: 0,cod_mpio,h_5,i1,i2,i3,i4,i5,i6,i7,i8,...,per012,per013,per014,per015,per016,per017,per018,per019,per020,source_id
0,5001,1,1,0,1,1,0,0,1,1,...,1,9,9,1,2,2,2,5,99,111
1,5001,1,1,0,1,1,0,0,1,1,...,9,9,9,1,2,2,9,4,99,111
2,5001,0,1,0,0,0,0,0,0,1,...,9,9,9,1,2,2,2,2,10,111
3,5001,0,1,0,0,0,0,0,0,1,...,1,9,9,1,2,2,2,5,99,111
4,5001,0,1,0,0,0,0,0,0,1,...,9,9,9,1,2,2,2,2,10,111


## Salvar en archivo csv en el drive

In [29]:
# Guardar en archivos CSV en el drive
sisben_IV_personas_DNP.to_csv('/content/drive/MyDrive/analytics_data_proyect/initial_transformation/sisben_IV_personas_DNP.csv', index=False)