# **Calculo IMI**


## **Carga de datos**

In [None]:
import pandas as pd

# Ruta del archivo de Excel que contiene los datos
file_path = '/content/BD Depurada.xlsx'

# Cargar la hoja "BD IMI"
df = pd.read_excel(file_path, sheet_name='BD IMI')

# Mostrar las primeras filas para verificar la carga
print(df.head())


   id_hogar  id_vivienda              E1P0                       E2P1  \
0        44           46  Ciudadela de Paz  Propia, totalmente pagada   
1        45           47  Ciudadela de Paz  Propia, totalmente pagada   
2        46           52               NaN        Posesión sin título   
3        47           53  Ciudadela de Paz  Propia, totalmente pagada   
4        49           54  Ciudadela de Paz  Propia, totalmente pagada   

   HOG_OBJ  CANT_INDIV_OBJ  POB_MON  POB_MON_EXTR  ING_PER_CAPITA   IPM  ...  \
0        0               0        1             1    75000.000000  0.14  ...   
1        0               0        1             1   150000.000000  0.14  ...   
2        0               0        0             0   400000.000000  0.29  ...   
3        0               0        0             0   533333.333333  0.14  ...   
4        0               0        1             0   266666.666667  0.30  ...   

   IMI_SATIS_ID2  IMI_SATIS_ID3  IMI_SATIS_ID5  IMI_ML_TGP  IMI_ML_D  \
0       

In [None]:
from sklearn.preprocessing import MinMaxScaler

# List of variables to normalize
variables_to_normalize = ['POB_MON', 'POB_MON_EXTR', 'ING_PER_CAPITA', 'IPM', 'DEF_CUALI_VIV_2', 'DEF_CUANT_VIV', 'PM_S_ID2', 'IMI_S_ID2', 'IMI_S_ID3', 'IMI_S_ID4',
                          'PM_EDU_ID1', 'PM_NNA_ID1', 'PM_NNA_ID2', 'IMI_SATIS_ID3', 'IMI_SATIS_ID5', 'IMI_SATIS_ID2', 'IMI_ML_TGP', 'IMI_ML_D', 'PM_S_ID1', 'IMI_ML_PILA',
                          'IMI_ML_OI', 'IMI_P-CIUD_ID1', 'IMI_SATIS_ID1', 'IMI_STANFORD']

# Normalize using Min-Max scaler
scaler = MinMaxScaler()
df_normalized = df.copy()
df_normalized[variables_to_normalize] = scaler.fit_transform(df[variables_to_normalize])


### **Explicación**


*   Paso 1: Importamos MinMaxScaler de sklearn.preprocessing para normalizar las variables.
*  Paso 2: Definimos las variables que queremos normalizar en la lista variables_a_normalizar.
Creamos una copia del DataFrame original (df_normalized) para preservar los datos originales.
Aplicamos fit_transform del MinMaxScaler a las columnas seleccionadas para normalizarlas.
Finalmente, mostramos las primeras filas del DataFrame normalizado para verificar los resultados.
Este código aborda las primeras dos partes del script original, cargando los datos desde Excel y normalizando las variables utilizando Min-Max. Si necesitas ajustar las variables a normalizar o tienes algún otro requerimiento específico, házmelo saber para poder ayudarte mejor.

## **Paso 3: Cálculo del Índice de Medición Integral (IMI)**

Según el script original de Stata, el IMI se calcula utilizando varias variables normalizadas ponderadas por coeficientes específicos. Vamos a replicar este cálculo en Python.

In [None]:
from sklearn.decomposition import PCA

# List of variables for PCA
pca_variables = ['POB_MON', 'POB_MON_EXTR', 'ING_PER_CAPITA', 'IPM', 'DEF_CUALI_VIV_2', 'DEF_CUANT_VIV', 'PM_S_ID2', 'IMI_S_ID2', 'IMI_S_ID3',
                 'IMI_S_ID4', 'PM_EDU_ID1', 'PM_NNA_ID1', 'PM_NNA_ID2', 'IMI_SATIS_ID3', 'IMI_SATIS_ID5', 'IMI_SATIS_ID2', 'IMI_ML_TGP', 'IMI_ML_D',
                 'PM_S_ID1', 'IMI_ML_PILA', 'IMI_ML_OI', 'IMI_SATIS_ID1', 'IMI_STANFORD', 'IMI_P-CIUD_ID1' ] # Include all normalized variables

# Perform PCA
pca = PCA(n_components=11)  # Adjust the number of components as needed
df_pca = pca.fit_transform(df_normalized[pca_variables])



In [None]:
import numpy as np
from scipy.stats import ttest_ind
from scipy.linalg import svd
def varimax_rotation(components, gamma=1.0, q=20, tol=1e-6):
    """
    Perform Varimax rotation on PCA components.
    """
    p, k = components.shape
    R = np.eye(k)
    d = 0
    for i in range(q):
        old_d = d
        components_rotated = np.dot(components, R)
        lambdas = np.dot(components.T, (components_rotated ** 3 - (gamma / p) * np.dot(components_rotated, np.diag(np.sum(components_rotated ** 2, axis=0)))))
        u, s, v = svd(lambdas)
        R = np.dot(u, v)
        d = np.sum(s)
        if d - old_d < tol:
            break
    return np.dot(components, R), R

# Example usage
# rotated_components, rotation_matrix = varimax_rotation(pca.components_.T)


In [None]:
from sklearn.decomposition import PCA

# List of variables for PCA
pca_variables = ['POB_MON', 'POB_MON_EXTR', 'ING_PER_CAPITA', 'IPM', 'DEF_CUALI_VIV_2', 'DEF_CUANT_VIV', 'PM_S_ID2', 'IMI_S_ID2', 'IMI_S_ID3',
                 'IMI_S_ID4', 'PM_EDU_ID1', 'PM_NNA_ID1', 'PM_NNA_ID2', 'IMI_SATIS_ID3', 'IMI_SATIS_ID5', 'IMI_SATIS_ID2', 'IMI_ML_TGP', 'IMI_ML_D',
                 'PM_S_ID1', 'IMI_ML_PILA', 'IMI_ML_OI', 'IMI_SATIS_ID1', 'IMI_STANFORD', 'IMI_P-CIUD_ID1' ] # Include all normalized variables

# Perform PCA
pca = PCA(n_components=11)  # Adjust the number of components as needed
df_pca = pca.fit_transform(df_normalized[pca_variables])


import numpy as np
from scipy.stats import ttest_ind
from scipy.linalg import svd
def varimax_rotation(components, gamma=1.0, q=20, tol=1e-6):
    """
    Perform Varimax rotation on PCA components.
    """
    p, k = components.shape
    R = np.eye(k)
    d = 0
    for i in range(q):
        old_d = d
        components_rotated = np.dot(components, R)
        lambdas = np.dot(components.T, (components_rotated ** 3 - (gamma / p) * np.dot(components_rotated, np.diag(np.sum(components_rotated ** 2, axis=0)))))
        u, s, v = svd(lambdas)
        R = np.dot(u, v)
        d = np.sum(s)
        if d - old_d < tol:
            break
    return np.dot(components, R), R

# Example usage
# rotated_components, rotation_matrix = varimax_rotation(pca.components_.T)

import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA
from scipy.stats import ttest_ind

# Cargar datos desde Excel
file_path = r'/content/BD Depurada.xlsx'
sheet_name = 'BD IMI'
df = pd.read_excel(file_path, sheet_name=sheet_name)

# Lista de variables a normalizar
variables_to_normalize =  ['POB_MON', 'POB_MON_EXTR', 'ING_PER_CAPITA', 'IPM', 'DEF_CUALI_VIV_2', 'DEF_CUANT_VIV', 'PM_S_ID2', 'IMI_S_ID2', 'IMI_S_ID3',
                 'IMI_S_ID4', 'PM_EDU_ID1', 'PM_NNA_ID1', 'PM_NNA_ID2', 'IMI_SATIS_ID3', 'IMI_SATIS_ID5', 'IMI_SATIS_ID2', 'IMI_ML_TGP', 'IMI_ML_D',
                 'PM_S_ID1', 'IMI_ML_PILA', 'IMI_ML_OI', 'IMI_SATIS_ID1', 'IMI_STANFORD' ]
# Normalizar usando Min-Max scaler
scaler = MinMaxScaler()
df_normalized = df.copy()
df_normalized[variables_to_normalize] = scaler.fit_transform(df[variables_to_normalize])

# Realizar PCA
pca = PCA(n_components=11)  # Ajusta el número de componentes según sea necesario
df_pca = pca.fit_transform(df_normalized[variables_to_normalize])

# Rotación Varimax
rotated_components, rotation_matrix = varimax_rotation(pca.components_.T)

# Crear DataFrame para componentes rotados
df_rotated = pd.DataFrame(df_pca @ rotation_matrix.T, columns=[f'PC{i+1}' for i in range(rotation_matrix.shape[0])])

# Calcular índices ponderados
df['IMI_1_1'] = (df_normalized['POB_MON'] * 0.051) + (df_normalized['POB_MON_EXTR'] * 0.039) + (df_normalized['IPM'] * 0.020) + (df_normalized['ING_PER_CAPITA'] * 0.054)
df['IMI_1_2'] = (df_normalized['DEF_CUALI_VIV_2'] * 0.029) + (df_normalized['DEF_CUANT_VIV'] * 0.058)
df['IMI_1_3'] = (df_normalized['PM_S_ID2'] * 0.061) + (df_normalized['IMI_S_ID2'] * 0.029) + (df_normalized['IMI_S_ID3'] * 0.058) + (df_normalized['IMI_S_ID4'] * 0.038)
df['IMI_1_4'] = (df_normalized['PM_EDU_ID1'] * 0.032) + (df_normalized['PM_NNA_ID1'] * 0.032) + (df_normalized['PM_NNA_ID2'] * 0.037)

df['IMI_1'] = df['IMI_1_1'] + df['IMI_1_2'] + df['IMI_1_3'] + df['IMI_1_4']

df['IMI_2_1'] = (df_normalized['IMI_SATIS_ID3'] * 0.027) + (df_normalized['IMI_SATIS_ID5'] * 0.052) + (df_normalized['IMI_SATIS_ID2'] * 0.044)
df['IMI_2_2'] = (df_normalized['IMI_ML_TGP'] * 0.033) + (df_normalized['IMI_ML_D'] * 0.056) + (df_normalized['PM_S_ID1'] * 0.046) + (df_normalized['IMI_ML_PILA'] * 0.036) + (df_normalized['IMI_ML_OI'] * 0.046)

df['IMI_2'] = df['IMI_2_1'] + df['IMI_2_2']

df['IMI_3_1'] = (df_normalized['IMI_P-CIUD_ID1'] * 0.054) + (df_normalized['IMI_SATIS_ID1'] * 0.036)
df['IMI_3_2'] = df_normalized['IMI_STANFORD'] * 0.033

df['IMI_3'] = df['IMI_3_1'] + df['IMI_3_2']

df['IMI'] = df['IMI_1'] + df['IMI_2'] + df['IMI_3']

# Generar variables de clasificación (CLASF_1, CLASF_2, CLASF_3)
df['CLASF_1'] = pd.cut(df['IMI'], bins=[-float('inf'), 0.2, 0.4, 0.6, 0.8, 1.0], labels=[1, 2, 3, 4, 5])
df['CLASF_2'] = pd.cut(df['IMI'], bins=[-float('inf'), 0.25, 0.5, 0.75, 1.0], labels=[1, 2, 3, 4])
df['CLASF_3'] = pd.cut(df['IMI'], bins=[-float('inf'), 0.333333, 0.66666, 1.0], labels=[1, 2, 3])



## **Hogares priorizados de pobreza e ingreso**

In [46]:
import pandas as pd
import numpy as np

# Ruta del archivo de Excel
file_path = '/content/BD Depurada.xlsx'

# Nombre de la hoja que quieres cargar
sheet_name = 'BD HOGARES'

# Cargar el archivo de Excel y seleccionar la hoja
df = pd.read_excel(file_path, sheet_name=sheet_name)

# Filtrar los datos donde la columna IMI_C tenga el valor 'Bajo' o 'Aceptable'
filtered_data = df[(df['IMI_C'].isin(['Bajo', 'Aceptable'])) & (df['ING_PER_CAPITA'] < 396864)].copy()

# Definir las nuevas variables y sus cálculos
def calculate_recalculated_values(row):
    ing_per_capita = row['ING_PER_CAPITA']
    ing_per_capita_recalculado = (396866 - ing_per_capita) + ing_per_capita
    pob_mon_recalculado = 1 if ing_per_capita_recalculado < 396864 else 0
    pob_mon_extr_recalculado = 1 if ing_per_capita_recalculado < 198698 else 0
    imi = row['IMI']

    # Determinar IMI_C recalculado
    if imi <= 0.5:
        imi_c_recalculado = "Muy Bajo"
    elif imi <= 0.625:
        imi_c_recalculado = "Bajo"
    elif imi <= 0.75:
        imi_c_recalculado = "Aceptable"
    elif imi <= 0.875:
        imi_c_recalculado = "Alto"
    else:
        imi_c_recalculado = "Muy Alto"

    if row['IMI_C'] == 'Bajo' and pob_mon_recalculado == 0:
        imi_c_recalculado = "Aceptable"
    elif row['IMI_C'] == 'Aceptable':
        imi_c_recalculado = "Alto"

    return pd.Series([ing_per_capita_recalculado, pob_mon_recalculado, pob_mon_extr_recalculado, imi_c_recalculado],
                     index=['ING_PER_CAPITA_RECALCULADO', 'POB_MON_RECALCULADO', 'POB_MON_EXTR_RECALCULADO', 'IMI_C_RECALCULADO'])

# Aplicar los cálculos a cada fila
filtered_data[['ING_PER_CAPITA_RECALCULADO', 'POB_MON_RECALCULADO', 'POB_MON_EXTR_RECALCULADO', 'IMI_C_RECALCULADO']] = filtered_data.apply(calculate_recalculated_values, axis=1)

# Contar cambios de categoría
count_bajo_to_aceptable = filtered_data[(filtered_data['IMI_C'] == 'Bajo') & (filtered_data['IMI_C_RECALCULADO'] == 'Aceptable')].shape[0]
count_aceptable_to_alto = filtered_data[(filtered_data['IMI_C'] == 'Aceptable') & (filtered_data['IMI_C_RECALCULADO'] == 'Alto')].shape[0]

# Imprimir el dataset final con las variables solicitadas
final_dataset = filtered_data[['id_hogar', 'E1P0', 'IMI', 'IMI_C', 'POB_MON', 'POB_MON_EXTR', 'IPM', 'ING_PER_CAPITA', 'IMI_C_RECALCULADO', 'POB_MON_RECALCULADO', 'POB_MON_EXTR_RECALCULADO', 'ING_PER_CAPITA_RECALCULADO']]

print("Número de hogares que pasaron de 'Bajo' a 'Aceptable':", count_bajo_to_aceptable)
print("Número de hogares que pasaron de 'Aceptable' a 'Alto':", count_aceptable_to_alto)
print("\nDataset Final:")
print(final_dataset)


Número de hogares que pasaron de 'Bajo' a 'Aceptable': 396
Número de hogares que pasaron de 'Aceptable' a 'Alto': 200

Dataset Final:
     id_hogar              E1P0       IMI      IMI_C  POB_MON  POB_MON_EXTR  \
0          44  Ciudadela de Paz  0.676227  Aceptable        1             1   
1          45  Ciudadela de Paz  0.656121  Aceptable        1             1   
4          49  Ciudadela de Paz  0.685851  Aceptable        1             0   
6          51  Ciudadela de Paz  0.581145       Bajo        1             0   
7          52  Ciudadela de Paz  0.599255       Bajo        1             1   
..        ...               ...       ...        ...      ...           ...   
843       951  Ciudadela de Paz  0.648839  Aceptable        1             0   
845       953  Ciudadela de Paz  0.696839  Aceptable        1             0   
846       955  Ciudadela de Paz  0.594297       Bajo        1             0   
847       956  Ciudadela de Paz  0.660056  Aceptable        1             1 

In [47]:
# Guardar el DataFrame en un archivo Excel
file_path = 'priorizados_ingreso.xlsx'
final_dataset.to_excel(file_path, index=False)

print(f"DataFrame guardado en {file_path}")

DataFrame guardado en priorizados_ingreso.xlsx


In [29]:
import pandas as pd
import sqlite3

# Supongamos que `filtered_data` ya está definido y contiene tu DataFrame

# Selecciona las columnas deseadas
final_dataset = filtered_data[['id_hogar', 'E1P0', 'IMI', 'IMI_C', 'POB_MON', 'POB_MON_EXTR',
                               'IPM', 'ING_PER_CAPITA', 'IMI_C_RECALCULADO', 'POB_MON_RECALCULADO',
                               'POB_MON_EXTR_RECALCULADO', 'ING_PER_CAPITA_RECALCULADO']]

# Conéctate a la base de datos SQLite
conn = sqlite3.connect('priori_hogares.sqlite')

# Carga el DataFrame en SQLite (creará una tabla llamada 'mi_tabla' si no existe)
final_dataset.to_sql('ingresos', conn, if_exists='replace', index=False)

# Cierra la conexión
conn.close()


## **Hogares priorizados en salud**

In [48]:
import pandas as pd
import numpy as np

# Ruta del archivo de Excel
file_path = '/content/BD Depurada.xlsx'

# Nombre de la hoja que quieres cargar
sheet_name = 'BD HOGARES'

# Cargar el archivo de Excel y seleccionar la hoja
df = pd.read_excel(file_path, sheet_name=sheet_name)

# Filtrar los datos donde la columna IMI_C tenga el valor 'Bajo' o 'Aceptable'
filtered_data = df[df['IMI_C'].isin(['Bajo', 'Aceptable'])].copy()

# Seleccionar las columnas de interés
selected_columns = ['id_hogar', 'E1P0', 'IMI', 'IMI_C', 'PM_S_PRIV2', 'IMI_S_ID3', 'IMI_S_ID4']
filtered_data = filtered_data[selected_columns]

# Aplicar los filtros adicionales (usando OR)
final_filtered_data = filtered_data[
    (filtered_data['PM_S_PRIV2'] == 1) |
    (filtered_data['IMI_S_ID4'] == 1) |
    (filtered_data['IMI_S_ID3'] >= 0.5)
]

# Mostrar el resultado
print(final_filtered_data)



     id_hogar              E1P0       IMI      IMI_C  PM_S_PRIV2  IMI_S_ID3  \
6          51  Ciudadela de Paz  0.581145       Bajo           0       0.75   
14         60  Ciudadela de Paz  0.534371       Bajo           0       0.50   
16         63  Ciudadela de Paz  0.548456       Bajo           1       0.25   
25         74  Ciudadela de Paz  0.649045  Aceptable           1       0.25   
27         77  Ciudadela de Paz  0.550194       Bajo           0       0.25   
..        ...               ...       ...        ...         ...        ...   
833       941  Ciudadela de Paz  0.578426       Bajo           0       0.25   
834       942  Ciudadela de Paz  0.541137       Bajo           0       0.25   
838       946  Ciudadela de Paz  0.512731       Bajo           1       0.25   
841       949  Ciudadela de Paz  0.612568       Bajo           0       0.25   
846       955  Ciudadela de Paz  0.594297       Bajo           0       0.25   

     IMI_S_ID4  
6          0.0  
14         0.0  


In [49]:
# Guardar el DataFrame en un archivo Excel
file_path = 'priorizados_salud.xlsx'
final_filtered_data.to_excel(file_path, index=False)

print(f"DataFrame guardado en {file_path}")

DataFrame guardado en priorizados_salud.xlsx


In [31]:
import pandas as pd
import sqlite3

# Supongamos que `filtered_data` ya está definido y contiene tu DataFrame

# Selecciona las columnas deseadas
final_dataset = filtered_data[['id_hogar', 'E1P0', 'IMI', 'IMI_C', 'PM_S_PRIV2', 'IMI_S_ID3', 'IMI_S_ID4']]

# Conéctate a la base de datos SQLite
conn = sqlite3.connect('priori_hogares.sqlite')

# Carga el DataFrame en SQLite (creará una tabla llamada 'mi_tabla' si no existe)
final_dataset.to_sql('salud', conn, if_exists='replace', index=False)

# Cierra la conexión
conn.close()


## **Hogares priorizados condiciones educativas**

In [50]:
import pandas as pd
import numpy as np

# Ruta del archivo de Excel
file_path = '/content/BD Depurada.xlsx'

# Nombre de la hoja que quieres cargar
sheet_name = 'BD HOGARES'

# Cargar el archivo de Excel y seleccionar la hoja
df = pd.read_excel(file_path, sheet_name=sheet_name)

# Filtrar los datos donde la columna IMI_C tenga el valor 'Bajo' o 'Aceptable'
filtered_data = df[df['IMI_C'].isin(['Bajo', 'Aceptable'])].copy()

# Seleccionar las columnas de interés
selected_columns = ['id_hogar', 'E1P0', 'IMI', 'IMI_C', 'PM_EDU_ID1', 'PM_NNA_ID1','PM_NNA_PRIV2']
filtered_data = filtered_data[selected_columns]

# Aplicar los filtros adicionales (usando OR)
final_filtered_data = filtered_data[
    (filtered_data['PM_NNA_PRIV2'] == 1)
]

# Mostrar el resultado
print(final_filtered_data)


     id_hogar              E1P0       IMI      IMI_C  PM_EDU_ID1  PM_NNA_ID1  \
2          46               NaN  0.683094  Aceptable    4.800000         0.0   
8          53  Ciudadela de Paz  0.594453       Bajo    2.666667         0.0   
9          54  Ciudadela de Paz  0.603453       Bajo   14.000000         0.0   
23         71  Ciudadela de Paz  0.642888  Aceptable   12.000000         0.0   
28         79  Ciudadela de Paz  0.670939  Aceptable   10.000000         1.0   
..        ...               ...       ...        ...         ...         ...   
812       919           La Loma  0.575092       Bajo    5.333333         0.0   
817       925  Ciudadela de Paz  0.547986       Bajo    8.000000         0.0   
840       948  Ciudadela de Paz  0.627492  Aceptable    8.000000         0.0   
843       951  Ciudadela de Paz  0.648839  Aceptable   10.000000         0.0   
848       957  Ciudadela de Paz  0.629553  Aceptable    7.500000         0.0   

     PM_NNA_PRIV2  
2               1  

In [51]:
# Guardar el DataFrame en un archivo Excel
file_path = 'priorizados_educación.xlsx'
final_filtered_data.to_excel(file_path, index=False)

print(f"DataFrame guardado en {file_path}")

DataFrame guardado en priorizados_educación.xlsx


In [33]:
import pandas as pd
import sqlite3

# Supongamos que `filtered_data` ya está definido y contiene tu DataFrame

# Selecciona las columnas deseadas
final_dataset = filtered_data[['id_hogar', 'E1P0', 'IMI', 'IMI_C', 'PM_EDU_ID1', 'PM_NNA_ID1','PM_NNA_PRIV2']]

# Conéctate a la base de datos SQLite
conn = sqlite3.connect('priori_hogares.sqlite')

# Carga el DataFrame en SQLite (creará una tabla llamada 'mi_tabla' si no existe)
final_dataset.to_sql('educacion', conn, if_exists='replace', index=False)

# Cierra la conexión
conn.close()

## **Hogares caracterizados percepción de satisfaccion con la vida**

In [52]:
import pandas as pd
import numpy as np

# Ruta del archivo de Excel
file_path = '/content/BD Depurada.xlsx'

# Nombre de la hoja que quieres cargar
sheet_name = 'BD HOGARES'

# Cargar el archivo de Excel y seleccionar la hoja
df = pd.read_excel(file_path, sheet_name=sheet_name)

# Filtrar los datos donde la columna IMI_C tenga el valor 'Bajo' o 'Aceptable'
filtered_data = df[df['IMI_C'].isin(['Bajo', 'Aceptable'])].copy()

# Seleccionar las columnas de interés
selected_columns = ['id_hogar', 'E1P0', 'IMI', 'IMI_C', 'IMI_SATIS_ID2', 'IMI_SATIS_ID3', 'IMI_SATIS_ID5']
filtered_data = filtered_data[selected_columns]

# Aplicar los filtros adicionales (usando OR)
final_filtered_data = filtered_data[
   ( (filtered_data['IMI_SATIS_ID2']  >= 5) & (filtered_data['IMI_SATIS_ID2']  <= 8) ) &
   ( (filtered_data['IMI_SATIS_ID3']  >= 5) & (filtered_data['IMI_SATIS_ID3']  <= 8) ) &
   ( (filtered_data['IMI_SATIS_ID5'] >= 5) & (filtered_data['IMI_SATIS_ID5'] <=8))
]

# Ordenar los datos por 'PM_S_PRIV2', 'IMI_S_ID3', y 'IMI_S_ID4' en orden descendente
final_sorted_data = final_filtered_data.sort_values(
    by=['IMI_SATIS_ID2', 'IMI_SATIS_ID3', 'IMI_SATIS_ID5'],
    ascending=[False, False, False]
)

# Mostrar el resultado
print(final_sorted_data)


     id_hogar              E1P0       IMI      IMI_C  IMI_SATIS_ID2  \
24         73  Ciudadela de Paz  0.740362  Aceptable            8.0   
174       234  Ciudadela de Paz  0.565794       Bajo            8.0   
180       241  Ciudadela de Paz  0.625412  Aceptable            8.0   
191       253           La Loma  0.714347  Aceptable            8.0   
246       311  Ciudadela de Paz  0.622153       Bajo            8.0   
..        ...               ...       ...        ...            ...   
429       496           La Loma  0.598609       Bajo            5.0   
661       739  Ciudadela de Paz  0.574973       Bajo            5.0   
40         92           La Loma  0.592479       Bajo            5.0   
255       320           La Loma  0.558710       Bajo            5.0   
814       922           La Loma  0.565124       Bajo            5.0   

     IMI_SATIS_ID3  IMI_SATIS_ID5  
24             8.0       8.000000  
174            8.0       8.000000  
180            8.0       8.000000  
191

In [53]:
# Guardar el DataFrame en un archivo Excel
file_path = 'priorizados_satisfaccion.xlsx'
final_filtered_data.to_excel(file_path, index=False)

print(f"DataFrame guardado en {file_path}")

DataFrame guardado en priorizados_satisfaccion.xlsx


In [35]:
import pandas as pd
import sqlite3

# Supongamos que `filtered_data` ya está definido y contiene tu DataFrame

# Selecciona las columnas deseadas
final_dataset = filtered_data[['id_hogar', 'E1P0', 'IMI', 'IMI_C', 'IMI_SATIS_ID2', 'IMI_SATIS_ID3', 'IMI_SATIS_ID5']]

# Conéctate a la base de datos SQLite
conn = sqlite3.connect('priori_hogares.sqlite')

# Carga el DataFrame en SQLite (creará una tabla llamada 'mi_tabla' si no existe)
final_dataset.to_sql('satisfaccion', conn, if_exists='replace', index=False)

# Cierra la conexión
conn.close()

## **Hogares caracterizados mercado laboral**

In [54]:
import pandas as pd
import numpy as np

# Ruta del archivo de Excel
file_path = '/content/BD Depurada.xlsx'

# Nombre de la hoja que quieres cargar
sheet_name = 'BD HOGARES'

# Cargar el archivo de Excel y seleccionar la hoja
df = pd.read_excel(file_path, sheet_name=sheet_name)

# Filtrar los datos donde la columna IMI_C tenga el valor 'Bajo' o 'Aceptable'
filtered_data = df[df['IMI_C'].isin(['Bajo', 'Aceptable'])].copy()

# Seleccionar las columnas de interés
selected_columns = ['id_hogar', 'E1P0', 'IMI', 'IMI_C', 'IMI_ML_TGP', 'PM_S_PRIV1']
filtered_data = filtered_data[selected_columns]

# Aplicar los filtros adicionales (usando OR)
final_filtered_data = filtered_data[
    (filtered_data['IMI_ML_TGP']  >= 0.5) &
    (filtered_data['PM_S_PRIV1']  == 1)
]

# Mostrar el resultado
print(final_filtered_data)

     id_hogar              E1P0       IMI      IMI_C  IMI_ML_TGP  PM_S_PRIV1
11         56  Ciudadela de Paz  0.673300  Aceptable    1.000000           1
12         58  Ciudadela de Paz  0.580939       Bajo    1.000000           1
14         60  Ciudadela de Paz  0.534371       Bajo    1.000000           1
42         95  Ciudadela de Paz  0.673602  Aceptable    0.500000           1
49        102  Ciudadela de Paz  0.604988       Bajo    1.000000           1
..        ...               ...       ...        ...         ...         ...
814       922           La Loma  0.565124       Bajo    1.000000           1
822       930  Ciudadela de Paz  0.582800       Bajo    0.666667           1
826       934  Ciudadela de Paz  0.530448       Bajo    1.000000           1
833       941  Ciudadela de Paz  0.578426       Bajo    0.500000           1
839       947  Ciudadela de Paz  0.615688       Bajo    1.000000           1

[126 rows x 6 columns]


In [55]:
# Guardar el DataFrame en un archivo Excel
file_path = 'priorizados_mercadolaboral.xlsx'
final_filtered_data.to_excel(file_path, index=False)

print(f"DataFrame guardado en {file_path}")

DataFrame guardado en priorizados_mercadolaboral.xlsx


In [37]:
import pandas as pd
import sqlite3

# Supongamos que `filtered_data` ya está definido y contiene tu DataFrame

# Selecciona las columnas deseadas
final_dataset = filtered_data[['id_hogar', 'E1P0', 'IMI', 'IMI_C', 'IMI_ML_TGP', 'PM_S_PRIV1']]

# Conéctate a la base de datos SQLite
conn = sqlite3.connect('priori_hogares.sqlite')

# Carga el DataFrame en SQLite (creará una tabla llamada 'mi_tabla' si no existe)
final_dataset.to_sql('mercadolaboral', conn, if_exists='replace', index=False)

# Cierra la conexión
conn.close()

## **Hogares caracterizados participación ciudadana**

In [56]:
import pandas as pd
import numpy as np

# Ruta del archivo de Excel
file_path = '/content/BD Depurada.xlsx'

# Nombre de la hoja que quieres cargar
sheet_name = 'BD HOGARES'

# Cargar el archivo de Excel y seleccionar la hoja
df = pd.read_excel(file_path, sheet_name=sheet_name)

# Filtrar los datos donde la columna IMI_C tenga el valor 'Bajo' o 'Aceptable'
filtered_data = df[df['IMI_C'].isin(['Bajo', 'Aceptable'])].copy()

# Seleccionar las columnas de interés
selected_columns = ['id_hogar', 'E1P0', 'IMI', 'IMI_C', 'IMI_SATIS_ID1']
filtered_data = filtered_data[selected_columns]

# Asegurarse de que la columna IMI_SATIS_ID1 sea numérica
filtered_data['IMI_SATIS_ID1'] = pd.to_numeric(filtered_data['IMI_SATIS_ID1'], errors='coerce')

# Aplicar los filtros adicionales (usando AND)
final_filtered_data = filtered_data[
    (filtered_data['IMI_SATIS_ID1'] >= 5) & (filtered_data['IMI_SATIS_ID1'] <= 8)
]

# Mostrar el resultado
print(final_filtered_data)


     id_hogar              E1P0       IMI      IMI_C  IMI_SATIS_ID1
9          54  Ciudadela de Paz  0.603453       Bajo       8.000000
10         55  Ciudadela de Paz  0.674955  Aceptable       8.000000
11         56  Ciudadela de Paz  0.673300  Aceptable       8.000000
12         58  Ciudadela de Paz  0.580939       Bajo       7.333333
14         60  Ciudadela de Paz  0.534371       Bajo       5.000000
..        ...               ...       ...        ...            ...
829       937  Ciudadela de Paz  0.555391       Bajo       6.000000
830       938  Ciudadela de Paz  0.748917  Aceptable       7.000000
832       940  Ciudadela de Paz  0.747511  Aceptable       7.000000
843       951  Ciudadela de Paz  0.648839  Aceptable       5.000000
846       955  Ciudadela de Paz  0.594297       Bajo       6.333333

[377 rows x 5 columns]


In [57]:
# Guardar el DataFrame en un archivo Excel
file_path = 'priorizados_participacion_ciudadana.xlsx'
final_filtered_data.to_excel(file_path, index=False)

print(f"DataFrame guardado en {file_path}")

DataFrame guardado en priorizados_participacion_ciudadana.xlsx


In [58]:
import pandas as pd
import sqlite3

# Supongamos que `filtered_data` ya está definido y contiene tu DataFrame

# Selecciona las columnas deseadas
final_dataset = filtered_data[['id_hogar', 'E1P0', 'IMI', 'IMI_C', 'IMI_SATIS_ID1']]

# Conéctate a la base de datos SQLite
conn = sqlite3.connect('priori_hogares.sqlite')

# Carga el DataFrame en SQLite (creará una tabla llamada 'mi_tabla' si no existe)
final_dataset.to_sql('participacion', conn, if_exists='replace', index=False)

# Cierra la conexión
conn.close()

## **Cruces de bases caracterizadas**

In [45]:
import pandas as pd
import sqlite3

# Conéctate a la base de datos SQLite
conn = sqlite3.connect('priori_hogares.sqlite')

# Realiza la consulta SQL con INNER JOIN
query = """
SELECT
    s.id_hogar,
    s.E1P0,
    s.IMI,
    s.IMI_C
FROM salud s
INNER JOIN educacion e ON s.id_hogar = e.id_hogar
INNER JOIN satisfaccion sat ON s.id_hogar = sat.id_hogar
INNER JOIN mercadolaboral m ON s.id_hogar = m.id_hogar
INNER JOIN ingresos i ON s.id_hogar = i.id_hogar
INNER JOIN participacion p ON s.id_hogar = p.id_hogar
"""

# Ejecuta la consulta y carga los datos en un DataFrame
final_df = pd.read_sql_query(query, conn)

# Cierra la conexión
conn.close()

# Guarda el DataFrame en un archivo de Excel
final_df.to_excel('final_dataset.xlsx', index=False)

# Muestra el DataFrame final
print(final_df)



     id_hogar              E1P0       IMI      IMI_C
0          44  Ciudadela de Paz  0.676227  Aceptable
1          45  Ciudadela de Paz  0.656121  Aceptable
2          49  Ciudadela de Paz  0.685851  Aceptable
3          51  Ciudadela de Paz  0.581145       Bajo
4          52  Ciudadela de Paz  0.599255       Bajo
..        ...               ...       ...        ...
591       951  Ciudadela de Paz  0.648839  Aceptable
592       953  Ciudadela de Paz  0.696839  Aceptable
593       955  Ciudadela de Paz  0.594297       Bajo
594       956  Ciudadela de Paz  0.660056  Aceptable
595       957  Ciudadela de Paz  0.629553  Aceptable

[596 rows x 4 columns]
