# Trabajo práctico 4

## Francisco Apezteguía, Valentín Mannarino, Juan Sebastián Navajas Jáuregui


# Parte I Análisis de la base de hogares y cálculo de pobreza

### Ejercicio 1 

Importamos la base de la Encuesta Permanente de Hogares (EPH) del INDEC para al primer trimestre de 2023 y conservamos las observaciones que corresponden a Gran Buenos Aires.

In [None]:
# Importamos los paquetes que utilizaremos y seteamos el directorio con el que vamos a trabajar
import pandas as pd
import matplotlib.pyplot as plt
import os
os.chdir(r"C:\Users\Usuario\OneDrive - Económicas - UBA\Valentin\Maestria\Optativas\Tercer trimestre\BIg Data\Trabajo Práctico\Tp4")

# Importamos la base de datos a nivel hogar
data_eph_h = pd.read_excel("usu_hogar_T123.xlsx ")

In [None]:
# Trabajamos con las observaciones que son de la región Gran Buenos Aires
data_eph_h=data_eph_h[data_eph_h["REGION"]==1]

### Ejercicio 2
Importamos la base de datos individual para unirla con la de hogares.

In [None]:
# Importamos la base de datos a nivel individual
data_eph_i = pd.read_excel("usu_individual_T123.xlsx ")

# Trabajamos con las observaciones que son de la región Gran Buenos Aires
data_eph_i=data_eph_i[data_eph_i["REGION"]==1]

In [None]:
# En la base Hogar (archivo usu_hogar.txt) todos los hogares que pertenecen a una 
# misma vivienda poseen el mismo CODUSU. Para identificar los hogares se debe utilizar 
# CODUSU y NRO_HOGAR.

# En la de base de individuos (archivo usu_individual.txt) todos los miembros del hogar tienen el 
# mismo CODUSU y NRO_HOGAR.

# De esta forma, entendemos que debemos hacer el unión en base a CODUSU y NRO_HOGAR.

# Realiza el merge, para aquellas variables repetidas se agregará un sufijo y mantendrá ambas variables
#data_eph = data_eph_h.merge(data_eph_i, on='CODUSU', how='inner')
data_eph = data_eph_h.merge(data_eph_i, on=['CODUSU', 'NRO_HOGAR'], how='inner')


In [None]:
# Eliminamos todas las columnas que terminen con _y que son un duplicado
data_eph = data_eph.filter(regex='^(?!.*_y$)')

In [None]:
# Renombra las columnas que terminan con "_x" eliminando la extensión
data_eph = data_eph.rename(columns=lambda x: x.rstrip('_x'))

### Ejercicio 3

Limpiamos la base en base a las funciones que creamos y ciertas variables particulares que necesiten una limpieza manual

In [None]:
def eliminar_valores(base, variables):
    '''
    La función elimina aquellas observaciones que tengan un valor menor a cero en las variables especificadas.
    Input:
        base: DataFrame con los datos.
        variables: Lista de nombres de las variables a filtrar.
    Output:
        DataFrame con las observaciones filtradas.
    '''
    # Creamos una copia del DataFrame original para hacer la limpieza
    df_filtrado = base.copy()

    # Iteramos a través de las variables y filtramoslas observaciones
    for variable in variables:
        df_filtrado = df_filtrado[df_filtrado[variable] >= 0]

    return df_filtrado

In [None]:
def outliers_ingresos(base, variables):
    '''
    La función elimina aquellas observaciones que tengan valores de ingresos superiores en 50 veces la media de la población.
    Input:
        base: DataFrame con los datos.
        variables: Lista de nombres de las variables a filtrar.
    Output:
        DataFrame con las observaciones filtradas.
    '''
    df_filtrado = base.copy()
    for variable in variables:
        media = df_filtrado[variable].mean()  
        limite_superior = media * 50  # Establecemos el límite superior
        df_filtrado = df_filtrado[df_filtrado[variable] <= limite_superior]

    return df_filtrado


In [None]:
def eliminar_missings(base, umbral):
    '''
    La función elimina las columnas que tienen más valores faltantes respecto al "umbral".
    Input:
        base: DataFrame con los datos.
        umbral: Umbral de valores faltantes permitidos.
    Output:
        DataFrame con las columnas eliminadas.
    '''
    df_filtrado = base.copy()
    # Pedimos que elimine las columnas que superen el umbral
    columnas_a_eliminar = [columna for columna in base.columns if base[columna].isna().sum() > umbral]
    df_filtrado = df_filtrado.drop(columnas_a_eliminar, axis=1)
   
    return df_filtrado

In [None]:
def eliminar_valores_9(base, variables):
    '''
    La función elimina aquellas observaciones que tengan un valor mayor o igual a nueve en las variables especificadas.
    Input:
        base: DataFrame con los datos.
        variables: Lista de nombres de las variables a filtrar.
    Output:
        DataFrame con las observaciones filtradas.
    '''
    df_filtrado = base.copy()
    for variable in variables:
        df_filtrado = df_filtrado[df_filtrado[variable] <= 9]

    return df_filtrado

Utilizamos la función eliminar_valores para aquellas observaciones que tengan valores menores a 0, en especial las de ingresos. 

In [None]:
variables_filtro = ['ITF','IPCF', 'P21', 'P47T', 'CH06']
data_eph = eliminar_valores (data_eph, variables_filtro)

Realizamos un gráfico boxplots para visualizar que las variable de ingresos tienen outliers

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.ticker as mticker

# Creamos el vector con variables de ingreso que vamos a utilizar
variables_filtro = ['ITF', 'IPCF', 'P21', 'P47T']

# Configuramos el estilo de seaborn para hacer el gráfico más atractivo
sns.set(style="whitegrid")

# Creamos el boxplot
ax = sns.boxplot(data=data_eph[variables_filtro])

# Desactivamos la notación científica en el eje y y agregamos un punto como separador de miles
ax.yaxis.set_major_formatter(mticker.StrMethodFormatter('{x:,.0f}'))

# Cambiamos el nombre de las variables en el gráfico
nuevos_nombres = {
    'ITF': 'Total Familiar',
    'IPCF': 'Per Cápita Familiar',
    'P21': 'Ocupación Principal',
    'P47T': 'Individual'
}

ax.set_xticklabels([nuevos_nombres.get(var, var) for var in variables_filtro])

# Ajustamos el tamaño de la fuente en el eje x
plt.xticks(fontsize=10)

# Etiquetas y título
plt.xlabel('Variables')
plt.ylabel('Valores')
plt.title('Boxplots de Variables de Ingresos')
plt.show()



Utilizamos la función outliers para aquellas osbervaciones que posean valores superior a 50 veces la media. 

In [None]:
variables_filtro = ['ITF','IPCF', 'P21', 'P47T']
data_eph = outliers_ingresos (data_eph, variables_filtro)

In [None]:
# Realizamos el mismo gráfico
sns.set(style="whitegrid")
ax = sns.boxplot(data=data_eph[variables_filtro])
ax.yaxis.set_major_formatter(mticker.StrMethodFormatter('{x:,.0f}'))
nuevos_nombres = {
    'ITF': 'Total Familiar',
    'IPCF': 'Per Cápita Familiar',
    'P21': 'Ocupación Principal',
    'P47T': 'Individual'
}

ax.set_xticklabels([nuevos_nombres.get(var, var) for var in variables_filtro])
plt.xticks(fontsize=10)
plt.xlabel('Variables')
plt.ylabel('Valores')
plt.title('Boxplots de Variables de Ingresos')
plt.show()



Decidimos quedarnos con aquellas variables que tengan hasta un máximo de 350 valores faltantes.
Tomamos esta decisión teniendo en mente el trade off entre la complejidad que puede tener el modelo (cantidad de variables explicativas)
y la problemática que existe al no poder calcular modelos de predicción con valores missing. 
En caso de incluir estas variables, deberíamos sacrificar una gran cantidad de observaciones.

In [None]:
umbral = 350 
data_eph = eliminar_missings(data_eph, umbral)

Utilizamos la función eliminar_valores_9 para aquellas variables que tengan un valor mayor a 9 ya que en general este valor indica que las personas no respondieron a la pregunta de la encuesta
Departamento en propiedad horizontal no la eliminamos porque implicaría quitar cerca del 10% de las observaciones. 

In [None]:
variables_filtro = ['II7','V1','V2','V3','V4','V5','V6','V12','V13','V14','V17','CH07','CH10','NIVEL_ED']
data_eph = eliminar_valores_9 (data_eph, variables_filtro)

Hacemos limpieza de algunas variables que no cumplen con los criterios establecidos por nuestras funciones. 
Por ejemplo, CH08 tiene el 9 como no respuesta pero luego tiene valores mayores que tienen asociados respuestas con utilidad. 

In [None]:
data_eph = data_eph[data_eph['CH08'] != 9]
data_eph = data_eph[data_eph['IV2'] != 99]
data_eph = data_eph[data_eph['II1'] != 99]
data_eph = data_eph[data_eph['II9'] > 0]
data_eph = data_eph[data_eph['IV11'] != 0]
data_eph = data_eph[data_eph['II4_1'] != 0]

Mostramos las variables que quedaron disponibles, luego de la limpieza.

In [None]:
columnas_resultantes = data_eph.columns.tolist()
print(columnas_resultantes)

In [None]:
# Exportamos a un Excel y generamos una copia con la base limpia
#data_eph_limpia = data_eph.copy()
#data_eph.to_excel("data_eph_limpia.xlsx", index = False)

A continuación, filtramos nuestra base de datos para seleccionar las variables que serán utilizadas en los siguientes ejercicios. 

In [None]:
# Generamos la lista de variables de interés.
variables_de_interes = ['CODUSU', 'PONDIH', 'IV2', 'IV3','IV6', 'IV8',
                        'IV10', 'IV11', 'IV12_1', 'IV12_2', 'IV12_3', 'II1', 'II7', 'II8', 'II9', 'V1', 'V2', 'V3', 'V4',
                        'V5', 'V6', 'V12', 'V13', 'V14', 'V17', 'ITF', 'IX_TOT',
                        'IX_MEN10', 'IPCF', 'P47T', 'CH04', 'CH06', 'CH07', 
                        'CH08', 'CH09','CH10', 'NIVEL_ED', 'ESTADO', 'CAT_INAC']


In [None]:
# Nos quedamos con las variables de interés
data_eph = data_eph[variables_de_interes]

In [None]:
# Obtenemos los tipos de variables en la lista
tipos_variables = data_eph[variables_de_interes].dtypes
print(tipos_variables)

In [None]:
# Controlamos no tener columnas con missings
columns_with_nan = data_eph.columns[data_eph.isna().any()].tolist()
print("Columns with NaN values:", columns_with_nan)

No observamos variables categóricas o strings que debamos modificar ni missings values.

### Ejercicio 4
Creamos dos variables que suponemos que son relevantes para predecir la pobreza

En esta instancia, hemos creado la variable "pobreza_estructural", la cual adquiere el valor 1 si cumple con al menos dos de las condiciones seleccionadas. La razón subyacente a esta elección radica en la intuición de que la presencia de más de dos de estas características puede indicar la existencia de pobreza estructural. Dichas características incluyen: nunca asistieron a un establecimiento educativo;  tener menos de dos ambientes en la casa; los pisos son de cemento, ladrillo fijo, aldrillo suelto o tierra; no tienen agua por cañeria dentro de la vivienda; no tiene baño; el baño no tiene inodro con botón/mochila/cadena y arrastre de agua; el desague del baño es a pozo ciego o letrina; la vivienda se ecuentra en basurales/ zona inundable/ villa de emergencia; combustible utilizado para cocinar no es gas de red. 

In [None]:
# Creamos la variable pobreza_estructural, que comienza tomando valor 0
data_eph['pobreza_estructural'] = 0

# Creamos las condiciones
conditions = [
    (data_eph['CH10']==3),
    (data_eph['IV2'] <= 2),
    (data_eph['IV3'].isin([2, 3])),
    (data_eph['IV6'].isin([2, 3])),
    (data_eph['IV8'] == 2),
    (data_eph['IV10'].isin([2, 3])),
    (data_eph['IV11'].isin([3, 4])),
    (data_eph['IV12_1'] == 1),
    (data_eph['IV12_2'] == 1),
    (data_eph['IV12_3'] == 1),
    (data_eph['II8'].isin([2, 3]))
]

# Contamos cuántas condiciones se cumplen por cada fila
conditions_met = sum(conditions_met for conditions_met in conditions)

# Asignamos valor 1 si al menos 2 condiciones se cumplen
data_eph.loc[conditions_met >= 2, 'pobreza_estructural'] = 1



In [None]:
pobreza_estructural_variable = 'pobreza_estructural'

# Contamos la cantidad de casos donde la variable es igual a 1
cantidad_pobreza_estructural_1 = len(data_eph[data_eph[pobreza_estructural_variable] == 1])
print(f'La cantidad de casos de pobreza estructural igual a 1 es: {cantidad_pobreza_estructural_1}')


Por otro lado, hemos introducido la variable "estrategia" con el objetivo de captar la dinámica adoptada en el hogar en función de que vivieron en los últimos 3 meses. Para su creación, nos enfocamos en seleccionar aquellas variables que consideramos como indicadores potenciales de la pobreza para aquellos individuos que están separados, divorciados, viudos o solteros, quienes podrían exhibir una mayor vulnerabilidad. Las variables seleccionadas incluyen: de lo que no ganan en el trabajo, de alguna jubilación o pension, de indeminzación, de seguro de desempleo, de subsidio o ayuda externa, gastos de ahorros o si han tenido que vender alguna pertenencia. 

In [None]:
# Creamos la variable estrategia, que comience tomando valor 0
data_eph['estrategia'] = 0
# Aplicamos las condiciones para que tome valor 1, edad entre 5 y 16 años y además que 
# nunca haya asistido al colegio o que si asistía, ya no lo hace.
mask = (data_eph['CH07'].isin([3, 5])) & (
    (data_eph['V1']==2) |
    (data_eph['V2']==1) |
    (data_eph['V3']==1) |
    (data_eph['V4']==1) |
    (data_eph['V5']==1) |
    (data_eph['V6']==1) |
    (data_eph['V12']==1) |
    (data_eph['V13']==1) |
    (data_eph['V17']==1) )

data_eph.loc[mask, 'estrategia'] = 1

In [None]:
estrategia_variable = 'estrategia'

# Contamos la cantidad de casos donde la variable es igual a 1
cantidad_estrategia_1 = len(data_eph[data_eph[estrategia_variable] == 1])
print(f'La cantidad de casos de pobreza estructural igual a 1 es: {cantidad_estrategia_1}')


### Ejercicio 5
Generamos un gráfico para visualizar la interacción entre dos o más variables.

Elegimos realizar una matriz de correlación de las variables que creemos que son relevantes para el hogar y realizaremos otra matriz de correlación centrada en aspectos más individuales. En esta decidimos incorporar: cantidad de ambientes, como són los pisos, si esta ubicada en una villa, combustible utilizado para cocinar, si vivieron en los ultimos tres meses de jubilación, seguro de desempleo, ayuda social, gastos de ahorro, prestamos, venta de pertenencia; cantidad de miembros del hogar, ingreso per cápita familair y pobreza estructural.  

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Buscamos correlaciones entre aspectos relevantes del hogar.
variables_hogar = ['IV2','IV3','IV12_3', 'II8', 'V2','V4','V5','V13', 'V14', 'V17', 'IX_TOT', 'IPCF', 'pobreza_estructural']
data_eph_hogar = data_eph[variables_hogar]

# Crear la matriz de correlación
colormap = plt.cm.viridis
plt.figure(figsize=(12, 12))
plt.title('Matriz de correlación hogar', y=1.05, size=15)

# Ajustar el tamaño de la fuente de los números en los cuadraditos
heatmap = sns.heatmap(data_eph_hogar.astype(float).corr(),
                      linewidths=0.1,
                      vmax=1.0,
                      square=True,
                      cmap=colormap,
                      linecolor='white',
                      annot=True,
                      annot_kws={"size": 8})  # Ajustar el tamaño de la fuente

# Cambiar las etiquetas de los ejes x e y
nuevos_nombres = {
    'IV2': 'Ambientes',
    'IV3': 'Pisos',
    'IV12_3': 'Villa Emergencias',
    'II8': 'Combustible cocina',
    'V2': 'Jubilaciones',
    'V4': 'Seguro Desempleo',
    'V5': 'Ayuda Social',
    'V13': 'Desahorro',
    'V14': 'Préstamos',
    'V17': 'V. Pertenencias',
    'IX_TOT': 'Cantidad de miembros',
    'IPCF': 'Ingreso pcf',
    'pobreza_estructural': 'Pobreza Estructural'
}

plt.xticks(range(len(variables_hogar)), [nuevos_nombres.get(var, var) for var in variables_hogar], rotation=45, ha="right")
plt.yticks(range(len(variables_hogar)), [nuevos_nombres.get(var, var) for var in variables_hogar])

# Guardar el gráfico en formato JPG
plt.savefig('matriz_correlacion_hogar.jpg', dpi=300, bbox_inches='tight')
plt.show()



Luego creamos una matriz de correlación centrada en aspectos individuales. En ellos incluímos: ingreso per cápita familiar, sexo, edad, estado civil, cobertura médica, si sabe leer o escribir, asistencia a establecimiento educativo, nivel educativo, condición de actividad, categoria de inactividad, estrategia. 

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Variables individuales con nombres
variables_individuales = ['IPCF', 'CH04', 'CH06', 'CH07', 'CH08', 'CH09', 'CH10', 'NIVEL_ED', 'ESTADO', 'CAT_INAC', 'estrategia']
data_eph_indiv = data_eph[variables_individuales]

# Crear la matriz de correlación
colormap = plt.cm.viridis
plt.figure(figsize=(12, 12))
plt.title('Matriz de correlación individuo', y=1.05, size=15)

# Ajustar el tamaño de la fuente de los números en los cuadraditos
heatmap = sns.heatmap(data_eph_indiv.astype(float).corr(),
                      linewidths=0.1,
                      vmax=1.0,
                      square=True,
                      cmap=colormap,
                      linecolor='white',
                      annot=True,
                      annot_kws={"size": 8})  # Ajustar el tamaño de la fuente

# Cambiar las etiquetas de los ejes x e y
nuevos_nombres = {
    'IPCF': 'Ingreso pcf',
    'CH04': 'Sexo',
    'CH06': 'Edad',
    'CH07': 'Estado Civil',
    'CH08': 'Cobertura Médica',
    'CH09': 'Alfabetización',
    'CH10': 'Escolarización',
    'NIVEL_ED': 'Nivel Educativo',
    'ESTADO': 'Condición de Actividad',
    'CAT_INAC': 'Condición Desocupado',
    'estrategia': 'Estrategia'
}

plt.xticks(range(len(variables_individuales)), [nuevos_nombres.get(var, var) for var in variables_individuales], rotation=45, ha="right")

# Ajustar las posiciones de las etiquetas del eje x
plt.setp(heatmap.get_xticklabels(), rotation=45, ha="right", rotation_mode="anchor")

plt.yticks(range(len(variables_individuales)), [nuevos_nombres.get(var, var) for var in variables_individuales])

# Guardar el gráfico en formato JPG
plt.savefig('matriz_correlacion_individuo.jpg', dpi=300, bbox_inches='tight')

plt.show()


### Ejercicio 6
Agregamos a nuestra base los valores de adultos equivalente y cosntruimos la variable pobre

In [None]:
# Nota: modificamos la tabla para que a cada edad desde 0 hasta 99 años se corresponda, según su sexo, con la proporción del adulto equivalente
# Importamos la base de datos con la que trabajaremos la cual se adjunta en GitHub. 
data_equiv = pd.read_excel("tabla_adulto_equiv.xlsx")

In [None]:
# Definimos una función lógica para que dentro de data_eph en caso que la persona sea un hombre (CH04=1) se asigne el valor 
# de la variable Varones dentro de la base de datos de adulto equivalente, haciendo coincidir la edad en data_eph con la de
# la variable Edad dentro de la base de datos de adulto equivalente. Realizamos el mismo procedimiento para las mujeres
data_eph['adulto_equiv'] = None
def assign_data_equiv(row):
    if row['CH04'] == 1:
        return data_equiv.loc[data_equiv['Edad'] == row['CH06'], 'Varones'].values[0]
    elif row['CH04'] == 2:
        return data_equiv.loc[data_equiv['Edad'] == row['CH06'], 'Mujeres'].values[0]
    else:
        return None

# Luego, realizamos este procedimiento para todas las filas de nuestra base de datos
data_eph['adulto_equiv'] = data_eph.apply(assign_data_equiv, axis=1)

In [None]:
# Imprimimos un resumen de nuestra variable creada para chequear que no tengamos valores raros o missing values
resumen_adulto = data_eph['adulto_equiv'].describe() 
missing_values_in_adulto_equiv = data_eph['adulto_equiv'].isnull().sum()

print("Cantidad de valores faltantes en la columna 'adulto_equiv':", missing_values_in_adulto_equiv)
print(resumen_adulto)       

In [None]:
# Por último, creamos la nueva variable adulto_equiv_hog que le asigna la suma de adultos equivalentes en el hogar a cada observación
data_eph['ad_equiv_hogar'] = data_eph.groupby('CODUSU')['adulto_equiv'].transform('sum')

In [None]:
# Contamos la cantidad de veces que la variable Ingreso Total Familiar (ITF) es igual a 0
count_IFT0 = (data_eph['ITF'] == 0).sum()

print(f"La cantidad de personas que no respondieron cuál es su ingreso total familiar es igual a {count_IFT0}")

In [None]:
# Creamos un DataFrame llamado "respondieron" con las observaciones donde la variable Ingreso total familiar es mayor que 0
respondieron = data_eph[data_eph['ITF'] > 0]

# Creamos un DataFrame llamado "no_respondieron" con las observaciones donde la variable Ingreso total familiar  es igual a 0
no_respondieron = data_eph[data_eph['ITF'] == 0]

In [None]:
# Agregamos la variable "ingreso_necesario" al DataFrame "respondieron" según el criterio específicado en la consigna
respondieron['ingreso_necesario'] = respondieron['ad_equiv_hogar'] * 57371.05
#respondieron.loc[:, 'ingreso_necesario'] = respondieron['ad_equiv_hogar'] * 57371.05


In [None]:
# Ahora agregamos la variable pobre, según si cumple la condición de que el ingreso familiar total para cada individuo es menor 
# al necesario para cubrir la canasta básica total (CBT)
respondieron.loc[:,'pobre'] = (respondieron['ITF'] <= respondieron['ingreso_necesario']).astype(int)

In [None]:
# Finalmente, contamos la cantidad de individuos que pueden ser considerados pobres
cantidad_de_pobres = respondieron['pobre'].sum()
total_observaciones = len(respondieron)
porcentaje_pobres = (cantidad_de_pobres / total_observaciones) * 100
print(f"La cantidad de pobres en la muestra es de {cantidad_de_pobres}")
print(f"El porcentaje de pobres de la muestra es de {porcentaje_pobres:.2f}%")

### Ejercicio 7
En este ejercicio utilizaremos el ponderador PONDIH para estimar la cantidad de hogares pobres en el Gran Buenos Aires

In [None]:
# Agrupamos los datos por el código del hogar (CODUSU)
data_eph_agrupada = respondieron.groupby('CODUSU').first().reset_index()


Creamos la variable "ponde_pobre" que se forma como la multiplicación del estado de ese hogar por la cantidad que pondera (PONDIH), de manera tal, que si sumamos este ponderador nos daría la cantidad de pobres. Para obtener la proporción, lo dividimos por la sumatoria de PONDIH. 


In [None]:
data_eph_agrupada['ponde_pobre'] = data_eph_agrupada['PONDIH'] * data_eph_agrupada['pobre']
cantidad_de_pobres = data_eph_agrupada['ponde_pobre'].sum()
total_poblacion = data_eph_agrupada['PONDIH'].sum()
porcentaje_pobres = (cantidad_de_pobres / total_poblacion) * 100
cantidad_de_pobres_formateada = '{:,}'.format(cantidad_de_pobres).replace(',', '.')
print(f"La cantidad de pobres en la muestra es de {cantidad_de_pobres_formateada}")
print(f"El porcentaje de pobres de la muestra es de {porcentaje_pobres:.2f}%")

En este caso, el informe del INDEC indica que los hogares en situación de pobreza para Buenos Aires y el Gran Buenos Aires es igual al 30,3. Este valor es similar al calculado por nosotros. 

Guardamos para trabjar después una copia de la base repsondieron y no repsondieron.

In [None]:
respondieron_copia = respondieron.copy()
no_respondieron_copia = no_respondieron.copy()