# Importando los paquetes que vamos a usar

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

# Carga de los datos

In [2]:
base_path = "dataset/datos_hogar_2020.csv"
df_global = pd.read_csv(base_path)

# Funciones comunes a todos los casos de estudio

Definimos en esta sección las funciones que vamos a usar a lo largo de todos los casos de estudio:

# Filtrado previo del dataset global

Definimos en variables todas las columnas que, al leer el documento explicando el *dataset*, nos han resultado de interés. Una vez hecho esto, filtramos el *dataset* global para quedarnos solo con esas columnas, pues el resto no las vamos a usar en ningún caso de estudio. Es más, muchas de estas columnas no las usaremos en ninguno de los tres casos de estudio.

In [3]:
# Definimos las columnas con las que nos vamos a quedar
renta_disponible_total_hogar = "HY020"
renta_ganada_alquilando = "HY040N"
ayuda_para_vivienda = "HY070N"
inversiones_de_capital = "HY090N"
retraso_pago_hipoteca_o_alquiler = "HS011"
retraso_pago_luz_agua_gas = "HS021"
retraso_pago_prestamos = "HS031"
capacidad_hogar_llegar_fin_mes = "HS120"
ingresos_minimos_para_llegar_fin_mes = "HS130"
vandalismo_en_la_zona = "HS190"

tipo_de_vivienda = "HH010"
regimen_de_tenencia_vivienda = "HH021"
habitaciones_vivienda = "HH030"

pidio_ayuda_economica_familiares = "H39A_U"
pidio_ayuda_economica_entidad = "H39B_U"
corte_energia = "H38A_U"

numero_miembros_hogar = "HX040"
tipo_de_hogar = "HX060" # Variable numerica categorica con muchos valores posibles
hogar_en_riesgo_pobreza = "vhPobreza"
hogar_carencia_material_severa = "vhMATDEP"

proposito_prestamos = lambda i: f"HI100_{i}"

cuota_hipoteca = "cuotahip"

# TODO -- estas variables no las tenemos disponibles en el dataset
#gasto_en_comida = "HC010"
#gasto_en_comida_bebida_fuera_casa = "HC020"
#gasto_transporte_publico = "HC030"
#gasto_transporte_privado = "HC040"
#viviendas_adicionales = "HV020"
#año_nacimiento = "PB140"
#sexo = "PB150"

# Filtramos todo el dataframe global para usar solo variables que en una primera
# lectura de las variables hemos considerado interesantes
df_global = df_global[[
    renta_disponible_total_hogar,
    renta_ganada_alquilando,
    ayuda_para_vivienda,
    inversiones_de_capital,
    retraso_pago_hipoteca_o_alquiler,
    capacidad_hogar_llegar_fin_mes,
    ingresos_minimos_para_llegar_fin_mes,
    vandalismo_en_la_zona,
    tipo_de_vivienda,
    regimen_de_tenencia_vivienda,
    habitaciones_vivienda,   
    pidio_ayuda_economica_familiares,
    pidio_ayuda_economica_entidad,
    corte_energia,
    numero_miembros_hogar,
    tipo_de_hogar,
    hogar_en_riesgo_pobreza,
    hogar_carencia_material_severa,

    # TODO -- borrar los propositos porque no parecen muy relevantes
    proposito_prestamos(1),
    proposito_prestamos(2),
    proposito_prestamos(3),
    proposito_prestamos(4),
    proposito_prestamos(5),
    proposito_prestamos(6),
    proposito_prestamos(7),
    proposito_prestamos(8),
    proposito_prestamos(9),  
    
    cuota_hipoteca,
]]

Veamos con qué tipo de datos nos hemos quedado:

In [4]:
df_global.describe()

Unnamed: 0,HY020,HY040N,HY070N,HY090N,HS011,HS120,HS130,HS190,HH010,HH021,...,HI100_1,HI100_2,HI100_3,HI100_4,HI100_5,HI100_6,HI100_7,HI100_8,HI100_9,cuotahip
count,15043.0,15043.0,15043.0,15043.0,6538.0,15029.0,14577.0,15036.0,15033.0,15043.0,...,3907.0,3906.0,3906.0,3906.0,3906.0,3906.0,3906.0,3905.0,3905.0,3949.0
mean,31923.953455,597.200527,44.600766,439.817903,2.858978,3.600905,1863.563628,1.861599,2.975254,1.841388,...,1.741234,1.536354,1.988223,1.93446,1.975678,1.903226,1.937532,1.978745,1.820743,472.389466
std,22626.48455,2487.349778,489.955873,3229.657848,0.420883,1.27772,1052.184371,0.345332,1.126062,1.118719,...,0.438013,0.49874,0.107894,0.247508,0.154065,0.295688,0.242035,0.144251,0.383617,278.946452
min,-36233.2,0.0,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
25%,16505.95,0.0,0.0,0.0,3.0,3.0,1200.0,2.0,2.0,1.0,...,1.0,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,300.0
50%,27535.71,0.0,0.0,0.0,3.0,4.0,1600.0,2.0,3.0,1.0,...,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,412.0
75%,41390.35,0.0,0.0,31.8,3.0,5.0,2200.0,2.0,4.0,2.0,...,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,580.0
max,349862.13,70271.0,21600.0,95460.2,3.0,6.0,60000.0,2.0,4.0,5.0,...,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,6800.0


# Variables añadidas

También queremos usar variables agregadas usando las variables en bruto que ya tenemos en el dataset. 

Tenemos tres tipos de variable que nos indican si pidieron ayuda a algún ente, divididas en tres tipos de ente. Nos interesa solo si pidieron ayuda, no a quién

In [5]:
def pidio_ayuda_condicion(ayuda_familiar, ayuda_entidad):
    """Comprueba si, dadas las columnas de ayuda familiar y ayuda de entidad,
    se pidio ayuda o no se pidio"""
    
    if ayuda_familiar == 1 or ayuda_entidad == 1:
        return True
    else:
        return False


# Añadimos la nueva columna usando la condicion que hemos definido previamente
df_global["pidio_ayuda"] = df_global.apply(lambda row: pidio_ayuda_condicion(row[pidio_ayuda_economica_familiares], row[pidio_ayuda_economica_entidad]), axis = 1)

Queremos tener una variable en la que dispongamos del dinero que le queda a una familia, de la forma $total\_ingresos - total\_gastos$ 

# Caso de estudio 01

## Definición del caso de estudio

En este caso de estudio queremos poner nuestra atención en 

In [6]:
df_global[pidio_ayuda_economica_entidad]

0       -2
1        6
2       -2
3        6
4       -2
        ..
15038    6
15039   -2
15040    6
15041    6
15042    6
Name: H39B_U, Length: 15043, dtype: int64