<a href="https://colab.research.google.com/github/jeguns/EP7173/blob/main/Unidad%2002/02_Procedimientos_b%C3%A1sicos_de_preprocesamiento_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Procedimientos básicos de preprocesamiento de datos**

En esta oportunidad, trabajaremos con tablas de datos provenientes de la Encuesta Nacional de Hogares (ENAHO) del primer trimestre del año 2024. En específico, utilizaremos los módulos 100 (Características de la Vivienda y del Hogar) y 200 (Características de los Miembros del Hogar).

Fuente de datos: https://proyectos.inei.gob.pe/microdatos/

## **Pregunta 1**

Leer cada uno de los archivos indicados

In [None]:
import pandas as pd

In [None]:
pd.set_option('display.max_columns', None)

In [None]:
datos1=pd.read_csv('Enaho01-2024-100.csv', encoding='latin-1')
datos2=pd.read_csv('Enaho01-2024-200.csv', encoding='latin-1')

In [None]:
datos1

In [None]:
datos2

## **Pregunta 2**

Seleccione las variables que se mencionan a continuación:

Para ambos módulos, considerar las siguientes variables:

- CONGLOME: Número de conglomerado

- VIVIENDA: Número de selección de vivienda

- HOGAR: Número secuencial del Hogar

- UBIGEO: Ubicación geográfica

En particular, del módulo 100 se requerirá:

- FECENT: Fecha de Resultado final de la encuesta (Mes/Día/Año)

- P101: Tipo de vivienda
    1. Casa independiente
    2. Departamento en edificio
    3. Vivienda en quinta
    4. Vivienda en casa de vecindad(callejón solar o corralón)
    5. Choza o cabaña
    6. Vivienda improvisada
    7. Local no destinado para habitación humana
    8. Otro

- P104: ¿Cuántas habitaciones en total tiene la vivienda, sin contar el baño,la cocina, los pasadizos, ni el garage?

- P106: ¿Cuánto cree que le pagarían de alquiler mensual (en S/.) ?

- P106A: ¿Esta vivienda tiene titulo de propiedad?
    1. Si
    2. No

- P110: El agua que utilizan en el hogar ¿Procede principalmente de:
    1. Red pública, dentro de la vivienda
    2. Red pública, fuera de la vivienda pero dentro del edificio
    3. Pilón o pileta de uso público
    4. Camión-cisterna u otro similar
    5. Pozo (agua subterránea)
    6. Manantial o puquio
    7. Otra
    8. Río, acequia, lago, laguna

- P1141: Su hogar tiene: Teléfono (fijo):
    0. Pase
    1. Teléfono(fijo)

- P1142: Su hogar tiene: Teléfono Celular:
    0. Pase
    1. Teléfono Celular

- P1143: Su hogar tiene: Conexion a TV por cable o satelital
    0. Pase
    1. Conexión a TV por cable o satelital

- P1144: Su hogar tiene: Conexion a Internet
    0. Pase
    1. Conexión a Internet

Por otro lado, del módulo 200 se requerirá:

- CODPERSO: Número de orden de la persona

- P203: ¿Cuál es la relación de parentesco con el jefe(a) del hogar?
    0. Panel
    1. Jefe/Jefa
    2. Esposo(a)/compañero(a)
    3. Hijo(a)/Hijastro(a)
    4. Yerno/Nuera
    5. Nieto(a)
    6. Padres/Suegros
    7. Otros parientes
    8. Trabajador Hogar
    9. Pensionista
    10. Otros no parientes
    11. Hermano(a)

- P207: Sexo
    1. Hombre
    2. Mujer

- P208A: ¿Qúe edad tiene en años cumplidos ? (En años)

- P209: ¿Cuál es su estado civil o conyugal?
    1. Conviviente
    2. Casado(a)
    3. Viudo(a)
    4. Divorciado(a)
    5. Separado(a)
    6. Soltero(a)

- TICUEST01: Origen de cuestionario
    1. Cuestionario en hojas
    2. Cuestionario en Tablet


In [None]:
datos1 = datos1[['CONGLOME','VIVIENDA','HOGAR','UBIGEO','FECENT','P101','P104','P106','P106A','P110','P1141','P1142','P1143','P1144']]
datos1

In [None]:
datos2 = datos2[['CONGLOME','VIVIENDA','HOGAR','UBIGEO','CODPERSO','P203','P207','P208A','P209','TICUEST01']]
datos2

## **Pregunta 3**

Cree las columnas ID_HOGAR e id_hogar en los data frames de los módulos 100 y 200, respectivamente, concatenando los datos de conglomerado, vivienda y hogar.

In [None]:
datos1 = datos1.assign(ID_HOGAR = datos1['CONGLOME'].astype(str) + datos1['VIVIENDA'].astype(str) + datos1['HOGAR'].astype(str))

In [None]:
datos1.info()

In [None]:
datos2 = datos2.assign(id_hogar = datos2['CONGLOME'].astype(str) + datos2['VIVIENDA'].astype(str) + datos2['HOGAR'].astype(str))

In [None]:
datos2.info()

In [None]:
datos1

In [None]:
datos2

## **Pregunta 4**

Usando las columnas ID_HOGAR e id_hogar, combine los data frames mediante las siguientes reglas:

  a) Nombre de data frame: datos_personas
  
  Considerar a todas las personas, independientemente si pertenecen o no a un hogar.

In [None]:
datos_personas = pd.merge(datos1, datos2, left_on='ID_HOGAR', right_on='id_hogar', how='right', indicator=True)
datos_personas

In [None]:
datos_personas[datos_personas['_merge'] != "both"] # filtramos los datos de modo que _merge sea distinto a both
# filtramos los datos que no hayan coincidido en ambas tablas

  b) Nombre de data frame: datos_hogares
  
  Considerar a todos los hogares, independientemente si encuestaron a alguna persona o no dentro de cada uno de ellos.

In [None]:
datos_hogares = pd.merge(datos1, datos2, left_on='ID_HOGAR', right_on='id_hogar', how='left', indicator=True)
datos_hogares

In [None]:
datos_hogares[datos_hogares['_merge'] != "both"]

  c) Nombre de data frame: datos_int
  
  Considerar a todos los hogares en los que haya sido entrevistada alguna persona, y en consecuencia a todas las personas que pertenezcan a algún hogar (no hogares vacíos ni personas sin vivienda u hogar).

In [None]:
datos_int = pd.merge(datos1, datos2, left_on='ID_HOGAR', right_on='id_hogar', how='inner', indicator=True)
datos_int

In [None]:
datos_int[datos_int['_merge'] != "both"]

 d) Nombre de data frame: datos_uni

  Considerar a todos los hogares (con o sin personas entrevistadas) así como a todas las personas (que pertenezcan o no a algún hogar).

In [None]:
datos_uni = pd.merge(datos1, datos2, left_on='ID_HOGAR', right_on='id_hogar', how='outer',indicator=True)
datos_uni

In [None]:
datos_uni[datos_uni['_merge'] != "both"]

## **Pregunta 5**

A partir de esta pregunta, ejecutar los códigos usando datos_int. Cambiar los nombres de las variables:

  - CONGLOME_x: Conglome
  -	VIVIENDA_x: Vivienda
  - HOGAR_x: Hogar
  - UBIGEO_x: Ubigeo
  - FECENT: FecEnt
  - P101: TipoVivienda
  - P104: NumHab
  - P106: ValorAlq
  - P106A: Titulo
  - P110: Agua
  - P1141: TelFijo
  - P1142: TelCel
  - P1143: tvCable
  - P1144: Internet
  - CODPERSO: CodPerso
  - P203: Parentesco
  - P207: Sexo
  - P208A: Edad
  - P209: EstCivil
  - TICUEST01: TipoCuest

In [None]:
nuevos_nombres = {'CONGLOME_x':'Conglome', 'VIVIENDA_x':'Vivienda', 'HOGAR_x':'Hogar', 'UBIGEO_x':'Ubigeo', 'FECENT':'FecEnt',
                  'P101':'TipoVivienda', 'P104':'NumHab', 'P106':'ValorAlq', 'P106A':'Titulo','P110':'Agua',
                  'P1141':'TelFijo', 'P1142':'TelCel', 'P1143':'tvCable', 'P1144':'Internet',
                  'CODPERSO':'CodPerso', 'P203':'Parentesco', 'P207':'Sexo', 'P208A':'Edad', 'P209':'EstCivil', 'TICUEST01': 'TipoCuest'}
datos_int.rename(columns=nuevos_nombres, inplace=True)
datos_int

In [None]:
columnas_drop = [col for col in datos_int.columns if col.endswith("_y")] + ["id_hogar", "_merge"] # almacenamos en una lista las variables que serán eliminadas
datos_int.drop(columnas_drop, axis=1, inplace = True) # realizamos la eliminación de las variables que han sido definidas

In [None]:
columnas = datos_int.columns.tolist()
columnas = ['ID_HOGAR'] + [col for col in columnas if col != 'ID_HOGAR']
datos_int = datos_int[columnas]

## **Pregunta 7**

Identificar cuantos valores perdidos hay en cada variable, ¿existe alguna totalmente completa? ¿cuál es la que tiene mayor cantidad de perdidos?

In [None]:
datos_int.isna().sum(axis=0) # Suma la cantidad de datos perdidos por columnas

In [None]:
datos_int.info()

In [None]:
datos_int

In [None]:
import numpy as np
datos_int.replace([" ", "","999","99999"], np.NAN, inplace=True)
datos_int.isna().sum(axis=0)

In [None]:
datos_int

## **Pregunta 8**

Verifique que cada una de las variables sea del tipo que se indica a continuación. De no ser así, modificar:

- Conglome: string

- Vivienda: string

- Hogar: string

- Ubigeo: string

- FecEnt: string

- TipoVivienda: string

- NumHab: int

- ValorAlq: float

- Titulo: string

- Agua: string

- TelFijo: string

- TelCel: string

- tvCable: string

- Internet: string

- Parentesco: string

- Sexo: string

- Edad: int

- EstCivil: string

- TipoCuest: string

Revisar [aquí](https://pbpython.com/pandas_dtypes.html) acerca de los tipos de datos en Python

Ya que el resultado es False, el tipo de dato en Conglome no es string

In [None]:
datos_int["Conglome"].dtype == str # se valida si el tipo de dato almacenado en Conglome es string

In [None]:
datos_int["Conglome"]

In [None]:
datos_int.dtypes

In [None]:
datos_int["Conglome"] = datos_int["Conglome"].astype(str)

In [None]:
for col in ["Vivienda", "Hogar", "Ubigeo", "FecEnt", "Parentesco", "TipoCuest"]:
  datos_int[col] = datos_int[col].apply(str)

In [None]:
for col in ["NumHab", "Edad"]:
  datos_int[col] = datos_int[col].fillna(999)
  datos_int[col] = datos_int[col].apply(int)
  datos_int[col] = datos_int[col].replace(999, np.nan)

In [None]:
for col in ["ValorAlq"]:
  datos_int[col] = datos_int[col].apply(float)

In [None]:
datos_int.dtypes

## **Pregunta 9**

Recategorizar la variable TipoVivienda, de modo que los nuevos valores sean:

- Antes: Casa independiente (1), Departamento en edificio (2)

  Ahora: Vivienda adecuada (1)

- Antes: Vivienda en quinta (3), Vivienda en casa de vecindad (4), Choza o cabaña (5), Vivienda improvisada (6), Local no destinado para habitación humana (7)

  Ahora: Vivienda precaria (2)




In [None]:
datos_int["TipoVivienda"].value_counts() # Obtenemos una tabla de frecuencias para la variable TipoVivienda, ordenada por frecuencias.

In [None]:
datos_int["TipoVivienda"].value_counts().reset_index().sort_values(by = "TipoVivienda") # Obtenemos una tabla de frecuencias para la variable TipoVivienda, ordenada por categorías.

In [None]:
datos_int.groupby('TipoVivienda').size().reset_index(name='Frecuencia') # Otra manera de obtener la tabla de frecuencias

In [None]:
pip install researchpy

In [None]:
import researchpy as rp

In [None]:
rp.summary_cat(datos_int['TipoVivienda'])

In [None]:
rp.summary_cat(datos_int['TipoVivienda'])

In [None]:
datos_int["TipoVivienda2"] = datos_int["TipoVivienda"].replace({"1": "1",
                                                                "2": "1",
                                                                "3": "2",
                                                                "4": "2",
                                                                "5": "2",
                                                                "6": "2",
                                                                "7": "2"})
datos_int.groupby('TipoVivienda2').size().reset_index(name='Frecuencia')

In [None]:
datos_int["TipoVivienda3"] = datos_int["TipoVivienda"].replace(["1","2"], "1")
datos_int["TipoVivienda3"] = datos_int["TipoVivienda3"].replace(["3","4","5","6","7"], "2")

In [None]:
#datos_int["TipoVivienda"].replace(["1","2"], "1", inplace = True)
#datos_int["TipoVivienda"].replace(["3","4","5","6","7"], "2", inplace = True)
#¿Qué sucedería su ejecutamos este código?

In [None]:
pd.crosstab(datos_int["TipoVivienda"], datos_int["TipoVivienda2"]) # Realizamos una tabla cruzada de la variable original y la variable recategorizada

In [None]:
pd.crosstab(datos_int["TipoVivienda"], datos_int["TipoVivienda3"]) # Realizamos una tabla cruzada de la variable original y la variable recategorizada

De esta manera, hemos verificado que las categorías se han actualizado correctamente.

## **Pregunta 10**

Categorizar la variable Edad, de modo que se consideren las siguientes reglas:

- De 0 a 11 años: Niño
- De 12 a 17 años: Adolescente
- De 18 a 29 años: Joven
- De 30 a 59 años: Adulto
- De 60 a más años: Adulto mayor


In [None]:
datos_int.Edad.value_counts()

In [None]:
#datos_int.Edad.value_counts().reset_index().sort_values(by = "Edad")
datos_int.groupby('Edad').size().reset_index(name='Frecuencia')

In [None]:
datos_int['Grupo_Edad'] = pd.cut(datos_int['Edad'],
                                 bins = [-1, 11, 17, 29, 59, 100, float('inf')],
                                 #labels = ['Niño', 'Adolescente', 'Joven', 'Adulto', 'Adulto mayor', 'Sin datos'],
                                 right = True)

In [None]:
datos_int['Grupo_Edad'] = pd.cut(datos_int['Edad'],
                                 bins = [0, 12, 18, 30, 60, 101, float('inf')],
                                 labels = ['Niño', 'Adolescente', 'Joven', 'Adulto', 'Adulto mayor', 'Sin datos'],
                                 right = False)

In [None]:
datos_int[['Edad','Grupo_Edad']]

In [None]:
#datos_int.Grupo_Edad.value_counts().reset_index().sort_values(by = "Grupo_Edad")
datos_int.groupby('Grupo_Edad').size().reset_index(name='Frecuencia')

## **Pregunta 11**

Crear variables dummy a partir de la variable categórica creada en la pregunta anterior.

In [None]:
datos_int

In [None]:
datos_int = pd.get_dummies(datos_int, columns=['Grupo_Edad'], prefix=['DU'])
datos_int

In [None]:
variables_dummy = pd.get_dummies(datos_int['EstCivil'].astype(str), prefix='EC')
datos_int = pd.concat([datos_int, variables_dummy], axis=1)
datos_int

### **Pregunta 12**

Estandarizar la variable ValorAlq

In [None]:
datos_int['ValorAlq_st'] = (datos_int['ValorAlq'] - datos_int['ValorAlq'].mean()) / datos_int['ValorAlq'].std()
datos_int[['ValorAlq','ValorAlq_st']]

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
datos_int['ValorAlq_st2'] = scaler.fit_transform(datos_int[['ValorAlq']])
datos_int[['ValorAlq','ValorAlq_st','ValorAlq_st2']]

In [None]:
datos_int['ValorAlq_st3'] = (datos_int['ValorAlq'] - datos_int['ValorAlq'].min()) / (datos_int['ValorAlq'].max()- datos_int['ValorAlq'].min())
datos_int[['ValorAlq','ValorAlq_st3']]

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
datos_int['ValorAlq_st4'] = scaler.fit_transform(datos_int[['ValorAlq']])
datos_int[['ValorAlq','ValorAlq_st3','ValorAlq_st4']]

### **Pregunta 13**

A partir de la columna FecEnt, crear una variable llamada Mes_Ent, que viene a ser el mes del resultado de la encuesta

In [None]:
datos_int['FecEnt']

In [None]:
datos_int['Mes_Ent']   = pd.to_datetime(datos_int['FecEnt']).dt.month

In [None]:
datos_int[['FecEnt','Mes_Ent']]

In [None]:
datos_int['Fecha_Ent'] = pd.to_datetime(datos_int['FecEnt'])
datos_int['Mes_Ent']   = datos_int['Fecha_Ent'].dt.month

datos_int['Mes_Ent']   = pd.to_datetime(datos_int['FecEnt']).dt.month

datos_int[['FecEnt','Fecha_Ent','Mes_Ent']]

¿Cuál fue el primer y último día en el que se ejecutó la encuesta correspondiente al primer trimestre del 2022?

In [None]:
print('Primer día:', datos_int['Fecha_Ent'].min())

In [None]:
print('Primer día:', datos_int['Fecha_Ent'].min().strftime('%Y-%m-%d'))

In [None]:
print('Último día:', datos_int['Fecha_Ent'].max().strftime('%d-%b-%y'))

### **Pregunta 14**

Seleccionar a las personas que son menores de edad

In [None]:
datos_f1 = datos_int.loc[datos_int['Edad'] < 18]
datos_f1[['Edad']].describe()

- Hay 8874 menores de edad en la muestra
- La edad promedio de los menores de edad es de 9.16 años
- Al menos el 50% de los menores de edad tiene 9 años como máximo.
- Al menos el 75% de los menores de edad tiene hasta 14 años.

### **Pregunta 15**

Seleccionar los hogares ubicados en viviendas que son adecuadas, que cuentan con teléfono fijo pero no internet.

¿La edad promedio de las personas de estos hogares es mayor que en aquellos que tienen estas mismas características excepto que no cuentan con teléfono fijo?

In [None]:
# viviendas que son adecuadas, que cuentan con teléfono fijo pero no internet.
datos_f2 = datos_int.loc[(datos_int['TipoVivienda2'] == "1") & (datos_int['Internet'] == "0") & (datos_int['TelFijo'] == "1")]

In [None]:
# viviendas que son adecuadas, que no cuentan con teléfono fijo pero no internet.
datos_f3 = datos_int.loc[(datos_int['TipoVivienda2'] == "1") & (datos_int['Internet'] == "0") & (datos_int['TelFijo'] == "0")]

In [None]:
datos_f2.Edad.mean() # con teléfono fijo, sin internet

In [None]:
datos_f3.Edad.mean() # sin teléfono fijo, sin internet

La edad promedio de las personas que habitan una vivienda adecuada, no tienen internet pero sí teléfono fijo es de 60.9 años. Mientras que aquellas que **no tienen el servicio de teléfono fijo**, tienen una edad media **26 años menor**.

### **Pregunta 16**

Filtrar a las mujeres que tienen más de 55 años y que habitan en viviendas con menos de 5 habitaciones y cuyo servicio de agua proviene de la red pública, dentro de la vivienda.

In [None]:
# Importante: colocar cada condición entre paréntesis, de lo contrario arroja error
datos_f4 = datos_int.loc[(datos_int['Sexo'] == "2") & (datos_int['Edad']>55) & (datos_int['NumHab'] < 5) & (datos_int['Agua'] == "1")]
datos_f4[['Sexo','Edad','NumHab','Agua']]

In [None]:
datos_f4[['Sexo','Edad','NumHab','Agua']].describe()

In [None]:
datos_f4[['Sexo','Edad','NumHab','Agua']].describe(include = 'all')

### **Pregunta 17**

Seleccionar los hogares que cuentan con título de propiedad y que reciben agua de Pilón o pileta de uso público o Camión-cisterna u otro similar. Luego, verifique si el precio mediano de alquiler de estas viviendas es mayor a 350 soles, y comente su distribución / forma / asimetría.

In [None]:
datos_f5 = datos_int.loc[(datos_int['Titulo'] == "1") & ((datos_int['Agua'] == "3") | (datos_int['Agua'] == "4"))]

In [None]:
datos_f5.ValorAlq.median()

Al menos el 50% de los hogares que cuentan con título de propiedad y que reciben agua de Pilón o pileta de uso público o Camión-cisterna u otro similar considera que recibiría 150 soles o menos por alquiler

In [None]:
from scipy.stats import skew
skew(datos_f5['ValorAlq'])

Los montos percibidos de alquiler tienen una distribución asimétrica a la derecha, eso significa que gran parte de los precios están concentrados en valores bajos.

In [None]:
import matplotlib.pyplot as plt
plt.hist(datos_f5['ValorAlq'], color='skyblue', edgecolor='black')
plt.xlabel('Valor en soles')
plt.ylabel('Frecuencia')
plt.title('Distribución del precio')
plt.show()