# TP 3: Análisis Descriptivo y Predicción de Desocupación
##### Fecha de entrega: 15 de noviembre de 2024##### Profesor: Walter Sosa Escudero, Tomás Pachecon

La Encuesta Permanente de Hogares (EPH) es un programa nacional de producción sistemática y permanente de indicadores sociales que lleva a cabo el Instituto Nacional de 
Estadística y Censos (INDEC), que permite conocer las características sociodemográfica 
y socioeconómicas de la población. Uno de los indicadores mas valiosos sobre el merca o
laboral que pueden obtenerse con los datos de esta encuesta es la tasa de desocupacióndas.

### Ejercicio 1
Utilizando información disponible en la pagina del INDEC, expliquen brevemente como se identifica a las personas desocupadas.

### Ejercicio 2
Entren a la pagina y vayan a la sección Servicios y 
Herramientas ->Bases de datos. Descarguen la base de microdatos de la Encuest 
Permanente de Hogares (EPH) correspondiente al primer trimestre de 2004 y 20 4
en formato .dta y .xls, respectivamente (una vez descargadas, las bases a usar deberán llamarse individual_T104.dta y usu_individual_T124.xls). En la pag na
web, también encontrará un diccionario de variables con el nombre de “Diseñ  de
registro y estructura para las bases preliminares (hogares y personas)”. Desca guen
el diccionario de cada año. En estos archivos se les indica qué significa cada va iable
que aparece en la base de datos, en particular, en la sección de Diseño de re istros
de la base Personas.

#### Parte A
Cada grupo va a trabajar con un aglomerado distinto (nosotros somos grupo 8 - Tucumán). Quédense con las observaciones correspondientes a su aglomerado y unan ambos trimestres en una sola base.

In [None]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns

#Parte A

# Para comenzar, definimos la carpeta
carpeta = "C:\\Users\\marti\\OneDrive\\Documentos\\GitHub\\Machine-Learning\\TP3"

# Definimos los nombres de los archivos
archivo_dta = "individual_T104.dta"
archivo_xls = "usu_individual_T124.xlsx"

# Cargamos el archivo .dta, que es la base del 2004
datos_dta = pd.read_stata(os.path.join(carpeta, archivo_dta))

# Cargamos el archivo .xls, que es la base del 2024
datos_xls = pd.read_excel(os.path.join(carpeta, archivo_xls))

# En primer lugar, vamos a solucionar un problema de codificación de los datos, lo cual nos facilitará la realización de todos los ejercicios en el futuro. 
# Establecemos el diccionario de mapeos para cada columna (ajustado según los valores exactos), según como aparecen en la base del 2004
mapeos = {
    'ch03': {'Jefe': 1, 'Cónyuge/Pareja': 2, 'Hijo/Hijastro': 3, 'Yerno/Nuera': 4, 'Nieto': 5, 'Madre/Padre': 6, 'Suegro': 7, 'Hermano': 8, 'Otros familiares': 9, 'No familiares': 10},
    'ch04': {'Varón': 1, 'Mujer': 2},
    'ch06': {'Menos de 1 año': 0, '98 y más años': 99},
    'ch07': {'Unido': 1, 'Casado': 2, 'Separado o divorciado': 3, 'Viudo': 4, 'Soltero': 5, 'Ns./Nr.': 9},
    'ch08': {'Obra social (incluye PAMI)': 1, 'Mutual/Prepaga/Servicio de emergencia': 2, 'Planes y seguros públicos': 3, 'No paga ni le descuentan': 4, 'Ns./Nr.': 9, 'Obra social y mutual/prepaga/servicio de emergencia': 1, 'Obra social y planes y seguros públicos': 1, 'Obra social, mutual/prepaga/servicio de emergencia y planes': 1, 'Mutual/prepaga/servicio de emergencia/planes y seguros públi': 2},
    'ch09': {'Sí': 1, 'No': 2, 'Menor de 2 años': 3, 'Ns./Nr.': 9 },
    'ch10': {'Sí, asiste': 1, 'No asiste, pero asistió': 2, 'Nunca asistió': 3, 'Ns./Nr.': 9},
    'ch11': {'Público': 1, 'Privado': 2, 'Ns./Nr.': 9},
    'ch12': {'Jardín/Preescolar': 1, 'Primario': 2, 'EGB': 3, 'Secundario': 4, 'Polimodal': 5, 'Terciario': 6, 'Universitario': 7, 'Posgrado Universitario': 8, 'Ns./Nr.': 0, 'Educación especial (discapacitado)': 9},
    'ch13': {'Sí': 1, 'No': 2, 'Ns./Nr.': 9},
    'ch14': {'Ninguno': 0, 'Primero': 1, 'Segundo': 2, 'Tercero': 3, 'Cuarto': 4, 'Quinto': 5, 'Sexto': 6, 'Séptimo': 7, 'Octavo': 8, 'Noveno': 9},
    'nivel_ed': {'Primaria Incompleta (incluye educación especial)': 1, 'Primaria Completa': 2, 'Secundaria Incompleta': 3, 'Secundaria Completa': 4, 'Superior Universitaria Incompleta': 5, 'Superior Universitaria Completa': 6, 'Sin instrucción': 7, 'Ns./Nr.': 9},
    'estado': {'Entrevista individual no realizada (no respuesta al cuestion': 0, 'Ocupado': 1, 'Desocupado': 2, 'Inactivo': 3, 'Menor de 10 años': 4},
    'cat_ocup': {'Patrón': 1, 'Cuenta propia': 2, 'Obrero o empleado': 3, 'Trabajador familiar sin remuneración': 4, 'Ns./Nr.': 9},
    'cat_inac': {'Jubilado/pensionado':1 ,'Rentista':2, 'Estudiante':3,'Ama de casa':4,  'Menor de 6 años':5, 'Discapacitado':6, 'Otros':7},

}
# Aplicar mapeos condicionalmente con .apply
for col, mapeo in mapeos.items():
    datos_dta[col] = datos_dta[col].apply(lambda x: mapeo.get(x, x))  # Si no encuentra el valor, deja el original

# Verificamos de los cambios queden realizados en la base de datos completa. 
for col in mapeos.keys():
    print(datos_dta[col].unique())
    print()

# Filtramos el DataFrame para quedarse solo con el aglomerado "Gran Tucumán - Tafí Viejo"
datos_tucuman04 = datos_dta[datos_dta['aglomerado'] == "Gran Tucumán - Tafí Viejo"]
datos_tucuman24 = datos_xls[datos_xls["AGLOMERADO"]== 29 ]

#Ahora, para unificar las bases de datos, vemos cuales son las columnas que tenemos en cada base, para que coincidan, haremos que se modifiquen y queden todas en mayúscula. 
datos_tucuman04.columns = datos_tucuman04.columns.str.upper()
datos_tucuman24.columns = datos_tucuman24.columns.str.upper()

# Creamos un nuevo objeto, en donde buscamos cuales son las columnas comunes en ambas bases, haciendo la unión.
columnas_comunes = set(datos_tucuman04.columns).union(set(datos_tucuman24.columns))

# Reindexar ambos DataFrames para tener las mismas columnas (y en el mismo orden)
datos_tucuman04 = datos_tucuman04.reindex(columns=columnas_comunes)
datos_tucuman24 = datos_tucuman24.reindex(columns=columnas_comunes)

# Concatenamos los DataFrames apilando uno debajo del otro
datos_panel = pd.concat([datos_tucuman04, datos_tucuman24], axis=0)

#Las volvemos a poner en el orden original para que sea mas sencilla su lectura
orden_columnas = datos_xls.columns
datos_panel = datos_panel[orden_columnas]

#### Parte B 
Si hay observaciones con valores que no tienen sentido, descártenlas (por ejemplo, ingresos y edades negativos). Expliquen las decisiones tomadas.

In [None]:
# Parte B
# Primero lo que queremos observar, es un resumen de todos los resultados, para evaluar si existen datos que no tienen sentido, y por tanto se deben descartar. 
# Creamos una lista para almacenar los resultados
resultados = []

# Iterar por cada columna y obtener los valores únicos y su frecuencia
for columna in datos_panel.columns:
    conteo = datos_panel[columna].value_counts(dropna=False)  # Incluye NaN si hay
    for valor, frecuencia in conteo.items():
        resultados.append({
            'Variable': columna,
            'Valor': valor,
            'Frecuencia': frecuencia
        })

# Convertir la lista de resultados en un DataFrame
resumen_df = pd.DataFrame(resultados)

#De este resumen aprendimos todos los valores dados en cada variable, y los comparamos con los valores esperados en el resumen otorgado por el indec. 
#Cabe destacar, que aunque no se detalla en dicho resumen, encontramos varios "0" en variables como H15, CH10, y CH11, entre otros, cuando no es una variable identificada. Asumimos que es una ausencia de la observación. 

# Ahora, eliminaremos los valores que no tienen sentido en los ingresos y los salarios. En estos dos casos, eliminaremos cualquier valor que sea negativo, conservando las ausencias de observaciones. 
# Definimos las columnas de ingreso y la columna de edad
columnas_ingreso = ['PP08D1', 'PP08D4', 'PP08F1', 'PP08F2', 'PP08J1', 'PP08J2', 'PP08J3']

# Convertimos columnas de ingreso y edad a formato numérico, forzando errores a NaN
datos_panel['CH06'] = pd.to_numeric(datos_panel['CH06'], errors='coerce')
for columna in columnas_ingreso:
    datos_panel[columna] = pd.to_numeric(datos_panel[columna], errors='coerce')

# Creamos un filtro para asegurar que todos los montos de ingreso y edad sean no negativos o NaN
filtro = (datos_panel['CH06'] >= 0) | (datos_panel['CH06'].isna())
for columna in columnas_ingreso:
    filtro &= (datos_panel[columna] >= 0) | (datos_panel[columna].isna())

# Aplicamos el filtro al DataFrame completo
datos_panel_limpio = datos_panel[filtro]

#### Parte C
Una vez hecha esa limpieza, realicen un gráfico de barras mostrando la composición por sexo para 2004 y 2024. Comenten los resultados

In [None]:
#Parte C

# Contar la cantidad de personas por año y sexo
conteo_sexo = datos_panel_limpio.groupby(['ANO4', 'CH04']).size().unstack()

# Crear el gráfico de barras
conteo_sexo.plot(kind='bar', stacked=True)
plt.title("Composición por Sexo en 2004 y 2024")
plt.xlabel("Año")
plt.ylabel("Cantidad de Personas")
plt.legend(["Varón", "Mujer"], title="Sexo")
plt.xticks(rotation=0)
plt.show()

#Lo que podemos observar de este gráfico, es que si bien la proporción de sexos se mantuvo medianamente constante en el tiempo, disminuyeron la cantidad de personas encuestadas para esta región entre el 2004 y el 2024.


#### Parte D
Realicen una matriz de correlación para 2004 y 2024 con las siguientes variables: CH04, CH06, CH07, CH08, NIVEL ED, ESTADO, CAT_INAC, IPCF. Utilicen alguno de los comandos disponibles en este link o este link para graficar la matriz de correlación. Comenten los resultados.

In [None]:
#Parte D 
variables_interes = ['CH04', 'CH06', 'CH07', 'CH08', 'NIVEL_ED', 'ESTADO', 'CAT_INAC', 'IPCF']


# Filtrar los datos de 2004 y 2024
datos_2004 = datos_tucuman04[variables_interes]
datos_2024 = datos_tucuman24[variables_interes]

# Calcular la matriz de correlación para 2004
corr_2004 = datos_2004.corr()

# Calcular la matriz de correlación para 2024
corr_2024 = datos_2024.corr()

# Mostrar las matrices de correlación
print("Matriz de correlación para 2004:")
print(corr_2004)
print("\nMatriz de correlación para 2024:")
print(corr_2024)

#Utilizamos como base el link propuesto en la consigna, y realizamos dos heatmaps para ver las correlaciones 

def heatmap(x, y, size, title):
    fig, ax = plt.subplots(figsize=(8, 8))
    
    # Obtener etiquetas de los ejes
    x_labels = [v for v in sorted(x.unique())]
    y_labels = [v for v in sorted(y.unique())]
    x_to_num = {p[1]: p[0] for p in enumerate(x_labels)} 
    y_to_num = {p[1]: p[0] for p in enumerate(y_labels)} 
    
    size_scale = 500  # Ajuste de tamaño para los cuadrados
    ax.scatter(
        x=x.map(x_to_num),  # Mapea los nombres en x a números
        y=y.map(y_to_num),  # Mapea los nombres en y a números
        s=size * size_scale,  # Escala del tamaño del cuadrado
        marker='s',  # Forma de cuadrado
        c=size,  # Color basado en el valor de correlación
        cmap="coolwarm",  # Paleta de colores para diferenciar valores
        vmin=-1, vmax=1  # Escala de color de -1 a 1
    )
    
    # Etiquetas en los ejes
    ax.set_xticks([x_to_num[v] for v in x_labels])
    ax.set_xticklabels(x_labels, rotation=45, horizontalalignment='right')
    ax.set_yticks([y_to_num[v] for v in y_labels])
    ax.set_yticklabels(y_labels)
    
    # Agregar título y barra de color
    plt.colorbar(ax.collections[0], ax=ax, orientation="vertical", fraction=0.046, pad=0.04)
    ax.set_title(title)

# Preparar los datos para el gráfico de dispersión con cuadrados para cada año
def prepare_corr_data(corr_matrix):
    corr = corr_matrix.reset_index().melt(id_vars='index')  # Transformar en formato largo
    corr.columns = ['x', 'y', 'value']
    return corr

corr_data_2004 = prepare_corr_data(corr_2004)
corr_data_2024 = prepare_corr_data(corr_2024)

# Crear gráficos para 2004 y 2024
heatmap(corr_data_2004['x'], corr_data_2004['y'], corr_data_2004['value'].abs(), "Matriz de Correlación - 2004")
heatmap(corr_data_2024['x'], corr_data_2024['y'], corr_data_2024['value'].abs(), "Matriz de Correlación - 2024")

plt.show()


#### Parte E
¿Cuántos desocupados hay en la muestra? ¿Cuántos inactivos? ¿Cuál es la media de ingreso per cápita familiar (IPCF) según estado (ocupado, desocupado, inactivo)?


In [None]:
#Parte E

# Contar desocupados e inactivos en la base de datos
desocupados = datos_panel_limpio[datos_panel_limpio['ESTADO'] == 'Desocupado'].shape[0]
inactivos = datos_panel_limpio[datos_panel_limpio['ESTADO'] == 'Inactivo'].shape[0]

print("En total hay", desocupados, "desocupados en la muestra")
print("En total hay", inactivos, "inactivos en la muestra")


# Calcular la media del ingreso per cápita familiar (IPCF) según estado
media_ingreso_xestado = datos_panel_limpio.groupby('ESTADO')['IPCF'].mean().round(2)

print("Media del ingreso según estado:")
print(media_ingreso_xestado)


### Ejercicio 3
Uno de los grandes problemas de la EPH es la creciente cantidad de hogares que no 
reportan sus ingresos (ver por ejemplo el siguiente informe). ¿Cuántas personas n 
respondieron cual es su condición de actividad? Guarden como una base distin a
llamada respondieron las observaciones do de respondieron la pregunta sobre su
condición de actividad (ESTADO). Las observaciones con ESTADO=0 guárdenla  en
una base bajo el nombre norespondieron

In [None]:
#Ejercicio 3

# Filtramos las observaciones donde sí respondieron (ESTADO ≠ 0)
respondieron = datos_panel_limpio[datos_panel_limpio['ESTADO'] != 0]

# Filtramos las observaciones donde no respondieron (ESTADO = 0)
norespondieron = datos_panel_limpio[datos_panel_limpio['ESTADO'] == 0]

# Contamos la cantidad de personas que no respondieron la condición de actividad
cantidad_norespondieron = norespondieron.shape[0]
print("Cantidad de personas que no respondieron su condición de actividad:", cantidad_norespondieron)
