### TRABAJO PRÁCTICO N° 4 MÉTODOS SUPERVISADOS: REGRESIÓN & CLASIFICACIÓN USANDO LA EHP

#### A. Enfoque de validación

###

In [279]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

class DivisionDatos:
    def __init__(self):
        self.variables_independientes = ['CH04', 'CH06', 'CAT_OCUP', 'PP02H', 'CH08']
        self.datos = None
        
    def cargar_datos(self, archivo="Base_Respondieron.xlsx"):
        self.datos = pd.read_excel(archivo)
        columnas_necesarias = ['ESTADO', 'ANO4'] + self.variables_independientes
        self.datos = self.datos.dropna(subset=columnas_necesarias)
        return self
    
    def preparar_variables(self, df):
        y = (df['ESTADO'] == 'Desocupado').astype(int)
        X = pd.get_dummies(df[self.variables_independientes], drop_first=True)
        X.insert(0, 'intercepto', 1)
        return X, y
    
    def dividir_por_año(self, año):
        df_año = self.datos[self.datos['ANO4'] == año].copy()
        if len(df_año) == 0:
            return None
        
        X, y = self.preparar_variables(df_año)
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.7, random_state=444, stratify=y)
        
        return {
            'X_train': X_train, 'X_test': X_test, 'y_train': y_train, 'y_test': y_test, 'df_año': df_año, 'año': año
        }
    
    def guardar_datasets(self, resultado):
        año = resultado['año']
        
        train_df = resultado['X_train'].copy()
        train_df['y_desocupado'] = resultado['y_train'].values
        test_df = resultado['X_test'].copy()
        test_df['y_desocupado'] = resultado['y_test'].values
        
        train_df.astype(int).to_excel(f'train_data_{año}.xlsx', index=False)
        test_df.astype(int).to_excel(f'test_data_{año}.xlsx', index=False)
        
        df_año = resultado['df_año']
        X_original, y_original = self.preparar_variables(df_año)
        X_train_temp, X_test_temp, _, _ = train_test_split(X_original, y_original, test_size=0.7, random_state=444, stratify=y_original)
        
        df_año.loc[X_train_temp.index].to_excel(f'train_original_{año}.xlsx', index=False)
        df_año.loc[X_test_temp.index].to_excel(f'test_original_{año}.xlsx', index=False)
    
    def procesar_todos_los_años(self):
        for año in sorted(self.datos['ANO4'].unique()):
            resultado = self.dividir_por_año(año)
            if resultado:
                self.guardar_datasets(resultado)

def main():
    DivisionDatos().cargar_datos().procesar_todos_los_años()

if __name__ == "__main__":
    main() 

In [280]:
import pandas as pd
import numpy as np

class AnalisisDiferenciasMedias:
    def __init__(self):
        self.años = [2004, 2024]
        
    def cargar_bases(self, año):
        train_df = pd.read_excel(f'train_data_{año}.xlsx')
        test_df = pd.read_excel(f'test_data_{año}.xlsx')
        return train_df, test_df
    
    def calcular_diferencias_medias(self, train_df, test_df, año):
        variables_x = [col for col in train_df.columns if col != 'y_desocupado']
        
        train_x = train_df[variables_x]
        test_x = test_df[variables_x]
        
        medias_train = train_x.mean()
        medias_test = test_x.mean()
        
        tabla_diferencias = pd.DataFrame({
            'Variable': variables_x,
            'Media_Train': medias_train.values,
            'Media_Test': medias_test.values,
            'Diferencia': (medias_train - medias_test).values,
            'Diferencia_Abs': abs(medias_train - medias_test).values,
            'Año': año
        })
        
        tabla_diferencias = tabla_diferencias.sort_values('Diferencia_Abs', ascending=False)
        return tabla_diferencias
    
    def analizar_todos_los_años(self):
        for año in self.años:
            train_df, test_df = self.cargar_bases(año)
            tabla = self.calcular_diferencias_medias(train_df, test_df, año)
            
            print(f"Año {año}:")
            print(f"  Variables: {len(tabla)}")
            print(f"  Mayor diferencia: {tabla['Diferencia_Abs'].max():.4f}")
            print(f"  Promedio diferencias: {tabla['Diferencia_Abs'].mean():.4f}")
            
            print("  Top 3 mayores diferencias:")
            for i, (_, row) in enumerate(tabla.head(3).iterrows()):
                print(f"    {i+1}. {row['Variable']}: {row['Diferencia']:.4f}")
            print()

analizador = AnalisisDiferenciasMedias()
analizador.analizar_todos_los_años()

Año 2004:
  Variables: 102
  Mayor diferencia: 0.0138
  Promedio diferencias: 0.0019
  Top 3 mayores diferencias:
    1. CH04_Varón: 0.0138
    2. CH08_No paga ni le descuentan: 0.0115
    3. CH08_Obra social (incluye PAMI): -0.0094

Año 2024:
  Variables: 106
  Mayor diferencia: 0.0078
  Promedio diferencias: 0.0018
  Top 3 mayores diferencias:
    1. CH04_Varón: 0.0078
    2. CH08_Obra social (incluye PAMI): 0.0063
    3. CH06_21: -0.0061



#### PARTE B Base de Entrenamiento 2004


In [281]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns


In [359]:
#Vuelvo a calcular las variables Previamente calculadas del TP3 pero conla base de datos de "TRAININ"
df_trainin = pd.read_excel("Base_Final.xlsx")

#Variable salario_semanal:
df = pd.read_excel("Base_Final.xlsx")

df.loc[df['ANO4'] == 2004, 'P21'] = df.loc[df['ANO4'] == 2004, 'P21'] * 18000

df['salario_semanal'] = df['P21'] / 40

#Variable Educ
df['CH12'] = df['CH12'].replace(['0', 'Ns./Nr.', '99', 'Jardín/preescolar', 'Jardín/Preescolar'], 'No tiene')
df['CH12'] = df['CH12'].replace(['EGB'], 'Primario')
df['CH12'] = df['CH12'].replace(['Educación especial (discapacitado)'], 'No tiene')

años_base = {
    'Primario': 6,
    'Secundario': 12,
    'Polimodal': 12,
    'Superior no universitario': 15,
    'Universitario': 17,
    'Terciario': 15,
}


def calcular_años_educacion(row):
    nivel = row['CH12']
    finalizo = row['CH13']
    año_aprobado = row['CH14']
    
    if pd.isna(nivel) or nivel == 'No tiene':
        return 0
    
    if finalizo == 'Sí':
        return años_base.get(nivel, 0)
    else:
        base = 0
        if nivel in ['Secundario', 'Polimodal']:
            base = 6
        elif nivel in ['Terciario', 'Superior no universitario', 'Universitario']:
            base = 12

        try:
            return base + int(año_aprobado)
        except:
            return base

df['educ'] = df.apply(calcular_años_educacion, axis=1)

descripcion = df['educ'].describe()

#variable horas trab
df['horastrab'] = df['PP3E_TOT'] + df['PP3F_TOT']


#Limpio los Nan y celdas vacías, asumimos que En edades aquellos que todavía no cumple 1 año concreto igualmente lo estan viviendo, apra asi reemplazar los "Menores de 1 año" por 1.

df['horastrab_']= df['horastrab'].fillna(0)
df["CH06_"] = pd.to_numeric(df['CH06'], errors='coerce')
df['edad'] = df["CH06_"].replace('Menos de 1 año', 0)
df["Edad"] = df['edad'].fillna(1)

#vaiable edad2
df["Edad2"] = df["Edad"] **2 

#variable mujer

df["Mujer"] = df["CH04"].map({
    "Mujer": 1,
    "Varón": 2,})
#variable CAT_OCUP DETEERMINA LA RELACIÓN LABORAL (0=NO TIENE O SE ENCUENTRA INACTIVO)
df["Cond_OCU"] = df["CAT_OCUP"].map({
    "Obrero o empleado": 1,
    "Cuenta propia": 2,
    "Patrón": 3
}).fillna(0) 

#VARIABLE CH16 INDICA SI EN DONDE SE ENCEUNTRA SU TRABAJO. (0 si se neiga a responder)

df["UBI_TRA"] = df["CH16"].map({
    "En esta localidad": 1,
    "En otra localidad de esta provincia": 2,
    "En otra provincia (especificar)": 3
}).fillna(0)  


#### PUNTO 2

In [51]:
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
import statsmodels.api as sm

In [417]:
#SALARIO SEMANAL EN EDAD
x= df["Edad"]
y= df['salario_semanal']

x, y = np.array(x), np.array(y)
x = sm.add_constant(x)

model = sm.OLS(y, x)

results = model.fit()

print(results.summary())

print('predicted response:\n', results.predict(x)) 

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.009
Model:                            OLS   Adj. R-squared:                  0.009
Method:                 Least Squares   F-statistic:                     276.0
Date:                Sun, 01 Jun 2025   Prob (F-statistic):           1.06e-61
Time:                        18:57:44   Log-Likelihood:            -3.8987e+05
No. Observations:               29231   AIC:                         7.798e+05
Df Residuals:                   29229   BIC:                         7.798e+05
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       2.541e+04   1620.288     15.683      0.0

In [427]:
#SALARIO SEMANAL EN EDAD Y EDAD2
XEE = np.array(df[['Edad', 'Edad2']])
y = np.array(df['salario_semanal'])

x, y = np.array(XEE), np.array(y)
XEE_ = sm.add_constant(XEE)

model_EE = LinearRegression().fit(XEE_, y)
r2 = model_EE.score(XEE_, y)


model_EE_ = sm.OLS(y, XEE_)

resultsEE = model_EE_.fit()
print(resultsEE.summary())

print('predicted response:\n', resultsEE.fittedvalues)

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.063
Model:                            OLS   Adj. R-squared:                  0.063
Method:                 Least Squares   F-statistic:                     976.6
Date:                Sun, 01 Jun 2025   Prob (F-statistic):               0.00
Time:                        18:59:21   Log-Likelihood:            -3.8907e+05
No. Observations:               29231   AIC:                         7.781e+05
Df Residuals:                   29228   BIC:                         7.782e+05
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       -4.54e+04   2345.605    -19.354      0.0

In [425]:
#SALARIO SEMANAL EN EDAD , EDAD2 Y EDUC
XEEE = np.array(df[['Edad', 'Edad2', 'educ']] )
y = np.array(df['salario_semanal'])

x, y = np.array(XEEE), np.array(y)
XEEE_ = sm.add_constant(XEEE)

model_EEE = LinearRegression().fit(XEEE_, y)
r2 = model_EEE.score(XEEE_, y)


model_EEE_ = sm.OLS(y, XEEE_)

resultsEEE = model_EEE_.fit()
print(resultsEEE.summary())

print('predicted response:\n', resultsEEE.fittedvalues)

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.066
Model:                            OLS   Adj. R-squared:                  0.066
Method:                 Least Squares   F-statistic:                     686.6
Date:                Sun, 01 Jun 2025   Prob (F-statistic):               0.00
Time:                        18:59:04   Log-Likelihood:            -3.8902e+05
No. Observations:               29231   AIC:                         7.780e+05
Df Residuals:                   29227   BIC:                         7.781e+05
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const      -4.678e+04   2345.724    -19.942      0.0

In [429]:
#SALARIO SEMANAL EN EDAD , EDAD2 , EDUC y MUJER
XEEEM = np.array(df[['Edad', 'Edad2', 'educ', "Mujer"]] ) 
y = np.array(df['salario_semanal'])

x, y = np.array(XEEEM), np.array(y)
XEEEM_ = sm.add_constant(XEEEM)

model_EEEM = LinearRegression().fit(XEEEM_, y)
r2 = model_EEEM.score(XEEEM_, y)


model_EEEM_ = sm.OLS(y, XEEEM)

resultsEEEM = model_EEEM_.fit()
print(resultsEEEM.summary())

print('predicted response:\n', resultsEEEM.fittedvalues)

                                 OLS Regression Results                                
Dep. Variable:                      y   R-squared (uncentered):                   0.140
Model:                            OLS   Adj. R-squared (uncentered):              0.140
Method:                 Least Squares   F-statistic:                              1194.
Date:                Sun, 01 Jun 2025   Prob (F-statistic):                        0.00
Time:                        18:59:31   Log-Likelihood:                     -3.8921e+05
No. Observations:               29231   AIC:                                  7.784e+05
Df Residuals:                   29227   BIC:                                  7.785e+05
Df Model:                           4                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

In [431]:
#Salario SEMANAL EN EDAD, EDAD 2, EDUC , MUJER Y CAT_OCUP
XEEEMC = np.array(df[['Edad', 'Edad2', 'educ', "Mujer", "Cond_OCU"]] )
y = np.array(df['salario_semanal'])

x, y = np.array(XEEEMC), np.array(y)
XEEEMC_ = sm.add_constant(XEEEMC)

model_EEEMC = LinearRegression().fit(XEEEMC_, y)
r2 = model_EEEMC.score(XEEEMC_, y)


model_EEEMC_ = sm.OLS(y, XEEEMC_)

resultsEEEMC = model_EEEMC_.fit()
print(resultsEEEMC.summary())

print('predicted response:\n', resultsEEEMC.fittedvalues)

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.138
Model:                            OLS   Adj. R-squared:                  0.137
Method:                 Least Squares   F-statistic:                     932.9
Date:                Sun, 01 Jun 2025   Prob (F-statistic):               0.00
Time:                        19:00:04   Log-Likelihood:            -3.8785e+05
No. Observations:               29231   AIC:                         7.757e+05
Df Residuals:                   29225   BIC:                         7.758e+05
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const      -5.888e+04   3536.466    -16.648      0.0

In [433]:
#SALARO SEMANAL EN EDAD, EDAD 2, EDUC, MUJER Y CH16
XEEEMU = np.array(df[['Edad', 'Edad2', 'educ', "Mujer","UBI_TRA"]] )
y = np.array(df['salario_semanal'])

x, y = np.array(XEEEMU), np.array(y)
XEEEMU_ = sm.add_constant(XEEEMU)

model_EEEMU = LinearRegression().fit(XEEEMU_, y)
r2 = model_EEEMU.score(XEEEMU_, y)

model_EEEMU_ = sm.OLS(y, XEEEMU_)

resultsEEEMU = model_EEEMU_.fit()
print(resultsEEEMU.summary())

print('predicted response:\n', resultsEEEMU.fittedvalues)

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.085
Model:                            OLS   Adj. R-squared:                  0.084
Method:                 Least Squares   F-statistic:                     539.5
Date:                Sun, 01 Jun 2025   Prob (F-statistic):               0.00
Time:                        19:00:21   Log-Likelihood:            -3.8872e+05
No. Observations:               29231   AIC:                         7.775e+05
Df Residuals:                   29225   BIC:                         7.775e+05
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const      -9.704e+04   3794.783    -25.571      0.0

#### PUNTO 3