In [52]:
import pandas as pd

# Leer el archivo Excel correctamente
df = pd.read_excel(r"C:\Users\El economista\Documents\GitHub\-BigDataUBA-Grupo-25\TPs\TP4\df_completo_original.xlsx")

In [57]:
# Crear la nueva columna "edad²" con los valores al cuadrado
# Renombrar la columna "edad" a "edad2"
df.rename(columns={"ch06": "edad2"}, inplace=True)
df["edad²"] = df["edad2"] ** 2
df["horastrab"] = df["pp3e_tot"] + df["pp3f_tot"]
# Aplicar el coeficiente de ajuste
df["p21"] = df["p21"].astype(float)  # Convertir a float antes de modificar
df.loc[df["ano4"] == 2004, "p21"] *= 314.621568
# Calcular el salario semanal
df["salario_semanal"] = df["p21"] / 40
# Función para calcular años de educación
def calcular_educ(row):
    if row["ch12"] == 2:  # Primario
        return row["ch14"]
    elif row["ch12"] == 4:  # Secundario
        return 12 if row["ch13"] == 1 else row["ch14"]
    elif row["ch12"] == 6:  # Terciario
        return 15 if row["ch13"] == 1 else 12 + row["ch14"]
    elif row["ch12"] == 7:  # Universitario
        return 17 if row["ch13"] == 1 else 12 + row["ch14"]
    elif row["ch12"] == 9:  # Educación especial
        return None  # No comparable
    else:
        return None  # Ns/Nr u otro valor

# Aplicar la función al DataFrame
df["educ"] = df.apply(calcular_educ, axis=1)
df.rename(columns={"ch06": "edad2"}, inplace=True)
# Crear la variable dependiente (y) a partir de estado
df["desocupado"] = (df["estado"] == 2).astype(int)  # 2 = Desocupado, 1 = Ocupado

In [58]:
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
# Variables predictoras (X) y dependiente (y)
X = df[["edad2", "edad²", "educ", "salario_semanal", "horastrab"]].copy()
y = df["desocupado"]

# Agregar la columna de unos para la regresión
X["constante"] = np.ones(len(df))

# Dividir en entrenamiento y testeo
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=444)

In [76]:
# Calcular medias en cada grupo
medias_train = X_train.mean()
medias_test = X_test.mean()

# Crear tabla con las diferencias
diferencia_medias = pd.DataFrame({"Train": medias_train, "Test": medias_test})
diferencia_medias["Diferencia"] = diferencia_medias["Train"] - diferencia_medias["Test"]
y_train = y_train.loc[X_train.index]
# Mostrar la tabla
print(diferencia_medias)

                       Train         Test  Diferencia
edad2              38.928960    38.967911   -0.038951
edad²            1776.114730  1784.543970   -8.429240
educ               11.107213    11.217686   -0.110473
salario_semanal  4080.866435  4076.120474    4.745960
horastrab          27.713192    27.964563   -0.251371
constante           1.000000     1.000000    0.000000


In [77]:
import statsmodels.api as sm

# Ajuste del modelo de regresión lineal
modelo = sm.OLS(y_train, X_train).fit()

# Ver resultados
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:             desocupado   R-squared:                       0.040
Model:                            OLS   Adj. R-squared:                  0.039
Method:                 Least Squares   F-statistic:                     233.3
Date:                Sat, 31 May 2025   Prob (F-statistic):          6.15e-245
Time:                        15:48:03   Log-Likelihood:                 4264.0
No. Observations:               28336   AIC:                            -8516.
Df Residuals:                   28330   BIC:                            -8467.
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
edad2               0.0008      0.000     

In [78]:
print("Dimensión de X_test:", X_test.shape)
print("Dimensión de y_test:", y_test.shape)

Dimensión de X_test: (12247, 6)
Dimensión de y_test: (12247,)


In [79]:
# Predicciones en el conjunto de test
y_pred = modelo.predict(X_test[:12247])  # Limitar a la cantidad correcta de muestras

X_test = X_test[X_train.columns]  # Asegurar que las columnas coinciden
y_test = y_test.loc[X_test.index]  # Asegurar que los índices sigan alineados
# Evaluar desempeño del modelo
from sklearn.metrics import mean_squared_error

mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio (MSE):", mse)

Error cuadrático medio (MSE): 0.043284083672186766


In [81]:
import statsmodels.api as sm
import pandas as pd
from sklearn.impute import SimpleImputer

# Asegurar que 'salario_semanal' no tenga NaN
df = df.dropna(subset=["salario_semanal"])

# Crear variable mujer
df["mujer"] = (df["ch04"] == 2).astype(int)  

# Variables predictoras para cada modelo
variables_modelos = [
    ["edad2"],  # Modelo 1
    ["edad2", "edad²"],  # Modelo 2
    ["edad2", "edad²", "educ"],  # Modelo 3
    ["edad2", "edad²", "educ", "mujer"],  # Modelo 4
    ["edad2", "edad²", "educ", "mujer", "horastrab", "desocupado"]  # Modelo 5
]

# Limpiar NaN en variables predictoras
imputer = SimpleImputer(strategy="mean")
df[["edad2", "edad²", "educ", "horastrab", "desocupado"]] = imputer.fit_transform(df[["edad2", "edad²", "educ", "horastrab", "desocupado"]])

# Almacenar los modelos estimados
modelos = {}

for i, variables in enumerate(variables_modelos):
    X = df[variables].copy()
    X["constante"] = 1  # Agregar constante
    y = df["salario_semanal"]

    # Asegurar que los índices estén alineados
    y = y.loc[X.index]

    # Ajustar el modelo
    modelos[f"Modelo {i+1}"] = sm.OLS(y, X).fit()

# Crear tabla con coeficientes
tabla_resultados = pd.DataFrame({
    "Variables": ["edad2", "edad²", "educ", "mujer", "horastrab", "desocupado"]
})

for nombre, modelo in modelos.items():
    tabla_resultados[nombre] = [modelo.params.get(var, None) for var in tabla_resultados["Variables"]]

# Mostrar la tabla de resultados
print(tabla_resultados)

    Variables   Modelo 1    Modelo 2    Modelo 3     Modelo 4     Modelo 5
0       edad2  35.386475  268.533930  261.275515   261.178485   247.632963
1       edad²        NaN   -3.003903   -2.935585    -2.911691    -2.783669
2        educ        NaN         NaN   41.315244    42.884281    40.830601
3       mujer        NaN         NaN         NaN -1399.774829 -1260.281199
4   horastrab        NaN         NaN         NaN          NaN    18.102891
5  desocupado        NaN         NaN         NaN          NaN -2811.831389
