# Parte Regresiones (Excel)

Acá priorizamos el uso de statsmodel, por simplicidad.

In [1]:
import pandas as pd
import statsmodels.formula.api as smf

# Leemos los datos
datos = pd.read_excel("/content/Datos_Modelo.xlsx", sheet_name="Datos")

# Aseguramos que la variable categórica esté tratada como tal
datos["Tamaño_Empresa"] = datos["Tamaño_Empresa"].astype("category")

# Modelo 1: Salario ~ Experiencia
modelo_1 = smf.ols('Salario ~ Experiencia', data=datos).fit()
print(modelo_1.summary())

# Modelo 2: Salario ~ Experiencia + Años_Educación
modelo_2 = smf.ols('Salario ~ Experiencia + Años_Educación', data=datos).fit()
print(modelo_2.summary())

# Modelo 3: Salario ~ Experiencia + Años_Educación + Tamaño_Empresa (como factor)
modelo_3 = smf.ols('Salario ~ Experiencia + Años_Educación + C(Tamaño_Empresa)', data=datos).fit()
print(modelo_3.summary())


                            OLS Regression Results                            
Dep. Variable:                Salario   R-squared:                       0.651
Model:                            OLS   Adj. R-squared:                  0.649
Method:                 Least Squares   F-statistic:                     368.7
Date:                Tue, 17 Jun 2025   Prob (F-statistic):           4.27e-47
Time:                        16:20:08   Log-Likelihood:                -2049.6
No. Observations:                 200   AIC:                             4103.
Df Residuals:                     198   BIC:                             4110.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
Intercept    4.128e+04    888.850     46.447      

# Parte Machine Learning

* Implementaremos varios modelos de machine learning a la vez y en poco código.
* Priorizamos el uso de sklearn, por especialidad en machine learning.
* Separamos en entrenamiento y testeo (algo que no hicimos en Excel)

In [6]:
# Proyecto Modelo Regresión en Python

# Cargamos las librerías
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
import numpy as np

# Leemos el archivo Excel
archivo = "/content/Datos_Modelo.xlsx"
datos = pd.read_excel(archivo, sheet_name="Datos")

# Convertimos variable categórica a tipo categoría
datos["Tamaño_Empresa"] = datos["Tamaño_Empresa"].astype("category")

# Variables predictoras y objetivo
X = datos.drop(columns="Salario")
X = pd.get_dummies(X, drop_first=True)  # One-hot encoding para variables categóricas
y = datos["Salario"]

# Separamos los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

# Inicializamos los modelos
modelos = {
    "Regresión Lineal": LinearRegression(),
    "Árbol de Decisión": DecisionTreeRegressor(random_state=123),
    "Random Forest": RandomForestRegressor(random_state=123),
    "KNN": KNeighborsRegressor()
}

# Evaluamos los modelos
resultados = []

for nombre, modelo in modelos.items():
    modelo.fit(X_train, y_train)
    pred = modelo.predict(X_test)

    r2 = r2_score(y_test, pred)
    mae = mean_absolute_error(y_test, pred)
    rmse = np.sqrt(mean_squared_error(y_test, pred))

    resultados.append({
        "Modelo": nombre,
        "R2": r2,
        "MAE": mae,
        "RMSE": rmse
    })

# Mostramos los resultados
df_resultados = pd.DataFrame(resultados)
print(df_resultados)


              Modelo        R2          MAE         RMSE
0   Regresión Lineal  0.938911  2725.021351  3203.692836
1  Árbol de Decisión  0.801479  4912.576000  5775.292152
2      Random Forest  0.903859  3279.324056  4019.077296
3                KNN  0.886073  3552.161550  4375.066777
