# Parte Regresiones (Excel)

* Priorizamos el uso de statsmodel, por especialidad en regresiones.


In [2]:
# Cargamos las librerías
import pandas as pd
import statsmodels.formula.api as smf


In [3]:
# Leemos los datos
datos = pd.read_excel("/content/Datos_Modelo.xlsx", sheet_name="Datos")


In [4]:
# Revisamos el tipo de datos
datos.dtypes


Unnamed: 0,0
Experiencia,int64
Años_Educación,int64
Tamaño_Empresa,object
Certificaciones,int64
Salario,float64


In [5]:
# Aseguramos que la variable categórica esté tratada como tal
datos["Tamaño_Empresa"] = datos["Tamaño_Empresa"].astype("category")


In [6]:
# Revisamos el tipo de datos
datos.dtypes


Unnamed: 0,0
Experiencia,int64
Años_Educación,int64
Tamaño_Empresa,category
Certificaciones,int64
Salario,float64


In [12]:
# ols = Ordinary Least Squares
# Modelo 1: Salario ~ Experiencia
modelo_1 = smf.ols('Salario ~ Experiencia', data=datos).fit()
print(modelo_1.summary())


                            OLS Regression Results                            
Dep. Variable:                Salario   R-squared:                       0.651
Model:                            OLS   Adj. R-squared:                  0.649
Method:                 Least Squares   F-statistic:                     368.7
Date:                Tue, 17 Jun 2025   Prob (F-statistic):           4.27e-47
Time:                        16:37:12   Log-Likelihood:                -2049.6
No. Observations:                 200   AIC:                             4103.
Df Residuals:                     198   BIC:                             4110.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
Intercept    4.128e+04    888.850     46.447      

In [13]:
# Modelo 2: Salario ~ Experiencia + Años_Educación
modelo_2 = smf.ols('Salario ~ Experiencia + Años_Educación', data=datos).fit()
print(modelo_2.summary())


                            OLS Regression Results                            
Dep. Variable:                Salario   R-squared:                       0.781
Model:                            OLS   Adj. R-squared:                  0.779
Method:                 Least Squares   F-statistic:                     350.8
Date:                Tue, 17 Jun 2025   Prob (F-statistic):           1.20e-65
Time:                        16:37:55   Log-Likelihood:                -2003.0
No. Observations:                 200   AIC:                             4012.
Df Residuals:                     197   BIC:                             4022.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                     coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------
Intercept       2.667e+04   1524.955     17.

In [14]:
# Modelo 3: Salario ~ Experiencia + Años_Educación + Tamaño_Empresa (como factor)
modelo_3 = smf.ols('Salario ~ Experiencia + Años_Educación + C(Tamaño_Empresa)', data=datos).fit()
print(modelo_3.summary())


                            OLS Regression Results                            
Dep. Variable:                Salario   R-squared:                       0.813
Model:                            OLS   Adj. R-squared:                  0.809
Method:                 Least Squares   F-statistic:                     211.8
Date:                Tue, 17 Jun 2025   Prob (F-statistic):           8.57e-70
Time:                        16:38:12   Log-Likelihood:                -1987.2
No. Observations:                 200   AIC:                             3984.
Df Residuals:                     195   BIC:                             4001.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                                   coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------------------
Intercept       

# Parte Machine Learning

* Implementaremos varios modelos de machine learning a la vez y en poco código.
* Priorizamos el uso de sklearn, por especialidad en machine learning.
* En Python se suele separar las variables predictoras de la predicha en dos dataset.

In [15]:
# Cargamos las librerías necesarias
import pandas as pd  # Para manejo de datos en dataframes
from sklearn.model_selection import train_test_split  # Para dividir los datos en entrenamiento y prueba

# Modelos de regresión
from sklearn.linear_model import LinearRegression               # Regresión lineal
from sklearn.tree import DecisionTreeRegressor                  # Árbol de decisión
from sklearn.ensemble import RandomForestRegressor              # Random forest (conjunto de árboles)
from sklearn.neighbors import KNeighborsRegressor               # K-vecinos más cercanos (KNN)

# Métricas de evaluación del modelo
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# Para cálculos numéricos adicionales
import numpy as np


In [16]:
# Leemos el archivo Excel
datos = pd.read_excel("/content/Datos_Modelo.xlsx", sheet_name="Datos")
datos.head()


Unnamed: 0,Experiencia,Años_Educación,Tamaño_Empresa,Certificaciones,Salario
0,6,8,Mediana,1,42534.39
1,19,16,Mediana,3,73606.91
2,14,19,Mediana,3,71399.07
3,10,18,Grande,1,61207.02
4,7,13,Pequeña,1,47806.18


In [17]:
# Revisamos los tipos de datos
datos.dtypes


Unnamed: 0,0
Experiencia,int64
Años_Educación,int64
Tamaño_Empresa,object
Certificaciones,int64
Salario,float64


In [18]:
# Convertimos la variable categórica a tipo categoría
datos["Tamaño_Empresa"] = datos["Tamaño_Empresa"].astype("category")


In [19]:
# Revisamos los tipos de datos
datos.dtypes


Unnamed: 0,0
Experiencia,int64
Años_Educación,int64
Tamaño_Empresa,category
Certificaciones,int64
Salario,float64


In [21]:
# Definimos las variables predictoras
X = datos.drop(columns="Salario")


In [23]:
# Revisamos las columnas
X.dtypes


Unnamed: 0,0
Experiencia,int64
Años_Educación,int64
Tamaño_Empresa,category
Certificaciones,int64


In [24]:
# Variables predictoras con Tamaño_Empresa codificada
X = pd.get_dummies(X, drop_first=True)  # One-hot encoding para variables categóricas


In [25]:
# Revisamos las columnas
X.dtypes


Unnamed: 0,0
Experiencia,int64
Años_Educación,int64
Certificaciones,int64
Tamaño_Empresa_Mediana,bool
Tamaño_Empresa_Pequeña,bool


In [27]:
# Creamos la columna de variable dependiente
y = datos["Salario"]


In [28]:
# Revisamos los tipos de datos
y.dtypes


dtype('float64')

In [30]:
# Separamos los datos en entrenamiento y prueba (creamos 4 dataset)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=245)


In [31]:
# Inicializamos los modelos (almacenamos los modelos para uso futuro)
modelos = {
    "Regresión Lineal": LinearRegression(),
    "Árbol de Decisión": DecisionTreeRegressor(random_state=123),
    "Random Forest": RandomForestRegressor(random_state=123),
    "KNN": KNeighborsRegressor()
}


## Ejemplo en modelo de regresión lineal simple

In [35]:
# Entrenamos el modelo de Regresión Lineal (usamos uno de los 4 modelos que almacenamos)
modelo_rl = modelos["Regresión Lineal"]
modelo_rl.fit(X_train, y_train)


In [37]:
# Realizamos las predicciones (con la data de testeo)
predicciones = modelo_rl.predict(X_test)
predicciones


array([67209.62513445, 49300.36158971, 34551.29551888, 81777.60107609,
       50255.56642961, 57843.41875764, 65855.01164821, 47720.31737812,
       65417.03320169, 44109.65558612, 73057.20340136, 41844.56489271,
       48195.5124308 , 59676.11185165, 50827.13186823, 56361.56437492,
       48425.75789069, 44435.6843505 , 45844.63688197, 57517.38999326,
       57475.9339522 , 82252.79612877, 68962.30416903, 63986.63330911,
       55868.19355282, 65127.16771311, 58848.72320787, 56528.24013887,
       64555.12424378, 40697.20636237, 62014.10439631, 75598.22324883,
       30728.56403641, 60070.81481418, 70968.97518404, 48349.49345365,
       54644.57058543, 47869.0056357 , 64065.11600747, 48286.11202076])

In [38]:
# Calculamos métricas (indicamos predicciones y datos reales testeo)
r2 = r2_score(y_test, predicciones)
mae = mean_absolute_error(y_test, predicciones)
rmse = np.sqrt(mean_squared_error(y_test, predicciones))


In [40]:
# Mostramos resultados
print(r2)
print(mae)
print(rmse)


0.9121842740373102
2810.295971769122
3328.92556423666


In [43]:
modelos

{'Regresión Lineal': LinearRegression(),
 'Árbol de Decisión': DecisionTreeRegressor(random_state=123),
 'Random Forest': RandomForestRegressor(random_state=123),
 'KNN': KNeighborsRegressor()}

In [47]:
# Recorramos todos los modelos creados
for nombre, modelo in modelos.items():
  print(nombre + "  ---  " + str(modelo))


Regresión Lineal  ---  LinearRegression()
Árbol de Decisión  ---  DecisionTreeRegressor(random_state=123)
Random Forest  ---  RandomForestRegressor(random_state=123)
KNN  ---  KNeighborsRegressor()


## Proyecto Final

* Tomaremos todos los contenidos vistos, y mediante un ciclo implementaremos los 4 modelos a la vez.

In [48]:
# Creamos una lista vacía para almacenar las futuras métricas de resultados
resultados = []


In [50]:
# Obtenemos los resultados de los modelos
for nombre, modelo in modelos.items():

    # Ajustamos el modelo con los datos de entrenamiento
    modelo.fit(X_train, y_train)

    # Realizamos las predicciones para los datos de testeo
    pred = modelo.predict(X_test)

    # Obtenemos las métricas para los datos de testeo
    r2 = r2_score(y_test, pred)
    mae = mean_absolute_error(y_test, pred)
    rmse = np.sqrt(mean_squared_error(y_test, pred))


    # Añadimos los resultados al dataframe
    resultados.append({
        "Modelo": nombre,
        "R2": r2,
        "MAE": mae,
        "RMSE": rmse
    })


In [52]:
# Mostramos los resultados
df_resultados = pd.DataFrame(resultados)
print(df_resultados)


              Modelo        R2          MAE         RMSE
0   Regresión Lineal  0.912184  2810.295972  3328.925564
1  Árbol de Decisión  0.657047  5365.356500  6578.622330
2      Random Forest  0.870364  3495.047300  4044.643024
3                KNN  0.845972  3828.538750  4408.770407


## Conclusiones

* Python nos ofrece todo para implementar modelos de machine learning.
* Lo que vimos es una pequeña parte de todo lo que se puede hacer.
* Puedes reutilizar 100% este código y mejorarlo.