In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
import statsmodels.api as sm
from sklearn.metrics import mean_squared_error, r2_score

In [6]:
data = pd.read_csv("/workspaces/linear-regression/data/processed/datos-procesados.csv")
data.head()

Unnamed: 0,age,bmi,children,charges_log,smoker_num
0,0.021739,0.381409,0.0,9.734176,0
1,0.0,0.568919,0.2,7.453302,1
2,0.217391,0.544322,0.6,8.400538,1
3,0.326087,0.215461,0.0,9.998092,1
4,0.304348,0.412714,0.0,8.260197,1


In [7]:
X = data.drop(['charges_log'], axis=1)
y = data['charges_log']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

La función sm.add_constant(X_train) agrega una columna de unos (constantes) al conjunto de características X_train. Esto se hace para permitir que el modelo de regresión lineal tenga un término de intercepción (también conocido como sesgo o bias) en su ecuación.

El término de intercepción es el valor de la variable dependiente (en este caso, la etiqueta que estamos tratando de predecir) cuando todas las variables independientes (características) son iguales a cero. Incluir esta constante en el modelo permite que la línea de regresión tenga la flexibilidad de desplazarse verticalmente y no necesariamente pasar por el origen (0,0) en el espacio de características.

Agregar una columna de unos a X_train es necesario cuando se utiliza la biblioteca statsmodels para ajustar un modelo de regresión lineal porque esta biblioteca no agrega automáticamente la constante al modelo como lo hace la biblioteca scikit-learn. Por lo tanto, es necesario agregar manualmente la constante para asegurarse de que el modelo incluya un término de intercepción.

En resumen, la función sm.add_constant(X_train) garantiza que el modelo de regresión lineal tenga un término de intercepción, lo que permite que la línea de regresión se desplace verticalmente y no necesariamente pase por el origen.

In [8]:
X_train = sm.add_constant(X_train)   # Agrega la columna de intercepto a X_train

model = sm.OLS(y_train, X_train)   # Crea el modelo de regresión lineal

results = model.fit() # Ajusta el modelo a los datos de entrenamiento

print(results.summary())   # Muestra un resumen del modelo

                            OLS Regression Results                            
Dep. Variable:            charges_log   R-squared:                       0.756
Model:                            OLS   Adj. R-squared:                  0.755
Method:                 Least Squares   F-statistic:                     821.7
Date:                Fri, 15 Mar 2024   Prob (F-statistic):          2.47e-323
Time:                        10:58:04   Log-Likelihood:                -666.14
No. Observations:                1068   AIC:                             1342.
Df Residuals:                    1063   BIC:                             1367.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          9.2954      0.050    184.990      0.0

In [9]:
# Realiza predicciones en el conjunto de prueba
X_test = sm.add_constant(X_test)
y_pred = results.predict(X_test)
y_pred

898      7.872529
1062     8.682562
1253     8.833953
298     10.257775
237      8.667102
          ...    
638      9.710721
534      9.631653
542      9.554579
895     10.427574
1091     9.580789
Length: 267, dtype: float64

In [10]:
# Calcular el Error Cuadrático Medio (MSE)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

# Calcular el coeficiente de determinación (R^2 score)
r2 = r2_score(y_test, y_pred)
print("R^2 Score:", r2)

Mean Squared Error: 0.1720918628600878
R^2 Score: 0.8006159742126163
