# Regresion Lineal Simple

## Explorando Datos del Dataset "Seguros"

Dataset que muestra los costos de los asegurados para una empresa aseguradora\. Además de algunos datos demográficos que lo acompañan, como son la edad, BMI \(índice de más corporal\) y el número de hijos\.

In [1]:
import pandas as pd
df_seguros = pd.read_csv('seguros.csv')
df_seguros.head()

Unnamed: 0.1,Unnamed: 0,age,bmi,children,charges
0,1,18,33.77,1,1725.5523
1,2,28,33.0,3,4449.462
2,4,32,28.88,0,3866.8552
3,5,31,25.74,0,3756.6216
4,6,46,33.44,1,8240.5896


In [2]:
# Corregir el indice de la tabla
df_seguros = pd.read_csv('seguros.csv', index_col=0)
df_seguros.head()

Unnamed: 0,age,bmi,children,charges
1,18,33.77,1,1725.5523
2,28,33.0,3,4449.462
4,32,28.88,0,3866.8552
5,31,25.74,0,3756.6216
6,46,33.44,1,8240.5896


In [3]:
# Mostrar último registro del dataset

df_seguros.tail(1)

Unnamed: 0,age,bmi,children,charges
1336,21,25.8,0,2007.945


# Predicciones con Regresión Lineal

## Probando con la variable de "edad"

Predicción con la columna age como variable predictiva y charges como variable de respuesta\. Separa el conjunto de datos df en las variables X,Y\. En otras palabras, asigna la columna age a X y asigna la columna charges a y\.

In [4]:
X = df_seguros['age']
y = df_seguros['charges']

In [5]:
# 5 primeros valores de "X" y "y"
print(X.head())
print(y.head())

1    18
2    28
4    32
5    31
6    46
Name: age, dtype: int64
1    1725.5523
2    4449.4620
4    3866.8552
5    3756.6216
6    8240.5896
Name: charges, dtype: float64


# Creación de los datos de entrenamiento y prueba

Se utilizó random\_state=1 para garantizar la reproducibilidad y \_test size=0\.2 para definir una separación del 80/20\.

In [6]:
# Separación de los datos en entrenamiento y prueba 
from sklearn.model_selection import train_test_split
X_test, X_train, y_test, y_train = train_test_split(X, y, test_size=0.2, random_state=1)

print("Primeros 5 valores de X_test:")
print(X_test.head())

print("\nPrimeros 5 valores de y_test:")
print(y_test.head())

Primeros 5 valores de X_test:
1243    28
832     28
218     26
167     32
448     40
Name: age, dtype: int64

Primeros 5 valores de y_test:
1243    3171.61490
832     4719.73655
218     3392.97680
167     6128.79745
448     5910.94400
Name: charges, dtype: float64


In [7]:
# índice de los primeros 5 elementos del conjunto de pruebas
indices_test = X_test.head().index
print("\nÍndices de los primeros 5 elementos del conjunto de pruebas:")
print(indices_test)


Índices de los primeros 5 elementos del conjunto de pruebas:
Index([1243, 832, 218, 167, 448], dtype='int64')


## Entrenamiento con sklearn

In [8]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [9]:
# Creamos variable para guardar los datos del modelo
modelo = LinearRegression()

# Creación de las variables del modelo
X_train = X_train.values.reshape(-1, 1)
X_test = X_test.values.reshape(-1, 1)

modelo.fit(X_train, y_train)



In [10]:
# Predicción con los datos de entrenamiento y verificación
y_train_pred = modelo.predict(X_train)
y_test_pred = modelo.predict(X_test)

In [11]:
# Calcular métrica de R2 para ambos conjunto de datos
r2_train = r2_score(y_train, y_train_pred)
r2_test = r2_score(y_test, y_test_pred)

print("R2 en el conjunto de entrenamiento: ", r2_train)
print("R2 en el conjunto de prueba: ", r2_test)

R2 en el conjunto de entrenamiento:  0.9145867972344487
R2 en el conjunto de prueba:  0.9151226423150081


## Probando con variable "indice de masa corporal"

In [12]:
X = df_seguros['bmi']
y = df_seguros['charges']

X_test, X_train, y_test, y_train = train_test_split(X, y, test_size=0.2, random_state=1)

modelo = LinearRegression()

X_train = X_train.values.reshape(-1, 1)
X_test = X_test.values.reshape(-1, 1)

modelo.fit(X_train, y_train)

y_train_pred = modelo.predict(X_train)
y_test_pred = modelo.predict(X_test)

r2_train = r2_score(y_train, y_train_pred)
r2_test = r2_score(y_test, y_test_pred)

print("R2 en el conjunto de entrenamiento: ", r2_train)
print("R2 en el conjunto de prueba: ", r2_test)

R2 en el conjunto de entrenamiento:  0.0003134816249190653
R2 en el conjunto de prueba:  -0.0033837069410058707


## Conclusión

Del análisis se determinó que la variable edad es el predictor individual más fuerte para la variable objetivo "charge" o costo del seguro\.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=40349ada-55e0-4a1a-9bfd-2a3b2eb8badb' target="_blank">

Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>