# Script para seleccion de datos para el modelo

Aqui vamos a seleccionar que datos vamos a seleccionar para nuestro modelo. Puede incluir transformaciones de columnas.

In [39]:
import pandas as pd

df = pd.read_csv('insurance.csv')
df.head(3)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462


## Espacio para seleccion de datos:

In [40]:
df = pd.get_dummies(df, columns=['smoker','sex','region'],
                    drop_first=True,
                    dtype='int')
df

Unnamed: 0,age,bmi,children,charges,smoker_yes,sex_male,region_northwest,region_southeast,region_southwest
0,19,27.900,0,16884.92400,1,0,0,0,1
1,18,33.770,1,1725.55230,0,1,0,1,0
2,28,33.000,3,4449.46200,0,1,0,1,0
3,33,22.705,0,21984.47061,0,1,1,0,0
4,32,28.880,0,3866.85520,0,1,1,0,0
...,...,...,...,...,...,...,...,...,...
1333,50,30.970,3,10600.54830,0,1,1,0,0
1334,18,31.920,0,2205.98080,0,0,0,0,0
1335,18,36.850,0,1629.83350,0,0,0,1,0
1336,21,25.800,0,2007.94500,0,0,0,0,1


In [41]:
columns = list(set(df.columns) - set('charges'))
columns

['age',
 'children',
 'bmi',
 'smoker_yes',
 'charges',
 'region_northwest',
 'region_southeast',
 'sex_male',
 'region_southwest']

## Entrenamiento de Modelo y Obtencion de resultados

Espacio para correr las funciones s de entrenamiento de modelo, almacenamiento de analisis y guardado del modelo para un posterior

In [56]:
import script_reg as reg 

y_col = 'charges'    # Nombre de la variable objetivo

data = reg.train_test(df, y_col) # Data splitada y escaladores

model = reg.trained_model(data[0], data[2]) # Modelo entrenado

# Datos de Evaluacion
analysis_test = reg.analysis_test(data[1], data[3],model, data[5])      # Datos de testeo

analysis_train = reg.analysis_train(data[0], data[2], df, y_col)    # Datos directos del modelo

print(analysis_train)
print(analysis_test)

{'R-squared': 0.742, 'Adj. R-squared': 0.74, 'F-statistic': 381.232, 'Prob (F-statistic)': 0.0, 'Coefficients and P-values': {'age': (0.2982, 0.0), 'children': (0.0424, 0.006), 'bmi': (0.1697, 0.0), 'smoker_yes': (0.7884, 0.0), 'charges': (-0.0132, 0.4875), 'region_northwest': (-0.0243, 0.2215), 'region_southeast': (-0.0007, 0.9632), 'sex_male': (-0.0287, 0.1302)}, 'Omnibus': 252.339, 'Prob(Omnibus)': 0.0, 'Skew': 1.253, 'Kurtosis': 2.737, 'Durbin-Watson': 2.085}
(0.784, 0.469, 5796.285, 22850.136)


In [58]:
import joblib

# Guardar el modelo entrenado
joblib.dump(model, 'modelo_regresion_lineal.pkl')


['modelo_regresion_lineal.pkl']

In [59]:
import os

# Listar archivos en el directorio actual
archivos = os.listdir('.')

# Mostrar archivos
for archivo in archivos:
    print(archivo)


data_script.ipynb
insurance.csv
modelo_regresion_lineal.pkl
script_reg.py
__pycache__
