# REGRESIÓN: Actividad de transferencia

El objetivo de esta actividad es poner en práctica el código visto para desarrollar modelos en Python. Para ello, desarrolla los puntos siguientes:

---

## 1. Carga el dataset
Carga los datos desde el archivo proporcionado. Asegúrate de verificar la estructura y el contenido del dataset.

---

## 2. Elección de variables predictoras
Elige un conjunto de columnas que consideres relevantes para predecir el precio del seguro y explica por qué estas columnas están relacionadas con dicho precio.

---

## 3. Separación en conjunto de entrenamiento y prueba
Divide el dataset en dos partes:
- **Conjunto de entrenamiento**: para entrenar el modelo.
- **Conjunto de prueba**: para evaluar el desempeño del modelo.

---

## 4. Codificación de variables categóricas
Codifica las columnas categóricas utilizando el método que prefieras (por ejemplo, One-Hot Encoding o Label Encoding).

---

## 5. Separación en variables predictoras y de respuesta
Define:
- **Variables predictoras (X)**: Las características del dataset que usarás para hacer predicciones.
- **Variable de respuesta (y)**: El costo del seguro.

---

## 6. Entrena un modelo
Entrena un modelo de regresión (por ejemplo, regresión lineal o Random Forest) que prediga el costo del seguro basado en las variables seleccionadas.

---

## 7. Evaluación del modelo
Evalúa el desempeño del modelo en el conjunto de prueba utilizando métricas de tu elección de prueba.


In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

In [2]:
import os
os.getcwd()

'C:\\Users\\DUVAN\\Documents\\ADEN UNIVERSIDAD\\Materias\\Aprendizaje Automático con Python\\Semana III'

In [3]:
# Cargar el conjunto de datos cargado
file_path = 'C:\\Users\\DUVAN\\Documents\\ADEN UNIVERSIDAD\\Materias\\Aprendizaje Automático con Python\\Semana III\\insurance.csv'
data = pd.read_csv(file_path)

In [4]:
data.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


### Candidatas para Variables Predictoras del Costo del Seguro

- **age**: Los costos pueden aumentar con la edad debido a mayores necesidades de atención médica.
- **bmi**: Un mayor índice de masa corporal podría estar asociado con más problemas de salud.
- **children**: Tener dependientes podría influir en las tarifas del seguro.
- **smoker**: Fumar está fuertemente relacionado con mayores riesgos de salud y, por lo tanto, con costos más altos.
- **region**: Podría haber diferencias regionales en los costos debido a factores locales o normativas específicas.


In [5]:
# Variables predictoras y de respuesta
X = data[['age', 'bmi', 'children', 'smoker', 'region']]
y = data['charges']

# División en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [6]:
# Mostrar tamaños de los conjuntos
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((1070, 5), (268, 5), (1070,), (268,))

In [7]:
# Codificar 'smoker' con LabelEncoder
label_encoder = LabelEncoder()
X_train['smoker'] = label_encoder.fit_transform(X_train['smoker'])
X_test['smoker'] = label_encoder.transform(X_test['smoker'])


In [8]:
# Codificar 'region' con OneHotEncoder
one_hot_encoder = OneHotEncoder(drop='first', sparse_output=False)
region_encoded_train = one_hot_encoder.fit_transform(X_train[['region']])
region_encoded_test = one_hot_encoder.transform(X_test[['region']])


In [9]:
# Añadir columnas codificadas y eliminar la original
region_encoded_train_df = pd.DataFrame(region_encoded_train, columns=one_hot_encoder.get_feature_names_out(['region']))
region_encoded_test_df = pd.DataFrame(region_encoded_test, columns=one_hot_encoder.get_feature_names_out(['region']))

X_train = X_train.join(region_encoded_train_df).drop('region', axis=1)
X_test = X_test.join(region_encoded_test_df).drop('region', axis=1)

In [10]:
# Mostrar los primeros datos codificados
X_train.head()


Unnamed: 0,age,bmi,children,smoker,region_northwest,region_southeast,region_southwest
560,46,19.95,2,0,1.0,0.0,0.0
1285,47,24.32,0,0,,,
1142,52,24.86,0,0,,,
969,39,34.32,5,0,0.0,0.0,0.0
486,54,21.47,3,0,0.0,1.0,0.0


In [11]:
# Entrenar el modelo de regresión lineal
model = RandomForestRegressor()
model.fit(X_train, y_train)

In [12]:
# Predecir en el conjunto de prueba
y_pred = model.predict(X_test)

In [13]:
y_pred 

array([ 8699.2865455 ,  6882.0975287 , 28226.519565  ,  9343.680129  ,
       34524.7027758 ,  8079.9214628 ,  1547.5162565 , 16622.3240292 ,
        6435.1950882 , 10491.9016978 , 19719.5390499 ,  9263.3479081 ,
        7301.0336113 , 46310.9522604 , 49445.4895271 , 45328.2223525 ,
       10046.427045  , 43136.8413622 ,  9752.1120794 , 24728.5002627 ,
       11906.8308853 , 11721.3187546 ,  2186.0973391 ,  2254.1375266 ,
       10685.6873163 , 11735.886605  , 16420.4229865 ,  5932.0889052 ,
        9926.4405047 ,  5363.1458696 ,  8214.6239047 , 11689.2380735 ,
        2262.480557  ,  6104.5259316 ,  4509.0079777 ,  9095.356598  ,
        6096.2556071 ,  8374.5991459 , 23763.0490475 , 39479.6695875 ,
        9232.6247746 ,  4632.0811329 , 12863.4114834 , 13905.4164601 ,
        6337.4647822 , 13744.7390494 , 16261.2660994 , 13546.3966009 ,
       42852.6104528 ,  7275.5925057 , 16255.8128186 ,  4172.3863564 ,
        7350.6142963 ,  2068.2670478 , 11687.9814015 ,  9911.119628  ,
      

In [14]:
# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

mse, r2

(23790820.91732795, 0.8467567452002749)

### Concluciones 
El modelo parece estar funcionando bien con un R² alto, aunque el MSE sugiere que las predicciones aún pueden ser mejoradas en términos de precisión. Si es posible, se deben explorar ajustes adicionales en el modelo para reducir el MSE.