<a href="https://colab.research.google.com/github/clementeaf/codingDojo-DS/blob/main/machineLearning/week1/Ejercicio_de_procesamiento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [9]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler

In [None]:
df = pd.read_csv('/content/drive/MyDrive/insurance.csv')
df.describe()

## Definir las características (X) y el objetivo (y)

In [5]:
# Características (X)
X = df.drop(columns=['charges'])  # Todas las columnas excepto 'charges'

# Objetivo (y)
y = df['charges']  # Columna 'charges'

## Realizar un train test split a los datos para prepararlos para el aprendizaje automático

In [6]:
# Realizar train-test split (80% para entrenamiento, 20% para prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Imprimir el tamaño de los conjuntos de entrenamiento y prueba
print("Tamaño del conjunto de entrenamiento (X_train):", X_train.shape)
print("Tamaño del conjunto de prueba (X_test):", X_test.shape)
print("Tamaño del conjunto de entrenamiento (y_train):", y_train.shape)
print("Tamaño del conjunto de prueba (y_test):", y_test.shape)

Tamaño del conjunto de entrenamiento (X_train): (1070, 6)
Tamaño del conjunto de prueba (X_test): (268, 6)
Tamaño del conjunto de entrenamiento (y_train): (1070,)
Tamaño del conjunto de prueba (y_test): (268,)


### Características numéricas:

#### age (Edad): Variable numérica continua que representa la edad de la persona.
#### bmi (Índice de Masa Corporal): Variable numérica continua que representa el índice de masa corporal de la persona.
#### charges (Cargos): Variable numérica continua que representa los cargos o costos de los seguros médicos.
### Características ordinales:

#### children (Hijos): Variable ordinal que representa el número de hijos de la persona. Aunque es numérica, se considera ordinal porque representa categorías ordenadas (0, 1, 2, 3, etc.).

### Características nominales:

#### sex (Sexo): Variable nominal que representa el género de la persona (por ejemplo, "male" o "female").
#### smoker (Fumador): Variable nominal que representa si la persona es fumadora o no (por ejemplo, "yes" o "no").
#### region (Región): Variable nominal que representa la región de residencia de la persona (por ejemplo, "northeast", "southeast", "southwest" o "northwest").

## Codificar de manera ordinal cualquier característica ordinal

In [7]:
# Características numéricas y nominales
X_numerical_nominal = df.drop(columns=['charges', 'children'])  # Excluir 'charges' y 'children'
X_nominal = X_numerical_nominal.select_dtypes(include='object')  # Filtrar solo características nominales

# Codificación ordinal para 'children'
ordinal_mapping = {0: 0, 1: 1, 2: 2, 3: 3, 4: 4, 5: 5}  # Asignar valores numéricos a cada categoría
X_ordinal = df['children'].map(ordinal_mapping)

# Unir características codificadas
X_encoded = pd.concat([X_numerical_nominal, X_nominal, X_ordinal], axis=1)

# Mostrar el resultado
print(X_encoded.head())

   age     sex     bmi smoker     region     sex smoker     region  children
0   19  female  27.900    yes  southwest  female    yes  southwest         0
1   18    male  33.770     no  southeast    male     no  southeast         1
2   28    male  33.000     no  southeast    male     no  southeast         3
3   33    male  22.705     no  northwest    male     no  northwest         0
4   32    male  28.880     no  northwest    male     no  northwest         0


## Realizar una codificación one-hot cualquier característica nominal

In [None]:
# Características numéricas y ordinales
X_numerical_ordinal = df.drop(columns=['charges', 'sex', 'smoker', 'region'])  # Excluir 'charges', 'sex', 'smoker', 'region'

# Codificación one-hot para características nominales
X_one_hot = pd.get_dummies(df[['sex', 'smoker', 'region']], drop_first=True)

# Unir características codificadas
X_encoded = pd.concat([X_numerical_ordinal, X_one_hot], axis=1)

# Mostrar el resultado
print(X_encoded.head())

## Escalar cualquier característica numérica

In [None]:
# Características numéricas
X_numerical = df[['age', 'bmi', 'children']]

# Estándar scaler (estandarización)
scaler = StandardScaler()
X_scaled_standard = pd.DataFrame(scaler.fit_transform(X_numerical), columns=X_numerical.columns)

# Min-max scaler (normalización)
scaler = MinMaxScaler()
X_scaled_minmax = pd.DataFrame(scaler.fit_transform(X_numerical), columns=X_numerical.columns)

# Mostrar el resultado de la estandarización y la normalización
print("Datos originales:")
print(X_numerical.head())
print("\nDatos estandarizados:")
print(X_scaled_standard.head())
print("\nDatos normalizados:")
print(X_scaled_minmax.head())

## Concatenar todas las características de vuelta a un DataFrame.

In [13]:
# Características numéricas y ordinales
X_numerical_ordinal = df.drop(columns=['charges', 'sex', 'smoker', 'region'])  # Se excluten: 'charges', 'sex', 'smoker', 'region'

# Estándar scaler (estandarización)
scaler = StandardScaler()
X_scaled_standard = pd.DataFrame(scaler.fit_transform(X_numerical), columns=X_numerical.columns)

# Min-max scaler (normalización)
scaler = MinMaxScaler()
X_scaled_minmax = pd.DataFrame(scaler.fit_transform(X_numerical), columns=X_numerical.columns)

# Concatenar todas las características en un solo DataFrame
X_final = pd.concat([X_numerical_ordinal, X_one_hot, X_scaled_standard, X_scaled_minmax], axis=1)

# Mostrar el resultado
print(X_final)

      age     bmi  children  sex_male  smoker_yes  region_northwest  \
0      19  27.900         0         0           1                 0   
1      18  33.770         1         1           0                 0   
2      28  33.000         3         1           0                 0   
3      33  22.705         0         1           0                 1   
4      32  28.880         0         1           0                 1   
...   ...     ...       ...       ...         ...               ...   
1333   50  30.970         3         1           0                 1   
1334   18  31.920         0         0           0                 0   
1335   18  36.850         0         0           0                 0   
1336   21  25.800         0         0           0                 0   
1337   61  29.070         0         0           1                 1   

      region_southeast  region_southwest       age       bmi  children  \
0                    0                 1 -1.438764 -0.453320 -0.908614   