# Preparación de datos para ser empleados por un modelo como las Redes Neuronales Artificiales

# Predicción del seguro médico
---



Se tiene un conjunto de datos históricos sobre pacientes y el precio de su seguro médico

El conjunto de datos se encuentra accesible [nuestro repositorio](https://raw.githubusercontent.com/jamaltoutouh/curso-ciencia-de-datos-python/main/insurance.csv).

Las columnas de esta base de datos son:

* age: edad del beneficiario principal
* sex: género del contratante del seguro, mujer, hombre
* bmi: índice de masa corporal, que proporciona una comprensión del cuerpo, los pesos que son relativamente altos o bajos en relación con la altura, índice objetivo de peso corporal (kg / m ^ 2) utilizando la relación entre la altura y el peso, idealmente 18,5 a 24,9
* children: Número de hijos cubiertos por el seguro médico / Número de personas a cargo
* smoker: si es fumador o no:
* region: la zona de residencia del beneficiario en los EE.UU., noreste, sureste, suroeste, noroeste.
* charges: Gastos médicos individuales facturados por el seguro de enfermedad




In [1]:
# Importamos las bibliotecas necesarias
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import pandas as pd
import numpy as np

from sklearn import  preprocessing # Para el procesado de los datos

### Importamos los datos

Cargamos el conjunto de datos, mostramos los atributos de los datos y nos quedamos con los datos que se van a emplear para el diagnóstico. 

**A completar:** Mostrar los atributos y las dimensiones del conjunto de datos.

In [2]:
# Cargamos el conjunto de datos
url_datos = 'https://raw.githubusercontent.com/jamaltoutouh/curso-ciencia-de-datos-python/main/insurance.csv'
insurance_dataset = pd.read_csv(url_datos)

# Mostramos información somre los datos
print('Atributos del conjunto de datos: ', insurance_dataset.columns)
print('Dimensiones del conjunto de datos', insurance_dataset.shape)


Atributos del conjunto de datos:  Index(['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges'], dtype='object')
Dimensiones del conjunto de datos (1338, 7)


### Revisamos los datos y los preparamos

In [3]:
insurance_dataset.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


**A completar:** Revisamos el tipo de cada una de las columnas

In [4]:
insurance_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


### Agrupar columnas
Agrupamos las columnas por categorías: *continuas*, *contables* y *categóricas*

- Continuas: age, bmi, children y charges 
- Categóricas: sex, smoker y region


In [14]:
columnas_continuas = ['age', 'bmi', 'children', 'charges']
columnas_categoricas = ['sex', 'smoker', 'region']

### Aplicamos los cambios
1. Tratamos las columnas categóricas
2. Tratamos las columnas continuas
3. Concatenamos ambos tipos de columnas para crear el conjunto de dato

#### 1. Columnas categóricas

Las columnas que solo tienen dos posible valores, podemos crear una transformación (un mapeo) 0/1. 

Las columnas con más de dos valores, empleamos OneHotEncoder


Mostramos el núero de valores únicos de las columnas categóricas

In [None]:
print('sex:')
print(insurance_dataset['sex'].value_counts())
print('----------------------------')
print('smoker:')
print(insurance_dataset['smoker'].value_counts())
print('----------------------------')
print('region:')
print(insurance_dataset['region'].value_counts())

sex:
male      676
female    662
Name: sex, dtype: int64
----------------------------
smoker:
no     1064
yes     274
Name: smoker, dtype: int64
----------------------------
region:
southeast    364
southwest    325
northwest    325
northeast    324
Name: region, dtype: int64


In [6]:
columnas_categoricas_01 = ['sex', 'smoker']
columnas_categoricas_multi = ['region']

Modificamos el valor de las columnas categóricas con dos valores (binarias) en el propio dataset

**A completar:** Define e mapeo para el atributo `'smoker'`

In [5]:
# Definimos el mapeo
sex_map = {'male': 0, 'female': 1}
smoker_map = {'yes':1, 'no':0}

# Aplicamos el cambio
insurance_dataset['sex'] = insurance_dataset['sex'].map(sex_map)
insurance_dataset['smoker'] = insurance_dataset['smoker'].map(smoker_map)

insurance_dataset.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,1,27.9,0,1,southwest,16884.924
1,18,0,33.77,1,0,southeast,1725.5523
2,28,0,33.0,3,0,southeast,4449.462
3,33,0,22.705,0,0,northwest,21984.47061
4,32,0,28.88,0,0,northwest,3866.8552


**A completar:** Creamos las columnas con el one-hot encoder de region

In [10]:
# Definimos el encoder
onehot = preprocessing.OneHotEncoder(dtype=int)

# Aplicamos el cambio
oh_encoded_columns = onehot.fit_transform(insurance_dataset[columnas_categoricas_multi])

# Creamos un dataframe para luego generar el conjunto de datos nuevo
datos_categoricos_multi = pd.DataFrame(oh_encoded_columns.toarray())

# Para mostrar como queda creamos un dataframe auxiliar y lo concatenamos con las categorías que teníamos
datos_categoricos_aux = datos_categoricos_multi.copy()
datos_categoricos_aux['region'] = insurance_dataset['region']
print(datos_categoricos_aux)


      0  1  2  3     region
0     0  0  0  1  southwest
1     0  0  1  0  southeast
2     0  0  1  0  southeast
3     0  1  0  0  northwest
4     0  1  0  0  northwest
...  .. .. .. ..        ...
1333  0  1  0  0  northwest
1334  1  0  0  0  northeast
1335  0  0  1  0  southeast
1336  0  0  0  1  southwest
1337  0  1  0  0  northwest

[1338 rows x 5 columns]


Creamos un dataframe con los datos de las tres columnas categoricas

In [11]:
# Concatenamos los nuevos datos generados
datos_categoricos = pd.concat([datos_categoricos_multi, insurance_dataset[columnas_categoricas_01]], axis=1)
datos_categoricos.head()

Unnamed: 0,0,1,2,3,sex,smoker
0,0,0,0,1,1,1
1,0,0,1,0,0,0
2,0,0,1,0,0,0
3,0,1,0,0,0,0
4,0,1,0,0,0,0


#### 2. Columnas coninuas
**A completar:** Transmformación de las columnas continuas

In [15]:

# Definimos el encoder
standardscaler = preprocessing.StandardScaler().fit(insurance_dataset[columnas_continuas])

# Aplicamos el cambio
ss_encoded_columns = standardscaler.transform(insurance_dataset[columnas_continuas])

# Creamos un dataframe para luego generar el conjunto de datos nuevo
datos_continuos = pd.DataFrame(ss_encoded_columns, columns=columnas_continuas)

# Mostramos como quedan los datos nuevos
datos_continuos.head()

Unnamed: 0,age,bmi,children,charges
0,-1.438764,-0.45332,-0.908614,0.298584
1,-1.509965,0.509621,-0.078767,-0.953689
2,-0.797954,0.383307,1.580926,-0.728675
3,-0.441948,-1.305531,-0.908614,0.719843
4,-0.513149,-0.292556,-0.908614,-0.776802


In [16]:
# Concatenamos los nuevos datos generados
dataset = pd.concat([datos_categoricos, datos_continuos], axis=1)

### Ya tenemos el nuevo conjunto de datos

In [17]:
# Mostramos el nuevo conjunto de datos
dataset.head()

Unnamed: 0,0,1,2,3,sex,smoker,age,bmi,children,charges
0,0,0,0,1,1,1,-1.438764,-0.45332,-0.908614,0.298584
1,0,0,1,0,0,0,-1.509965,0.509621,-0.078767,-0.953689
2,0,0,1,0,0,0,-0.797954,0.383307,1.580926,-0.728675
3,0,1,0,0,0,0,-0.441948,-1.305531,-0.908614,0.719843
4,0,1,0,0,0,0,-0.513149,-0.292556,-0.908614,-0.776802


In [18]:
# Mostramos información somre los datos
print('Atributos del conjunto de datos: ', dataset.columns)
print('Dimensiones del conjunto de datos',dataset.shape)

Atributos del conjunto de datos:  Index([0, 1, 2, 3, 'sex', 'smoker', 'age', 'bmi', 'children', 'charges'], dtype='object')
Dimensiones del conjunto de datos (1338, 10)
