# PRÁCTICA COMPLETA **PREPROCESAMIENTO**

Este cuaderno es una práctica completa de todo el proceso que debéis llevar a acabo para preprocesar los datos desde los datos originales hasta obtener un data frame preparado para poder aplicarle los algoritmos de ML.

Las fases que debemos seguir son las siguientes y en este orden:

* Eliminar duplicados
* Tratar valores perdidos
* Eliminar Outliers
* Transformar variables ordinales en numéricas
* Transformar variables nominales en numéricas
* Estandarizar todas las variables excepto la variable a predecir (que en este caso ya está como variable dicotómica 0/1)

Usaremos un data frame donde el objetivo final es predecir si una mujer (de India) tiene o no diabetes a partir de diversas variables

Las variables del dataset original son las siguientes:

* Pregnancies: Cantidad de veces que la mujer ha estado embarazada
* Glucose: Nivel de glucosa
* BloodPressure:
* SkinThickness:
* Insulin:
* BMI:
* DiabetesPedigreeFunction:
* Age:
* Satisfaction:
* Job:

En esta práctica se trata de preprocesar los datos para que estén listos para aplicarles dichos algoritmos.

Partiremos del data frame original y debemos llegar a la creación del data frame preparado para aplicarle algoritmos de ML

El archivo se llama "diabetes_def.csv" y lo podéis encontrar en el material de la asignatura

## 0. Importar las librerías que necesitamos





In [None]:
# Guardamos STANDARD y el SCALER
dump(scaler,"escalador.pre")
dump(standard,"estandarizador.pre")

In [None]:
import pandas as pd
from sklearn import preprocessing
from joblib import dump

standard = preprocessing.StandardScaler()
scaler = preprocessing.MinMaxScaler()


## RECORDATORIO PRELIMINAR

### Ejercicio estandarización:

Cread un nuevo data frame estandarizando el que se aporta sobre los datos de 5 pisos de Barcelona

In [224]:
# Creamos los datos
data = {'Metros': [57, 90, 45, 110, 98], 'Habitaciones': [2,2,3,5,4], 'Luz':[5,2,7,8,4],'Precio':[300000,450000,220000,680000,560000]}
df = pd.DataFrame(data)
print("Datos originales:")
df

Datos originales:


Unnamed: 0,Metros,Habitaciones,Luz,Precio
0,57,2,5,300000
1,90,2,2,450000
2,45,3,7,220000
3,110,5,8,680000
4,98,4,4,560000


In [225]:
# Creamos el estandarizador
# Tu código
df_esc = pd.DataFrame(standard.fit_transform(df), columns = [df.columns])

In [226]:
df_esc

Unnamed: 0,Metros,Habitaciones,Luz,Precio
0,-0.926997,-1.028992,-0.093659,-0.84837
1,0.403042,-1.028992,-1.498537,0.047795
2,-1.410648,-0.171499,0.842927,-1.326325
3,1.209127,1.543487,1.31122,1.421916
4,0.725476,0.685994,-0.561951,0.704983


### COMO RECUPERAR UN **PRECIO ESTANDARIZADO** (por si un cliente lo pide): 

In [227]:
df_esc["Precio"]*standard.scale_[3]+standard.mean_[3]

Unnamed: 0,Precio
0,300000.0
1,450000.0
2,220000.0
3,680000.0
4,560000.0


### Ejercicio escalado:

Cread un nuevo data frame escalado entre 0 y 1 con los datos que se aportan de 5 pisos de Barcelona

In [228]:
# Creamos los datos
data = {'Metros': [57, 90, 45, 110, 98], 'Habitaciones': [2,2,3,5,4], 'Luz':[5,2,7,8,4],'Precio':[300000,450000,220000,680000,560000]}
df2 = pd.DataFrame(data)
print("Datos originales:")
df2

Datos originales:


Unnamed: 0,Metros,Habitaciones,Luz,Precio
0,57,2,5,300000
1,90,2,2,450000
2,45,3,7,220000
3,110,5,8,680000
4,98,4,4,560000


In [229]:
# Creamos el escalador
# Tu código
# Lo fitamos para todas las variables y lo aplicamos
# Tu código
df_sc = pd.DataFrame(scaler.fit_transform(df), columns = [df.columns])

In [230]:
df_sc

Unnamed: 0,Metros,Habitaciones,Luz,Precio
0,0.184615,0.0,0.5,0.173913
1,0.692308,0.0,0.0,0.5
2,0.0,0.333333,0.833333,0.0
3,1.0,1.0,1.0,1.0
4,0.815385,0.666667,0.333333,0.73913


## 1. Cargar los datos originales y mostrar las primeras filas

Primero cargamos nuestros datos originales y echamos un vistazo a las primeras filas. Vemos también que tenemos 798 filas y 11 variables.

In [231]:
# Tu código
import pandas as pd
data = pd.read_csv("diabetes_def.csv", sep = ";")

In [None]:
data.sample(6)

In [None]:
data.info()

## 2. Ver y eliminar los duplicados

En el dataset origial habían 798 filas y después de quitar los duplicados veréis que quedan 771 filas ya que habían 27 duplicadas

In [232]:
# Miramos cuantos duplicados hay
data.duplicated().sum().sum()

27

In [233]:
# Borramos duplicados
data.drop_duplicates(inplace = True)

In [234]:
# Comprobamos duplicados
data.duplicated().sum().sum()
data.info

<bound method DataFrame.info of      Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6.0    148.0           72.0           35.0      0.0  33.6   
1            1.0     85.0           66.0           29.0      0.0  26.6   
2            8.0    183.0           64.0            0.0      0.0  23.3   
3            1.0     89.0           66.0           23.0     94.0  28.1   
4            0.0    137.0           40.0           35.0   4500.0  43.1   
..           ...      ...            ...            ...      ...   ...   
793         10.0    101.0           76.0           48.0    180.0  32.9   
794          2.0    122.0           70.0           27.0      0.0  36.8   
795          5.0    121.0           72.0           23.0    112.0  26.2   
796          1.0    126.0           60.0            0.0      0.0  30.1   
797          1.0     93.0           70.0           31.0      0.0  30.4   

     DiabetesPedigreeFunction   Age           Satisfaction  \
0                

In [None]:
data.shape

## 3. Ver y eliminar los outliers



In [235]:
# FUNCIÓN QUE DEVUELVE LOS NÚMEROS DE FILA EN LOS QUE LA VARIABLE EN CUESTIÓN ES OUTLIER
def outliers(var):
  q1=var.quantile(0.25)
  q3=var.quantile(0.75)
  riq=q3-q1
  sup=q3+1.5*(riq)
  inf=q1-1.5*(riq)
  outl=(var>sup) | (var<inf)
  return outl

In [236]:
numericas=['Pregnancies','Glucose','BloodPressure','SkinThickness','Insulin','BMI','DiabetesPedigreeFunction','Age']
for i in data.loc[:,numericas]:
  print("Cantida de oultliers de la variable",i,":",outliers(data[i]).sum())

Cantida de oultliers de la variable Pregnancies : 4
Cantida de oultliers de la variable Glucose : 5
Cantida de oultliers de la variable BloodPressure : 48
Cantida de oultliers de la variable SkinThickness : 1
Cantida de oultliers de la variable Insulin : 37
Cantida de oultliers de la variable BMI : 19
Cantida de oultliers de la variable DiabetesPedigreeFunction : 31
Cantida de oultliers de la variable Age : 13


In [237]:
# Eliminar outliers
import numpy as np
def outliers(d,v):
  q3=np.quantile(d[v],0.75)
  q1=np.quantile(d[v],0.25)
  ric=q3-q1
  data_outliers=d.loc[(d[v]>q3+1.5*ric) | (d[v]<q1-1.5*ric), : ]
  data_limpia=d.loc[(d[v]<=q3+1.5*ric) & (d[v]>=q1-1.5*ric), : ]
  return data_outliers,data_limpia


In [238]:
v1,v2=outliers(data,'BloodPressure')
print(data.shape)
print(v1.shape)
print(v2.shape)

(771, 11)
(0, 11)
(0, 11)


In [239]:
for i in numericas:
    v1,v2=outliers(data,i)
    data=v2

data.shape

IndexError: index -1 is out of bounds for axis 0 with size 0

## 4. Detectar y tratar los valores perdidos



In [240]:
# Borramos nulos

data.isnull().sum().sum()
# data.dropna(inplace = True)

0

In [241]:
# Tratado para cada caso (con imputación de media para las numéricas y moda para las categóricas)
# Tu código

for i in numericas:
    data[i].fillna(data[i].mean(),inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data[i].fillna(data[i].mean(),inplace = True)


In [242]:
categoricas = ['Satisfaction','Job','Outcome']

In [243]:
for i in categoricas:
    data[i].fillna(data[i].mode()[0],inplace = True)

KeyError: 0

In [None]:
data.isnull().sum()

## 5. Transformar variables ordinales en numéricas

Como vemos tenemos la variable Satisfaction que es una variable ordinal y podemos suponer que el impacto que podrá tener sobre la variable a predecir (diabetes si/no) permanecerá constante al pasar de una categoría a la siguiente. por eso, la codificaremos como variable ordinal

In [None]:
data["Satisfaction"].value_counts()

In [None]:
# Creamos el objeto que realizará la transformación dándole el orden en una lista con doble corchete
# Tu código
ord_enc = preprocessing.OrdinalEncoder(categories = [["Extremely unsatisfied","Unsatisfied","Satisfied","Extremely satisfied"]], dtype = int)
data["Satisfaction"] = ord_enc.fit_transform(data[["Satisfaction"]])

data.sample(5)

## 6. Transformar variables nominales en numéricas

Como vemos tenemos la variable Job que es una variable nominal (sin orden) y debenmos codificarla mediante el One-Hot encoder

In [None]:
data["Job"].value_counts()

In [None]:
# Tu código

onehot_enc = preprocessing.OneHotEncoder()
oh = onehot_enc.fit_transform(data[["Job"]])
encoded = pd.DataFrame(oh.toarray(),columns = onehot_enc.get_feature_names_out(["Job"]))
encoded

data.sample(5)

In [None]:
data

## 7. Normalizamos todas las variables excepto la variable outcome que es la variable a predecir

En este caso realizaremos una normalización de tipo estandarización

In [None]:
# Tu código
a = standard.fit_transform(data)
data_std = pd.DataFrame(a, columns = data.columns)
data_std.sample(5)