<img src="Datos/ecs.png">

## 1.6. Transformación de valores

__Normalización__

In [1]:
# Importar set de datos
import pandas as pd 
import numpy as np

# Fijar la ruta donde se encuentra el archivo
ruta = "/Users/luiscuevas/Downloads/ECS-Taller_Analitica_de_datos/Datos/"

# Leer csv indicando el nombre de archivo
df = pd.read_csv(ruta + 'diabetes_imputacion_knn.csv', sep=',')

# Separar datos (variables explicativas 'x' y variable explicada 'y')
X = df.iloc[:,0:df.shape[1]-1]
Y = df.iloc[:,[-1]]

# Mostrar primeros registros
df.head(3)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6.0,148.0,72.0,35.0,162.743255,33.6,0.627,50.0,1.0
1,1.0,85.0,66.0,29.0,62.91477,26.6,0.351,31.0,0.0
2,8.0,183.0,64.0,26.464588,180.726394,23.3,0.672,32.0,1.0


__Normalización__

Esta normalización usa una regulación l1, l2 o max. Por defecto, la función utiliza la regulación l2

In [2]:
# Importar librería para normalizar
from sklearn.preprocessing import Normalizer

# Aplicar algoritmo para normalizar valores
NormalizerX = Normalizer().fit_transform(X)

# Capturar nombre de columnaw
columnas = X.columns

# Generar dataframe normalizado. Primero pasamos a dataframe la salida de la normalización y agregamos las columnas y luego pegamos la columna Outcome
df_Normalizer =pd.concat([pd.DataFrame(NormalizerX, columns=columnas), Y], axis=1)

df_Normalizer.head(3)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,0.024815,0.612095,0.297776,0.144752,0.673069,0.138962,0.002593,0.206789,1.0
1,0.007443,0.632675,0.491254,0.215854,0.46829,0.19799,0.002613,0.23074,0.0
2,0.029695,0.679276,0.237561,0.098234,0.670837,0.086487,0.002494,0.118781,1.0


__Normalización Min-Max__

Lo que realiza esta transformación es escalar linealmente los datos entre un valor mínimo y un valor máximo, usualmente 0 y 1, donde 0 corresponde al menor valor y 1 al mayor valor. Al tratarse de un escalado lineal, aunque los valores cambian, la distribución de los datos no lo hará. 

In [3]:
# Importar librería para normalizar
from sklearn.preprocessing import MinMaxScaler

# Aplicar algoritmo para normalizar valores
NormalizerX = MinMaxScaler().fit_transform(X)

# Capturar nombre de columnaw
columnas = X.columns

# Generar dataframe normalizado. Primero pasamos a dataframe la salida de la normalización y agregamos las columnas y luego pegamos la columna Outcome
df_Normalizer =pd.concat([pd.DataFrame(NormalizerX, columns=columnas), Y], axis=1)

df_Normalizer.head(3)


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,0.352941,0.670968,0.489796,0.304348,0.178778,0.314928,0.234415,0.483333,1.0
1,0.058824,0.264516,0.428571,0.23913,0.058792,0.171779,0.116567,0.166667,0.0
2,0.470588,0.896774,0.408163,0.211572,0.200392,0.104294,0.253629,0.183333,1.0


__Discretización__

aplicaremos discretización a la variable Glucose, de acuerdo con los valores encontrados en internet

- Un nivel de glucosa en la sangre inferior a 140 mg/dl (7,8 mmol/l) se considera normal.
- Un nivel de glucosa en la sangre de entre 140 y 198 mg/dl (7,8 a 11 mmol/l) se considera prediabetes. Esto se suele conocer como tolerancia alterada a la glucosa.
- Un nivel de glucosa en la sangre de 199 mg/dl (11,1 mmol/l) o superior indica diabetes tipo 2.

In [4]:
# Importar librería
import math 

# Generar categorías y rangos de valores
valores = [-math.inf, 140, 198, math.inf]
categorias = ['normal', 'prediabetes', 'diabetes tipo 2']

In [5]:
# Categorizar
df['Tipificacion_por_Glucose'] = pd.cut(df['Glucose'], bins=valores, labels=categorias)
df.head(5)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Tipificacion_por_Glucose
0,6.0,148.0,72.0,35.0,162.743255,33.6,0.627,50.0,1.0,prediabetes
1,1.0,85.0,66.0,29.0,62.91477,26.6,0.351,31.0,0.0,normal
2,8.0,183.0,64.0,26.464588,180.726394,23.3,0.672,32.0,1.0,prediabetes
3,1.0,89.0,66.0,23.0,94.0,28.1,0.167,21.0,0.0,normal
4,0.0,137.0,40.0,35.0,168.0,43.1,2.288,33.0,1.0,normal


__Binarización__

Puede crear nuevos atributos binarios en Python usando la clase [Binarizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html). Se puede fijar un umbral para clasificar cuales observaciones toman el valor 0 y cuales toman el valor 1.


In [6]:
# Importar función desde librería sklearn, módulo preprocessing
from sklearn.preprocessing import Binarizer

# Crear objeto de variable a binarizar
Z = df[['DiabetesPedigreeFunction']]

# Generar objeto para binarizar, indicando el umbral para binarizar
binarizer = Binarizer(threshold=0.65).fit(Z)

# Aplicar binarización a objeto
binaryX = binarizer.transform(Z)

# Reemplazar valos de variable binarizada
df[['DiabetesPedigreeFunction']] = pd.DataFrame(binaryX, columns=Z.columns)

# Mostrar data con columna binarizada
df.head(3)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Tipificacion_por_Glucose
0,6.0,148.0,72.0,35.0,162.743255,33.6,0.0,50.0,1.0,prediabetes
1,1.0,85.0,66.0,29.0,62.91477,26.6,0.0,31.0,0.0,normal
2,8.0,183.0,64.0,26.464588,180.726394,23.3,1.0,32.0,1.0,prediabetes


__Datos Dummies__

In [7]:
#Importar librería
from sklearn.preprocessing import OrdinalEncoder

# Aplicar One Hot Encoder
encoding = OrdinalEncoder()
df['Encoder_ Tip_Glucose'] = encoding.fit_transform(df[['Tipificacion_por_Glucose']])

#Mostra df
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Tipificacion_por_Glucose,Encoder_ Tip_Glucose
0,6.0,148.0,72.0,35.0,162.743255,33.6,0.0,50.0,1.0,prediabetes,2.0
1,1.0,85.0,66.0,29.0,62.91477,26.6,0.0,31.0,0.0,normal,1.0


In [8]:
#Visualizar codificación valor máximo
df[df['Glucose'] == df['Glucose'].max()]

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Tipificacion_por_Glucose,Encoder_ Tip_Glucose
647,1.0,199.0,76.0,43.0,386.046082,42.9,1.0,22.0,1.0,diabetes tipo 2,0.0
