## Introducción al Machine Learning 
### Estandarización de Variables

In [None]:
import numpy as np
import pandas as pd

In [None]:
bankruptcy = pd.read_csv('../data/bankruptcy.csv', index_col='Company')

Recordamos la media y varianza de las características

In [None]:
bankruptcy.describe()

La estandarización es el **centrado** de la variable (a media 0) y el **escaldado** a varianza 1

In [None]:
wc_ta = (bankruptcy['WC/TA'] - bankruptcy['WC/TA'].mean()) / bankruptcy['WC/TA'].std()
wc_ta.describe()

Podemos realizar la misma operación con la función *scale* del paquete preprocessing

In [None]:
from sklearn.preprocessing import scale

In [None]:
wc_ta_2 =  scale(bankruptcy['WC/TA'])
print(wc_ta_2.mean())
print(wc_ta_2.std())

Como alternativa más adecuada podemos utilizar los "Scalers" de sklearn que nos permiten
guardar la transformación para aplicarlos sobre otros datasets, por ejemplo el de test.

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
features = bankruptcy.drop('Bankrupt', axis=1)
target = bankruptcy['Bankrupt']

In [None]:
scaler = StandardScaler()

In [None]:
ft_z_array = scaler.fit_transform(features)
features_z = pd.DataFrame(ft_z_array, columns=features.columns)
features_z.head()

In [None]:
features_z.describe().round(decimals=3)

Usamos la función transform para aplicar el mismo escalado y la inverse transform para recuperar el valor original

In [None]:
print(scaler.inverse_transform(features_z.iloc[-1]))
print(features.iloc[-1])


___

La normalización de rango funciona de forma similar con el *MinMaxScaler*

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
ft_norm_arr = MinMaxScaler().fit_transform(features)
pd.DataFrame(ft_norm_arr, columns=features.columns).describe()

___

### Propuesta de Ejercicio
Hacer una partición train y test para entrenar y evaluar un K-NN con características estandarizadas.
1. Hacer primero una estandarización sobre los ejemplos de entrenamiento y luego entrenar el KNN
2. Aplicar esta estandarización al conjunto de test y determinar el accuracy.
3. Comparad además la media y desviación del conjunto de test, con el escalado real que se ha aplicado
4. Determinar el accuracy sin haber realizado la estandarización y comparar resultados

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [None]:
x_train, x_test, y_train, y_test = train_test_split(features.values,
                                                    target.values,
                                                    test_size=0.4,
                                                    stratify=target.values)