# Pair Programming Estandarización

In [67]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Gráficos
# ------------------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt

# Transformación de los datos
# ------------------------------------------------------------------------------
from scipy import stats
import math 
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import RobustScaler
# Para la gestión de los warning
# ------------------------------------------------------------------------------
import warnings
warnings.filterwarnings('ignore')

# Para poder ver todas las columnas del dataframe
# ------------------------------------------------------------------------------
pd.options.display.max_columns = None 

In [68]:
df= pd.read_csv('data/df_normalizado.csv', index_col=0)

Los objetivos del pair programming de hoy son:
- Sobre las variables predictoras, en este caso deberéis estandarizar estas variables. De nuevo, usad el método que prefiráis.
- Guardar en un csv el nuevo dataframe que habéis creado para seguir usándolo en los siguientes pair programmings

Nos quedamos con las variables predictoras numéricas para hacer la estandarización.

In [69]:
df.reset_index(inplace=True)

In [70]:
df.drop('index', axis=1, inplace=True)

In [71]:
df.columns

Index(['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges',
       'charges_Sklearn'],
      dtype='object')

In [72]:
numericas= df.select_dtypes (include=np.number)
numericas.drop(["charges", 'charges_Sklearn'], axis = 1, inplace = True) #Quitamos la  variable predictora (tanto la normalizada como la no normalizada)

In [73]:
scaler = StandardScaler() 

In [74]:
scaler.fit(numericas)

StandardScaler()

In [75]:
numericas_escaladas = scaler.transform(numericas)

In [76]:
numericas_estandar= pd.DataFrame (numericas_escaladas, columns=['age_estandar', 'bmi_estandar','children_estandar'])

In [77]:
numericas_estandar.head(2)

Unnamed: 0,age_estandar,bmi_estandar,children_estandar
0,-1.423338,-0.365157,-0.893931
1,-1.494481,0.611462,-0.070139


Comprobamos que se ha estandarizado correctamente, es decir que la media es igual a 0 y la desviación es igual a 1.

In [78]:
numericas_estandar.describe()

Unnamed: 0,age_estandar,bmi_estandar,children_estandar
count,1198.0,1198.0,1198.0
mean,9.397046e-17,1.823342e-16,-8.711266e-18
std,1.000418,1.000418,1.000418
min,-1.494481,-2.351669,-0.8939305
25%,-0.9253358,-0.7145433,-0.8939305
50%,-0.0004750794,-0.05985943,-0.07013917
75%,0.8532425,0.6197806,0.7536522
max,1.778103,3.832473,3.225026


Vemos que el método no funciona bien con la desviación pero sí parece con la media por lo que vamos a probar con el método Robust Scaler.

In [79]:
robust = RobustScaler()

In [80]:
robust.fit(numericas)

RobustScaler()

In [81]:
numericas_robust = robust.transform(numericas)

In [82]:
numericas_robust_estandard = pd.DataFrame(numericas_robust, columns=['age_robust', 'bmi_robust','children_robust'])

In [83]:
numericas_robust_estandard.describe()

Unnamed: 0,age_robust,bmi_robust,children_robust
count,1198.0,1198.0,1198.0
mean,0.000267,0.044861,0.042571
std,0.562482,0.749756,0.607203
min,-0.84,-1.717581,-0.5
25%,-0.52,-0.490648,-0.5
50%,0.0,0.0,0.0
75%,0.48,0.509352,0.5
max,1.0,2.917082,2.0


Vemos que el método funciona mejor con la media y con la desviación. La media se acerca al 0 y la deviación se acerca más al 1.

In [84]:
df[numericas_robust_estandard.columns] = numericas_robust_estandard

In [85]:
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,charges_Sklearn,age_robust,bmi_robust,children_robust
0,19,female,27.9,0,yes,southwest,16884.924,0.472641,-0.8,-0.228803,-0.5
1,18,male,33.77,1,no,southeast,1725.5523,0.018101,-0.84,0.503117,0.0
2,28,male,33.0,3,no,southeast,4449.462,0.099775,-0.44,0.407107,1.0
3,33,male,22.705,0,no,northwest,21984.47061,0.625547,-0.24,-0.876559,-0.5
4,32,male,28.88,0,no,northwest,3866.8552,0.082306,-0.28,-0.106608,-0.5


In [86]:
df.to_csv('data/df_norm_estand.csv')