# Pair Programming Estandarización

In [16]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Gráficos
# ------------------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt

# Transformación de los datos
# ------------------------------------------------------------------------------
from scipy import stats
import math 
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import RobustScaler
# Para la gestión de los warning
# ------------------------------------------------------------------------------
import warnings
warnings.filterwarnings('ignore')

# Para poder ver todas las columnas del dataframe
# ------------------------------------------------------------------------------
pd.options.display.max_columns = None 

In [17]:
df= pd.read_csv('data/df_normalizado.csv', index_col=0)

Los objetivos del pair programming de hoy son:
- Sobre las variables predictoras, en este caso deberéis estandarizar estas variables. De nuevo, usad el método que prefiráis.
- Guardar en un csv el nuevo dataframe que habéis creado para seguir usándolo en los siguientes pair programmings

Nos quedamos con las variables predictoras numéricas para hacer la estandarización mediante el método Standard Scaler porque es el más usado.

In [18]:
df.columns

Index(['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges',
       'charges_Sklearn'],
      dtype='object')

In [19]:
numericas= df.select_dtypes (include=np.number)
numericas.drop(["charges", 'charges_Sklearn'], axis = 1, inplace = True)

In [20]:
scaler = StandardScaler()

In [21]:
scaler.fit(numericas)

StandardScaler()

In [22]:
numericas_escaladas = scaler.transform(numericas)

In [23]:
numericas_estandar= pd.DataFrame (numericas_escaladas, columns=['age_estandar', 'bmi_estandar','children_estandar'])

In [24]:
numericas_estandar.head(2)

Unnamed: 0,age_estandar,bmi_estandar,children_estandar
0,-1.52134,0.515984,-0.074939
1,-0.810584,0.388566,1.567533


Comprobamos que se ha estandarizado correctamente, es decir que la media es igual a 0 y la desviación es igual a 1.

In [25]:
numericas_estandar.describe()

Unnamed: 0,age_estandar,bmi_estandar,children_estandar
count,1063.0,1063.0,1063.0
mean,-1.499793e-16,3.537465e-16,-2.0470720000000003e-17
std,1.000471,1.000471,1.000471
min,-1.52134,-2.431174,-0.8961749
25%,-0.8816593,-0.7176524,-0.8961749
50%,0.04232446,-0.05739647,-0.07493876
75%,0.8952326,0.625199,0.7462974
max,1.748141,3.719632,3.210006


Vemos que el método ha funcionado con la desviación pero no con la media por lo que vamos a probar con el método Robust Scaler.

In [26]:
robust = RobustScaler()

In [27]:
robust.fit(numericas)

RobustScaler()

In [28]:
numericas_robust = robust.transform(numericas)

In [29]:
numericas_robust_estandard = pd.DataFrame(numericas_robust, columns=['age_robust', 'bmi_robust','children_robust'])

In [30]:
numericas_robust_estandard.describe()

Unnamed: 0,age_robust,bmi_robust,children_robust
count,1063.0,1063.0,1063.0
mean,-0.023819,0.042742,0.045626
std,0.563045,0.745035,0.609125
min,-0.88,-1.767714,-0.5
25%,-0.52,-0.491682,-0.5
50%,0.0,0.0,0.0
75%,0.48,0.508318,0.5
max,0.96,2.812693,2.0


Vemos que el método ha funcionado con la media pero no con la desviación .

In [31]:
df[numericas_robust_estandard.columns] = numericas_robust_estandard

In [32]:
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,charges_Sklearn,age_robust,bmi_robust,children_robust
1,18,male,33.77,1,no,southeast,1725.5523,0.092979,-0.48,0.332101,1.0
2,28,male,33.0,3,no,southeast,4449.462,0.582938,-0.28,-0.936537,-0.5
3,33,male,22.705,0,no,northwest,21984.47061,0.0767,-0.32,-0.175601,-0.5
4,32,male,28.88,0,no,northwest,3866.8552,0.073619,-0.36,-0.562539,-0.5
5,31,female,25.74,0,no,southeast,3756.6216,0.198909,0.24,0.386322,0.0


In [34]:
df.to_csv('data/df_norm_estand.csv')