# Transformación de datos

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler

In [2]:
# Carga de datos
data_frame = pd.read_csv("Churn_Modelling.csv")
data_frame.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [3]:
# split into inputs and outputs
last_ix = len(data_frame.columns) - 1
print(last_ix-1)

12


In [5]:
y = data_frame.iloc[:,last_ix]
print(y.shape)

(10000,)


In [13]:
X= data_frame.drop(data_frame.columns[[last_ix]], axis=1)
print(X.shape)

(10000, 13)


In [14]:
X

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10
...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52


In [None]:
# Valores nulos
for feature in data_frame.columns:
    print('Total de valores nulos de', feature, '=', data_frame[feature].isna().sum())

In [None]:
# Selecciona solo las características que se van a considerar en los posteriores análisis
X = data_frame.iloc[:, 3:-1]
# La ùltima columna (sale o no sale) se separa del resto para analizar la relación que tiene ella con el resto
y = data_frame.iloc[:, -1]

In [None]:
pd.DataFrame(X).head(10)

In [None]:
pd.DataFrame(y).head(5)

## Transformación de variables categóricas

Una **variable categórica** es aquella que toma valores desde un conjunto limitado de elementos. 

Se revisarán 3 enfoques para tratar este tipo de variables. Antes de revisarlos es conveniente preguntar ¿por qué deben ser tratadas?, la respuesta: los algoritmos que se revisarán más adelante requieren, muchos de ellos, que las variables sean numéricas.

Los enfoques son:

1. Borrar las variables categóricas. Se aplica cuando la columna no aporta mayor valor al análisis.
2. Etiqueta codificada (Label Encoding(. Asigna a cada valor de la lista un número entero diferente. Se debe tener cuidado porque el orden de los números no necesariamente representa el orden de las categorías.
3. One-hot-encoding. Crea nuevas columnas indicando la presencia (o ausencia) de cada posible valor en el set de datos original.

Antes de comenzar a trabajar con nuestro set de datos, se revisará primero la forma en que trabaja el Label y el one-hot encoding

In [None]:
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
# define example
data = ['frio', 'frio', 'templado', 'frio', 'calor', 'calor', 'templado', 'frio', 'templado', 'calor']
values = array(data)
print('Valores:',values)
# integer encode
label_encoder = LabelEncoder()
integer_encoded = label_encoder.fit_transform(values)
print('Label encoder integer:',integer_encoded)
# binary encode
onehot_encoder = OneHotEncoder(sparse=False)
integer_encoded = integer_encoded.reshape(len(integer_encoded), 1)
onehot_encoded = onehot_encoder.fit_transform(integer_encoded)
print('one-hot encoder:\n', onehot_encoded)

# invert first example
inverted = label_encoder.inverse_transform([argmax(onehot_encoded[0, :])])
print(inverted)

#### Analizando el resultado anterior

La matriz que aparece junto one-hot-encoder es de 3x3; esto es porque se tienen tres valores distintos.

Si se revisa la primera fila: [0 1 0] significa que el primer valor corresponde a frío; es decir, la primera columna representa el valor calor (codificado en 0), la segunda es frio (codificada en 1) y la tercera columna es templado (codificada en 2).

### Se comienza con la columna que contiene el género

In [None]:
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
gender_encoded = label_encoder.fit_transform(X["Gender"].unique())
print (gender_encoded)
X['GenderID'] = label_encoder.fit_transform(X.Gender)
print(X)

In [None]:
X2 = pd.get_dummies(X, columns=["Gender","Geography"])
X2

In [None]:
# split into inputs and outputs
last_ix = len(data_frame.columns) - 1
print(last_ix-1)

In [None]:
X= data_frame.drop(last_ix, axis=1)
print(X.shape)

In [None]:
y = data_frame[last_ix]
print(y.shape)

In [17]:
# determine categorical and numerical features
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.compose import ColumnTransformer
numerical_ix = X.select_dtypes(include=['int64', 'float64']).columns
categorical_ix = X.select_dtypes(include=['object', 'bool']).columns
# define the data preparation for the columns
t = [('cat', OneHotEncoder(), categorical_ix), ('num', MinMaxScaler(), numerical_ix)]
col_transform = ColumnTransformer(transformers=t)

In [18]:
col_transform

ColumnTransformer(n_jobs=None, remainder='drop', sparse_threshold=0.3,
                  transformer_weights=None,
                  transformers=[('cat',
                                 OneHotEncoder(categories='auto', drop=None,
                                               dtype=<class 'numpy.float64'>,
                                               handle_unknown='error',
                                               sparse=True),
                                 Index(['Surname', 'Geography', 'Gender'], dtype='object')),
                                ('num',
                                 MinMaxScaler(copy=True, feature_range=(0, 1)),
                                 Index(['RowNumber', 'CustomerId', 'CreditScore', 'Age', 'Tenure', 'Balance',
       'NumOfProducts', 'HasCrCard', 'IsActiveMember', 'EstimatedSalary'],
      dtype='object'))],
                  verbose=False)

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
X[:, 2] = le.fit_transform(X[:, 2])
pd.DataFrame(X)

Para el caso de la columna de Geografía (columna 1 en el dataframe anterior) se usará el tercer enfoque

In [None]:
X['Geography'].unique()

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])], remainder='passthrough')
#ct.fit_transform(X)
X = np.array(ct.fit_transform(X))
X=pd.DataFrame(X)
X

In [None]:
# Primero se revisan los valores únicos
pd.DataFrame(X)[1].unique()

Se observan 3 valores distintos, por lo que se espera que se agreguen 3 columnas y que cada una de ellas contenga 0 (ausencia) o 1 (presencia) del valor original

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])], remainder='passthrough')
X = np.array(ct.fit_transform(X))
pd.DataFrame(X)

### Comprobando la salida

Se visualizan 3 columnas al inicio de la matriz; si se considera la primera fila es (1,0,0) y sabiendo que el orden sería (France, Germany y Spain) indica que la primera observación sería de **France**.

El mismo análisis se hace para la segunda fila (0,0,1) que corresponde a **Spain**

## Escalar las características

Existen varias alternativas:

1. StandardScaler
2. MinMaxScaler

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()

scaled_data = sc.fit_transform(X)
pd.DataFrame(scaled_data).head()

In [None]:
scaler = MinMaxScaler()
scaled_data_1 = sc.fit_transform(X)
pd.DataFrame(scaled_data_1).head()

In [None]:
pd.DataFrame(scaled_data_1).describe()

In [None]:
df_x = pd.DataFrame(scaled_data)
df_x.head()