# Plantilla de Pre Procesado

# Cómo importar las librerías


In [77]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importar el data set


In [78]:
dataset = pd.read_csv('./Data.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 3].values

# Tratamiento de los NAs

In [79]:
from sklearn.impute import SimpleImputer

In [80]:
imputer = SimpleImputer(missing_values = np.nan, strategy = "mean", verbose=0)
imputer = imputer.fit(X[:,1:3]) 
X[:, 1:3] = imputer.transform(X[:,1:3])
X

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, 63777.77777777778],
       ['France', 35.0, 58000.0],
       ['Spain', 38.77777777777778, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

# Codificar datos categoricos

In [81]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

In [82]:
# esto puede dar problemas ya que aplica un orden a los países que realmente no tienen. 
# Ejemplo España vale 2 y alemania 0...hay una relación de orden
# Es mejor utilizar una codificación con variables dummy
labelencoder_X = LabelEncoder()
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])

In [83]:
# Aquí utilizamos una codificación con variables dummy, one hot encoder
ct = ColumnTransformer(
    [('one_hot_encoder', OneHotEncoder(categories='auto'), [0])],   
    remainder='passthrough'                        
)

In [84]:
X = np.array(ct.fit_transform(X), dtype=float)
labelencoder_y = LabelEncoder()
y = labelencoder_y.fit_transform(y)

# Dividir el data set en conjunto de entrenamiento y conjunto de testing


In [85]:
from sklearn.model_selection import train_test_split

In [86]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

array([[0.0e+00, 1.0e+00, 0.0e+00, 3.0e+01, 5.4e+04],
       [0.0e+00, 1.0e+00, 0.0e+00, 5.0e+01, 8.3e+04]])

# Escalado de variables

In [87]:
from sklearn.preprocessing import StandardScaler

In [88]:
# Si hay diferencias grandes en los rangos de las variables afecta a los algoritmos ya que a menudo comparan los datos entre si. 
# Los valores con menores rangos pueden pasar desapercibidos
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
# Ojo que aquí utilizamos solo transform y no fit_transform para que se utilice el mismo escalado en los datos de test que se ha
# utilizado en los datos de entrenamiento
X_test = sc_X.transform(X_test)
print(X_train.shape)
print(X_test.shape)

(8, 5)
(2, 5)


In [89]:
result_Xtrain = pd.DataFrame({'Column1': X_train[:, 0], 'Column2': X_train[:, 1],'Column3': X_train[:, 2], 'Column4': X_train[:, 3],'Column5': X_train[:, 4]})

In [90]:
display(result_Xtrain)

Unnamed: 0,Column1,Column2,Column3,Column4,Column5
0,-1.0,2.645751,-0.774597,0.263068,0.123815
1,1.0,-0.377964,-0.774597,-0.253501,0.461756
2,-1.0,-0.377964,1.290994,-1.975398,-1.530933
3,-1.0,-0.377964,1.290994,0.052614,-1.11142
4,1.0,-0.377964,-0.774597,1.640585,1.720297
5,-1.0,-0.377964,1.290994,-0.081312,-0.167514
6,1.0,-0.377964,-0.774597,0.951826,0.986148
7,1.0,-0.377964,-0.774597,-0.597881,-0.482149


In [91]:
result_X_test = pd.DataFrame({'Column1': X_test[:, 0], 'Column2': X_test[:, 1],'Column3': X_test[:, 2], 'Column4': X_test[:, 3],'Column5': X_test[:, 4]})

In [92]:
display(result_X_test)

Unnamed: 0,Column1,Column2,Column3,Column4,Column5
0,-1.0,2.645751,-0.774597,-1.458829,-0.901663
1,-1.0,2.645751,-0.774597,1.984964,2.139811
