# DATA PROCESSING 

En esta sección trabajaremos el procesamiento de datos, así como la preparación del mismo para modelos de machine learning

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [22]:
ds = pd.read_csv('Data.csv')
ds.head()

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes


In [23]:
# Estructura de iloc : (columna_inicio:columna final, fila_inicio:fila_final)
# EL '.values' significa que queremos los valores y no los indices
x = ds.iloc[:,:-1].values
x

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, nan],
       ['France', 35.0, 58000.0],
       ['Spain', nan, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

In [24]:
y = ds.iloc[:,3].values
y

array(['No', 'Yes', 'No', 'No', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes'],
      dtype=object)

Tratamiento para las N/A's

In [25]:
# SimpleImputer sirve para rellenar los espacios en blanco
from sklearn.impute import SimpleImputer
# (missing_values=np.nan, strategy='mean', fill_value=None, verbose=0, copy=True, add_indicator=False) es la estructura del transformador 
imputer = SimpleImputer(missing_values =np.nan , strategy = 'mean')
# fit : coloca el imputador en x
imputer.fit(x[:,1:3])
SimpleImputer()
# transform : impute todos los valores que faltan en x
x[:,1:3] = imputer.transform(x[:,1:3])
print(x)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 63777.77777777778]
 ['France' 35.0 58000.0]
 ['Spain' 38.77777777777778 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


Codificación de datos categóricos

In [26]:
# Le daremos valor númerico a las columnas con texto
from sklearn import preprocessing
le_x = preprocessing.LabelEncoder()
le_x.fit_transform(x[:,0])

array([0, 2, 1, 2, 1, 0, 2, 0, 1, 0])

In [27]:
x[:,0] = le_x.fit_transform(x[:,0])

In [28]:
# Hemos reemplazado los valores de los países y le hemos asignado a cada uno un valor
x

array([[0, 44.0, 72000.0],
       [2, 27.0, 48000.0],
       [1, 30.0, 54000.0],
       [2, 38.0, 61000.0],
       [1, 40.0, 63777.77777777778],
       [0, 35.0, 58000.0],
       [2, 38.77777777777778, 52000.0],
       [0, 48.0, 79000.0],
       [1, 50.0, 83000.0],
       [0, 37.0, 67000.0]], dtype=object)

En la sección anterior reemplazamos los valores tipo string a int, el problema con esto es que no son variables ordinales por lo mismo al interpretarlas no podremos utilizarlas de la manera adecuada. 
Entonces nuestra solución son las variables dummy, donde se crearán tantas columnas como categorías existen. En el cual cada etiqueta solo existirá un valor númerico 1 correspondiente a la categoría a la que pertenece el dato.

# One hot encoder (variable dummy)

In [29]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
 
ct = ColumnTransformer(
    [('one_hot_encoder', OneHotEncoder(categories='auto'), [0])],   
    remainder='passthrough'                        
)
# fit.transform aplica al input y luego lo procesa
x = np.array(ct.fit_transform(x), dtype=np.float64)

In [30]:
x

array([[1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 4.40000000e+01,
        7.20000000e+04],
       [0.00000000e+00, 0.00000000e+00, 1.00000000e+00, 2.70000000e+01,
        4.80000000e+04],
       [0.00000000e+00, 1.00000000e+00, 0.00000000e+00, 3.00000000e+01,
        5.40000000e+04],
       [0.00000000e+00, 0.00000000e+00, 1.00000000e+00, 3.80000000e+01,
        6.10000000e+04],
       [0.00000000e+00, 1.00000000e+00, 0.00000000e+00, 4.00000000e+01,
        6.37777778e+04],
       [1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 3.50000000e+01,
        5.80000000e+04],
       [0.00000000e+00, 0.00000000e+00, 1.00000000e+00, 3.87777778e+01,
        5.20000000e+04],
       [1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 4.80000000e+01,
        7.90000000e+04],
       [0.00000000e+00, 1.00000000e+00, 0.00000000e+00, 5.00000000e+01,
        8.30000000e+04],
       [1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 3.70000000e+01,
        6.70000000e+04]])

In [31]:
from sklearn.preprocessing import LabelEncoder
labelencoder_y = LabelEncoder()
# El vector de datos i pasa hacer la codificaión de sí mismo
y = labelencoder_y.fit_transform(y)

In [32]:
y

array([0, 1, 0, 0, 1, 1, 0, 1, 0, 1])