# Herramientas de preprocesamiento de datos

## Importar las librerias

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Solo aplica para G Collab
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


## Importar el dataset

In [1]:
dataset = pd.read_csv('gdrive/MyDrive/Colab Notebooks/Machine Learning/Data.csv')
# dataset = pd.read_csv('Data.csv')
# X -> independientes
# y -> dependientes
# iloc[filas, columnas]
# iloc[:] dame todas las filas
X = dataset.iloc[:, :-1].values
# y = dataset.iloc[:, 3].values
y = dataset.iloc[:, -1].values

NameError: name 'pd' is not defined

In [None]:
print(X)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


In [None]:
print(y)

['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']


## Cuidando los datos faltantes

Aqui se hace la limpieza de los datos, o lo que se conoce como tratamiento de los NA

In [None]:
# Libreria de limpieza
from sklearn.impute import SimpleImputer
# estrategia, media de la columna, es la mas comun (mean), Ojo, NO DE LA FILA
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])

In [None]:
print(X)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 63777.77777777778]
 ['France' 35.0 58000.0]
 ['Spain' 38.77777777777778 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


## Codificación de datos categóricos

### Codificación de la variable independiente

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
# Columna cero
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')
# transformar todo el conjunto X, todas las filas
X = np.array(ct.fit_transform(X))
# Traduce categoria sin orden a un conjunto de tantas columnas como categorías existen

In [None]:
print(X)

[[1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 35.0 58000.0]
 [0.0 0.0 1.0 38.77777777777778 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


### Codificación de la variable dependiente

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)

In [None]:
print(y)

[0 1 0 0 1 1 0 1 0 1]


## Dividir el conjunto de datos en conjunto de entrenamiento y conjunto de prueba

In [None]:
# Hay que aprender a separar datos en test y train
# El objetivo de los algoritmos de ML es meter datos para que estos algoritmos intenten aprender razgos a partir
# de las variables independientes para intentar predecir una variable dependiente
# Si solo creamos el modelo y nunca lo probamos, no vamos a saber si funciona bien o no con datos nuevos
# Hay que dividir el dataset en test y train
from sklearn.model_selection import train_test_split
# Tendremos ahora 4 variables en vez de 2
# random_state numero para reproducir el algoritmo, una semilla aleatoria, que siempre va a dar el mismo resultado
# Cada vez que se ejecuta
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 1)

In [None]:
print(X_train)

[[0.0 0.0 1.0 38.77777777777778 52000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 35.0 58000.0]]


In [None]:
print(X_test)

[[0.0 1.0 0.0 30.0 54000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


In [None]:
print(y_train)

[0 1 0 0 1 1 0 1]


In [None]:
print(y_test)

[0 1]


## Escalado de funciones

El escalado de los datos nos ayuda a evitar problemas como la dominancia de un atributo sobre los demás.

La normalización es una forma de escalar y transformar los datos para que estén en un rango común, independientemente de la escala original de los datos. Esta técnica se utiliza para estandarizar los datos y reducir el impacto de las diferencias en la escala y la magnitud de los atributos de los datos. Por ejemplo, si una característica tiene valores en el rango de 1 a 1000 y otra característica tiene valores en el rango de 1 a 5, la característica con valores más grandes tendrá una influencia dominante en el modelo de aprendizaje automático. (Euclides)

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
# Escalar automáticamente el conjunto de entrenamiento
X_train[:, 3:] = sc.fit_transform(X_train[:, 3:])
# OJO, conjunto de test se escala con la misma transformacion que el escalador
# haya detectado a partir del conjunto de entrenamiento
# Sino se hace asi, se hace un escalado doferente para entrenar y otro para test
# Todo debe estar escalado del mismo modo, con la misma fórmula
X_test[:, 3:] = sc.transform(X_test[:, 3:])

# Necesitamos escalar las variables dummy? (paises)
# Hay aqui un Black Hole, hay gente que dice que si, hay gente que dice que no
# Igual los libros se contraponen en este sentido
# Hay razones para ambas:
# La razón de si hacerlo es para que todo quede escalado igual que el resto
# y que se comporten del mismo modo
# La razón de no escalarlas es porque al escalar se pierde una noción muy
# importante, la pertenencia o no a la clase dummy que representa a nivel
# de la categoria!
# No suele haber ventajas sobre los algoritmos al escalar o no las variables dummy

In [None]:
print(X_train)

[[0.0 0.0 1.0 -0.19159184384578545 -1.0781259408412425]
 [0.0 1.0 0.0 -0.014117293757057777 -0.07013167641635372]
 [1.0 0.0 0.0 0.566708506533324 0.633562432710455]
 [0.0 0.0 1.0 -0.30453019390224867 -0.30786617274297867]
 [0.0 0.0 1.0 -1.9018011447007988 -1.420463615551582]
 [1.0 0.0 0.0 1.1475343068237058 1.232653363453549]
 [0.0 1.0 0.0 1.4379472069688968 1.5749910381638885]
 [1.0 0.0 0.0 -0.7401495441200351 -0.5646194287757332]]


In [None]:
print(X_test)

[[0.0 1.0 0.0 -1.4661817944830124 -0.9069571034860727]
 [1.0 0.0 0.0 -0.44973664397484414 0.2056403393225306]]
