# <span style = "color: purple"> Plantilla de preprocesado
    
Esta plantilla general contempla toda la base a lo largo de las diferentes códigos

In [35]:
# Importación de librerías
import numpy  as np
import pandas as pd
import matplotlib.pyplot as plt
#1 Librería para el procesamiento y limpiado de datos
#2 Librería para variables categóricas (Labelencoder) o para estandarizar o escalar las variables (standardsacaler)
#3 Librería para dividir los datos en conjuntos de entrenamiento y prueba
from sklearn.impute import SimpleImputer #1
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler #2
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split #3

In [15]:
#Importando el dataset
dataset = pd.read_csv('Data.csv' )#Aqui se puede poner la ruta
pd.options.display.float_format = '{:.0f}'.format #Aquí se le da formato a los datos

# <span style = 'color:green'> 1. Creación de variables 
Para limpiar los datos es necesario separar variables dependientes e independientes. Para ello se crean sus respectivas variables.

In [16]:
#x = matriz de variables independientes
#y = matriz de variables dependientes
#i -> index
#loc -> Localization
#1 Permite extraer únicamente los valores del DF, no las posiciones y demás
X = dataset.iloc[:, :-1].values #1 
Y = dataset.iloc[:, 3].values

# <span style = 'color:green'> 2. Tratamiento de los NaN
    
Cuando se presentan NaN (not asigned number) en un dataframe (DF) no es necesario borrar la información inmediante, ya que esta puede ser valiosa. Por esta razón, se sustituyen dichos valores con la media de los datos que se tienen.

In [17]:
#SimpleImputer es la clase
#imputer es el objeto
#axis = 0 (1) es la columna (fila)
imputer = SimpleImputer(missing_values = np.nan, strategy= 'mean')
imputer = imputer.fit(X[:,1:3])
X[:,1:3] = imputer.transform(X[:,1:3])

# <span style= 'color:green'> 3. Codificación de datos categóricos
Las variables categóricas clasifican la información de acuerdo a diferentes características. Estas son variables cualitativas, por lo cual es necesario adecuarlas para poder implementarlas el algoritmos de predicción.

In [18]:
"""Con el label enconder se categorizan las variables. De esta forma, se obtiene un arreglo con
diferentes números que representan cada una de las variables categóricas."""
#1 Primero se asigna una categoría a los países y se representan con números
#2 Luego esa codificación se asigna a las columnas deseadas
#3 Posteriomente se crean las variables dummy para quitar la ordinalidad de las categorias creadas
labelencoder_X = LabelEncoder()#1
X[:,0] =labelencoder_X.fit_transform(X[:,0])#2

ct = ColumnTransformer(
    [('one_hot_encoder', OneHotEncoder(categories='auto'), [0])],   
    remainder='passthrough'                        
                      )#3
X = np.array(ct.fit_transform(X), dtype = float)
Y = labelencoder_X.fit_transform(Y)

# <span style = 'color: green'> 4. Conjuntos de entrenamiento y prueba
Se escoge aproximadamente el 70 u 80 por ciento del conjunto de los datos para crear un modelo, que será el conjunto de entrenamiento del algoritmo. Con los datos restantes se crea el conjunto de prueba, que servirán para evaluar el modelo.

In [21]:
#1 El test size escoje el porcentaje de los datos que se utilizarán en el conjunto de entrenamiento. 
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state = 0) #1

# <span style = 'color: green'> 5. Escalado de los datos
Cuando la diferencia de valores de una variable a otra es significativa, es necesario hacer un escalado o normalización de los datos para que estos sean comparables.

In [39]:
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test  = sc_X.transform(X_test) 