<span style="font-size:30px">**Preprocesado de datos.**</span> 
    
<span style="font-family: 'Verdana'; color: red;"> *Bronquivoide* </span>

### Vamos a implementar una serie de ejercicios que conforman el procedimiento de preprocesado de datos. Vamos a usar un archivo de formato CSV (Comma-Separated Values) de nombre *Datos_Preprocesado.csv*

# **EJERCICIOS:**

### 1) Cargar, leer y mostrar los datos del archivo (como es un arreglo de orden $10 \times 4$ entradas -en formato renglones $\times$ columnas-, se puede visualizar completamente).

### 2) Generar un arreglo, digamos $X$, que muestre los valores asociados a las entradas de las primeras tres columnas.

### 3) Trabajando con los datos de $X$, operar los datos faltantes de las columnas 2 y 3 sustituyéndolos por el valor del promedio asociado a cada columna. 

### 4) Codificar los datos categóricos de la primera columna de $X$, es decir, transformar las entradas con categorías a valores numéricos.

### 5) Transformar los valores ordinales resultado de la codificación de los datos categóricos a variables *dummy*.

### 6) Dividir el data set en conjunto de entrenamiento y conjunto de prueba. Considera al vector de datos $y$ compuesto de los datos de la cuarta columna. Para ello se deberán codificar también sus entradas categóricas.

### 7) Realizar un escalamiento de datos al conjunto $X$ de entrenamiento y al de prueba.

### Nota: La función StandardScaler() realiza una normalización (o bien, una estandarización) a cada entrada de la matriz $X$ en términos del promedio y la desviación estándar de cada columna:

<font size="5"> $Sc(X_{ij})=\frac{X_{ij}-\mu_j}{\sigma _j}$</font>

In [30]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split

#Ejercicio 1
#Carga y lectura de datos mediante la biblioteca Pandas:
datos=pd.read_csv('Datos_Preprocesado.csv')
print(f"Los datos del archivo CSV son: \n \n {datos}")
print( "\n")

#Ejercicio 2
#Arreglo de Python (o matriz) que muestra únicamente los valores en las primeras tres columnas:
X=datos.iloc[:,:-1].values
print(f"El arreglo de valores, X, es: \n \n {X}")
print( "\n")

#Ejercicio 3
#Definimos el método especificado para operar los NaN:
método=SimpleImputer(missing_values=np.nan, strategy="mean")
#Como algunas columnas tienen valores representados por datos categóricos, tomamos únicamente las columnas 2 y 3:
ajuste=método.fit(X[:,1:3]) 
#Sobreescribir los datos con este ajuste:
X[:,1:3]=ajuste.transform(X[:,1:3])
#Mostrar el nuevo arreglo de datos:
print(f"El nuevo arreglo X con el procedimiento de valores faltantes especificado es: \n \n {X}")
print( "\n")

#Ejercicio 4
codificación=LabelEncoder() #Creamos el codificador
X[:,0]=codificación.fit_transform(X[:,0])
print(f"El arreglo con los datos categóricos codificados es: \n \n {X}")
print( "\n")

#Ejercicio 5
tranformación_columnas=ColumnTransformer([('dummys', OneHotEncoder(categories='auto'), [0])], remainder='passthrough')
X = np.array(tranformación_columnas.fit_transform(X))
print(f"El arreglo con las variables dummy es: \n \n {X}")
print( "\n")

#Ejercicio 6
#Definimos el vector de datos:
y=datos.iloc[:, 3].values
print(f"El vector de datos, y, es: \n \n {y}")
print( "\n")
#Codificando las categorías:
codificación_y=LabelEncoder()
y=codificación_y.fit_transform(y)
print(f"El vector y codificado es: \n \n {y}")
print( "\n")
#División en datos de train y de test:
X_train , X_test , y_train , y_test = train_test_split(X, y, test_size = 0.2) #El test size de 0.2 manda 20% de datos al testing.
print(f"El conjunto X de entrenamiento es: \n \n {X_train}")
print( "\n")
print(f"El conjunto X de prueba es: \n \n {X_test}")
print( "\n")
print(f"El conjunto y de entrenamiento es: \n \n {y_train}")
print( "\n")
print(f"El conjunto y de prueba es: \n \n {y_test}")
print( "\n")

#Ejercicio 7
#Llamamos a la función de escalamiento:
sc_X=StandardScaler()
#Escalamiento para X_train:
X_train=sc_X.fit_transform(X_train)
#Escalamiento para X_test:
X_test=sc_X.transform(X_test)
print(f"El conjunto X de entrenamiento escalado es: \n \n {X_train}")
print( "\n")
print(f"El conjunto X de prueba escalado es: \n \n {X_test}")
print( "\n")

Los datos del archivo CSV son: 
 
    Country   Age   Salary Purchased
0   France  44.0  72000.0        No
1    Spain  27.0  48000.0       Yes
2  Germany  30.0  54000.0        No
3    Spain  38.0  61000.0        No
4  Germany  40.0      NaN       Yes
5   France  35.0  58000.0       Yes
6    Spain   NaN  52000.0        No
7   France  48.0  79000.0       Yes
8  Germany  50.0  83000.0        No
9   France  37.0  67000.0       Yes


El arreglo de valores, X, es: 
 
 [['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


El nuevo arreglo X con el procedimiento de valores faltantes especificado es: 
 
 [['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 63777.77777777778]
 ['France' 35.0 58000.0]
 ['Spain' 38.77777777777778 52000.0]
 ['Fra

# Fin de los ejercicios.
