# Proceso de creación y evaluación de modelos predictivos

![Screenshot 2023-09-04 at 23.54.18.png](attachment:34cddee1-6d8e-459f-a964-1230c2db428c.png)

# Estandarización 
La estandarización consiste en transformar la distribución de los valores de los atributos para que estos posean una media y desviación típica determinadas. Esta transformación se lleva a cabo para cada atributo de forma independiente.

![Screenshot 2023-09-03 at 19.07.48.png](attachment:7441eab5-074b-4bc6-a1f9-187422551e7a.png)

A cada valor del atributo se le resta la media aritmética de los valores originales del atributo y se divide por la desviación típica de estos. Al igual que la normalización, la operación de resta es el centrado, que, en el caso de la estandarización, en lugar de centrarse en el mínimo (normalización), se centra en la media. 

El escalado en estandarización comprende tan solo la amplitud definida por la desviación típica. Por consiguiente, los valores estandarizados no están acotados en un rango definido (como sucedía con la normalización).  

Una vez un atributo está estandarizado, suele interesar desestandarizar valores a su distribución original. 

Para calcular el valor `x` desestandarizado a partir del estadarizado, basta aplicar la operación en sentido contrario.

![Screenshot 2023-09-03 at 19.10.01.png](attachment:0aad3a6c-57e4-4322-a640-574c2ac1b79a.png)

In [None]:
from sklearn import preprocessing
import numpy as np

En este programa se ha vuelto a hacer uso del paquete preprocessing de la librería scikit-learn. La estandarización se encuentra en la clase StandardScaler. 

In [None]:
# Carga de datos.
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

In [None]:
# Limpieza de datos: estandarización.
standardizer = preprocessing.StandardScaler() #Aplicamos el StandardScaler para poder estandarizar
X_train_std = standardizer.fit_transform(X_train)

Tal como se aprecia en el programa, tenemos la misma matriz de números vista anteriormente y se ha creado un objeto llamado standardizer de la clase `StandardScaler`. Por último, el método `fit_transform()` nos crea el modelo de estandarización y lo aplica sobre la matriz de datos.

In [None]:
# Salida de resultados.
print(X_train_std) #Se puede observar que los números no caen entre 0 y 1 como en la normalización

In [None]:
X_train_2 = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

In [None]:
f = standardizer.fit(X_train_2)
X_train_std_2 = f.transform(X_train_2)

In [None]:
print(X_train_std_2)

In [None]:
# Comprobar si las matrices estandarizadas son iguales
print(np.array_equiv(X_train_std, X_train_std_2))

## Diferencias entre Normalización y Estandarización

![Screenshot 2023-09-04 at 23.48.31.png](attachment:b729b11d-6e12-4cba-9d09-1b437d3d8732.png)

En la siguiente página web se puede consultar más información acerca de la estandarización mediante la clase StandardScaler: https://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-removal- and-variance-scaling