#Laboratorio #3: Normalización

En esta práctica se utiliza la herramienta Google Colaboratory. Alternativamente, si gusta puede utilizar Jupyter en línea o instalar Anaconda de manera local, ya que les va a servir para otras actividades más adelante en el curso. Para esta práctica los Notebook deberán crearlo y adaptarlo a las necesidades de su entrega. Esta práctica gira en torno a la normalización de datos.

La práctica consiste en ejecutar los ejercicios de la lectura y elegir desarrollar los ejercicios al final de la lectura.

##Normalización de datos en Python

En esta práctica, se prueban algunas formas diferentes de normalizar datos en Python usando scikit-learn, también conocido como sklearn. Cuando se normalizan datos, se cambia la escala de los datos. Los datos se suelen reescalar para que queden entre 0 y 1, ya que los algoritmos de aprendizaje automático tienden a funcionar mejor, o convergen más rápido, cuando las diferentes características están en una escala más pequeña. Antes de entrenar modelos de aprendizaje automático con datos, es una práctica común normalizar los datos primero para obtener resultados potencialmente mejores y más rápidos. La normalización también hace que el proceso de entrenamiento sea menos sensible a la escala de las características, lo que da como resultado mejores coeficientes después del entrenamiento.

Este proceso de hacer que las características sean más adecuadas para el entrenamiento mediante el reescalado se llama escalado de características.

* Python versión 3.9.13
* scikit-learn versión 1.0.2.

###La función preprocessing.normalize()

La función preprocessing.normalize() de scikit-learn se puede utilizar para normalizar un conjunto de datos similar a una matriz.

La función normalize() escala los vectores individualmente a una norma unitaria para que el vector tenga una longitud de uno. La norma predeterminada para normalize() es L2, también conocida como norma euclidiana. La fórmula de la norma L2 es la raíz cuadrada de la suma de los cuadrados de cada valor. Aunque el uso de la función normalize() da como resultado valores entre 0 y 1, no es lo mismo que simplemente escalar los valores para que queden entre 0 y 1.

####Normalización de una matriz utilizando la función normalize()

Se puede normalizar una matriz NumPy unidimensional utilizando la función normalize().

Para ello, se debe importar el módulo sklearn.preprocessing:

In [None]:
from sklearn import preprocessing

Se importa NumPy y se crea una matriz.

In [None]:
import numpy as np

x_array = np.array([2,3,5,6,7,4,8,7,6])

Se usa la función normalize() en la matriz para normalizar los datos a lo largo de una fila, en este caso una matriz unidimensional.

In [None]:
normalized_arr = preprocessing.normalize([x_array])
print(normalized_arr)

[[0.11785113 0.1767767  0.29462783 0.35355339 0.41247896 0.23570226
  0.47140452 0.41247896 0.35355339]]


Se ejecuta el código de ejemplo completo para demostrar cómo normalizar una matriz NumPy utilizando la función normalize().

In [None]:
from sklearn import preprocessing
import numpy as np

x_array = np.array([2,3,5,6,7,4,8,7,6])

normalized_arr = preprocessing.normalize([x_array])
print(normalized_arr)

[[0.11785113 0.1767767  0.29462783 0.35355339 0.41247896 0.23570226
  0.47140452 0.41247896 0.35355339]]


La salida muestra que todos los valores están en el rango de 0 a 1. Si se elevan al cuadrado todos los valores de la salida y luego se suman, el resultado es 1, o muy cercano a 1.

####Normalización de columnas de un DataFrame utilizando la función normalize()

En un DataFrame de pandas, las características son columnas y las filas son muestras. Se puede convertir una columna de DataFrame en una matriz NumPy y luego normalizar los datos en la matriz.

Los ejemplos en esta sección y en las siguientes utilizan el conjunto de datos [California Housing](https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset).

La primera parte del código de ejemplo importa los módulos, carga el conjunto de datos, crea el DataFrame e imprime la descripción del conjunto de datos.

In [None]:
import numpy as np
from sklearn import preprocessing
from sklearn.datasets import fetch_california_housing

# create the DataFrame
california_housing = fetch_california_housing(as_frame=True)

# print the dataset description
print(california_housing.DESCR)

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

:Number of Instances: 20640

:Number of Attributes: 8 numeric, predictive attributes and the target

:Attribute Information:
    - MedInc        median income in block group
    - HouseAge      median house age in block group
    - AveRooms      average number of rooms per household
    - AveBedrms     average number of bedrooms per household
    - Population    block group population
    - AveOccup      average number of household members
    - Latitude      block group latitude
    - Longitude     block group longitude

:Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).

This dataset was derived from the 1990 U.S. census, using one row per ce

Se observa que el parámetro as_frame está establecido en True para crear el objeto california_housing como un DataFrame de pandas. La salida incluye el siguiente extracto de la descripción del conjunto de datos, que se puede utilizar para elegir una característica para normalizar.

Se convierte una columna (característica) en una matriz y se imprime. Este ejemplo utiliza la columna HouseAge.

In [None]:
x_array = np.array(california_housing.data["HouseAge"])
print("HouseAge array: ",x_array)

HouseAge array:  [41. 21. 52. ... 17. 18. 16.]


Se utiliza la función normalize() para normalizar los datos y se imprime la matriz resultante.

In [None]:
normalized_arr = preprocessing.normalize([x_array])
print("Normalized HouseAge array: ",normalized_arr)

Normalized HouseAge array:  [[0.00912272 0.00467261 0.01157028 ... 0.00378259 0.0040051  0.00356009]]


Se ejecuta el ejemplo completo para demostrar cómo normalizar una característica utilizando la función normalize().

In [None]:
from sklearn import preprocessing
import numpy as np
from sklearn.datasets import fetch_california_housing

california_housing = fetch_california_housing(as_frame=True)
# print(california_housing.DESCR)

x_array = np.array(california_housing.data['HouseAge'])
print("HouseAge array: ",x_array)

normalized_arr = preprocessing.normalize([x_array])
print("Normalized HouseAge array: ",normalized_arr)

HouseAge array:  [41. 21. 52. ... 17. 18. 16.]
Normalized HouseAge array:  [[0.00912272 0.00467261 0.01157028 ... 0.00378259 0.0040051  0.00356009]]


La salida muestra que la función normalize() cambió la matriz de valores de edad media de la casa de modo que la raíz cuadrada de la suma de los cuadrados de los valores es igual a uno. En otras palabras, los valores se escalaron a una longitud unitaria utilizando la norma L2.

####Normalización de conjuntos de datos por fila o columna utilizando la función normalize()

Cuando se normaliza un conjunto de datos sin convertir las características, o columnas, en matrices para su procesamiento, los datos se normalizan por fila. El eje predeterminado para la función normalize() es 1, lo que significa que cada muestra, o fila, se normaliza.

El siguiente ejemplo demuestra cómo normalizar el conjunto de datos California Housing utilizando el eje predeterminado.

In [None]:
from sklearn import preprocessing
import pandas as pd

from sklearn.datasets import fetch_california_housing
california_housing = fetch_california_housing(as_frame=True)

d = preprocessing.normalize(california_housing.data)
scaled_df = pd.DataFrame(d, columns=california_housing.data.columns)
print(scaled_df)

         MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  \
0      0.023848  0.117447  0.020007   0.002933    0.922391  0.007321   
1      0.003452  0.008734  0.002594   0.000404    0.998535  0.000877   
2      0.014092  0.100971  0.016093   0.002084    0.963106  0.005441   
3      0.009816  0.090449  0.010119   0.001866    0.970590  0.004432   
4      0.006612  0.089394  0.010799   0.001859    0.971303  0.003750   
...         ...       ...       ...        ...         ...       ...   
20635  0.001825  0.029242  0.005902   0.001326    0.988384  0.002995   
20636  0.006753  0.047539  0.016147   0.003475    0.940212  0.008247   
20637  0.001675  0.016746  0.005128   0.001103    0.991926  0.002291   
20638  0.002483  0.023932  0.007086   0.001558    0.985188  0.002823   
20639  0.001715  0.011486  0.003772   0.000834    0.995727  0.001879   

       Latitude  Longitude  
0      0.108510  -0.350136  
1      0.015745  -0.050829  
2      0.073495  -0.237359  
3      0.065837  -0

La salida muestra que los valores se normalizan a lo largo de las filas de modo que cada muestra se normaliza en lugar de cada característica. Se puede normalizar por característica especificando el eje.

El siguiente ejemplo demuestra cómo normalizar el conjunto de datos California Housing utilizando axis=0 para normalizar por característica.

In [None]:
from sklearn import preprocessing
import pandas as pd

from sklearn.datasets import fetch_california_housing
california_housing = fetch_california_housing(as_frame=True)

d = preprocessing.normalize(california_housing.data, axis=0)
scaled_df = pd.DataFrame(d, columns=california_housing.data.columns)
print(scaled_df)

         MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  \
0      0.013440  0.009123  0.008148   0.005965    0.001231  0.001642   
1      0.013401  0.004673  0.007278   0.005662    0.009180  0.001356   
2      0.011716  0.011570  0.009670   0.006254    0.001896  0.001801   
3      0.009110  0.011570  0.006787   0.006252    0.002133  0.001638   
4      0.006209  0.011570  0.007329   0.006299    0.002160  0.001402   
...         ...       ...       ...        ...         ...       ...   
20635  0.002519  0.005563  0.005886   0.006603    0.003231  0.001646   
20636  0.004128  0.004005  0.007133   0.007666    0.001361  0.002007   
20637  0.002744  0.003783  0.006073   0.006526    0.003850  0.001495   
20638  0.003014  0.004005  0.006218   0.006828    0.002833  0.001365   
20639  0.003856  0.003560  0.006131   0.006772    0.005303  0.001682   

       Latitude  Longitude  
0      0.007386  -0.007114  
1      0.007383  -0.007114  
2      0.007381  -0.007115  
3      0.007381  -0

Cuando se examine la salida, se observará que los resultados de la columna HouseAge coinciden con la salida que se obtuvo cuando se convirtió la columna HouseAge a una matriz y se normalizó en un ejemplo anterior.

###Uso de la función preprocessing.MinMaxScaler() de scikit-learn para normalizar datos

Puede utilizar la función preprocessing.MinMaxScaler() de scikit-learn para normalizar cada característica escalando los datos a un rango.

La función MinMaxScaler() escala cada característica individualmente para que los valores tengan un valor mínimo y máximo determinado, con un valor predeterminado de 0 y 1.

La fórmula para escalar los valores de las características a entre 0 y 1 es:

`scaled_value = (original_value - min_value) / (max_value - min_value)`

Se resta el valor mínimo de cada entrada y luego se divide el resultado por el rango, donde el rango es la diferencia entre el valor máximo y el valor mínimo.

El siguiente ejemplo demuestra cómo se utiliza la función MinMaxScaler() para normalizar el conjunto de datos California Housing.

In [None]:
from sklearn import preprocessing
import pandas as pd

from sklearn.datasets import fetch_california_housing
california_housing = fetch_california_housing(as_frame=True)

scaler = preprocessing.MinMaxScaler()
d = scaler.fit_transform(california_housing.data)
scaled_df = pd.DataFrame(d, columns=california_housing.data.columns)
print(scaled_df)

         MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  \
0      0.539668  0.784314  0.043512   0.020469    0.008941  0.001499   
1      0.538027  0.392157  0.038224   0.018929    0.067210  0.001141   
2      0.466028  1.000000  0.052756   0.021940    0.013818  0.001698   
3      0.354699  1.000000  0.035241   0.021929    0.015555  0.001493   
4      0.230776  1.000000  0.038534   0.022166    0.015752  0.001198   
...         ...       ...       ...        ...         ...       ...   
20635  0.073130  0.470588  0.029769   0.023715    0.023599  0.001503   
20636  0.141853  0.333333  0.037344   0.029124    0.009894  0.001956   
20637  0.082764  0.313725  0.030904   0.023323    0.028140  0.001314   
20638  0.094295  0.333333  0.031783   0.024859    0.020684  0.001152   
20639  0.130253  0.294118  0.031252   0.024573    0.038790  0.001549   

       Latitude  Longitude  
0      0.567481   0.211155  
1      0.565356   0.212151  
2      0.564293   0.210159  
3      0.564293   0

La salida muestra que los valores se escalan para tener un valor mínimo predeterminado de 0 y un valor máximo de 1.

También se pueden especificar diferentes valores mínimo y máximo para la escala. En el siguiente ejemplo, el valor mínimo es 0 y el valor máximo es 2.

In [None]:
from sklearn import preprocessing
import pandas as pd

from sklearn.datasets import fetch_california_housing
california_housing = fetch_california_housing(as_frame=True)

scaler = preprocessing.MinMaxScaler(feature_range=(0, 2))
d = scaler.fit_transform(california_housing.data)
scaled_df = pd.DataFrame(d, columns=california_housing.data.columns)
print(scaled_df)

         MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  \
0      1.079337  1.568627  0.087025   0.040937    0.017882  0.002999   
1      1.076054  0.784314  0.076448   0.037859    0.134421  0.002281   
2      0.932056  2.000000  0.105513   0.043880    0.027635  0.003396   
3      0.709397  2.000000  0.070482   0.043857    0.031111  0.002987   
4      0.461552  2.000000  0.077068   0.044333    0.031503  0.002397   
...         ...       ...       ...        ...         ...       ...   
20635  0.146260  0.941176  0.059538   0.047431    0.047199  0.003007   
20636  0.283706  0.666667  0.074688   0.058248    0.019788  0.003912   
20637  0.165529  0.627451  0.061808   0.046646    0.056280  0.002629   
20638  0.188591  0.666667  0.063565   0.049719    0.041369  0.002303   
20639  0.260507  0.588235  0.062505   0.049146    0.077581  0.003098   

       Latitude  Longitude  
0      1.134963   0.422311  
1      1.130712   0.424303  
2      1.128587   0.420319  
3      1.128587   0

La salida muestra que los valores se escalan para tener un valor mínimo de 0 y un valor máximo de 2.

##Ejercicio de Normalización

1) Busque un dataset al cuál aplicar normalización a al menos un atributo.



In [57]:
from sklearn import preprocessing
import numpy as np
from sklearn.datasets import fetch_california_housing
import pandas as pd

# Traer el dataset
california_housing = fetch_california_housing(as_frame=True)

# Ver el data set antes de normalizarlo
scaled_df = pd.DataFrame(d, columns=california_housing.data.columns)
print(scaled_df)

# Normalizar la media de ingresos
x_array = np.array(california_housing.data['MedInc'])

print("Dataset normalizado en MedInc por columna:")
# Se normaliza por columna
d = preprocessing.normalize(california_housing.data, axis=0)
scaled_df = pd.DataFrame(d, columns=california_housing.data.columns)
print(scaled_df)

         MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  \
0      0.013440  0.009123  0.008148   0.005965    0.001231  0.001642   
1      0.013401  0.004673  0.007278   0.005662    0.009180  0.001356   
2      0.011716  0.011570  0.009670   0.006254    0.001896  0.001801   
3      0.009110  0.011570  0.006787   0.006252    0.002133  0.001638   
4      0.006209  0.011570  0.007329   0.006299    0.002160  0.001402   
...         ...       ...       ...        ...         ...       ...   
20635  0.002519  0.005563  0.005886   0.006603    0.003231  0.001646   
20636  0.004128  0.004005  0.007133   0.007666    0.001361  0.002007   
20637  0.002744  0.003783  0.006073   0.006526    0.003850  0.001495   
20638  0.003014  0.004005  0.006218   0.006828    0.002833  0.001365   
20639  0.003856  0.003560  0.006131   0.006772    0.005303  0.001682   

       Latitude  Longitude  
0      0.007386  -0.007114  
1      0.007383  -0.007114  
2      0.007381  -0.007115  
3      0.007381  -0

2) Aplique un método de normalización al dataset para los atributos seleccionados.

In [73]:
from sklearn import preprocessing
import numpy as np
from sklearn.datasets import fetch_california_housing
import pandas as pd

# Traer el dataset
california_housing = fetch_california_housing(as_frame=True)

# Normalizar la media de ingresos
x_array = np.array(california_housing.data['MedInc'])
x_array2 = np.array(california_housing.data['HouseAge'])

print("Dataset normalizado en MedInc por columna y HouseAge en rango de 0 y 100:")
# Se normaliza por columna
d = preprocessing.normalize(california_housing.data, axis=0)

print('MedInc Normalizado')
scaled_df = pd.DataFrame(d, columns=california_housing.data.columns)
print(scaled_df)
# Se normaliza en un rango de 0 a 100 para el HouseAge y por caracteristica

scaler = preprocessing.MinMaxScaler(feature_range=(0, 100))
print('HouseAge Normalizado de 0 a 100')
print(scaler.fit_transform(x_array2.reshape(-1, 1)).flatten())



Dataset normalizado en MedInc por columna y HouseAge en rango de 0 y 100:
MedInc Normalizado
         MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  \
0      0.013440  0.009123  0.008148   0.005965    0.001231  0.001642   
1      0.013401  0.004673  0.007278   0.005662    0.009180  0.001356   
2      0.011716  0.011570  0.009670   0.006254    0.001896  0.001801   
3      0.009110  0.011570  0.006787   0.006252    0.002133  0.001638   
4      0.006209  0.011570  0.007329   0.006299    0.002160  0.001402   
...         ...       ...       ...        ...         ...       ...   
20635  0.002519  0.005563  0.005886   0.006603    0.003231  0.001646   
20636  0.004128  0.004005  0.007133   0.007666    0.001361  0.002007   
20637  0.002744  0.003783  0.006073   0.006526    0.003850  0.001495   
20638  0.003014  0.004005  0.006218   0.006828    0.002833  0.001365   
20639  0.003856  0.003560  0.006131   0.006772    0.005303  0.001682   

       Latitude  Longitude  
0      0.0073

3) Explique la importancia de normalizar los atributos seleccionados para el análisis del dataset.

Este puede llegar a mejorar el rendimiento de las tecnologías que se estén usando al usar rangos de valores más bajos, mejorando tiempos de respueta, análisis, procesamiento y entrenamiento en caso de modelos de aprendizaje automático.

##Conclusión

Se han utilizado dos funciones de scikit-learn para normalizar los datos de diferentes maneras por muestra (fila) y por característica (columna).

Fuentes:

* [Sklearn Documentation](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html)
* [How to Normalize Data Using scikit-learn in Python](https://www.digitalocean.com/community/tutorials/normalize-data-in-python)
