Escalado de características
Normalizar o estandarizar son técnicas muy similares que cambian el rango de valores que tiene una característica. De este modo, los modelos aprenden más rápido y con mayor solidez.

Ambos procesos se denominan comúnmente escalado de características.

En este ejercicio utilizaremos un conjunto de datos de adiestramiento de perros para predecir cuántos rescates realizará un perro en un año determinado, basándonos en la edad que tenían cuando comenzó su adiestramiento.

Entrenaremos modelos con y sin escalado de características y compararemos su comportamiento y resultados.

Pero primero, vamos a cargar nuestro conjunto de datos e inspeccionarlo:


In [26]:
from graphing import *
import pandas
import wget  #aqui importamos wget guardamos la url en una variable y lo descargamos 
site_url = 'https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/m1b_gradient_descent.py'
file_name = wget.download(site_url)

url2 = 'https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/graphing.py'
file_name = wget.download(url2)


#!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/graphing.py
#!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/dog-training.csv
#!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/m1b_gradient_descent.py


url = 'https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/dog-training.csv'
#data = pandas.read_csv("dog-training.csv", delimiter="\t")
data = pandas.read_csv(url,delimiter="\t")
data.head()

Unnamed: 0,month_old_when_trained,mean_rescues_per_year,age_last_year,weight_last_year,rescues_last_year
0,68,21.1,9,14.5,35
1,53,14.9,5,14.0,30
2,41,20.5,6,17.7,34
3,3,19.4,1,13.7,29
4,4,24.9,4,18.4,30


El conjunto de datos anterior nos dice a qué edad empezó a entrenar un perro, cuántos rescates, de media, ha realizado al año, y otras estadísticas, como qué edad tenía el año pasado, su peso y cuántos rescates realizó en ese periodo.

Obsérvese que también tenemos variables expresadas en distintas unidades, como mes*viejo_cuando_entrenó en meses, edad*último*año en años y peso*último_año en kilogramos.

Tener características en rangos y unidades muy diferentes es un buen indicador de que un modelo puede beneficiarse del escalado de características.

En primer lugar, vamos a entrenar nuestro modelo utilizando el conjunto de datos "tal cual":


In [86]:
from m1b_gradient_descent import gradient_descent
import numpy
import graphing



# Train model using Gradient Descent
# This method uses custom code that will print out progress as training advances.
# You don't need to inspect how this works for these exercises, but if you are
# curious, you can find it in out GitHub repository
model = gradient_descent(data.month_old_when_trained, data.mean_rescues_per_year, learning_rate=5E-4, number_of_iterations=8000)


Iteration 0  Current estimate: y = 0.6551939999999999 * x + 0.01989 Cost: 285.7519204585047
Iteration 100  Current estimate: y = 0.37017703051219436 * x + 0.6317811959477302 Cost: 151.3711059205156
Iteration 200  Current estimate: y = 0.35765990734380276 * x + 1.233468946326008 Cost: 144.12794309730637
Iteration 300  Current estimate: y = 0.3454643601625017 * x + 1.819698805170826 Cost: 137.252166173823
Iteration 400  Current estimate: y = 0.33358212739619614 * x + 2.390867899414735 Cost: 130.7251406940121
Iteration 500  Current estimate: y = 0.3220051597199002 * x + 2.947363153447446 Cost: 124.52917737405625
Iteration 600  Current estimate: y = 0.3107256146029201 * x + 3.4895615512281988 Cost: 118.64748416158396
Iteration 700  Current estimate: y = 0.29973585099612604 * x + 4.01783039166423 Cost: 113.06412072651936
Iteration 800  Current estimate: y = 0.2890284241557118 * x + 4.532527537428349 Cost: 107.76395526023639
Iteration 900  Current estimate: y = 0.27859608059993735 * x + 5.03

Análisis del entrenamiento
Como puede ver en la salida anterior, estamos imprimiendo una estimación de los pesos y el coste calculado en cada iteración.

La última línea de la salida muestra que el modelo dejó de entrenarse porque alcanzó el número máximo de iteraciones permitido, pero el coste podría ser menor si lo hubiéramos dejado correr más tiempo.

Tracemos el modelo al final de este entrenamiento:


In [4]:
from PIL import Image
imagen = Image.open('1.png')
imagen.show()
#me causa un error graficarla con la linea graphing descargue la imgane y la abri 
# Plot the data and trendline after training
#graphing.scatter_2D(data, "month_old_when_trained", "mean_rescues_per_year", trendline=model.predict)

El gráfico anterior nos dice que cuanto más joven empieza a entrenarse un perro, más rescates realiza en un año.

Obsérvese que no se ajusta muy bien a los datos (la mayoría de los puntos están por encima de la línea). Esto se debe a que el adiestramiento se interrumpió pronto, antes de que el modelo pudiera encontrar los pesos óptimos.

Normalización de los datos
Utilicemos la estandarización como forma de escalado de características para este modelo, aplicándola a la característica month_old_when_trained:


In [52]:
# Add the standardized verions of "age_when_trained" to the dataset.
# Notice that it "centers" the mean age around 0
data["standardized_age_when_trained"] = (data.month_old_when_trained - numpy.mean(data.month_old_when_trained)) / (numpy.std(data.month_old_when_trained))

# Print a sample of the new dataset
data[:5]

Unnamed: 0,month_old_when_trained,mean_rescues_per_year,age_last_year,weight_last_year,rescues_last_year,standardized_age_when_trained
0,68,21.1,9,14.5,35,1.537654
1,53,14.9,5,14.0,30,0.826655
2,41,20.5,6,17.7,34,0.257856
3,3,19.4,1,13.7,29,-1.543342
4,4,24.9,4,18.4,30,-1.495942


Observe que los valores de la columna edad_estandarizada_cuando_se_entrenó se distribuyen en un rango mucho más pequeño (entre -2 y 2) y tienen su media centrada en 0.

Visualización de características escaladas
Utilicemos un diagrama de cajas para comparar los valores originales de las características con sus versiones estandarizadas:


In [53]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go
import plotly.express as px

fig = px.box(data,y=["month_old_when_trained", "standardized_age_when_trained"])
fig.show()

Ahora compara las dos características pasando el ratón por encima del gráfico. Verá que

month_old_when_trained oscila entre 1 y 71 y tiene su mediana centrada en 35.

edad_estandarizada_cuando_se_entrenó oscila entre -1,6381 y 1,6798, y está centrada exactamente en 0.

Entrenamiento con características estandarizadas
Ahora podemos volver a entrenar nuestro modelo utilizando las características estandarizadas de nuestro conjunto de datos:


In [54]:
# Let's retrain our model, this time using the standardized feature
model_norm = gradient_descent(data.standardized_age_when_trained, data.mean_rescues_per_year, learning_rate=5E-4, number_of_iterations=8000)

Iteration 0  Current estimate: y = -0.002469271695567481 * x + 0.01989 Cost: 409.47558290398973
Iteration 100  Current estimate: y = -0.23732823396711047 * x + 1.9116805097144178 Cost: 336.7707406040323
Iteration 200  Current estimate: y = -0.4498267787096775 * x + 3.623357706888266 Cost: 277.25100655774355
Iteration 300  Current estimate: y = -0.6420937932658433 * x + 5.172069793284766 Cost: 228.52524594986943
Iteration 400  Current estimate: y = -0.8160554781852589 * x + 6.573332327196407 Cost: 188.63595906277715
Iteration 500  Current estimate: y = -0.9734546445990158 * x + 7.841183663924317 Cost: 155.98064104392154
Iteration 600  Current estimate: y = -1.1158681743324268 * x + 8.988325597103357 Cost: 129.24740317153262
Iteration 700  Current estimate: y = -1.2447228176779617 * x + 10.026250609868582 Cost: 107.3622692791277
Iteration 800  Current estimate: y = -1.3613094870961393 * x + 10.965357010711452 Cost: 89.44603003512722
Iteration 900  Current estimate: y = -1.466796190043848

Veamos de nuevo el resultado.

A pesar de que todavía se le permite un máximo de 8000 iteraciones, el modelo se detuvo en la marca 5700.

¿Por qué? Porque esta vez, utilizando la función estandarizada, pudo alcanzar rápidamente un punto en el que ya no se podía mejorar el coste.

En otras palabras, "convergió" mucho más rápido que la versión anterior.

Trazado del modelo normalizado
Ahora podemos trazar el nuevo modelo y ver los resultados de la normalización:


In [4]:
from PIL import Image
imagen = Image.open('2.png')
imagen.show()
# Plot the data and trendline again, after training with standardized feature
#graphing.scatter_2D(data, "standardized_age_when_trained", "mean_rescues_per_year", trendline=model_norm.predict)

Parece que este modelo se ajusta a los datos mucho mejor que el primero.

El modelo estandarizado muestra una mayor pendiente y los datos están ahora centrados en 0 en el eje X, factores ambos que deberían permitir que el modelo convergiera más rápidamente.

¿Pero cuánto más rápido?

Hagamos una comparación entre modelos para visualizar las mejoras.


In [None]:
from PIL import Image
imagen = Image.open('newplot.png')
imagen.show()

cost1 = model.cost_history
cost2 = model_norm.cost_history

# Creates dataframes with the cost history for each model
df1 = pandas.DataFrame({"cost": cost1, "Model":"No feature scaling"})
df1["number of iterations"] = df1.index + 1
df2 = pandas.DataFrame({"cost": cost2, "Model":"With feature scaling"})
df2["number of iterations"] = df2.index + 1

# Concatenate dataframes into a single one that we can use in our plot
df = pandas.concat([df1, df2])

# Plot cost history for both models
fig = graphing.scatter_2D(df, label_x="number of iterations", label_y="cost", title="Training Cost vs Iterations", label_colour="Model")
fig.update_traces(mode='lines')
fig.show()

Este gráfico muestra claramente que el uso de un conjunto de datos estandarizados permitió que nuestro modelo convergiera mucho más rápido. Alcanzar el coste más bajo y encontrar los pesos óptimos requirió un número mucho menor de iteraciones.

Esto es muy importante cuando se está desarrollando un nuevo modelo, ya que permite iterar más rápido, pero también cuando el modelo se despliega en un entorno de producción, ya que requerirá menos tiempo de cálculo para el entrenamiento y costará menos que un modelo "lento".


Resumen
En este ejercicio hemos tratado los siguientes conceptos:

Las técnicas de scalaing de características se utilizan para mejorar la eficiencia de los modelos de entrenamiento
Cómo añadir una característica normalizada a un conjunto de datos
Cómo visualizar características estandarizadas y compararlas con sus valores originales
Por último, hemos comparado el rendimiento de los modelos antes y después de utilizar características estandarizadas, utilizando gráficos para visualizar las mejoras.
