![MIoT_GDPI](img/MIOT_GDPI_header.png)

# Introducción al concepto de Stream Learning

El tiempo es una característica clave de la mayoría de las actividades humanas de interés. Ya sea la evolución temporal del mercado de valores y la economía, la dinámica de las redes sociales y otros sistemas complejos, o la entrada sensorial a los robots, el flujo del tiempo es un factor importante para la comprensión del sistema y la toma de decisiones. Con este flujo de tiempo, la información se actualiza y evoluciona. Ante estos cambios, nos adaptamos a la nueva información, interpretamos su significado y modificamos, si es necesario, nuestras suposiciones subyacentes. Por lo tanto, los sistemas de IA en tiempo real deben ser capaces de adaptarse de manera similar para ser efectivos.

Los datos continuos basados en el tiempo se consideran "flujos". Los algoritmos de aprendizaje de IA que pueden adaptarse a estos flujos de manera "incremental" han dado lugar a un nuevo paradigma, conocido como aprendizaje en flujo en tiempo real o aprendizaje incremental. Debido a que los sistemas reales están caracterizados por fenómenos que pueden ocurrir en escalas de tiempo cortas o largas, estos sistemas pueden analizar información en múltiples escalas. Por ejemplo, el comportamiento a corto plazo podría ser las fluctuaciones de temperatura en un flujo de datos a lo largo de un día, mientras que el comportamiento a largo plazo podría considerar el promedio de temperaturas a lo largo de décadas.

Entonces, ¿cómo podría un sistema de IA proporcionar predicciones precisas en estas dos escalas de tiempo radicalmente diferentes? Más importante aún, ¿cómo podría un sistema de IA comprender que el flujo de datos entrante está evolucionando continuamente y que los fenómenos subyacentes pueden deberse a nuevas tendencias que no estaban presentes en los datos de entrenamiento originales? Estas son precisamente las preguntas que abordan los sistemas de aprendizaje incremental o en flujo.

###  Comparativa con el ML clásico

Para comprender mejor el aprendizaje en flujo o incremental, es útil compararlo con un enfoque tradicional de aprendizaje automático. Como ejemplo, consideremos una señal basada en el tiempo, como la de un sensor de temperatura, que consta de dos elementos de datos: la marca de tiempo y la amplitud correspondiente (un voltaje escalado, correlacionado con la temperatura).

Un algoritmo clásico de aprendizaje automático podría obtener información en múltiples escalas temporales analizando primero la relación a corto plazo de la señal; esto se logra mediante el uso de una ventana deslizante y analizando las características de la señal dentro de cada una de estas ventanas. Con ventanas más grandes y datos históricos, el algoritmo clásico podría estudiar estructuras temporales más largas.

De esta manera, un enfoque tradicional de aprendizaje automático generalmente construiría un conjunto de datos para entrenamiento y prueba. Este conjunto de datos incluiría varias secciones de la señal que corresponden a características y salidas en diferentes escalas temporales, proporcionando cierto grado de predictibilidad tanto para eventos futuros a corto como a largo plazo.

Sin embargo, las limitaciones de este enfoque se hacen evidentes de inmediato. En primer lugar, las predicciones se vuelven más complejas porque el sistema debe distinguir entre las diferentes escalas temporales (y los límites entre ellas). Si el sistema debe hacer una predicción basada en un solo punto de datos de entrada, ¿cómo se incorpora la información multiescala en el algoritmo de decisión? En otras palabras, la evolución a largo plazo de la entrada no es evidente en un solo punto de datos, lo que dificulta capturar predicciones a largo plazo sobre cambios subyacentes.

Como resultado, los enfoques clásicos de aprendizaje automático para la predicción multitemporal suelen ser ad-hoc y dependen de modelos diseñados específicamente para adaptarse a la evolución de los fenómenos subyacentes, lo que hace que el entrenamiento previo sea incompleto o inexacto. Por lo tanto, el enfoque común para abordar este problema es reentrenar y volver a desplegar el modelo de aprendizaje automático de manera periódica. En algunos sistemas, estas actualizaciones del modelo se realizan en escalas de tiempo cortas, como minutos o incluso segundos.

### el nuevo Paradigma: 

Para abordar de manera efectiva los flujos temporales y los problemas asociados descritos anteriormente, surge el aprendizaje en flujo e incremental (anteriormente llamado aprendizaje en línea). Estos son modelos de IA específicos diseñados para manejar flujos de datos continuos (y, a menudo, infinitos). Con cada nuevo punto de datos que estos sistemas reciben, ajustan continuamente el modelo de predicción en lugar de utilizar conjuntos de datos estáticos (o en grandes lotes).

Si bien la diferencia entre el aprendizaje en flujo y el aprendizaje clásico puede parecer sutil, existen varias diferencias técnicas estructurales que son importantes de considerar. Estas conferencias describen tales cuestiones y los métodos para implementar el aprendizaje incremental o en flujo.

Además, este enfoque también abre nuevas oportunidades, que se abordarán en las siguientes secciones junto con los desafíos asociados.

Sin embargo, antes de comenzar, proporcionaremos algunas definiciones formales y conceptos básicos.


## Flujos de datos (Data Streams)

En el núcleo del aprendizaje en flujo se encuentra el término “flujo de datos” (data stream), que se define como la recopilación secuencial y continua de elementos individuales coherentes. En el contexto de la información procesada por un algoritmo o sistema de aprendizaje automático, este flujo de datos normalmente consiste en datos (o metadatos) que pueden utilizarse para generar un conjunto de características medidas simultáneamente en el momento de su recepción. Estos datos suelen ser dependientes del tiempo o estar correlacionados temporalmente mediante una marca de tiempo.

Una observación (o muestra) se define como el conjunto de características medidas en un instante específico. Estas muestras pueden tener una estructura de datos estable, es decir, en cada muestra están disponibles los mismos parámetros para ser incluidos en la medición o modelo, o bien, la estructura de datos de la muestra puede ser “dinámica” o flexible, donde los parámetros aparecen intermitentemente a lo largo del tiempo.

Por lo tanto, en el contexto del procesamiento de información, entendemos un flujo de datos como un conjunto continuo de muestras de datos a lo largo del tiempo.



### Flujos de datos reactivos y proactivos


Los flujos de datos pueden clasificarse en dos tipos: reactivos y proactivos, dependiendo de su relación con el usuario.

Los flujos de datos reactivos son aquellos en los que el sistema "recibe" datos de un productor. Un ejemplo típico es un sitio web que genera flujos de datos, como el servidor de datos de 'X'. A través de la interacción con el punto de acceso del sitio web, se obtiene el flujo de datos, que puede usarse para procesamiento posterior. En este caso, la forma en que se produce el flujo de datos no está bajo el control del sistema de procesamiento; un sistema de análisis como el aprendizaje en flujo simplemente actúa como receptor y no tiene influencia ni control más allá de recibir y leer los datos. En este sentido, el sistema de aprendizaje y predicción en flujo "reacciona" a la entrada de datos.

Los flujos de datos proactivos son aquellos en los que el sistema de análisis (es decir, el motor de aprendizaje/predicción en flujo) controla cómo y cuándo se obtiene o recibe el flujo de datos. Por ejemplo, se puede controlar el momento y la manera en que se leen los datos de un archivo; el motor de análisis podría decidir a qué velocidad leer los datos, en qué orden, etc.



## Procesamiento *online*

El concepto de “en línea” (online) se refiere al procesamiento de un flujo de datos por observación. Debido a ciertas confusiones con el término “educación en línea”, ahora suele utilizarse el término “incremental”. Sin embargo, en el contexto del aprendizaje automático, se refiere al entrenamiento de un modelo mediante la incorporación de una muestra a la vez y la actualización de los pesos del modelo de manera continua.

De este modo, el aprendizaje en flujo es significativamente diferente de los enfoques tradicionales de aprendizaje automático, que procesan datos en lotes. Como se mencionó antes, al manejar flujos de datos, los métodos tradicionales deben ajustar constantemente el modelo tras procesar nuevos datos para compensar la posible obsolescencia del comportamiento previo.

Este cambio de metodología implica nuevos requisitos computacionales y técnicos. Por ejemplo, dado que en el procesamiento en línea las muestras de datos se manejan una a la vez, bibliotecas como NumPy y PyTorch presentan un costo computacional adicional, ya que han sido optimizadas para procesar datos en lotes mediante vectorización. En el enfoque en línea, las muestras de datos pasadas no se procesan nuevamente, por lo que dicha vectorización no es necesaria.

Por lo tanto, el modelo de aprendizaje en línea es un proceso dinámico y con estado. Representa un nuevo paradigma en el aprendizaje automático y, como cualquier método técnico, tiene ventajas y desventajas cuando se aplica a problemas del mundo real.


##  Conjuntos de datos en el entrenamiento

En la mayoría de las aplicaciones del mundo real en producción, aproximadamente el 90% de los flujos de datos son reactivos. Sin embargo, para construir, entrenar y evaluar el rendimiento de un modelo de aprendizaje automático, se crea un conjunto de datos que simula el comportamiento del flujo de datos. Como veremos, la aplicación river maneja esto de manera elegante al convertir todo el conjunto de datos en un objeto generador de Python. Una vez hecho esto, el flujo de datos en tiempo real puede reemplazar sin inconvenientes la versión de desarrollo basada en un archivo monolítico.

Además, hay una diferencia fundamental en la forma en que el aprendizaje automático tradicional y el aprendizaje en flujo entrenan modelos con los datos. En el aprendizaje tradicional, un conjunto de datos se divide en entrenamiento y evaluación. En el aprendizaje en flujo, el enfoque en línea utiliza todo el conjunto de datos en ambas etapas.

Así, cuando llega una nueva observación al flujo de datos, el enfoque en línea la usa para evaluar el modelo y luego ajusta los pesos del modelo en consecuencia. Este proceso se repite continuamente para todo el flujo, por lo que el orden temporal de las muestras es crucial. En contraste, en el aprendizaje tradicional, los datos suelen dividirse y mezclarse aleatoriamente para reducir correlaciones estadísticas. El orden temporal garantiza que el escenario simulado sea el mismo que el encontrado en la realidad. También es clave para descubrir la estructura causal subyacente de la información, lo que podría requerir ajustes para realizar predicciones precisas en el futuro.



### Concept Drift

En el contexto de los flujos de datos, la razón principal por la que el aprendizaje automático tradicional falla (o al menos no es tan adecuado y requiere procesos complicados de reentrenamiento) es el fenómeno conocido como *concept drift*. Este término se refiere a la situación en la que los datos cambian fundamentalmente con el tiempo, haciendo que los modelos previamente entrenados queden obsoletos. Es un problema desafiante porque la estructura causal a largo plazo debe capturarse en el modelo, mientras que el comportamiento a corto plazo debe interpretarse rápidamente dentro de estos contextos cambiantes.

Si bien la deriva de concepto también es un reto para los enfoques en línea, la ventaja de estos es que los ajustes en los pesos del modelo se realizan de manera continua sin necesidad de métodos ad-hoc. En este sentido, los métodos en línea son inherentemente coherentes y no requieren reentrenamiento del modelo base.

No obstante, este sigue siendo un campo de investigación activo, que exploraremos con mayor profundidad más adelante en esta sección del curso.




# Librerías para Stream Machine Learning 

Dado que el ML online es un paradigma relativamente nuevo, todavía existen pocas implementaciones. Como se mencionó en la introducción, las implementaciones en producción suelen ser ad-hoc y específicas para un problema o entidad en particular. Sin embargo, recientemente han surgido algunas bibliotecas que contienen muchas de las características necesarias para un sistema de procesamiento de flujo a nivel de producción.

A continuación, se presenta un resumen de algunas de las principales bibliotecas:

* **[Apache SAMOA](https://incubator.apache.org/projects/samoa.html)**, un proyecto para realizar análisis y minería de datos en flujos de datos. Cuenta con módulos específicos para aprendizaje automático. No obstante, el proyecto no se ha actualizado desde 2020 y sigue en la fase de incubación de la Fundación Apache (AP). ~~Además, se rumorea que la AP tiene planes de abandonar su desarrollo.~~ Finalmente, el proyecto SAMOA fue retirado.

* **[MOA](https://moa.cms.waikato.ac.nz/)**, desarrollado por los mismos autores del proyecto WEKA, escrito en Java y con una estrecha relación con dicho proyecto. Incluye una colección de algoritmos de aprendizaje automático (clasificación, regresión, clustering, detección de valores atípicos, detección de deriva de concepto y sistemas de recomendación) y herramientas para evaluación. Sin embargo, su uso está principalmente limitado a la interfaz que proporciona o a la implementación de extensiones para integrarlo con el resto del ecosistema.

* **[Vowpal wabbit](https://vowpalwabbit.org/)**, una librería de Python patrocinada por Microsoft. También ofrece herramientas enfocadas en el aprendizaje en flujo, pero con un énfasis particular en problemas de aprendizaje por refuerzo. Una desventaja significativa es que requiere un formato de entrada de datos específico, lo que limita en gran medida su usabilidad.

* **[River](https://riverml.xyz/)**, una librería de Python enfocada en el aprendizaje en flujo, que ha adoptado un enfoque más general en comparación con Vowpal Wabbit. En esta biblioteca, el número de modelos es similar a los de scikit-learn, y además ofrece herramientas para interactuar con el ecosistema de scikit-learn. También permite desarrollar enfoques de aprendizaje por refuerzo. Como principal ventaja, puede trabajar con los tipos de datos más comunes, como Pandas DataFrames.

En esta clase, utilizaremos la biblioteca River.

Mediante el uso de River, describiremos varios casos de uso y abordaremos muchos de los problemas comunes en el aprendizaje en flujo o incremental.

El resto de este cuaderno explorará algunos ejemplos comunes utilizando River.

- El repositorio de código de River está disponible en el siguiente enlace: [River Repository](https://github.com/online-ml/river/tree/main/river)
- La referencia de la API de River está disponible en el siguiente enlace: [River API](https://riverml.xyz/latest/api/overview/)

 



## Clasificación binaria

Este es quizás la aproximación más elemental del aprendizaje automático, y proporciona un buen punto de partida para discutir el aprendizaje *online*. En este caso, el modelo tiene una única salida que describe a cuál de las dos clases pertenece la muestra.

1. Primer paso:  Instalar la librería (si no está instalada, se llama al comando pip).  


In [None]:
#It would required to use a version of Python >3.8
try:
    import river
except ImportError as err:
    !pip install river

    
# this library is only to improve the redability of some structures
# https://rich.readthedocs.io/en/stable/introduction.html
try:
    from rich import print
except ImportError as err:
    !pip install rich
    from rich import print

2. Importar el conjunto de datos. para este ejemplo, hemos seleccionado un conjunto de datos para desarrollar un modelo enfocado a detectar fraudes bancarios con tarjetas de crédito.  Este [dataset](https://riverml.xyz/latest/api/datasets/CreditCard/) es parte de los datasets de ejemplo de River y es fácil de cargarlo.   

In [None]:
from rich import print
from river import datasets

dataset = datasets.CreditCard()
print(f"The object contains the information of the dataset, such as, number of samples and features")
print(dataset)

In [None]:
# Let's take a look on the first example
sample, target = next(iter(dataset)) #An interator is created from the dataset and the first item is obtained
print(sample)
print(target)

Trabajar con clases desbalanceadas es una situación bastante común en el aprendizaje en línea para tareas como la detección de fraude y la clasificación de spam.

Como se observa aquí, el conjunto de datos CreditCard está claramente desbalanceado y, por lo tanto, nos proporciona información sobre sus clases en la descripción.

Sin embargo, podemos calcular fácilmente el porcentaje de representación de los datos dentro de cada clase:

In [None]:
import collections #python library

counts = collections.Counter(target for _, target in dataset)#it generates a dictionary with labels and counts

for label, count in counts.items():
    print(f'{label}: {count} ({count / sum(counts.values()):.2%})')


En este ejemplo, nos estamos centrando en el método de flujo y no abordamos el problema del desbalance de clases. No obstante, existen varios enfoques para manejar este tipo de problemas y mejorar el rendimiento del modelo de aprendizaje automático.

3. Desarrollar un modelo para clasificación binaria. Emplearemos un modelo simple ([logisticRegression](https://riverml.xyz/latest/api/linear-model/LogisticRegression/)) a modo de ejemplo.

In [None]:
from river import linear_model

model = linear_model.LogisticRegression()

Sin entrenar adecuadamente el modelo, el resultado de las probabilidades para cada clase es exactamente el mismo, como se puede ver en la llamada a la función `predict_proba_one`. Veamos qué respuesta obtenemos con la observación anterior.

In [None]:
print(model.predict_proba_one(sample))

Para cada clase, tenemos un clasificador aleatorio sin ningún conocimiento. Aquí es donde el método difiere del aprendizaje automático tradicional. La misma muestra que se usó para probar, también se usará para ajustar el modelo. Debéis tener en cuenta que las métricas de rendimiento deben calcularse antes de ajustar el modelo.

4. Entrenar el modelo con la observación actual.


In [None]:
model.learn_one(sample, target)

Si probamos nuevamente la misma observación, veremos que las probabilidades han cambiado.

In [None]:
print(model.predict_proba_one(sample))

#We are using the same example for learning and, afterward, for prediction again with it. 
#However, this is neither correct nor fair; it is solely done for academic purposes.
#The correct sequence for each sample should be: prediction - evaluation - train

Para obtener la etiqueta de salida, ejecutadla siguiente función: <code>predict_one()</code>, que devuelve la etiqueta sin las probabilidades.

In [None]:
print(model.predict_one(sample))


Para integrar los pasos en un solo bucle y ver un proceso completo, el siguiente fragmento de código muestra cómo usar un bucle y cómo integrar una medida móvil para este tipo de sistema. Varias otras métricas también están disponibles en River. En este caso, usamos la métrica estándar que consiste en el área bajo la curva [ROC](https://riverml.xyz/latest/api/metrics/ROCAUC/). No obstante, podríamos haber seleccionado cualquier otra métrica.



In [None]:
from river import metrics

model = linear_model.LogisticRegression()
metric = metrics.ROCAUC()

for sample, target in dataset:
    prediction = model.predict_proba_one(sample)
    metric.update(target, prediction)
    model.learn_one(sample, target)
   

print(metric)

A common and simple approach to improve the model performance is to scale the data. There are different preprocessing operations available in River including methods for scaling data. One approach is the data standardization using the [preprocessing.StandardScaler](https://riverml.xyz/latest/api/preprocessing/StandardScaler/). 

The integration with  `scikit-learn` is a powerful feature of River.   Not only can models be wrapped to behave in a similar way to `scikit-learn`, but the pipelines object (which we will discuss later)  provides facilities to link different processes. For example, here is a pipeline with two operators: StandardScaler and LogisticRegression. 

Also, in this example, we didn’t write an explicit loop because the built-in function , `evaluate. progressive_val_score`,  performs this internally.


In [None]:
from river import evaluate, compose, preprocessing


model = compose.Pipeline(
    preprocessing.StandardScaler(),
    linear_model.LogisticRegression()
)

print(model)

metric = metrics.ROCAUC()
evaluate.progressive_val_score(dataset, model, metric)

#progressive_val_score is equivalent to:
#for sample, target in dataset:
#    prediction = model.predict_proba_one(sample)
#    metric.update(target, prediction)
#    model.learn_one(sample, target)


### Play with River

The selected metric used to evaluate a model that work with imbalanced classes is critical. **You can try to evaluate the model using the Accuracy metric** (it is part of the River API). You will get impressive metrics even without scaling the data!!! A simple model that always predict "non-fraud" would get a high accuracy because "non-fraud" is the majority class



In [None]:
#Create a pipeline using the Accuracy metric





The Cohen's Kappa coefficient is a useful metric to evaluate models with imbalanced classes. This coefficient measures the agreement between the desired label and the label given by the model output excluding the probability of agreement by chance.  This metric is commonly considered more robust than the accuracy and its value is usually lower.
The Cohen's Kappa metric is also available in River. 

**Try to evaluate the model using this metric. Check how the metric changes using the standardization.**


In [None]:
#Create a pipeline using the Cohen's Kappa metric






What about other models? **Try to repeat the pipeline with another one**. For instance you can check the [Perceptron](https://riverml.xyz/latest/api/linear-model/Perceptron/) linear model

In [None]:
#Create a pipeline using another model 





## Multiclass Classification

Using stream learning to perform multiclass classification is the next step of complexity we consider.  In this case,  the data sample could belong to one of many other unique classes (with their associated label).   

For this case, the steps for implementing stream learning are similar to those employed in  binary classification,  with the difference of modifying the loss functions to take into account the multiple outputs. 

In the following example, we use another River dataset that consists of a set of images that represent 7 possible classes.


In [None]:
from rich import print
from river import datasets

dataset = datasets.ImageSegments()
print(dataset)

As in binary classification, the dataset consists of the samples associated with a particular target in a tuple-like structure. One difference with our analysis of the binary classifier problem is our choice of classifier. In this case, we employ a new classification method, called the [Hoeffding tree](https://riverml.xyz/latest/api/tree/HoeffdingTreeClassifier/). 


In the example below, the classifier is loaded with “tree” module.  The specific classifier is instantiated into the object, model.  Next, we print  the class probabilities for a specific sample (<code>predict_proba_one</code>), however, it produces an empty dictionary.   The reason is that the model has not already seen any sample. Therefore, it has no information about the "possible" classes. If this were a binary classifier, it would output a probability of 50% for True and False because the classes would be implicit. However,  in this case, we're doing multiclass classification and the output is null.


Therefore, the <code>predict_one</code> method initially returns None because the model hasn't seen any labelled data yet.

In [None]:
from river import tree

data_stream = iter(dataset)
sample, target = next(data_stream)

model = tree.HoeffdingTreeClassifier()
print(model.predict_proba_one(sample))
print(model.predict_one(sample))

However, after the model learns from examples, it adds those classes to the probabilities of the model. For example, learning the first sample will associate 100% of probability that  the sample belongs to a class.  At this point, no other options are possible, since only one sample was observed.

In [None]:
model.learn_one(sample, target)
print(model.predict_proba_one(sample))
print(model.predict_one(sample))

If a second sample is used to train, we can see how the probabilies change.

In [None]:
sample, target = next(data_stream) # Next sample on the list

model.learn_one(sample, target)
print(model.predict_proba_one(sample))
print(model.predict_one(sample))

This is one of the key points of online classifiers:  the models can deal with new classes which appear in the data stream.

Typically, the data is used once to make a prediction. When the prediction is made, the ground-truth will emerge later and it can be used first to train the model and also to evaluate. This schema is usually called **progressive validation**. Once the model is evaluated, the same observation is used to adjust the model.


In [None]:
from river import metrics

model = tree.HoeffdingTreeClassifier()

metric = metrics.ClassificationReport()

for sample, target in dataset:
    prediction = model.predict_one(sample)
    if prediction is not None:# The first iteration, the prediction is None
        metric.update(target, prediction)
    model.learn_one(sample, target)

print(metric)

In this case, [ClassificationReport](https://riverml.xyz/latest/api/metrics/ClassificationReport/) retrieves the precision, recall, and F1 for each class that the model has seen. Additionally, the Support column indicates the number of instances identified in the stream. Finally, the function calculates and prints the three different aggregated measures together with the general accuracy of the system. 

This example demonstrates  a typical pipeline in stream learning. It is so frequent that  River has encapsulated the whole process in a single instance, as in the binary classification.


In [None]:
from river import evaluate

model = tree.HoeffdingTreeClassifier()
metric = metrics.ClassificationReport()

print(evaluate.progressive_val_score(dataset, model, metric))

### Play with River

River provides neighbor-based models for multiclass classification. Check the available models and try the appropriate one. Configure the evaluation process to print the metrics every 1,000 observations


This is a heavy time consuming process because of the neighbor-based model. You can stop it once you check the first metric results

In [None]:
#Try a neighbor-based model for multiclass classification





## Regression

As a final example that is typical of ML problems,  we study regression.  For these types of problems, the ML model must predict a numerical output given a particular sample that represents the evolution of a time-series.  

A  regression sample consists of several features and a target,  which is usually encoded as a continuous number (although it may also be discrete).   A useful example, included in the River library,  is the Trump approval rating dataset. 


In [None]:
from river import datasets

dataset = datasets.TrumpApproval()
print(dataset)

As seen above,  each sample has 6 features that are used to make a prediction in $[0,1]$. For this problem,  we shall use a regression model.  In particular, we use  an adapted [KNN](https://riverml.xyz/0.14.0/api/neighbors/KNNRegressor/) that is included in the River  library.

Note that the regression models do not have the <code>predict_proba_one()</code> method,  since it does not calculate class probabilities.


In [None]:
from river import neighbors

data_stream = iter(dataset)
sample, target = next(data_stream)

model = neighbors.KNNRegressor()
print(model.predict_one(sample))

As it can be seen, the model has not been trained already and, therefore, the default output is $0.0$. Now, we are going to train the model and repeat the prediction

In [None]:
model.learn_one(sample, target)
print(model.predict_one(sample))

Utilizing **progressive validation**,  as in the previous cases, we can employ the same sequence of operations:   prediction, evaluation,  and train that we have used previously.

In [None]:
from river import metrics

model = neighbors.KNNRegressor()

metric = metrics.MAE()

for sample, target in dataset:
    prediction = model.predict_one(sample)
    metric.update(target, prediction)
    model.learn_one(sample, target)

print(metric)

Or, in the compact notation

In [None]:
from river import evaluate

model = neighbors.KNNRegressor()
metric = metrics.MAE()

evaluate.progressive_val_score(dataset, model, metric)

### Play with River

It's important to highlight that models relying on distance metrics are highly sensitive to variations in feature scales. Establish a preprocessing pipeline for the datasets to standardize the data, and then reassess the model.

In [None]:
#Try a pipeline with a standardization preprocessing step and a KNN model



