<div style="text-align:center;"><img style="width: 30%;" src="static/imgs/Logo_course.png"></div>

# Chapter 1. Introduction to Machine Learning

In this session, we will:

- Define what Machine Learning (ML) is.
- Understand why we should use ML.
- Explore applications of ML.
- Learn about the types of ML algorithms.
- Compare Supervised Learning versus Unsupervised Learning.
- Compare Online Learning versus Batch Learning.
- Differentiate Instance-Based Learning versus Model-Based Learning.
- Discuss ML challenges for streamflow and climate forecasting.

## What is Machine Learning?

Machine Learning (ML) is the art and science of programming computers to learn from data.

> [Arthur Samuel] ML is the field of study that gives computers the ability to learn without being explicitly programmed.

Something more formal:

> [Tom Mitchell] A computer program is said to learn from experience $E$ with respect to some task $T$ and some performance measure $P$, if its performance on $T$, as measured by $P$, improves with experience $E$.

In hydrology:

> Machine Learning (ML) is a branch of artificial intelligence that focuses on developing algorithms and statistical models that enable computers to learn and make predictions or decisions based on data.

> ML is a subfield of artificial intelligence that develops algorithms and models capable of extracting patterns and making predictions from data, without being explicitly programmed for a specific task.

## Why Use Machine Learning?

When we build systems that do not rely on machine learning, we generally follow these steps:

1. Conceptualization (we create rules).
2. Write an algorithm.
3. If the algorithm works well, we implement it. If not, we return to step 1.

However, if the problem is complex, we are likely to end up with a long list of rules that are difficult to follow and challenging to apply to other similar problems. A machine learning system would be much shorter, easier to maintain, and, in many cases, more accurate.

With ML, we can simply train an algorithm on a large dataset and then inspect the algorithm's `feature importance` to better understand the relationship between the data and the problem. This process is known as data mining.

## Applications of Machine Learning:

ML has numerous applications, and here are some of the most notable in hydrology and climatology:

- `Image Classification`: Typically performed using convolutional neural networks (CNNs).

> In hydrology, this could be applied to classify satellite images to detect geographic features and weather conditions.

- `Semantic Segmentation`: The algorithm is trained to classify each pixel in an image, such as detecting brain tumors.

> In hydrology, it could be used to identify specific geographic features in satellite images.

- `Natural Language Processing` (NLP): Specifically, text classification, which can be learned using RNNs, CNNs, or Transformers.

> In weather forecasting, this could be used to analyze and classify weather reports and climate-related news.

- Chatbots: Involve many NLP tasks, such as Natural Language Understanding (NLU) and Question Answering.

> In hydrology, they could be used for monitoring systems and early warning applications.

- `Forecasting Future Revenues`: A regression task that can be approached using various algorithms such as:
  - Linear Regression
  - Polynomial Regression
  - Support Vector Machines (SVMs)
  - Random Forests
  - Neural Networks
  
> In hydrology, this could be applied to forecast river flow rates and water levels.

- `Voice Recognition`: This task involves recognizing incoming audio signals using RNNs, CNNs, or Transformers.

> In climate applications, it could be used to transcribe field observations.

- `Fraud Detection`: Can be solved using supervised learning (classification) or unsupervised learning (anomaly detection).

> In hydrological applications, it could detect anomalies in flood monitoring sensor data.

- `Clustering`: Segmenting customers based on their purchases to design more effective targeted marketing campaigns.

> In hydrology, this could be applied to segment geographic regions with similar weather patterns.

- `Dimensionality Reduction`: Useful for visualizing high-dimensional data and cluster analysis. Algorithms like `PCA` or `T-SNE` can be used.

> In climate applications, this could help visualize data from multiple climate variables.

- `Recommendation Systems`: Inputting a customer’s purchase sequence (for example) into a neural network to predict their next purchase.

> In hydrology, this could be used to recommend flood mitigation measures based on historical patterns of flood events.

## Types of Machine Learning Systems

Machine learning (ML) algorithms can be classified based on the level of supervision they receive during training.

There are 4 main types of ML algorithms:

### Supervised Learning

In supervised learning, the training dataset provided to the algorithm contains the desired targets/labels/predictions. Most supervised learning tasks fall into two categories: Classification and Regression.

With classification, we aim to predict discrete values. Some examples include:

- **Precipitation Event Classification**: Using classification to predict whether a precipitation event will be rain, a storm, or heavy rain. This is crucial for flood management and monitoring extreme weather events.
- **Water Quality Classification**: Classification algorithms can help determine whether water is potable based on contaminant levels and the presence of harmful microorganisms.
- **Flood Risk Classification**: Classification models can evaluate flood risk in specific areas based on variables like topography, river flow, and precipitation.
- **Climate Type Classification**: Classification models can group geographic areas based on their climate patterns, such as tropical, subtropical, or arid climates.

On the other hand, regression deals with continuous target values. Examples include:

- **River Flow Prediction**: Regression is used to predict river flow based on historical precipitation, temperature, and geographic characteristics.
- **Groundwater Level Modeling**: Regression models can predict groundwater levels based on recharge, extraction, and other hydrological variables.
- **Evapotranspiration Prediction**: Regression is used to predict the amount of water that evaporates and transpires based on solar radiation, temperature, and humidity.
- **Temperature Regression**: Regression is used to predict daily maximum and minimum temperatures based on historical weather data, such as solar radiation, altitude, and latitude.
- **Precipitation Prediction**: Regression algorithms can predict the amount of precipitation in a region based on prior climate data, such as wind patterns and sea temperatures.

Some regression-based models are also used for classification, such as `Logistic Regression`, which outputs a probability $\in [0,1]$. Popular supervised learning algorithms include:

- K-Nearest Neighbors
- Linear Regression
- Logistic Regression
- Decision Trees and Random Forests
- Neural Networks
- Naive Bayes

### Unsupervised Learning

In unsupervised learning, the data has no labels, and the system tries to learn without a teacher by finding internal structure within the dataset.

Some unsupervised learning algorithms include:

- **Clustering**:
  - **K-Means**:
    > K-Means can group geographic regions based on similar climate patterns. This can help identify areas with comparable climates and facilitate agricultural planning and water resource management.
  - **DBSCAN**:
    > DBSCAN can identify areas of high concentration of heavy rainfall events in a dataset of precipitation records, which is crucial for identifying flood-prone zones.
  - **Hierarchical Clustering**:
    > Hierarchical clustering organizes geographic regions into a tree of clusters based on climate similarities. This helps classify and understand climate patterns at different spatial scales.

- **Anomaly Detection**:
  - **One-Class SVM**:
    > One-Class SVM detects anomalies in river water level time series, identifying unusual events like flash floods or severe droughts.
  - **Isolation Forest**:
    > Isolation Forest identifies outliers in climate datasets, which could indicate extreme weather events, such as exceptional heatwaves or extreme cold events.
  - **Autoencoders**:
    > Autoencoders detect anomalous patterns in water quality records, identifying unusual changes in water composition that could signal contamination issues.

- **Dimensionality Reduction**: The goal is to compress data without losing too much information (e.g., combining highly correlated features).
  - **Principal Component Analysis (PCA)**:
    > PCA is commonly used to reduce the dimensionality of multivariate climate data, simplifying the analysis of complex climate patterns and visualizing data.
  - **Kernel PCA**:
    > Kernel PCA reduces the dimensionality of climate data using nonlinear kernel functions, useful for highly nonlinear climate datasets like global temperature patterns.
  - **T-SNE**:
    > T-SNE is used to visualize river flow time series data in a two-dimensional space, making it easier to identify temporal patterns and trends in hydrological data.

- **Association Rule Learning**:
  - **Apriori**:
    > Apriori can uncover interesting associations between climate variables, such as the relationship between temperature and relative humidity across different regions.
  - **Eclat**:
    > Eclat identifies relationships in hydrogeological data, such as the association between soil permeability and aquifer recharge in specific areas.

### Semi-Supervised Learning

In semi-supervised learning, we have partially labeled data. The goal is to use unlabeled data around the labeled data to help solve the task. Most semi-supervised learning algorithms combine supervised and unsupervised approaches.

For example, in a flood prediction project for a specific watershed:
- **Labeled Data**: Past flood and non-flood events labeled based on water level records at monitoring stations.
- **Unlabeled Data**: Most collected data remains unlabeled and corresponds to conditions where flood occurrence is unknown.
- **Supervised Learning Model**: Initially trains on labeled data to predict floods, providing reasonable but limited performance due to insufficient labeled data.
- **Incorporating Unlabeled Data**: Unlabeled data is integrated into the training process, allowing the model to learn additional patterns and trends in pre-flood conditions.
- **Improved Predictions**: The model becomes more accurate in flood prediction, even under previously unseen conditions.
- **Real-Time Flood Alerts**: The improved model powers a real-time flood early warning system, delivering alerts based on continuous monitoring data, even when new data is unlabeled.

### Reinforcement Learning

An agent observes the environment, selects an action, receives a reward, and updates its policy. This approach is used in applications like games and robot control.

Examples:
- **Reservoir Management**: A reinforcement learning agent observes precipitation and temperature conditions and selects actions (e.g., release or retain water). The reward is based on water distribution efficiency and flood prevention.
- **Storm Prediction**: In climatology, a reinforcement learning agent observes real-time weather data and predicts storm intensity and impact. Rewards are linked to prediction accuracy.
- **Flood Control**: In hydrology, reinforcement learning agents operate gates and dams to manage river flow and prevent flooding, receiving rewards for maintaining safe water levels.
- **Renewable Energy Optimization**: A reinforcement learning agent manages wind or solar energy production based on weather conditions, maximizing efficiency and profitability.

### Batch Learning vs. Online Learning

- **Batch Learning**: Models are trained on all available data at once, then deployed to make predictions without being updated with new data. Suitable for static historical datasets.

Example:
> Historical water levels and precipitation data are used to train a flood prediction model once. The model is deployed for real-time predictions but cannot update with new data.

- **Online Learning**: Models are trained incrementally as data arrives, adapting to new information over time. Suitable for systems receiving continuous data streams.

Example:
> A weather forecasting model continuously updates its predictions with real-time temperature, humidity, and pressure measurements. This ensures forecasts adapt to changing weather conditions.

### Instance-Based vs. Model-Based Learning

- **Instance-Based Learning**: Predictions are made by comparing new data points to historical data based on similarity.

Example:
> For water quality monitoring, new measurements are compared to historical data from similar conditions (e.g., geography, climate) to predict quality.

- **Model-Based Learning**: Predictions are made using a trained model that captures complex relationships within the data.

Example:
> A climate prediction model uses variables like temperature, humidity, and pressure to forecast future weather patterns, relying on learned relationships rather than direct comparisons to historical data.

In [1]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn.linear_model
import matplotlib.dates as mdates

ModuleNotFoundError: No module named 'seaborn'

Leer datos de precipitación

In [6]:
directorio_datos = os.getcwd()
print(directorio_datos)


/Users/paul/Documents/GitHub/ML_hydrological_forecasting/notebooks


In [7]:
data_path = os.path.join(directorio_datos, "data/Caudal_horario.xlsx")
print(data_path)

/Users/paul/Documents/GitHub/ML_hydrological_forecasting/notebooks/data/Caudal_horario.xlsx


In [8]:
caudal_horario = pd.read_excel(data_path)

FileNotFoundError: [Errno 2] No such file or directory: '/Users/paul/Documents/GitHub/ML_hydrological_forecasting/notebooks/data/Caudal_horario.xlsx'

In [None]:
caudal_horario.head(5)

In [61]:
caudal_horario['Fecha'] = caudal_horario.Fecha.apply(lambda x: pd.to_datetime(x,dayfirst=False))
caudal_horario.set_index(caudal_horario['Fecha'],inplace=True)
caudal_horario = caudal_horario.drop(columns=['Fecha'])


In [None]:
caudal_horario['Caudal (m3/s)'] = pd.to_numeric(caudal_horario['Caudal (m3/s)'], errors='coerce')
caudal_horario

In [None]:
caudal_horario.plot()

In [None]:
fig, ax = plt.subplots()
caudal_horario.plot(ax=ax)
plt.ylabel('Caudal ($m^3/s$)')
plt.legend().set_visible(False)
plt.savefig(os.path.join(directorio_datos+'/data/Figuras', 'plot.jpg'), format='jpg', dpi =300)


In [None]:
data_path = os.path.join(directorio_datos, "data/Precipitación_horaria.csv")
print(data_path)
pcp_horaria = pd.read_csv(data_path)
pcp_horaria

In [None]:
pcp_horaria = pcp_horaria.rename(columns={'Date_yy/mm/dd_hh:mm:ss': 'Fecha'})
pcp_horaria['Fecha'] = pcp_horaria.Fecha.apply(lambda x: pd.to_datetime(x,dayfirst=False))
pcp_horaria = pcp_horaria.drop(columns=['Cumulated_precipitation_Texas_mm'])
pcp_horaria

In [None]:
pcp_horaria.set_index(pcp_horaria['Fecha'],inplace=True)
pcp_horaria = pcp_horaria.drop(columns=['Fecha'])
pcp_horaria['tip_corrected_mm'] = pd.to_numeric(pcp_horaria['tip_corrected_mm'], errors='coerce')
pcp_horaria = pcp_horaria.sort_index()
pcp_horaria.head(6)

In [None]:
fig, ax = plt.subplots()
pcp_horaria.plot(ax=ax)
plt.ylabel('Precipitación horaria ($mm$)')
plt.legend().set_visible(False)
#plt.savefig(os.path.join(directorio_datos+'/data/Figuras', 'plot.jpg'), format='jpg', dpi =300)

In [None]:
fig, ax = plt.subplots()
pcp_horaria['2020'].cumsum().plot(ax=ax)
plt.ylabel('Precipitación acumulada ($mm$)')
plt.legend().set_visible(False)
#plt.savefig(os.path.join(directorio_datos+'/data/Figuras', 'plot.jpg'), format='jpg', dpi =300)


In [None]:
caudal_horario.index = caudal_horario.index.round(freq='H')
pcp_horaria.index = pcp_horaria.index.round(freq='H')
datos_pcp_caudal = pd.concat([caudal_horario, pcp_horaria],axis=1, join='outer')
datos_pcp_caudal

In [None]:
start_analysis='2018'
end_analysis='2020'
fig,ax = plt.subplots()
plt.ylim(ymax=300)
ax2 = ax.twinx()
plt.ylim(ymax=50)
ax.plot(datos_pcp_caudal['Caudal (m3/s)'][start_analysis:end_analysis],color='red',label='Caudal')
ax2.plot(datos_pcp_caudal['tip_corrected_mm'][start_analysis:end_analysis],color='blue',label='Precipitación')
plt.gca().invert_yaxis()
ax.legend(loc=(0.05,0.55))
ax2.legend(loc=(0.4,0.55))
ax.set_ylabel('Caudal ($m^3/s$)')
ax2.set_ylabel('Precipitación (mm)')
ax2.set_xlabel('Fecha')
ax.xaxis.set_major_locator(mdates.YearLocator())
ax.xaxis.set_minor_locator(mdates.MonthLocator())
ax.xaxis.set_major_formatter(mdates.DateFormatter('%Y'))
# Rotate x-axis labels for better visibility
plt.xticks(rotation=45)
#fig.savefig(os.path.join(r'/Users/paul/Google Drive/iDRHICA_Monitoreo/ANÁLISIS_PRECIPITACIÓN-CAUDAL/QUINUAS/CHIRIMACHAY', 'Precipitación-caudal_2020'+'.eps'), format='eps')
plt.show()
plt.close(fig)

In [278]:
# Select a Linear Model
datos_pcp_caudal = datos_pcp_caudal.dropna()
X = datos_pcp_caudal['tip_corrected_mm'][datos_pcp_caudal['tip_corrected_mm']>0].to_numpy()
X_reshaped = X.reshape(-1, 1)
Y = datos_pcp_caudal['Caudal (m3/s)'][datos_pcp_caudal['tip_corrected_mm']>0].to_numpy()
Y_reshaped = Y.reshape(-1, 1)
model = sklearn.linear_model.LinearRegression()

In [None]:
# Train the Model

model.fit(X_reshaped,Y_reshaped )

In [None]:
X_new = [[20]]  # Cyprus GDP per capita
print(model.predict(X_new))

In [290]:
# let's visualize our model, because it's a linear one, we can plot it using two points
X = [[0], [20]]
y_hat = model.predict(X)

In [None]:
# Visualize Data
datos_pcp_caudal[datos_pcp_caudal['tip_corrected_mm']>0].plot(kind='scatter', x='tip_corrected_mm', y='Caudal (m3/s)', xlim=(0, 20), ylim=(0,200))
plt.plot(X, y_hat, c='red')
plt.show()

En resumen, seguimos los siguientes pasos para implementar un algoritmo de machine learning:

1. Estudiamos los datos, procesamiento de la información.
2. Seleccionamos el modelo.
3. Entrenamos el modelo.
4. Realizamos inferencias utilizando el modelo.

### Principales desafíos de ML para pronóstico de caudales y clima

Los dos problemas principales son:

1. Tener datos de mala calidad.
2. Seleccionar un algoritmo de aprendizaje inadecuado.

#### Datos

- Se ha demostrado que muchos algoritmos, desde los más simples hasta los más complejos, tienen un rendimiento relativamente similar cuando se les proporciona suficientes datos.
- SE sugiere entonces mayor esfuerzo en desarrollo de algoritmos de ML o en ingeniería de características (feature engineering).
- El conjunto de datos de entrenamiento también puede no ser representativo del conjunto de datos. Esto represenfra un problema para generalizar de manera efectiva. Si, por ejemplo, el conjunto de entrenamiento es demasiado pequeño, tendremos ruido de muestreo. Incluso muestras grandes pueden no ser representativas si el método de muestreo está defectuoso, esto se llama **sesgo de muestreo**.
- Los datos hidrológicos y climáticos pueden variar significativamente a lo largo del tiempo y el espacio. La selección de la escala adecuada para el modelado es crucial.
- Los datos de baja calidad también pueden ser un gran desafío. La precisión de los datos de precipitación, temperaturas, caudales, y otros parámetros es esencial. Datos inexactos pueden llevar a resultados incorrectos y decisiones erróneas (sobre todo si las mediciones de la variable target son de mala calidad!).
- Si los datos de entrenamiento están llenos de valores atípicos (extremos), errores y ruido, será más difícil para el algoritmo detectar los patrones subyacentes, lo que resultará en un mal modelo. Así mismo, los registros de estaciones meteorológicas o hidrológicas pueden tener valores faltantes o errores de medición. Es necesario abordar estos problemas de manera efectiva.
- Además, los conjuntos de datos pueden contener características (predictores) irrelevantes. Nuestro sistema solo aprenderá si los datos contienen muchas características relevantes y no muchas irrelevantes. Una parte crítica del éxito de un proyecto de aprendizaje automático es lo que se llama **ingeniería de características** o la creación de características que producirían un modelo de calidad.

##### Selección de Características y Feature Engineering

La selección de características y la ingeniería de características (feature engineering) adquieren una importancia adicional:

- **Relevancia Climática e Hidrológica:** Identificar las características climáticas y hidrológicas más relevantes es crucial para modelar correctamente fenómenos como las precipitaciones, caudales de ríos y cambio climático.

- **Inclusión de Variables Específicas:** Variables como la altitud, tipo de suelo, vegetación y características topográficas pueden ser fundamentales en hidrología y climatología.

#### Sobreajuste (Overfitting)

El sobreajuste significa que el modelo de ML funciona bien en los datos de entrenamiento pero falla al generalizar con los datos de prueba.

Modelos complejos como las redes neuronales profundas tienden a memorizar el ruido de los datos de entrenamiento o incluso la muestra de datos en sí si es lo suficientemente pequeña. Podemos hacer lo siguiente para mitigar el sobreajuste:

- Seleccionar un modelo con menos pesos/parámetros para limitar su capacidad predictiva para que solo pueda utilizar los patrones más fuertes presentes.
- Recopilar más datos de entrenamiento.
- Reducir el ruido en los datos de entrenamiento corrigiendo errores y eliminando valores atípicos.

Restringir un modelo y combatir el sobreajuste se llama **regularización**. Si tomamos el ejemplo de un solo modelo de regresión lineal ($f(x)=ax+b$), tiene dos grados de libertad (2 parámetros). Si permitimos que el algoritmo cambie libremente los valores de un parámetro pero tenga un intervalo establecido alrededor del parámetro 2, tendrá entre 1 y 2 grados de libertad. Queremos un buen equilibrio entre mantener el modelo lo más simple posible mientras le damos la capacidad de capturar patrones fuera de los datos de entrenamiento.

La regularización se puede controlar utilizando los hiperparámetros del modelo, que describen cómo debe aprender el modelo. Consideraciones en desarrollo de modelos de caudal y clima:

- **Sobreajuste en Series Temporales:** Es común que los modelos se sobreajusten a las series temporales debido a la complejidad de los patrones climáticos e hidrológicos. Se debe prestar especial atención a la selección de modelos y técnicas de regularización.

- **Incertidumbre Climática y Hidrológica:** Los fenómenos climáticos y hidrológicos están sujetos a incertidumbre inherente. Los modelos deben ser capaces de capturar y cuantificar esta incertidumbre.

#### Subajuste (Underfitting)

El subajuste es lo opuesto al sobreajuste. Ocurre cuando el modelo es demasiado simple para capturar la estructura subyacente de los datos de entrenamiento. Algunas soluciones:
- Podemos seleccionar un modelo más potente, con más parámetros.
- Alimentamos mejores características al algoritmo de aprendizaje (ingeniería de características).
- Reducimos las restricciones en el modelo (reducir la regularización).

#### Transferencia de Conocimiento 

En hidrología y climatología, la transferencia de conocimiento entre regiones o escalas temporales es crucial:

- **Transferencia de Modelos Climáticos:** Adaptar modelos climáticos entrenados en una región a otra puede requerir técnicas avanzadas para ajustar y validar los resultados.

- **Extrapolación Climática:** Prever el comportamiento climático futuro a partir de datos históricos es un desafío importante que requiere técnicas de modelado robustas.

#### Adaptación al Cambio Climático

En el contexto del cambio climático, es fundamental:

- **Incorporación de Escenarios Climáticos Futuros:** Los modelos deben ser capaces de integrar proyecciones climáticas para proporcionar predicciones precisas en un contexto de cambio.

- **Evaluación de Impactos Hidrológicos:** Los modelos deben ser capaces de evaluar los posibles cambios en los patrones de precipitación y caudales, y cómo estos afectarán a los sistemas hidrológicos.

### Prueba y Validación

La prueba y validación de modelos de ML es de suma importancia para asegurar su precisión y fiabilidad en la predicción de fenómenos climáticos e hidrológicos.

Podemos evaluar nuestro modelo dividiendo los datos en dos conjuntos: el conjunto de **entrenamiento** y el conjunto de **prueba**. Solo nos importa el error fuera del entrenamiento, o error de generalización, ya que es representativo del rendimiento del modelo en un entorno de producción.

Si nuestro error de entrenamiento es bajo pero el error de prueba es alto, esto significa que el modelo está sobreajustando. Es común usar el **70%** de los datos para entrenamiento y el 30% restante para pruebas, pero depende del tamaño del conjunto de datos original. Cuanto más grande sea, menos porcentaje podemos tomar como conjunto de pruebas. ¿Y en Hidrología?

Si ajustamos los parámetros de regularización en el conjunto de pruebas, estamos sobreajustando a este conjunto, por lo que necesitamos otro conjunto de datos para la sintonización de hiperparámetros, este conjunto de datos se suele llamar el conjunto de **validación**. El conjunto de validación debe reservarse del conjunto de entrenamiento. Después de realizar la sintonización de hiperparámetros utilizando el conjunto de validación, entrenamos el modelo en el conjunto de entrenamiento completo (con validación) y evaluamos en el conjunto de pruebas.

Una solución simple pero computacionalmente costosa para reservar un conjunto de validación grande es realizar una validación cruzada repetida. Su inconveniente es que tenemos que entrenar el modelo N veces. Tanto el conjunto de validación como el conjunto de pruebas deben ser lo más representativos posible de los datos que utilizaremos en producción. ¿K-fold cross validation?


Algunas consideraciones:

### División de Datos

Para evaluar y validar modelos en hidrología y climatología, es esencial dividir los datos en conjuntos de entrenamiento y prueba de manera cuidadosa. Se deben selecionar **conjuntos representativos** considerando que los patrones climáticos e hidrológicos pueden variar ampliamente según la ubicación y el período de tiempo. Es fundamental asegurarse de que los conjuntos de entrenamiento y prueba sean representativos de las condiciones reales de la región de interés.

### Validación Cruzada

Los datos pueden ser limitados y valiosos, y dada la variabilidad espacial y temporal en datos climáticos e hidrológicos, la validación cruzada puede proporcionar una evaluación más robusta del rendimiento del modelo al abordar diferentes condiciones y ubicaciones.

### Consideraciones sobre el Ruido y los Patrones

Dado que los datos climáticos e hidrológicos pueden estar sujetos a una variedad de fuentes de ruido, como fluctuaciones estacionales o eventos extremos, es importante que los modelos sean capaces de capturar patrones relevantes mientras descartan el ruido. ¿Descomposición de señales?

### Supuestos del Modelo

Los modelos a menudo se basan en supuestos específicos sobre la relación entre las variables. Por ejemplo, un modelo de regresión lineal puede asumir una relación lineal entre las variables, lo que puede no siempre reflejar la complejidad de los fenómenos climáticos e hidrológicos.