# <h1><center>Rain in Australia</center></h1>


<center>
<img src="https://drive.google.com/thumbnail?id=1jeVAK1A6OcNi-bz8ha4_NFbWVXGMJ7Zw&sz=w3000" width="500" alt="Figura 1: Datos meterológicos de Australia del 2008 al 2009, obtenidos de http://www.bom.gov.au/climate/history/enso/">

<small><em>Figura 1: Datos meterológicos de Australia del 2008 al 2009, obtenidos de http://www.bom.gov.au/climate/history/enso/</em></small>
</center>

<center>
<em>Datos del proyecto:</em>

| Subtitulo   | Trabajo final de Análisis de Datos - FIUBA                                                                                                     |
| ----------- | ---------------------------------------------------------------------------------------------------------------------------------------------- |
| **Descrpción**  | Análisis de datos meteorológicos de Australia con el objetivo de predecir si lloverá al otro día                          |
| **Integrantes** | • Juan Cruz Ferreyra (ferreyra.juancruz95@gmail.com)<br>• Simón Rodriguez (simon.andre.r@gmail.com)<br>• Bruno Masoller (brunomaso1@gmail.com) |

</center>

## 1. Metodología

En el campo de aprendizaje de máquina, la comunidad todavía está definiendo un proceso sistemático y estructurado para el cliclo de vida de soluciones basadas en aprendizaje automático. El objetivo es enfocar los procedimientos y estándares de calidad de la ingeniería de software clásica a metodologías de este sub-campo de la inteligencia artificial.

Es en este punto que surge [CRISP-ML(Q)](https://arxiv.org/pdf/2003.05155.pdf), como una metodología que integra las mejores prácticas de la ingeniería de software sobre todo el ciclo de vida de soluciones enfocadas en resolver problemas con aprendizaje de máquina.

CRISP-ML(Q) surge a partir de [CRISP-DM](https://es.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining) como un intento de ampliar dicho "framework" al área de "machine learning".

En palabras de los autores (Stefan Studer et al),  CRISP-ML(Q) propone un modelo de proceso al que llaman modelo de proceso estándar "CRoss-Industry" para el desarrollo de aplicaciones de "Machine Learning" con metodología de aseguramiento de la Calidad, donde resalta su compatibilidad con CRISP-DM. Está diseñado para el desarrollo de aplicaciones de máquina, es decir, escenarios de aplicaciones donde se implementa y mantiene un modelo de ML
como parte de un producto o servicio.

Consta de seis fases:
<em>

1. Business and Data Understanding
2. Data Engineering (Data Preparation)
3. Machine Learning Model Engineering (Modeling)
4. Quality Assurance for Machine Learning Applications
5. Deployment
6. Monitoring and Maintenance.

</em>


<center>
<img src="https://drive.google.com/thumbnail?id=1Aoiu62mQCrICj34T6eTHFRJLfmsXxkfS&sz=w2000" width="500" alt="Figura 2: Machine Learning Development Life Cycle Process, obtenido de https://ml-ops.org/content/crisp-ml">

<small><em>Figura 2: Machine Learning Development Life Cycle Process, obtenido de https://ml-ops.org/content/crisp-ml</em></small>
</center>

En donde cada fase requiere el siguiente proceso:

<center>
<img src="https://drive.google.com/thumbnail?id=1BtP076AUQEzeK3gQO0fP8DuOZHQhnS56&sz=w1000" width="500" alt="Figura 3: Proceso dentro de cada fase">

<small><em>Figura 3: Proceso dentro de cada fase</em></small>
</center>

Resumen de tareas de cada fase:
*También se agrega infromación adiccional. Toada esta tabla se puede tomar como una especie de "checklist".*

| CRISP-ML(Q) Phase                | Tasks                                                                                                                                                                             |
| -------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| *Business and Data Understanding*  | • Define the Scope of the ML Application<br>• Sucess criteria<br>• Feasibility<br>• Data collection<br>• Data quality verification<br>• Review of output documents                |
| *Data Engineering*                 | • Select data<br>• Clean data<br>• Construct data<br>• Standarize data                                                                                                            |
| *ML Model Engineering*             | • Modeling<br>• Assure reproducibility                                                                                                                                            |
| *ML Model Evaluation*              | • Validate performance<br>• Determine robustness<br>•Increase explainability for ML practitioner and end user<br>• Compare results with defined success criteria                  |
| *Model Deployment*                 | • Define inference hardware<br>• Model evaluation under production<br>• Assure user acceptance and usability<br>• Minimize the risks of unforseen errors<br>• Deployment strategy |
| *Model Monitoring and Maintenance* | • Monitor<br>• Update                                                                                                                                                             |

<small>*Tabla 1: Fases y tareas de CRISP-ML(Q)*</small>

Un ejemplo de algunos de los modelos más utilizados se puede observar en la siguiente imagen:

<center>
<img src="https://drive.google.com/thumbnail?id=1-el9MGC3Ouc0IFCaQD9B9477x4H561IP&sz=w1000" width="500" alt="Figura 4: Machine learning models example">

<small><em>Figura 4: Machine learning models example</em></small>
</center>

## 2. CRISP-ML(Q)

> *Notas sobre la aplicación del Método*: Dada la acotación planteada para el trabajo, no se tienen en cuenta todas las fases (solamente aquellas que son acotadas a los temas vistos en el curso), ni tampoco el análisis de riesgo que plantea el modelo dentro de cada fase. Se plantean como mejoras posteriores.

In [None]:
# Instalaciones de paquetes del SO
!apt-get -qq install -y libspatialindex-dev

# Instalacion de paquetes de python
!pip install gdown
!pip install ydata-profiling
!pip install -q -U osmnx

In [None]:
# Descargamos el archivo de utilidades
# !gdown 1eNWQJR08ajXPx9tiT1KK1ylEY1uZiiMb

In [None]:
# Importacion de librerias
import sys  # Interactuar con el sistema
import statsmodels.api as sm  # Regresión lineal
import sklearn
import seaborn as sns  # Visualización de datos estadísticos
import scipy.stats as stats
import re  # Expresiones regulares
import random
import pandas as pd  # Procesamiento de datos
import osmnx as ox  # OpenStreetMap
import os
import numpy as np  # Albegra lineal
import matplotlib.pyplot as plt  # Visualización de datos
import json
import geopandas as gpd  # Georeferenciacion
from ydata_profiling import ProfileReport  # Reporte (profiling)
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import (accuracy_score, confusion_matrix, f1_score, precision_score, recall_score)
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.decomposition import PCA
from sklearn.impute import SimpleImputer, KNNImputer
from shapely.geometry import Point  # Geometría espacial
from scipy.stats import chi2_contingency  # Test de chi-cuadrado
from pathlib import Path
from itertools import chain, combinations  # Iteradores
from IPython import display
from geopandas.datasets import get_path  # Ruta de los datos geográficos
# from utils import *

display.clear_output()
%matplotlib inline
# Linea mágica para mostrar los graficos dentro del notebook

In [None]:
# Configuración del notebook
pd.options.mode.chained_assignment = None

debug_mode = False # Modo más informativo
show_profile = False # Muestra el perfilado de los datos
spectral_palette = [ "#9e0142", "#d53e4f", "#f46d43", "#fdae61", "#fee08b",
                    "#ffffbf", "#e6f598", "#abdda4", "#66c2a5", "#3288bd", "#5e4fa2"] # Paleta de colores
random_state = 42 # Semilla para reproducibilidad

In [None]:
#### Funciones auxiliares ####
def outliers_iqr(df, columns):
    outliers = []
    for col in columns:
        # Rango itercuartílico
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        irq_lower_bound = Q1 - 1.5 * IQR
        irq_upper_bound = Q3 + 1.5 * IQR

        # Desviación estándar
        mean = df[col].mean()
        std = df[col].std()
        std_lower_bound = mean - 3 * std
        std_upper_bound = mean + 3 * std

        outliers.append({'Column': col,
                         'IRQ-Percentage': (((df[col] < irq_lower_bound) | (df[col] > irq_upper_bound)).sum() / len(df[col]) * 100).round(2),
                         '3Std-Percentage': (((df[col] < std_lower_bound) | (df[col] > std_upper_bound)).sum() / len(df[col]) * 100).round(2),
                         'IRQ-Count': ((df[col] < irq_lower_bound) | (df[col] > irq_upper_bound)).sum(),
                         '3Std-Count': ((df[col] < std_lower_bound) | (df[col] > std_lower_bound)).sum()
                         })
    return pd.DataFrame(outliers)

def show_unique_types_as_df(df, columns):
    # Crear una lista para almacenar la información
    type_info = []

    for column in columns:
        if column in df.columns:
            types = df[column].apply(lambda x: type(x) if not pd.isna(x) else np.nan)
            unique_types = types.unique()
            for t in unique_types:
                type_info.append({
                    'Column': column,
                    'Type': 'NaN' if t is np.nan else str(t)
                })
        else:
            type_info.append({
                'Column': column,
                'Type': 'Not in DataFrame'
            })

    # Convertir la lista a un DataFrame
    type_info_df = pd.DataFrame(type_info)

    return type_info_df

# Definir una función personalizada para concatenar los valores
def concatenate_values(series):
    return ', '.join(series.astype(str))

# Muestra los tipos únicos de datos en las columnas especificadas de un DataFrame, incluyendo NaN.
def show_unique_types(df, columns):
    for column in columns:
        if column in df.columns:
            types = df[column].apply(lambda x: type(x) if not pd.isna(x) else np.nan)
            unique_types = types.unique()
            print(f"Columna '{column}' tiene los siguientes tipos únicos:")
            for t in unique_types:
                if t is np.nan:
                    print(f"  - NaN")
                else:
                    print(f"  - {t}")
        else:
            print(f"La columna '{column}' no está en el DataFrame")

# Imprimir los valores únicos de cada columna
def print_unique_values(unique_values):
  for col, values in unique_values.items():
      print(f"Columna: {col}")
      try:
        print(values.to_numpy())
      except:
        print(values)
      print()  # Imprimir una línea en blanco para separar las columna

# Muestra el porcentaje de valores faltantes.
def print_missing_perc(df, column):
    missing_perc = round((df[column].isna().sum() / df.shape[0]) * 100, 1)
    print(f"Porcentaje de valores faltantes en la columna {column}: {missing_perc}%")

# Evaluar las predicciones en una matriz de confuncion.
def evaluate_predictions(y_true, y_pred, figsize=(4, 4)):
    # Generate confusion matrix
    cm = confusion_matrix(y_true, y_pred)

    # Mapping of labels
    labels = ["No", "Yes"]

    # Plot confusion matrix
    plt.figure(figsize=figsize)
    sns.heatmap(
        cm,
        annot=True,
        fmt="d",
        cmap="Greens",
        xticklabels=labels,
        yticklabels=labels,
        cbar=False,
    )
    plt.xlabel("Predicted Values")
    plt.ylabel("Real Values")
    plt.title("Confusion Matrix")
    plt.show()

    # Calculate evaluation metrics
    precision = precision_score(y_true, y_pred)
    recall = recall_score(y_true, y_pred)
    f1 = f1_score(y_true, y_pred)
    accuracy = accuracy_score(y_true, y_pred)

    # Print evaluation metrics
    print()
    print(f"Accuracy: {accuracy:.2f}")
    print(f"Precision: {precision:.2f}")
    print(f"Recall: {recall:.2f}")
    print(f"F1 Score: {f1:.2f}")

def plot_locations_over_time(df, color="blue"):
    locations = df["Location"].unique()

    _, ax = plt.subplots(figsize=(12, 7))

    # Plot data for each location
    for location in locations:
        filt = df["Location"] == location
        df_location = df.loc[filt, :]

        # Plot observations present in dataframe
        ax.plot(
            df_location["Date"],
            [location] * len(df_location),
            "o-",
            color=color,
            label=location,
            markersize=0.5,
            linewidth=0.05,
        )

        # Plot null values in target column
        null_indices = df_location.loc[df_location["RainTomorrow"].isnull()].index
        for idx in null_indices:
            ax.plot(df_location.loc[idx, "Date"], location, "ko", markersize=0.15)

    # Customize the plot
    ax.set_yticks(np.arange(len(locations)))
    ax.set_yticklabels(
        locations, fontsize="x-small"
    )  # Increase fontsize for y-axis labels
    ax.set_ylim(-0.5, len(locations) - 0.5)

    xticks = pd.date_range(start=df["Date"].min(), end=df["Date"].max(), freq="6MS")
    ax.set_xticks(xticks)
    ax.set_xticklabels(xticks.strftime("%Y-%m"), fontsize="x-small", rotation=90)

    ax.grid(True, linestyle=":", alpha=0.5)

    legend_handles = [
        plt.Line2D(
            [0],
            [0],
            marker="o",
            color="w",
            markerfacecolor="lightgreen",
            markersize=5,
            label="Observación presente en el dataframe",
        ),
        plt.Line2D(
            [0],
            [0],
            marker="o",
            color="w",
            markerfacecolor="black",
            markersize=5,
            label="Observación con valor ausente en la columna 'RainTomorrow'",
        ),
    ]
    ax.legend(
        handles=legend_handles,
        loc="upper center",
        bbox_to_anchor=(0.5, 1.075),
        ncol=2,
        fontsize=7,
    )

    plt.suptitle(
        "Observaciones presentes en la serie temporal por centro meteorológico",
        fontsize=10,
    )

    plt.show()

def phi_coefficient(confusion_matrix):
    chi2, p, _, _ = chi2_contingency(confusion_matrix)
    n = confusion_matrix.sum().sum()
    phi = np.sqrt(chi2 / n)
    return phi, p

# Función para graficar un pie plot.
def plot_pie(df, column, ax):
    counts = df[column].value_counts()
    labels = counts.index
    sizes = counts.values
    ax.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140)
    ax.set_title(column)

# Función para graficar un gráfico de barras
def plot_bar(df, column, ax):
    sns.countplot(data=df, x=column, ax=ax)
    ax.set_title(column)
    # Nota: Elimino las etiquetas en el eje de las x porque quedan muy apretadas
    ax.set_xlabel('')  # Eliminar la etiqueta del eje x
    ax.set_xticklabels([])  # Eliminar las etiquetas en el eje x

# Función para graficar un histograma.
def plot_hist(df, column, ax):
    sns.histplot(df[column], kde=True, ax=ax)
    ax.set_title(column)

# Función para graficar qq-plot
def plot_qq_plots(df, column, ax):
    sm.qqplot(df[column].dropna(), line ='45', fit=True, ax=ax)
    ax.set_title(f'QQ-plot for {column}')

# Funcion para graficar boxplot
def plot_boxplot(df, column, ax):
    sns.boxplot(df[column], ax=ax)
    ax.set_title(column)

def plot_heatmap(correlation_matrix, figsize=(8, 8)):
    plt.figure(figsize=figsize)
    sns.heatmap(correlation_matrix, annot=True, fmt=".2f", cmap="coolwarm", vmin=-1, vmax=1, annot_kws={"size": 8}, cbar=False)
    plt.title("Heatmap de Correlación")

    plt.xticks(fontsize=8)  # Adjust x-axis font size
    plt.yticks(fontsize=8)  # Adjust y-axis font size

    plt.show()

def plot_graph_on_grid(df, columns, graph_type, num_cols=3, figsize=(10, 5)):
    num_rows = (len(columns) + num_cols - 1) // num_cols  # cálculo del número de filas

    fig, axes = plt.subplots(num_rows, num_cols, figsize=figsize)
    axes = axes.flatten()

    for i, col in enumerate(columns):
        if graph_type == 'pie':
            plot_pie(df, col, axes[i])
        elif graph_type == 'hist':
            plot_hist(df, col, axes[i])
        elif graph_type == 'bar':
            plot_bar(df, col, axes[i])
        elif graph_type == 'qq-plot':
            plot_qq_plots(df, col, axes[i])
        elif graph_type == 'box-plot':
            plot_boxplot(df, col, axes[i])
        else:
            raise Exception('Tipo de gráfico no soportado.')

    # Elimina cualquier gráfico extra en la grilla
    for j in range(i + 1, len(axes)):
        fig.delaxes(axes[j])

    plt.tight_layout()
    plt.show()

### 2.1. Entendimiento del negocio y los datos (Business and Data Understanding)

#### 2.1.1. Definir el alcance de la solución

Este proyecto se plantea en el marco de la materia Análisis de Datos de la especialización en Inteligencia Artifical de la Facultad de Ingeniería de la Universidad de Buenos Aries; por lo tanto, es un proyecto con fines académicos.

Como objetivo principal, se plantea lo siguiente:

<mark>El objetivo es predecir si lloverá o no al día siguiente (variable RainTomorrow), en función de los datos meterológicos del día actual.</mark>

En este caso, el conjunto a analizar corresponde a los datos meterológicos de Australia recolectados durante 10 años de varias ubicaciones.
Los datos fueron recolectados en base a observaciones diarias, por la oficina de meteorolgía de Australia (Bureau of Meteorology), los cuales están disponibles al público desde su página: http://www.bom.gov.au/

De los tipos de análisis vistos en el curso, este entra dentro del análisis predictivo, donde la pregunta es *¿Qué ocurrirá?*

#### 2.1.2. Criterios de éxito

Como criterio de éxito orientado al negocio, en este caso, dado que es un proyecto académico, se enfoca en interaccionar con todos los tópicos vistos en el curso. Dichos tópicos son:
- Análisis estadístico básico de los datos
- Caracterización de variables
- Imputación de datos faltantes
- Preparación de datos y validación de resultados
<!-- TODO: Completar con el resto de las herramientas y temas vistos en clase  -->

Como criterio de éxito orientado al modelo de aprendizaje, se propone obtener una presición mayor al 90%, donde el enfoque sea en reducir la tasa de falsos negativos, ya que en este caso es más el impacto del usuario para dichos escenarios, en donde es preferible llevar un paraguas y que no llueva, a que no llevar un paraguas y que llueva.

Como criterio de éxito orientado a lo económico, dado que es un proyecto académico, se plantea que el tiempo de dedicación se mantenga uniforme entre todos los integrantes del proyecto. Así como también completar el proyecto antes de una fecha límite.

#### 2.1.3. Factibilidad

Dado que ya existe un conjunto de datos (https://www.kaggle.com/datasets/jsphyg/weather-dataset-rattle-package/data), y que dichos datos provienen de una buena fuente como lo es la oficina de meterología de Australia (también es un conjunto ámpliamente usado y calificado en "kaggle"), se considera factible los objetivos planteados.

In [None]:
# Descargamos el dataset
!gdown 1hEBhDvdBoXwNQPt-EpzYen6V2CzMK0cY

In [None]:
# Cargar el dataset

dataset_path = 'weatherAUS.csv'

try:
    df = pd.read_csv(dataset_path)
    print("Archivo cargado correctamente.")
except FileNotFoundError:
    print(f"Error: El archivo '{dataset_path}' no se encuentra.")
except Exception as e:
    print(f"Ocurrió un error al importar el archivo: {e}")

In [None]:
print('Tamaño del conjunto:', len(df))

<p><em>
El tamaño del conjunto es de <code>145460</code>, por lo que no se identifican problemas de disponibilidad ni de tamaño de los datos.
</em><p>

#### 2.1.4. Recolección de datos

En este caso, el conjunto de datos ya fue recolectado y se descargaron de https://www.kaggle.com/datasets/jsphyg/weather-dataset-rattle-package/data, donde se brindan competencias sobre conjuntos determinados.

Los datos no fueron actualizados desde que se compartieron y no se pretende que se actualicen, por lo que no es necesario un sistema de control de versiones de los datos.

#### 2.1.5. Verificación la de calidad de los datos

##### 2.1.5.1. Exploración de los datos

Perfilado de los datos:

In [None]:
profile = ProfileReport(df, title='Reporte') # Cargamos el reporte
if show_profile:
  profile.to_notebook_iframe() # Lo mostramos en pantalla (tiempo aproximado 5 minutos)

###### 2.1.5.1.1. Atributos y significados

> En este paso, se describen los atributos según el conocimiento del problema.

In [None]:
# Mostramos los datos.
df.sample(10, random_state=random_state)

<p><em>
Podemos observar que el dataset contiene 23 columnas, o sea 23 atributos. También algunos otros datos como que de por sí el conjunto tiene <code>NaN</code> como datos, lo que indica que probablemente sea más fácil cambiar estos datos a los análogos en <code>numpy</code>.
</em></p>

In [None]:
print('Atributos:')
df.columns

<p><em>
Según el conocimiento del negocio, tenemos la descripción de los siguientes atributos:

- `Date` → Tipo: Fecha (formato: `YYYY-MM-DD`) | Fecha de cuando se tomó la observación.
- `Location` → Tipo: Cualitativa-Nominal | Ubicación de la estación meterológica
- `MinTemp` → Tipo: Cuantitativa-Continua | Temperatura mínima (mínimo histórico de -23°)
- `MaxTemp` → Tipo: Cuantitativa-Continua | Temperatura máxima (máximo histórico de 51°)
- `Rainfall` → Tipo: Cuantitativa-Continua | Cuanta lluvia calló (máximo histórico en 375mm)
- `Evaporation` → Tipo: Cuantitativa-Continua | Cuanto fue la evaporación
- `Sunshine` → Tipo: Cuantitativa-Continua | Número de horas solares del día
- `WindGustDir` → Tipo: Cualitativa-Nominal | Dirección del viento más fuerte
- `WindGustSpeed` → Tipo: Cuantitativa-Continua | Velocidad del viento más fuerte (máximo registrado 408 km/h, en un cliclón, no se toman en cuenta tornados que vuela todo)
- `WindDir9am` → Tipo: Cualitativa-Nominal | Datos específicos según hora del día
- `WindDir3pm` → Tipo: Cualitativa-Nominal | Datos específicos según hora del día
- `WindSpeed9am` → Tipo: Cuantitativa-Continua | Datos específicos según hora del día
- `WindSpeed3pm` → Tipo: Cuantitativa-Continua | Datos específicos según hora del día
- `Humidity9am` → Tipo: Cuantitativa-Continua | Datos específicos según hora del día
- `Humidity3pm` → Tipo: Cuantitativa-Continua | Datos específicos según hora del día
- `Pressure9am` → Tipo: Cuantitativa-Continua | Datos específicos según hora del día
- `Pressure3pm` → Tipo: Cuantitativa-Continua | Datos específicos según hora del día
- `Cloud9am` → Tipo: Cuantitativa-Continua | Datos específicos según hora del día
- `Cloud3pm` → Tipo: Cuantitativa-Continua | Datos específicos según hora del día
- `Temp9am` → Tipo: Cuantitativa-Continua | Datos específicos según hora del día
- `Temp3pm` → Tipo: Cuantitativa-Continua | Datos específicos según hora del día
- `RainToday` → Tipo: Booleano | Indica si llovío en el día
- `RainTomorrow` → Tipo: Booleano | Indicador de riesgo si lloverá mañana o no. Es la variable objetivo.

De este análisis preliminar, podemos deducir las siguientes suposiciones:
- Podría haber una correlación entre la cantidad de lluvia y si llovió hoy. O sea, entre `Rainfall` y `RainToday`.
</em></p>

###### 2.1.5.1.2. Datos duplicados

In [None]:
# Información básica de los datos
df.info()

In [None]:
# Chequeamos si hay datos duplicados en las columnas Date y Location
df = df.sort_values(by=["Location", "Date"]).reset_index(drop=True)

is_any_duplicated = df.duplicated(subset=["Date", "Location"], keep=False).any()
print("Observaciones duplicadas para una fecha o localidad: ", is_any_duplicated)

<p><em>
Encontramos que la mayoria de las columnas corresponden a variables cuantitativas. Podemos observar que cuatro de ellas poseen una gran proporción de valores nulos: <code>Evaporation</code>, <code>Sunshine</code>, <code>Cloud9am</code>, <code>Cloud3pm</code>. El resto de las variables numéricas poseen cerca del 10% de valores faltantes o menos.

Entre las variables de tipo cualitativas identificamos a <code>Location</code> y <code>Date</code> como columnas identificatorias de una observación, es decir, no hay filas con valores repetidos si tomamos el subset de esas dos columnas. Tampoco se observan valores nulos en niguna de ambas columnas. La importancia de estas variables no reside sólo en su carácter identificatorio, sino además proveen información, espacial y temporal, que vamos a procesar más adelante y que puede resultar útil para nuestro modelo.

Observamos además que, entre las variables de tipo cualitativa tenemos la variable target <code>RainTomorrow</code>, binaria por definición del problema a resolver, y la variable <code>RainToday</code> que, intuitivamente, sigue una misma codificación que la variable target mencionada. Es importante notar que ambas variables binarias cuentan con valores nulos en algunas observaciones.

Finalmente, encontramos tres variables cualitativas relacionadas con la dirección del viento en diferentes momentos del día. Podemos considerar a estas variables como categóricas ordinales en el sistema de coordenadas polares, no existiendo relación de menor-mayor entre ellas pero si una relación secuencial en dos dimensiones.
</em></p>

###### 2.1.5.1.3. Tipos de datos

> En este punto se investiga los tipos de datos y se asigna el tipo correcto según el caso.

In [None]:
# Visualizar los tipos de datos
df.dtypes

<p><em>
Según lo analizado anteriormente, tenemos la siguiente clasificación de tipos de datos:
</em></p>


| **Variable**      | **Tipo actual** | **Tipo correcto** |
|-------------------|-----------------|-------------------|
| **Date**          | object          | datetime64        |
| **Location**      | object          | category          |
| **MinTemp**       | float64         | ✔                 |
| **MaxTemp**       | float64         | ✔                 |
| **Rainfall**      | float64         | ✔                 |
| **Evaporation**   | float64         | ✔                 |
| **Sunshine**      | float64         | ✔                 |
| **WindGustDir**   | object          | category          |
| **WindGustSpeed** | float64         | ✔                 |
| **WindDir9am**    | object          | category          |
| **WindDir3pm**    | object          | category          |
| **WindSpeed9am**  | float64         | ✔                 |
| **WindSpeed3pm**  | float64         | ✔                 |
| **Humidity9am**   | float64         | ✔                 |
| **Humidity3pm**   | float64         | ✔                 |
| **Pressure9am**   | float64         | ✔                 |
| **Pressure3pm**   | float64         | ✔                 |
| **Cloud9am**      | float64         | ✔                 |
| **Cloud3pm**      | float64         | ✔                 |
| **Temp9am**       | float64         | ✔                 |
| **Temp3pm**       | float64         | ✔                 |
| **RainToday**     | object          | bool              |
| **RainTomorrow**  | object          | bool              |

In [None]:
# Se realizan las asignaciones de datos correspondientes
cat_columns = ['Location', 'WindGustDir', 'WindDir9am', 'WindDir3pm']
bool_columns = ['RainToday', 'RainTomorrow']
date_columns = ['Date']

df[cat_columns] = df[cat_columns].astype('category')
df[date_columns] = df[date_columns].astype('datetime64[ns]')
mapping_dict = {"Yes" : 1, "No" : 0}
df[bool_columns] = df[bool_columns].applymap(lambda x: mapping_dict.get(x, x))

In [None]:
# Comprobamos que los tipos hayan quedado correctamente
df.dtypes

In [None]:
# Finalmente agrego los tipos en estructuras separadas para facilitar el tratamiento
cat_columns += bool_columns
cont_columns = ['MinTemp','MaxTemp','Rainfall','Evaporation','Sunshine',
                   'WindGustSpeed','WindSpeed9am','WindSpeed3pm','Humidity9am',
                   'Humidity3pm','Pressure9am','Pressure3pm','Cloud9am',
                   'Cloud3pm','Temp9am','Temp3pm']

Chequeamos que los valores faltantes tengan el tipo adecuado (también se arreglan valores que tienen incorrecto -basado en intución y conocimiento del negocio).

In [None]:
# Para columnas categóricas, simplemente nos fijamos en los valores que toma
# Crear un diccionario para almacenar los valores únicos de cada columna categórica
unique_values = {col: df[col].unique() for col in cat_columns}
print_unique_values(unique_values)

<p><em>
Podemos observar que los valores tienen adecuandamente el tipo <code>np.nan</code>

Para las columnas continuas, simplemente corroboramos que todas tegan el mismo tipo de datos.

In [None]:
# Llamar a la función y guardar la información en un DataFrame
type_info_df = show_unique_types_as_df(df, cont_columns)
type_info_df = type_info_df.groupby('Column').agg({'Type': concatenate_values}).reset_index()
type_info_df

<p><em>
Podemos corroborar que únicamente se encuentran tipos <code>float</code>. Nota: Los valores <code>NaN</code> en pandas son del tipo <code>float</code> y se representan como <code>numpy.float64</code>. Para diferenciarlos específicamente como <code>NaN</code>, podemos usar <code>numpy.isnan</code> para identificar estos valores y considerarlos por separado. Esto lo hacemos en la función y por esto se muestra este tipo a parte.
</em></p>

###### 2.1.5.1.4. Momentos

> En esta sección se analizan los momentos y datos estadísticos de las variables.

In [None]:
# Datos estadísticos del conjunto
df.describe()

<p><em>
Dados los datos estadísticos de las variables continuas, podemos ver que los máximos y mínimos de las variables de temperatura son acordes con los datos históricos, así como la velocidad del viento. Otro punto a observar son que los máximos y mínimos de las presiones también están acordes con los datos de la presiona atmosférica promedio, medida en hecto-pascales.

Otro punto a destacar es que los máximos y mínimos no se alejan tanto de la media con excepción de algunos atributos como `Rainfall` que el máximo se aleja muchísimo más de la media (mucho más de tres desviaciones), siendo posibles casos de análisis de valores atípicos.
</em></p>


In [None]:
# Valor más frecuente para variables categóricas
df[cat_columns].mode()

In [None]:
# Creamos una grilla de gráficos de barras
plot_graph_on_grid(df, columns=cat_columns, num_cols=3, graph_type='bar')

<p><em>
Podemos observar que hay un gran desbalance de clases en la variable <code>RainToday</code> y en la variable objetivo <code>RainTomorrow</code>, en donde el porcentaje es el siguiente:
</em></p>

In [None]:
# Creamos una grilla de graficos pie
plot_graph_on_grid(df, columns=['RainToday', 'RainTomorrow'], num_cols=2, graph_type='pie', figsize=(8, 4))

<p><em>
Este punto lo tenemos que tratar en otra sección: <strong>Clases desbalanceadas</strong>
</p></em>

Analizamos la oblicuidad utilizando el estimador por defecto:

In [None]:
# Calculamos la oblicuidad de cada columna.
skewness = df.skew(numeric_only=True)
skewness

<p><em>
Para mayor facilidad, analizamos los valores que son están alejados 0.5 del 0:
</p></em>

In [None]:
skewed_colums = skewness[abs(skewness) > 0.5]
skewed_colums

<p><em>
Podemos observar que las columnas con mas oblicuidad son <code>Rainfall</code> y <code>Evaporation</code>. Ambos sesgados a la derecha (cola pesada hacia la derecha).
</em></p>

Analizamos la curtosis para las columnas continuas (utilizando el estimador por defecto):

In [None]:
kurtosis = df.kurtosis(numeric_only=True)
kurtosis

<p><em>
Realizamos el mismo proceso que en el paso anterior y analizamos aquellas variables que tienen una crutosis que se aleja más de 5 del 0:
</em></p>

In [None]:
kurtosis_colums = kurtosis[abs(kurtosis) > 5]
kurtosis_colums

<p><em>
Podemos ver que los atributos <code>Rainfall</code> y <code>Evaporation</code> son los que tienen mayor distancia de 0. Ambas leptocúrticas.

Como también están sesgadas, hay una gran posibilidad de que se tenga que hacer un tratamiento diferentes de los datos.
</em></p>

Verificamos los histogramas de las variables para validar las métricas anteriores:

In [None]:
plot_graph_on_grid(df, columns=cont_columns, num_cols=3, graph_type='hist', figsize=(12, 17))

<p><em>
Luego de analizado los histogrmas para verificar las métricas anteriores, notamos algo importante. Las columnas <code>Clould9am</code> y <code>Cloud3pm</code> tienen una baja cardinalidad. Es más, los únicos valores son:
</em></p>

In [None]:
unique_values = {col: df[col].unique() for col in ['Cloud9am', 'Cloud3pm']}
print_unique_values(unique_values)

<p><em>
Por lo que al pricipio fueron definidas como "Cuantitativa-Continua" sería más bien una variable "Cuantitativa-Discreta":

- `Cloud9am` → Tipo: Cuantitativa-Discreta | Datos específicos según hora del día
- `Cloud3pm` → Tipo: Cuantitativa-Discreta | Datos específicos según hora del día

</em></p>

Otro punto para verificar la normalidad de los datos, es hacer gráficos de QQ-plot:

In [None]:
plot_graph_on_grid(df, columns=cont_columns, num_cols=3, graph_type='qq-plot', figsize=(12, 17))

<p><em>
Del gráfico podemos verificar las medidas anteriores obtenidas (la no normalidad de las columnas antes analizadas).
</em></p>

###### 2.1.5.1.5. Valores faltantes

Analizamos los valores faltantes de todas las columnas:

In [None]:
missing_values_df = df.isna().sum().reset_index()
missing_values_df.columns = ['Columna', 'Valores faltantes']

# Calcular el porcentaje de valores faltantes por columna
missing_percentage = (df.isna().sum() / len(df))
missing_values_df['Proporción de faltantes'] = missing_percentage.values.round(2)

# Ordenar de forma descendente según el porcentaje
missing_values_df = missing_values_df.sort_values(by='Proporción de faltantes',
                                                  ascending=False)

missing_values_df

<p><em>
Como podemos observar, hay muchos datos faltantes que deben ser analizados en las siguientes secciones.
</em></p>

Analizamos los valores faltantes de las columnas <code>RainToday</code> y <code>RainTomorrow</code>.

In [None]:
columns = ["RainToday", "RainTomorrow"]
for column in columns:
    print(df[column].value_counts())
    print_missing_perc(df, column)
    print()

<p><em>
Se observa que la distribución de los valores que asumen las columnas son muy similares, lo cual tiene sentido debido a que el dataset elegido es una serie temporal y el valor de <code>RainTomorrow</code> en una observación es el valor de <code>RainToday</code> para el día siguiente.

Encontramos además la misma proporción de valores nulos en ambas columnas.
</em></p>

Analizamos las columnas <code>Date</code> y <code>Location</code>.

Para evaluar la coherencia interna del dataset verificamos que no haya observaciones con valor nulo en <code>RainTomorrow</code>, teniendo la observación del día siguiente con valor existente en la columna <code>RainToday</code>, para una misma estación meteorológica.

In [None]:
diff_one_day = df["Date"].shift(-1) - df["Date"] == pd.Timedelta("1 day")
same_location = df["Location"] == df["Location"].shift(-1)
na_today_value_tomorrow = df["RainTomorrow"].isna() & ~(df["RainToday"].shift(-1).isna())

filt = diff_one_day & same_location & na_today_value_tomorrow
assert df.loc[filt, :].shape[0] == 0

Graficamos las observaciones diarias en función de la estación meteorológica para ver con que registros contamos.

In [None]:
plot_locations_over_time(df, color=spectral_palette[7])

<p><em>
Se observa que tenemos registros faltantes correspondientes a meses enteros para todas las estaciones meteorológicas. Además podemos observar que el inicio de la serie temporal para cada una de ellas difiere, siendo la observación más antigua de noviembre 2007.

Encontramos que en algunas de las localidades contamos con mayor cantidad de valores nulos en la columna target <code>RainTomorrow</code>. A priori esperábamos encontrar que los valores nulos para esa variable se encontraran dónde la serie temporal se corta, sin embargo podemos ver que aparecen aleatoriamente a lo largo de la serie temporal, y que en algunas locaciones incluso tenemos datos válidos en la variable <code>RainTomorrow</code> a pesar de no contar con una observación para el día siguiente al registrado.

Las estaciones con mayor cantidad de datos faltantes en la variable target son Melbourne y Wiliamtown. En lo que a Melbourne concierne, podemos observar que hay registros también en el aeropuerto de esa ciudad, por lo que podemos inferir que los patrones cimáticos de una de esas estaciones puede brindar información de utilidad para predecir si llueve al día siguiente en la otra. Extendiendo a todas las estaciones meteorológicas entendemos que incorporar la posición geográfica puede resultar de gran utilidad para el desarrollo de nuestro modelo predictivo.
</em></p>

###### 2.1.5.1.6. Valores atípicos

Para la detección de valores atípicos, primeramente realizamos diagramas de cajas para visualizar los datos. Estos diagramas de cajas también nos permiten las características anteriormente medidas, como la oblicuidad, media, mediana, etc; y así también validar estas métricas antes obtenidas.

In [None]:
plot_graph_on_grid(df, columns=cont_columns, num_cols=3, graph_type='box-plot', figsize=(12, 17))

<p><em>
Podemos observar que las siguentes columnas tienen outlíers:
</em></p>

- <code>MinTemp</code>
- <code>MaxTemp</code>
- <code>RainFall</code>
- <code>Evaporation</code>
- <code>WindGustSpeed</code>
- <code>WindSpeed9am</code>
- <code>WindSpeed3pm</code>
- <code>Humidity9am</code>
- <code>Pressure9am</code>
- <code>Pressure3pm</code>
- <code>Temp9am</code>
- <code>Temp3pm</code>

Porcentaje de outliers según IRQ y desviacón estándar:

In [None]:
outliers = outliers_iqr(df, cont_columns).sort_values(by='IRQ-Percentage', ascending=False)
outliers

<p><em>
Con la tabla podemos observar que aquellas columnas que se alejan de la distribución normal, como por ejemplo <code>Rainfall</code>, lo correcto sería tratar muchos más outliers mediante el rango inter cuartílico (que utiliza la mediana) que mediante la desviación estandar (que utiliza la media).
</em></p>

###### 2.1.5.1.7. Correlación entre datos

Análisis de correlación linear de los datos:

In [None]:
# Correlación de los datos
correlation_matrix = df.corr(numeric_only=True, method='pearson')
correlation_matrix

Para mejor visualización realizamos un mapa de calor:

In [None]:
plot_heatmap(correlation_matrix)

<p><em>
Podemos apreciar que hay datos que están bastante corelacionados. Para mejor observación, graficamos las columnas cuya correlación es mayor a 0.75 (establecidos como correlación de intensidad fuerte):
</em></p>

In [None]:
# Eliminar la diagonal principal (auto-correlaciones)
mask = np.eye(len(correlation_matrix), dtype=bool)
correlation_matrix_no_diag = correlation_matrix.where(~mask)

# Encontrar columnas altamente correlacionadas
high_corr_columns = correlation_matrix_no_diag.columns[correlation_matrix_no_diag.abs().max() > 0.75]
high_corr_matrix = correlation_matrix.loc[high_corr_columns, high_corr_columns]

plot_heatmap(high_corr_matrix, figsize=(5, 5))

<p><em>
En este punto podemos ver las siguientes correlaciones fuertes:

<code>MinTemp</code> ⟷ <code>Temp9am</code>

<code>MaxTemp</code> ⟷ <code>Temp3am</code> | <code>Temp9am</code>

<code>Pressure9am</code> ⟷ <code>Pressure3pm</code>

<code>Temp3am</code> ⟷ <code>Temp9am</code>

La relación en todos los casos es directa.

Estas correlaciones hay que tenerlas en cuenta a la hora de entrenamor modelos que son suceptibles a este tipo de correlación (ej: modelos lineales). También hay que tener en cuenta estas correlaciones en el caso de necesitar imputación de datos.
</em></p>

Otra forma de ver la correlación y afirmar aún más nuestras hipotesis, es graficando par a par (pairplot):

In [None]:
# sns.pairplot(df)
columnas = list(set(cont_columns) - set(['Cloud9am', 'Cloud3pm']) | set(["RainTomorrow"]))
sns.pairplot(
    df[columnas].sample(10000, random_state=random_state),
    hue="RainTomorrow",
    palette=[spectral_palette[9], spectral_palette[1]],
    diag_kind="kde",
    plot_kws={'alpha': 0.2}
    )

_En este ploteo podemos observar la correlación lineal entre ciertas variables analizadas anteriormente. Además, encontramos que las variables Humidity3pm y Sunshine resultan sumamente promimsorias para la separación de clases en la variable objetivo. Sin embargo, recordamos que la variable Sunshine posee datos faltantes en casi la mitad de los registros. Realizar un buen trabajo de imputación de datos faltantes resulta entonces indispensable para obtener una buena performance en nuestro tarea predictiva._

Análisis de la correlación según <code>Date</code> y <code>Location</code>.

Geolocalizamos las estaciones meteorológicas utilizando el servicio Open Street Map para obtener la posición geográfica de cada una de ellas.

In [None]:
country = "Australia"

world = gpd.read_file(get_path('naturalearth_lowres'))
gdf_australia = world[world.name == country]

# Solve manually some mistaken names
mapping_dict = {"Dartmoor": "DartmoorVillage", "Richmond": "RichmondSydney"}
df["Location"] = df["Location"].map(mapping_dict).fillna(df["Location"])

locations = df["Location"].unique()
locations = [re.sub(r'([a-z])([A-Z])', r'\1 \2', l) for l in locations]

locs = []
lats = []
lons = []
for location in locations:
  try:
    lat, lon = ox.geocode(location + f", {country}")

    locs.append(location.replace(" ", ""))
    lats.append(lat)
    lons.append(lon)
  except Exception as e:
    print(f"Error retrieving coordinates for {location}: {e}")

df_locations = pd.DataFrame({
    'Location': locs,
    'Lat': lats,
    'Lon': lons
})
geometry = [Point(lon, lat) for lon, lat in zip(df_locations['Lon'], df_locations['Lat'])]
gdf_locations = gpd.GeoDataFrame(df_locations, geometry=geometry, crs="EPSG:4326")

In [None]:
fig, ax = plt.subplots(figsize=(10, 6))
gdf_australia.plot(ax=ax, edgecolor='k', facecolor=spectral_palette[4])

# Plot locations
gdf_locations.plot(ax=ax, marker='o', color='black', markersize=10, label='Locations')

for idx, row in gdf_locations.iterrows():
    ax.text(
        row['geometry'].x,
        row['geometry'].y + .2,
        row['Location'],
        fontsize=5,
        ha='center',
        va='bottom'
        )

ax.set_xticks([])
ax.set_yticks([])

ax.set_aspect('equal', adjustable='box')

plt.title(
        "Ubicación de las estaciones meteorológicas observadas",
        fontsize=10,
    )

plt.show()

<p><em>
Podemos ver una gran cantidad de estaciones meteorológicas concentradas en la costa sureste de Australia, y en menor medida en la costa suroeste. Además notamos que algunas de las estaciones se encuentran muy cercanas entre si, lo cual puede traer aparejado una correlación entre los patrones climáticos.
</em></p>

Analizamos el coeficiente Phi para la variable <code>RainToday</code> comparando entre pares de estaciones meteorológicas y cruzando con la información de la distancia euclideana entre ellas.

In [None]:
locations = df["Location"].unique()
location_pairs = list(combinations(locations, 2))

df_location_pairs = pd.DataFrame(location_pairs, columns=['LocationA', 'LocationB'])
df_location_pairs['phi'] = np.nan
df_location_pairs['pvalue'] = np.nan

for index, row in df_location_pairs.iterrows():
    loc1, loc2 = row['LocationA'], row['LocationB']
    df_pair = df[df['Location'].isin([loc1, loc2])]
    df_pivot = df_pair.pivot(index='Date', columns='Location', values='RainToday').dropna()

    if not df_pivot.empty:
        confusion_matrix = pd.crosstab(df_pivot[loc1], df_pivot[loc2])
        phi, pvalue = phi_coefficient(confusion_matrix.values)
        df_location_pairs.at[index, 'phi'] = phi
        df_location_pairs.at[index, 'pvalue'] = pvalue

In [None]:
df_location_a = df_location_pairs[["LocationA"]].merge(
    gdf_locations[["Location", "geometry"]],
    how="left",
    left_on="LocationA",
    right_on="Location",
)
gdf_location_a = gpd.GeoDataFrame(df_location_a, geometry="geometry")
gdf_location_a_gda94 = gdf_location_a.to_crs(epsg=3112)

df_location_b = df_location_pairs[["LocationB"]].merge(
    gdf_locations[["Location", "geometry"]],
    how="left",
    left_on="LocationB",
    right_on="Location",
)
gdf_location_b = gpd.GeoDataFrame(df_location_b, geometry="geometry")
gdf_location_b_gda94 = gdf_location_b.to_crs(epsg=3112)

distance_ab = gdf_location_a_gda94["geometry"].distance(gdf_location_b_gda94["geometry"])

df_location_pairs["distance"] = distance_ab / 1000 # distance in kilometers

In [None]:
df_location_pairs.sort_values(by="phi", ascending=False).head(10)

<p><em>
Observamos que, tal como intuíamos, las estaciones con mayor coeficiente Phi tienen entre si para la variable <code>RainToday</code>, son aquellos que se encuentran cerca geográficamente.
</em></p>

Vamos a gráficar la relación entre la distancia geográfica y la correlación calculada mediante el coeficiente Phi para todos los pares de estaciones meteorológicas en el dataset.

In [None]:
plt.figure(figsize=(8, 8))

df_location_pairs["significant"] = df_location_pairs['pvalue'] <= .05
colors = [spectral_palette[10] if sig else spectral_palette[2] for sig in df_location_pairs['significant']]

sc = plt.scatter(df_location_pairs['phi'], np.log(df_location_pairs['distance']),
                 s=12, c=colors, alpha=.8, edgecolors='w', linewidth=0.5)

plt.legend(handles=[
    plt.Line2D([0], [0], marker='o', color='w', markerfacecolor=spectral_palette[10], markersize=5, label='p-value <= 0.05'),
    plt.Line2D([0], [0], marker='o', color='w', markerfacecolor=spectral_palette[2], markersize=5, label='p-value > 0.05')
])

plt.xlabel('Phi Coefficient')
plt.ylabel('Log de la distancia en km')
plt.title('Phi coefficient entre dos localidades vs distancia entre ellas\nutilizando la variable binaria RainToday para cada día')

plt.show()

<p><em>
Efectivamente, encontramos una importante correlación visual entre ambas variables graficadas: la distancia y la correlación para la variable <code>RainToday</code> para cada par de estaciones.

Esta situación resulta interesante en cuanto refuerza nuestra hipótesis de que la codificación espacial de las estaciones meteorológicas resulta informativa para un modelo encargado de predecir lluvia para el día siguiente.

Además, entendemos que debemos de estar atentos al momento de dividir nuestro dataset para entrenamiento y testeo del mismo. Si entrenamos nuestro modelo con datos de un día específico en estaciones meteorológicas cercanas entre si, y luego lo testeamos con una observación del mismo día pero de otra estación también cercana, corremos el riesgo de que el modelo aprenda que en esa zona geográfica llovió al día siguiente en lugar de realmente realizar una predicción desconociendo el futuro. Por esto consideramos que nuestro set de testeo y validación debe comprender un periodo de tiempo definido e incluir a todas las estaciones para ese período.
</em></p>

Finalmente vamos a analizar la relación existente entre la variables categóricas relacionadas a la dirección que puede tomar el viento. Como vimos anteriormente son 16 las categorías posibles.

In [None]:
wind_dir_columns = ["WindGustDir", "WindDir9am", "WindDir3pm"]

uniques_dirs = set(chain.from_iterable(df[column].unique() for column in wind_dir_columns))
print("Valores tipo string en las columnas WindDir: ", ' - '.join(d for d in uniques_dirs if isinstance(d, str)))
print("Otros valores en las columnas WindDir: ",' - '.join(str(d) for d in uniques_dirs if not isinstance(d, str)))

Se observan 16 categorías, cada una de ellas representando una dirección posible del viento con una resolución de 22.5°. Vamos a transformar la dirección del viento a grados considerando la dirección 'E' como nuestro 0° (y por lo tanto también nuestro 360°). Este método nos permitirá ordenar los valores para poder analizar graficamente la relación entre las variables WindDir9am y WindDir3pm.

In [None]:
df_wind_dir = df[wind_dir_columns]

dirs = ["E", "ENE", "NE", "NNE", "N", "NNW", "NW", "WNW", "W", "WSW", "SW", "SSW", "S", "SSE", "SE", "ESE"]
angles = list(np.arange(0, 360, 22.5))
mapping_dict = {d: a for (d, a) in zip(dirs, angles)}

df_wind_dir[wind_dir_columns] = df_wind_dir[wind_dir_columns].applymap(lambda x: mapping_dict.get(x, x))

In [None]:
confusion_matrix = pd.crosstab(df_wind_dir["WindDir9am"], df_wind_dir["WindDir3pm"])

# Plot confusion matrix as a heatmap
plt.figure(figsize=(8, 8))
sns.heatmap(confusion_matrix, annot=True, fmt='d', cmap='coolwarm', xticklabels=dirs, yticklabels=dirs, cbar=False)
plt.xlabel('WindDir9am')
plt.ylabel('WindDir3pm')
plt.title('Confusion Matrix Heatmap')
plt.show()

_Se observa una estrecha relación visual entre la dirección del viento registrada a las 9am y la dirección del viento registrada a las 3pm. Debido a la condición circular de las posibles direcciones que el viento puede tomar, aparecen valores altos en las esquinas inferior izquierda y superior derecha del gráfico._

##### 2.1.5.2. Requerimientos de datos

Como resumen del análisis de datos, éstos presentan la siguiente información:

<font color='blue'>ℹ</font> El conjunto contiene un total de <code>145460</code> observaciones.

<font color='blue'>ℹ</font> Las columnas cualitativas-nominales son: <code>WindGustDir</code> | <code>WindDir9am</code> | <code>WindDir3pm</code> | <code>Location</code>

<font color='blue'>ℹ</font> Las columnas cuantitativas-continuas son: <code>MinTemp</code> | <code>MaxTemp</code> | <code>Rainfall</code> | <code>Evaporation</code> | <code>Sunshine</code> | <code>WindGustSpeed</code> | <code>WindSpeed9am</code> | <code>WindSpeed3pm</code> | <code>Humidity9am</code> | <code>Humidity3pm</code> | <code>Pressure9am</code> | <code>Pressure3pm</code> | <code>Cloud9am</code> | <code>Cloud3pm</code> | <code>Temp9am</code> | <code>Temp3pm</code>

<font color='blue'>ℹ</font> Hay una columna booleana: <code>RainToday</code>

<font color='blue'>ℹ</font> Hay una columna del tipo fecha: <code>Date</code>

<font color='green'>✔</font> La variable objetivo es del tipo booleanna: <code>RainTomorrow</code>

<font color='green'>✔</font> No presentan datos duplicados.

<font color='red'>❌</font> Gran propoción de valores nulos en: <code>Evaporation</code> | <code>Sunshine</code> | <code>Cloud9am</code> | <code>Cloud3pm</code>

<font color='green'>✔</font> No hay valores nulos en las columnas: <code>Date</code> | <code>Location</code>

<font color='green'>✔</font> Máximos y mínimos acordes.

<font color='yellow'>⚠</font> Hay un desbalance de clases en la variable target.

<font color='green'>✔</font> Hay muchas columnas que se pueden estandarizar y siguen una distribución cuasi-normal como: <code>MinTemp</code> | <code>MaxTemp</code> | <code>Humidity3pm</code> | <code>Pressure9am</code> | <code>Pressure3pm</code> | <code>Temp9am</code>

<font color='yellow'>⚠</font> Hay columnas que son no-normales como: <code>Rainfall</code> | <code>Evaporation</code>

<font color='yellow'>⚠</font> Hay columnas que tienen colas pesadas y livianas como: <code>Sunshine</code> | <code>WindGustSpeed</code> | <code>WindSpeed9am</code> | <code>WindSpeed3pm</code> | <code>Humidity9am</code>

<font color='yellow'>⚠</font> Las columnas <code>Colud9am</code> y <code>Cloud3pm</code> podrían llevar un tratamiento de cuantitativas-discretas.

<font color='yellow'>⚠</font> Hay valores faltantes en el resto de las columnas, pero la mayoría (del 40 para arriba son las columnas): <code>Evaporation</code> | <code>Sunshine</code> | <code>Cloud9am</code> | <code>Cloud3pm</code>

<font color='blue'>ℹ</font> Hay relación entre los datos faltantes (<code>RainTomorrow</code>), fechas y localidades.

<font color='red'>❌</font> La columna <code>RainFall</code> contiene muchos outliers.

<font color='yellow'>⚠</font> Hay variables áltamente co-relacionadas como:

<pre><code>MinTemp</code> ⟷ <code>Temp9am</code>

<code>MaxTemp</code> ⟷ <code>Temp3am</code> | <code>Temp9am</code>

<code>Pressure9am</code> ⟷ <code>Pressure3pm</code>

<code>Temp3am</code> ⟷ <code>Temp9am</code></pre>

<!-- TODO -->

#### 2.1.6. Revisión de los documentos de salida

<!-- TODO: Borrar? -->

El documento de salida es un único nootebook autocontenido.

### 2.2. Ingeniería de datos (Data Engineering)

#### 2.2.1. Seleccionar datos

🔮 Futuras versiones 🔮

<!-- TODO: Seleccionar características importantes según el conocimiento del negocio. También ver si la correlación no impacta en los atributos de entrada. Es una buen práctica descartar características que no son importantes ya que no aportan al modelo pero ofrecen posibles puntos de errores -->

#### 2.2.2. Limpiar datos

##### 2.2.2.1 Imputaciones


Como se observó en la sección anterior, se tienen variables tanto numéricas como categóricas a las que les faltan algunos valores.

###### Considerando las variables categóricas:


Se toma la moda para completar los valores faltantes.

Sin embargo, para el caso de "RainToday" y "RainTomorrow", el porcentaje de valores faltantes es bajo (~2%) y parece ser aleatorio; por lo que podríamos excluir las observaciones donde estas columnas no tengan estos valores.

In [None]:
columnas_cat = ['Location', 'WindGustDir', 'WindDir9am', 'WindDir3pm']

In [None]:
df_cat_imputed = df.copy()

# Imputación con la Moda para Variables Categóricas
categorical_imputer = SimpleImputer(strategy='most_frequent')
df_cat_imputed[columnas_cat] = categorical_imputer.fit_transform(df_cat_imputed[columnas_cat])

In [None]:
missing_values = df_cat_imputed.isna().sum()
observations = len(df_cat_imputed)

missing_values_df = pd.DataFrame({
    'Variable': missing_values.index,
    'Valores faltantes': missing_values.values,
    'Cantidad de observaciones': observations,
    'Porcentaje valores faltantes': (missing_values.values / observations) * 100
})

missing_values_df.sort_values(by="Porcentaje valores faltantes", ascending=0)

In [None]:
# Retiramos las observaciones sin valores de "RainToday" y "RainTomorrow"
invalid_rows = df[df['RainToday'].isna() | df['RainTomorrow'].isna()].index

df_cat_imputed.drop(invalid_rows, inplace=True)
df_cat_imputed.shape

In [None]:
# Chequeamos los valores de nuevo
missing_values = df_cat_imputed.isna().sum()
observations = len(df_cat_imputed)

missing_values_df = pd.DataFrame({
    'Variable': missing_values.index,
    'Valores faltantes': missing_values.values,
    'Cantidad de observaciones': observations,
    'Porcentaje valores faltantes': (missing_values.values / observations) * 100
})

missing_values_df.sort_values(by="Porcentaje valores faltantes", ascending=0)

###### Considerando las variables numéricas:



Considerando que las faltas son por razones aleatorias, y, dado que la mayoría de las variables presentan oblicuidad, se considera la mediana como un buen candidato para reemplazar a los valores faltantes. Para este caso, se puede utilizar el SimpleImputer considerando una imputación de una variable.

Alternativamente, se puede utilizar un método multivariado como KNN (vecinos cercanos) y comparar con la imputación simple.

De esta forma se tienen dos alternativas que pueden compararse para determinar cuál es mejor.

In [None]:
from sklearn.impute import SimpleImputer, KNNImputer

# SimpleImputer (mediana)
def simple_imputer_mean(df, numerical_vars):
    imputer = SimpleImputer(strategy='mean')
    df[numerical_vars] = imputer.fit_transform(df[numerical_vars])
    return df

# KNN Imputer
def knn_imputer(df, numerical_vars, n_neighbors=5):
    imputer = KNNImputer(n_neighbors=n_neighbors)
    df[numerical_vars] = imputer.fit_transform(df[numerical_vars])
    return df

In [None]:
columnas_num = ['MinTemp', 'MaxTemp', 'Rainfall', 'Evaporation', 'Sunshine',
                'WindGustSpeed','WindSpeed9am', 'WindSpeed3pm', 'Humidity9am', 'Humidity3pm',
                'Pressure9am', 'Pressure3pm', 'Cloud9am', 'Cloud3pm', 'Temp9am','Temp3pm']

In [None]:
# Se realiza la imputación simple de una sola variable utilizando la mediana:
df_mean_imputed = simple_imputer_mean(df_cat_imputed.copy(), columnas_num)
df_mean_imputed.head()

In [None]:
# Se realiza la imputación multivariada utilizando los vecinos cercanos (KNN):
df_knn_imputed = knn_imputer(df_cat_imputed.copy(), columnas_num, n_neighbors=3)
df_knn_imputed.head()

De esta forma se tienen dos opciones para comparar:
`df_mean_imputed` y `df_knn_imputed`

##### Análisis postimputación


Para entender cómo ha cambiado el dataset luego de las dos alternativas de imputación para los datos numéricos, se puede realizar una análisis de las estadísticas descriptivas del dataset.

In [None]:
# Estadísticas descriptivas
original = df.describe()
mean_imputed_stats = df_mean_imputed.describe()
knn_imputed_stats = df_knn_imputed.describe()

# Se muestran las estadísticas para comparar
print("Estadísticas: dataset original:\n", original)
print("\nEstadísticas: imputación (mediana):\n", mean_imputed_stats)
print("\nEstadísticas: imputación (KNN):\n", knn_imputed_stats)

Analisis por variable. Se consideran solo las que tenían un gran porcentaje de valores faltantes (>10%)

In [None]:
def plot_distributions(original, mean_imputed, knn_imputed, variable, figsize=(15, 3)):
    plt.figure(figsize=figsize)

    # Original data
    plt.subplot(1, 3, 1)
    sns.histplot(original[variable].dropna(), kde=True)
    plt.title(f'Original: "{variable}"')

    # Mean imputed data
    plt.subplot(1, 3, 2)
    sns.histplot(mean_imputed[variable], kde=True)
    plt.title(f'Imputación (mediana): "{variable}"')

    # KNN imputed data
    plt.subplot(1, 3, 3)
    sns.histplot(knn_imputed[variable], kde=True)
    plt.title(f'Imputación (KNN): "{variable}"')

    plt.show()

In [None]:
# Sunshine (48%), Evaporation (43%), Cloud3pm (40%), Cloud9am (38%), Pressure9am (10%), Pressure3pm (10%)
top_six = ['Sunshine', 'Evaporation', 'Cloud3pm', 'Cloud9am', 'Pressure9am', 'Pressure3pm']

for variable in top_six:
  plot_distributions(df, df_mean_imputed, df_knn_imputed, variable, figsize=(15, 4))

Como se puede observar en los gráficos, las distribuciones se han visto afectadas (en especial "Sunshine") por las imputaciones.

El caso de Sunshine es particular y debería ser analizado a mayor profundidad para entender que opciones pueden existir para eliminar el sesgo excesivo que se observa.

En general, el método de imputación utilizando KNN es mejor que el método que se basa solamente en la mediana.

#### 2.2.3. Codificar de variables categóricas

A partir del análisis realizado hasta el momento encontramos las siguientes variables categóricas a codificar:

- "Date"
- "Location"
- "WindGustDir", "WindDir9am", "WindDir3pm"

##### Variable "Date"


Cada observación se registra con el día, mes y año. Sin embargo, tratar estos componentes como características independientes presenta varios inconvenientes:

Días del mes:
- La representación numérica entera de los días no refleja la condición circular de anterioridad de los días altos de un mes respecto a los bajos del siguiente. Además, los meses tienen diferentes números de días por lo que aun si el modelo logra capturar esa circularidad, puede ser dificultoso entender que la distancia entre un determinado número de día y otro no es siempre la misma (ej. entre el 28 de un mes y el 1 del siguiente puede haber 1 o 4 días).
- El valor numérico del día en un mes no informa directamente sobre la probabilidad de lluvia para el día siguiente.

Meses:
- Tienen una moderadamente alta cardinalidad para ser representados mediante one-hot encoding. pAdemás, esta técnica otorga la misma distancia euclideana a cada par de vectores que representan cada uno de los 12 meses.
- Si se usan valores enteros del 1 al 12, se pierde la circularidad, complicando la interpretación de la distancia temporal entre los útlimos meses y los primeros.

Años:
- Son informativos para variaciones climáticas anuales, pero pueden introducir problemas al generalizar a datos de años no vistos durante el entrenamiento.

Por estas razones, codificamos la fecha como el número de día del año, utilizando coordenadas polares para reflejar su estructura circular. De este modo se traduce la información brindada por la fecha a su ubicación dentro de un año calendario, codificandola en dos nuevas variables.

In [None]:
def plot_day_of_year_in_unit_circle():
    # Create a DataFrame to hold the values
    days = np.arange(1, 366, 2)
    days_in_year = 366

    angles = 2 * np.pi * (days - 1) / days_in_year
    cos_vals = np.cos(angles)
    sin_vals = np.sin(angles)

    df_days = pd.DataFrame({
        'Day': days,
        'Angle': angles,
        'DayCos': cos_vals,
        'DaySin': sin_vals
    })

    # Randomly select a day
    random_day = 37
    random_day_row = df_days[df_days['Day'] == random_day]

    # Plot the circle with 365 dots
    plt.figure(figsize=(5, 5))
    plt.plot(df_days['DayCos'], df_days['DaySin'], 'bo', markersize=1)  # Circle with 365 dots

    # Highlight the random day
    plt.plot(random_day_row['DayCos'], random_day_row['DaySin'], 'ro', markersize=2)
    plt.text(random_day_row['DayCos'].values[0] + 0.02, random_day_row['DaySin'].values[0],
            f"Day {random_day}\n({random_day_row['DayCos'].values[0]:.2f},{random_day_row['DaySin'].values[0]:.2f})",
            fontsize=6, ha='left', va='bottom')

    # Draw x and y axes
    plt.axhline(0, color='grey', linestyle='--', linewidth=0.5)
    plt.axvline(0, color='grey', linestyle='--', linewidth=0.5)

    # Draw the angle
    plt.plot([0, 1], [0, 0], 'k-', linewidth=1)
    plt.plot([0, random_day_row['DayCos'].values[0]], [0, random_day_row['DaySin'].values[0]], 'k-', linewidth=1)

    angle_text = f"{np.degrees(random_day_row['Angle'].values[0]):.2f}°"
    label_angle = random_day_row['Angle'].values[0] / 4
    plt.text(0.3 * np.cos(label_angle) + 0.05, 0.3 * np.sin(label_angle) + 0.05, angle_text, color='k', fontsize=8, ha='center', va='center')

    # Mark and label the cosine value on the axes
    plt.plot([random_day_row['DayCos'].values[0], random_day_row['DayCos'].values[0]], [0, random_day_row['DaySin'].values[0]], 'k--', linewidth=0.4)
    plt.text(random_day_row['DayCos'].values[0], -0.05,
            f"{random_day_row['DayCos'].values[0]:.2f}",
            fontsize=7,
            ha='center',
            va='top')

    plt.plot([0, random_day_row['DayCos'].values[0]], [random_day_row['DaySin'].values[0], random_day_row['DaySin'].values[0]], 'k--', linewidth=0.4)
    plt.text(-0.05, random_day_row['DaySin'].values[0],
            f"{random_day_row['DaySin'].values[0]:.2f}",
            fontsize=7,
            ha='right',
            va='center')

    # Set equal aspect ratio
    plt.gca().set_aspect('equal', adjustable='box')

    # Labels and title
    plt.xlabel('DayCos')
    plt.ylabel('DaySin')
    plt.title('Representación del día del año en coordenadas polares', fontsize=10)

    plt.tick_params(axis='both', labelsize=6)

    plt.show()

In [None]:
plot_day_of_year_in_unit_circle()

<p><em>
Codificar la fecha de esta manera cuenta con la ventaja de que indirectamente estamos incorporando la información de las estaciones del año, ya que para valores positivos de CosDay y SinDay nos encontramos con días de verano mientras que para valores negativos de ambos lo hacemos con días de invierno. En la diagonal opuesta sucede algo similar con días de primavera y otoño.
</em></p>

In [None]:
df['DayOfYear'] = df['Date'].dt.dayofyear

# Determine the number of days in the year for each date (taking leap years into account)
df['DaysInYear'] = df['Date'].dt.is_leap_year.apply(lambda leap: 366 if leap else 365)

# Convert day of the year to angle in radians, dividing by DaysInYear + 1
df['Angle'] = 2 * np.pi * (df['DayOfYear'] - 1) / (df['DaysInYear'])

df['DayCos'] = np.cos(df['Angle'])
df['DaySin'] = np.sin(df['Angle'])

df = df.drop(columns=["DayOfYear", "DaysInYear", "Angle"])

Vamos a entrenar un modelo de Regresión Logística utilizando únicamente las columnas creadas como features para predecir la variable objetivo <code>RainTomorrow</code>. Vamos a comparar los resultados obtenidos mediante esa codificación con la codificación ordinal del día y el mes para examinar el desempeño de la técnica utilizada.

In [None]:
# Initialize lists to store results
random_states = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
polar_results = []
integer_results = []

# Methodology 1: DayCos, DaySin
df_model_cos_sin = df[["DayCos", "DaySin", "RainTomorrow"]]
df_model_cos_sin = df_model_cos_sin.dropna(how='any').reset_index(drop=True)

# Methodology 2: Day, Month
df_model_day_month = df[["Date", "RainTomorrow"]]
df_model_day_month["Day"] = df_model_day_month["Date"].dt.day
df_model_day_month["Month"] = df_model_day_month["Date"].dt.month
df_model_day_month = pd.get_dummies(df_model_day_month, columns=["Month"], drop_first=True, dtype=int)
df_model_day_month = df_model_day_month.drop(columns="Date")
df_model_day_month = df_model_day_month.dropna(how='any').reset_index(drop=True)

for random_state in random_states:
    # Methodology 1: DayCos, DaySin
    X1 = df_model_cos_sin.drop(columns="RainTomorrow")
    y1 = df_model_cos_sin["RainTomorrow"]
    X1_train, X1_test, y1_train, y1_test = train_test_split(X1, y1, test_size=0.2, random_state=random_state)

    scaler = StandardScaler()
    X1_train_scaled = scaler.fit_transform(X1_train)
    X1_test_scaled = scaler.transform(X1_test)

    model1 = LogisticRegression(class_weight='balanced')
    model1.fit(X1_train_scaled, y1_train)
    y1_pred = model1.predict(X1_test_scaled)

    acc1 = accuracy_score(y1_test, y1_pred)
    f1_1 = f1_score(y1_test, y1_pred)

    polar_results.append({
        'RandomState': random_state,
        'PolarAccuracy': round(acc1, 3),
        'PolarF1': round(f1_1, 3)
    })

    # Methodology 2: Day, Month
    X2 = df_model_day_month.drop(columns="RainTomorrow")
    y2 = df_model_day_month["RainTomorrow"]
    X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.2, random_state=random_state)

    scaler = StandardScaler()
    X2_train_scaled = scaler.fit_transform(X2_train)
    X2_test_scaled = scaler.transform(X2_test)

    model2 = LogisticRegression(class_weight='balanced')
    model2.fit(X2_train_scaled, y2_train)
    y2_pred = model2.predict(X2_test_scaled)

    acc2 = accuracy_score(y2_test, y2_pred)
    f1_2 = f1_score(y2_test, y2_pred)

    integer_results.append({
        'RandomState': random_state,
        'IntegerAccuracy': round(acc2, 3),
        'IntegerF1': round(f1_2, 3)
    })

# Create DataFrames from results
polar_df = pd.DataFrame(polar_results)
integer_df = pd.DataFrame(integer_results)

# Merge the DataFrames on 'RandomState'
comparison_df = pd.merge(polar_df, integer_df, on='RandomState')

# Display the comparison DataFrame
comparison_df

_Observamos que los resultados obtenidos con la codificación de las fechas en coordenadas polares tuvo una performance superior para el F1 score para todos los valores de random state seleccionados. Si bien el accuracy de los modelos codificados con el número para el día y one-hot pára los meses es superior, recordamos que debido al desbalanceo entre clases, el accuracy se encuentra inflado para modelos que predicen mayormente que no llueve. Por otro lado, el F1 score refleja un balance entre la precisión y la sensibilidad del modelo._

##### Variable "Location"

Como evaluamos en el apartado anterior, la distancia entre estaciones meteorológicas es inversamente proporcional al coeficiente Phi para la variable RainToday. En decir, si en una estación se registra lluvia, es probable que en una estación cercana también se registre la misma condición.

Vamos a codificar la locación a partir de las coordenadas de Latitud y Longitud obtenidas mediante geolocalización con Open Street Map. De este modo informamos al modelo con la relación espacial entre las estaciones. Además, evitamos la representación dispersa que implicara utilizar one hot encoding con una variable de alta cardinalidad.

In [None]:
df = pd.merge(df, gdf_locations.drop(columns="geometry"), on="Location")

##### Variables "WindDir"

Al igual que sucede con la variable de fecha, las variables relacionadas con la dirección del viento también poseen un orden circular. En el caso de estas últimas variables, incluso, necesitamos un menor grado de abstracción ya que la dirección del viento puede representarse intuitivamente como la dirección de un vector en dos dimensiones (x, y). El eje x representa la dirección Este-Oeste y el eje y representa la dirección Norte-Sur.

In [None]:
dirs = ["E", "ENE", "NE", "NNE", "N", "NNW", "NW", "WNW", "W", "WSW", "SW", "SSW", "S", "SSE", "SE", "ESE"]
angles = np.radians(np.arange(0, 360, 22.5))
mapping_dict = {d: a for (d, a) in zip(dirs, angles)}

wind_dir_columns = ["WindGustDir", "WindDir9am", "WindDir3pm"]
for column in wind_dir_columns:
    df[f"{column}Angle"] = df[column].map(mapping_dict)

    df[f"{column}Cos"] = np.cos(df[f"{column}Angle"].astype(float))
    df[f"{column}Sin"] = np.sin(df[f"{column}Angle"].astype(float))

    df = df.drop(columns=f"{column}Angle")

Vamos a entrenar un modelo de Regresión Logística utilizando las columnas creadas como features para predecir la variable objetivo <code>RainTomorrow</code>, incluyendo las variables de velocidad del viento, ubicación de la estación meteorológica y la presencia o ausencia de lluvia para el día registrado. La incorporación de estás últimas variables se debe a que no se espera que los datos de la dirección del viento por si solo resulte informativa para predecir la lluvia del día siguiente. Vamos a comparar los resultados obtenidos mediante esa codificación con la codificación mediante one-hot encoding de la dirección del viento para examinar el desempeño de la técnica utilizada.

In [None]:
# Initialize lists to store results
random_states = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
polar_results = []
integer_results = []

# Methodology 1: DayCos, DaySin
df_model_cos_sin = df[
    [
        "Lat",
        "Lon",
        "WindGustSpeed",
        "WindSpeed9am",
        "WindSpeed3pm",
        "WindGustDirCos",
        "WindGustDirSin",
        "WindDir9amCos",
        "WindDir9amSin",
        "WindDir3pmCos",
        "WindDir3pmSin",
        "RainToday",
        "RainTomorrow",
    ]
]
df_model_cos_sin = df_model_cos_sin.dropna(how="any").reset_index(drop=True)

# Methodology 2: Day, Month
df_model_one_hot = df[
    [
        "Lat",
        "Lon",
        "WindGustSpeed",
        "WindSpeed9am",
        "WindSpeed3pm",
        "WindGustDir",
        "WindDir9am",
        "WindDir3pm",
        "RainToday",
        "RainTomorrow",
    ]
]
df_model_one_hot = df_model_one_hot.dropna(how="any").reset_index(drop=True)

df_model_one_hot = pd.get_dummies(
    df_model_one_hot,
    columns=["WindGustDir", "WindDir9am", "WindDir3pm"],
    drop_first=True,
    dtype=int,
)

for random_state in random_states:
    # Methodology 1: DayCos, DaySin
    X1 = df_model_cos_sin.drop(columns="RainTomorrow")
    y1 = df_model_cos_sin["RainTomorrow"]
    X1_train, X1_test, y1_train, y1_test = train_test_split(
        X1, y1, test_size=0.2, random_state=random_state
    )

    scaler = StandardScaler()
    X1_train_scaled = scaler.fit_transform(X1_train)
    X1_test_scaled = scaler.transform(X1_test)

    model1 = LogisticRegression(class_weight="balanced")
    model1.fit(X1_train_scaled, y1_train)
    y1_pred = model1.predict(X1_test_scaled)

    acc1 = accuracy_score(y1_test, y1_pred)
    f1_1 = f1_score(y1_test, y1_pred)

    polar_results.append(
        {
            "RandomState": random_state,
            "PolarAccuracy": round(acc1, 3),
            "PolarF1": round(f1_1, 3),
        }
    )

    # Methodology 2: Day, Month
    X2 = df_model_one_hot.drop(columns="RainTomorrow")
    y2 = df_model_one_hot["RainTomorrow"]
    X2_train, X2_test, y2_train, y2_test = train_test_split(
        X2, y2, test_size=0.2, random_state=random_state
    )

    scaler = StandardScaler()
    X2_train_scaled = scaler.fit_transform(X2_train)
    X2_test_scaled = scaler.transform(X2_test)

    model2 = LogisticRegression(class_weight="balanced")
    model2.fit(X2_train_scaled, y2_train)
    y2_pred = model2.predict(X2_test_scaled)

    acc2 = accuracy_score(y2_test, y2_pred)
    f1_2 = f1_score(y2_test, y2_pred)

    integer_results.append(
        {
            "RandomState": random_state,
            "IntegerAccuracy": round(acc2, 3),
            "IntegerF1": round(f1_2, 3),
        }
    )

# Create DataFrames from results
polar_df = pd.DataFrame(polar_results)
integer_df = pd.DataFrame(integer_results)

# Merge the DataFrames on 'RandomState'
comparison_df = pd.merge(polar_df, integer_df, on="RandomState")

# Display the comparison DataFrame
comparison_df

<p><em>
La comparación realizada no arroja evidencia contundente de la superioridad de alguno de los métodos sobre el otro para la tarea que estamos realizando.

Tanto la codificación de coordenadas polares como la codificación one-hot ofrecen distintas ventajas y potenciales riesgos como representación de la dirección del viento.

La codificación de coordenadas polares, con su representación compacta de solo dos características (CosAngle y SinAngle), es computacionalmente eficiente y captura la naturaleza circular de la dirección del viento, lo que la hace adecuada para modelos que manejan datos continuos de manera efectiva. Además puede constribuir a la interpretabilidad si se entiende la relación entre los valores que asumen estas variables y los puntos cardinales. Se intuye que este tipo de codificación puede resultar beneficiosa para modelos como SVM que son computacionalmente muy costosos en altas dimensiones, y modelos como KNN que se ven favorecidos por una codificación que respeta la distancia espacial entre categorías. Por otro lado, los árboles de decisión trabajan sobre separaciones ortogonales, esto puede complejizar la tarea de aislar los observaciones correspondientes a una sóla de las categorías posibles. Sin embargo, no se descarta que resulte beneficioso la posibilidad de separar direcciones del viento similares entre si de forma eficiente.

Por otro lado, la codificación one-hot garantiza la independencia de las variables creadas, lo que es especialmente beneficioso para modelos lineales como la regresión logística. Aumentando el espacio de características a 15 características binarias por cada una de las variables originales, preserva la granularidad de los datos categóricos sin asumir ningún orden inherente. Las nuevas variables creadas generan un dataset de entrenamiento altamente disperso lo que puede resultar problemático para modelos de redes neuronales. La representación categórica de los datos, incluso sin la necesidad de realizar one hot encoding, puede resultar beneficioso para modelos generados a partir de ensambles de árboles.

Dadas las ligeras diferencias en las puntuaciones F1 observadas en nuestros experimentos y las diferentes fortalezas de cada método, no encontramos evidencia definitiva para elegir uno sobre el otro. Por lo tanto, continuaremos probando nuestros modelos utilizando ambas representaciones, seleccionando el método más apropiado en función de casos de uso específicos.
</em></p>

#### 2.2.4. Evaluar importancia de las variables

Vamos a realizar un análisis de componentes principales para realizar una inspección visual e intuit la potencialidad de las variables elegidas para separar entre clases de la variable objetivo.

In [None]:
features_list = [
    "DayCos",
    "DaySin",
    "Lat",
    "Lon",
    "MinTemp",
    "MaxTemp",
    "Rainfall",
    "Evaporation",
    "Sunshine",
    "WindGustDirCos",
    "WindGustDirSin",
    "WindGustSpeed",
    "WindDir9amCos",
    "WindDir9amSin",
    "WindSpeed9am",
    "WindDir3pmCos",
    "WindDir3pmSin",
    "WindSpeed3pm",
    "Humidity9am",
    "Humidity3pm",
    "Pressure9am",
    "Pressure3pm",
    "Cloud9am",
    "Cloud3pm",
    "Temp9am",
    "Temp3pm",
    "RainToday",
]

n_max_feat = len(max(features_list, key=len))

df_model = df[features_list + ["RainTomorrow"]]
df_model = df_model.dropna(how='any').reset_index(drop=True)

X = df_model[features_list]
y = df_model["RainTomorrow"]

# Plot training data in two dimensions to visualize if captured features relate to labels.
scaler_manual = StandardScaler()
X_scaled = scaler_manual.fit_transform(X)

# Apply PCA for dimensionality reduction
pca = PCA(random_state=42)
X_pca = pca.fit_transform(X_scaled)

In [None]:
# Plot subsample
random.seed(42)
subsample_size = 5000
subsample_indices = random.sample(range(len(y)), subsample_size)

X_subsample = X_pca[subsample_indices]
y_subsample = y[subsample_indices]

plt.figure(figsize=(5, 5))

plt.scatter(
    X_subsample[y_subsample == 0, 0],
    X_subsample[y_subsample == 0, 1],
    c=spectral_palette[9],
    label="Negativo para RainTomorrow",
    s=5,
    alpha=0.4,
)

plt.scatter(
    X_subsample[y_subsample == 1, 0],
    X_subsample[y_subsample == 1, 1],
    c=spectral_palette[1],
    label="Positivo para RainTomorrow",
    s=5,
    alpha=0.4
)

x_min, x_max = -10, 10
y_min, y_max = -10, 10

plt.xticks(fontsize=8)
plt.yticks(fontsize=8)

plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)

plt.xlabel('Componente principal 1')
plt.ylabel('Componente principal 2')
plt.title('PCA de las features para nuestros modelos', fontsize=10)

# Set alpha=1 for the legend only
legend = plt.legend(prop={'size': 8})
for lh in legend.legend_handles:
    lh.set_alpha(1)

plt.show()

<p><em>
Podemos observar que las dos componentes principales no son suficientes para esbozar una separación entre las clases de la variable objetivo. Sin embargo, podemos ver que efectivamente ambas clases se agrupan en respectivos clusters aunque estos se encuentren solapados. El reconocimiento de estos clusters sugiere que las variables elegidas poseen cierta habilidad para distinguir entre clases.
</em></p>

Vamos a analizar ahora la composición del componente principal 1 obtenido.

In [None]:
# Get the loadings for the first principal component
loadings = pca.components_[0]
pc1_loadings = pd.DataFrame(loadings, index=X.columns, columns=['PC1 Loading'])

# Get the explained variance ratio to understand how much variance each component explains
explained_variance = pca.explained_variance_ratio_

# Print loadings for the first principal component
print("Explained Variance by PC1:", explained_variance[0], "\n")
print(pc1_loadings.sort_values(by='PC1 Loading', ascending=False).head(10))

<p><em>
Analizar la composición de los componentes principales puede resultar útil para entender el aporte de cada una de las variables de entrada a la varianza del dataset. Sin embargo, en este caso, el componente principal 1 explica sólo el 24% de la varianza total por lo que el análisis resulta insuficiente para entender el aporte de las features a la estructura del dataset.
</em></p>

Para realizar una evaluación más precisa de la importancia de las variables del dataset en la tarea de predecir lluvia para el día siguiente, entrenamos un modelo de random forest y extraemos del mismo la contribución de cada una de las variables a la reducción de la impureza Gini. Para el entrenamiento del modelo no se dividirán los datos en entrenamiento y testeo, ya que no nos interesa utilizarlo para realizar inferencias.

In [None]:
# Check importance of each feature.
rf_importance = RandomForestClassifier(random_state=42)
rf_importance.fit(X, y)

feature_importances = rf_importance.feature_importances_
rf_feature_importances = pd.DataFrame(feature_importances, index=X.columns, columns=['Feature Importance'])

print(rf_feature_importances.sort_values(by='Feature Importance', ascending=False))

<p><em>
Todas las variables oscilan en un rango de importancia comprendida entre 0.16 y 0.015, teniendo la mayoría de ellas valores cercanos al umbral mínimo mencionado.

El análisis nos permite distinguir dos cuestiones de importancia:

En primer lugar que no encontramos variables con una importancia ínfima que sugiera su descarte, es decir, en mayor o menor medida todas las features resultan informativas para la tarea que llevamos a cabo.

En segundo lugar, la medida de Humidity3pm y de Sunshine se destacan por su importancia relevada respecto al resto de las variables. Esta situación verifica nuestra hipótesis de la importancia de ambas variables cuando analizamos el pairplot entre todas las variables numéricas.
</em></p>

<!-- Normalization -->

### 2.3. Ingeniería de modelos de aprendizaje automático (ML Model Engineering)

#### 2.3.1. Modelado

##### 2.3.1.1 Estudio de la literatura y modelo base

A modo de baseline inicial para nuestro trabajo realizamos un modelo simple que predice lluvia para el día siguiente si el día de la observación también llovió, y evaluamos los resultados obtenidos.

In [None]:
filt = (df["RainToday"].isna()) | (df["RainTomorrow"].isna())

evaluate_predictions(df.loc[~filt, "RainTomorrow"], df.loc[~filt, "RainToday"])

In [None]:
confusion_matrix = pd.crosstab(df["RainToday"], df["RainTomorrow"])
phi, p = phi_coefficient(confusion_matrix)

print(f"Phi Coefficient: {phi}")
print(f"p-value: {p}")

<p><em>
Observamos que el valor de accuracy se encuentra inflado por el desbalanceo en el dataset. De hecho, si predijeramos siempre ausencia de lluvia obtendríamos un valor de 0.78 en esa métrica. Claro que en ese caso obtendríamos un valor de 0 para precision y recall.

Con este modelo inicial planteado obtenemos un F1 score de 0.47, con valores para precision y recall muy similares.

Calculando el coeficiente Phi entre ambas variables binarias encontramos un valor de 0.3 (asociación entre variables moderada y positiva) con una significancia que nos permite rechazar la hipóteses de que la asociación encontrada puede deberse simplemente a la variabilidad de el muestreo aleatorio.</em></p>

### 2.4 Evaluación de modelos de aprendizaje automático (ML Model Evaluation)

🔮 Futuras versiones 🔮

### 2.5 Despliegue del modelo (Model Deployment)

🔮 Futuras versiones 🔮

### 2.6 Monitoreo y mantenimiento del modelo (Model Monitoring and Maintenance)

🔮 Futuras versiones 🔮

## 3. Mejora continua

> Mejoras planteadas en un futuro:
> - Fases que faltaron implementar o mejorar
> - Mejorar los procesos
> - Mejorar la documentación de los procesos
> - Mejorar las referencias
> - Mejorar el archivo de código auxiliar (principalmente las improtaciones)
> - Refactorizar el código actual en código auxiliar

## 4. Referencias

- https://en.wikipedia.org/wiki/List_of_extreme_temperatures_in_Australia
- https://ml-ops.org/content/crisp-ml
- https://www.researchgate.net/publication/369194767_A_Different_Traditional_Approach_for_Automatic_Comparative_Machine_Learning_in_Multimodality_Covid-19_Severity_Recognition
- https://arxiv.org/pdf/2003.05155.pdf

## 5. Apendices

In [None]:
#with open("utils.py") as f:
#  print(f.read())