<a href="https://colab.research.google.com/github/Dantelarroy/SurfForecasting/blob/main/01_data_exploration.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# `Challenge Surf Forecasting and Spot Recommendations`

## `Contexto`
Estás desarrollando un sistema avanzado de predicción de olas utilizando Deep Learning para series temporales.
Este sistema no solo determinará si será un buen día para surfear en los puntos clave de Playa Grande (Biología, Yacht Club y PG), sino que también evaluará otras playas de Mar del Plata para recomendar el mejor lugar para surfear en los próximos días.

## `Objetivo`
**Predicción del surf**

Entrenar un modelo que evalúe si será un buen día de surf en cualquiera de los tres puntos de Playa Grande.
Basar la predicción en datos históricos de Surfline obtenidos a través de dos métodos: scraping y la biblioteca pysurfline.


**Recomendación de spots**

Analizar características de todas las playas de Mar del Plata para asignar un puntaje de calidad (surf score) a cada lugar.
Implementar un modelo de lenguaje (LLM) que haga recomendaciones personalizadas y justifique su elección.
Formato de los datos

- Archivos pysurfline: Contienen información detallada sobre las condiciones del surf, incluyendo:
  - Swells (altura, período, dirección).
  - Viento (velocidad y dirección).
  - Temperatura, presión atmosférica y probabilidad de buen surf.

- Archivos scrap: Resumen las condiciones con menos detalle, pero incluyen:
  - Rango de altura de olas.
  - Clasificación (e.g., "POOR TO FAIR").
  - Swells y viento.

## `Fases del Challenge`
- Fase 1

Exploración y Preprocesamiento
Unifica los datos de ambos formatos (pysurfline y scrap).
Gestiona diferencias en resoluciones y formatos.
Maneja valores nulos o inconsistencias, asegurando calidad en los datos.

- Fase 2

**Modelado Predictivo**
Utiliza modelos de Deep Learning para series temporales, como:
LSTMs o GRUs para capturar patrones temporales.
Transformers si deseas explorar arquitecturas más avanzadas.
Etiqueta los datos como "Buen día" o "Mal día" basándote en parámetros como altura de olas, dirección del viento, y clasificación de las olas.
Evalúa el modelo con métricas como accuracy, precision, y recall.

- Fase 3

**Recomendación de Spots**
Diseña una métrica personalizada para puntuar cada playa en Mar del Plata:
Considera swells, viento, temperatura, y estacionalidad.
Crea un sistema de recomendación basado en la puntuación y características históricas de cada spot.

- Fase 4

**Implementación de LLM**
Entrena o utiliza un modelo de lenguaje como GPT o Llama para:
Generar recomendaciones en lenguaje natural.
Justificar la elección del mejor lugar para surfear basándose en las predicciones y análisis.

- Fase 5

**Evaluación**
Valida las predicciones y recomendaciones con datos reales o históricos.
Incorpora retroalimentación de surfistas locales para afinar la herramienta.


## `Entregables`
- Jupyter Notebook que incluya:
  - Análisis exploratorio de datos.
  - Implementación del modelo de predicción.
  - Evaluación y visualización de los resultados.

- Demo funcional:
Herramienta que permita cargar nuevos datos y obtener predicciones.
Interfaz para visualizar recomendaciones y justificaciones del LLM.
Extras (Opcionales)
Integrar visualizaciones interactivas con bibliotecas como Plotly o Dash.
Permitir análisis en tiempo real con actualizaciones de datos.
Comparativa con modelos tradicionales (e.g., Random Forests o ARIMA).


### `Cronograma del Proyecto (3/1 - 22/1)`

#### Fase 1: Exploración y Preprocesamiento de Datos (3/1 - 6/1)
- **3/1**: Revisión y unificación de los formatos de los datos (pysurfline y scrap).
- **4/1**: Limpieza de datos (manejo de nulos e inconsistencias), normalización de las resoluciones.
- **5/1**: Análisis exploratorio de los datos (EDA) y visualización inicial de las características (swells, viento, temperatura, etc.).
- **6/1**: Revisión de la calidad de los datos, preparación para el modelado.

#### Fase 2: Modelado Predictivo (7/1 - 12/1)
- **7/1**: Selección de arquitectura para Deep Learning (LSTM, GRU o Transformer).
- **8/1**: Preprocesamiento de datos para Deep Learning (creación de series temporales, normalización, etc.).
- **9/1 - 11/1**: Entrenamiento del modelo predictivo para clasificación de "Buen día" vs. "Mal día". Ajuste de hiperparámetros.
- **12/1**: Evaluación del modelo (accuracy, precision, recall). Ajustes finales para optimización.

#### Fase 3: Recomendación de Spots (13/1 - 15/1)
- **13/1**: Diseño de la métrica personalizada para puntuar las playas (basado en swells, viento, temperatura, estacionalidad).
- **14/1**: Desarrollo del sistema de recomendación basado en la puntuación de cada spot.
- **15/1**: Evaluación de la calidad del sistema de recomendación, ajustes según resultados.

#### Fase 4: Implementación de LLM (16/1 - 18/1)
- **16/1**: Implementación de un modelo de lenguaje (GPT o Llama) para generar recomendaciones en lenguaje natural.
- **17/1**: Entrenamiento del modelo de lenguaje para justificar las recomendaciones.
- **18/1**: Integración del modelo de lenguaje con el sistema de recomendación de spots.

#### Fase 5: Evaluación y Validación (19/1 - 20/1)
- **19/1**: Validación de las predicciones y recomendaciones con datos reales o históricos.
- **20/1**: Revisión de retroalimentación de surfistas locales (si es posible) y ajuste de la herramienta.

#### Fase 6: Demo Funcional y Entregables (21/1 - 22/1)
- **21/1**: Desarrollo de la demo funcional que permita cargar nuevos datos y obtener predicciones.
  - Visualización de las recomendaciones y justificaciones generadas por el modelo de lenguaje.
- **22/1**: Entrega final del Jupyter Notebook con todo el análisis, la implementación del modelo y la evaluación de los resultados.
  - Extras (si se completan a tiempo): Integración de visualizaciones interactivas con Plotly o Dash, análisis en tiempo real, comparativa con modelos tradicionales.


# Instalaciones

In [1]:
!pip install pandas openpyxl



# Importaciones

In [2]:
import pandas as pd

# Clono el repositorio

In [5]:
!git clone https://github.com/Dantelarroy/SurfForecasting.git

Cloning into 'SurfForecasting'...
remote: Enumerating objects: 1242, done.[K
remote: Counting objects: 100% (1242/1242), done.[K
remote: Compressing objects: 100% (1138/1138), done.[K
remote: Total 1242 (delta 94), reused 1227 (delta 91), pack-reused 0 (from 0)[K
Receiving objects: 100% (1242/1242), 4.09 MiB | 11.72 MiB/s, done.
Resolving deltas: 100% (94/94), done.


# Carga de Datos

In [152]:
# Ruta de los archivos Excel en el repositorio clonado
df_bio_pysurfline = pd.read_excel('SurfForecasting/data/bio_pysurfline.xlsx')
df_bio_scrap_surfline = pd.read_excel('SurfForecasting/data/bio_scrap_surfline.xlsx')
df_pg_pysurfline = pd.read_excel('SurfForecasting/data/pg_pysurfline.xlsx')
df_pg_scrap_surfline = pd.read_excel('SurfForecasting/data/pg_scrap_surfline.xlsx')
df_yatch_pysurfline = pd.read_excel('SurfForecasting/data/yatch_pysurfline.xlsx')
df_yatch_scrap_surfline = pd.read_excel('SurfForecasting/data/yatch_scrap_surfline.xlsx')


# EDA

## `Lista de dfs de pysurfline y scrap para facilitar la limpieza`

In [153]:
scrap_dfs = [df_bio_scrap_surfline,df_pg_scrap_surfline,df_yatch_scrap_surfline]
pysurfline_dfs = [df_bio_pysurfline,df_pg_pysurfline,df_yatch_pysurfline]

## `Visualización`

In [175]:
# Visualizacion general de los df

df_pg_scrap_surfline.head(1)

Unnamed: 0,Rating,Primary Swell,Secondary Swell,Wind,Temperature,Pressure,Probability,timestamp_dt,surf_min,surf_max
0,POOR,0.8m 7s,0.1m 12s | 0.1m 9s,2442 kph,15ºc,1009mb,100%,2024-12-01 06:00:00,0.6,0.9


In [161]:
df_pg_pysurfline.head(1)

Unnamed: 0,timestamp_dt,timestamp_timestamp,probability,utcOffset,surf_min,surf_max,surf_optimalScore,surf_plus,surf_humanRelation,surf_raw_min,...,swells_5_directionMin,swells_5_optimalScore,speed,direction,directionType,gust,optimalScore,temperature,condition,pressure
0,2024-12-01 06:00:00,1733032800,100.0,-3,0.6,0.9,2,False,Thigh to waist,0.56,...,108.905,0,22.11154,352.05657,Cross-shore,40.36737,0,13.52705,NIGHT_CLEAR,1011


## `Nulos`

In [165]:
# Nulos

# Contabilizar los valores nulos en los DataFrames de scrap_dfs
for idx, df in enumerate(scrap_dfs, 1):
    nulls = df.isnull().sum().sum()  # Total de valores nulos en todo el DataFrame
    print(f"DataFrame {idx} en scrap_dfs tiene {nulls} valores nulos.")

# Contabilizar los valores nulos en los DataFrames de pysurfline_dfs
for idx, df in enumerate(pysurfline_dfs, 1):
    nulls = df.isnull().sum().sum()  # Total de valores nulos en todo el DataFrame
    print(f"DataFrame {idx} en pysurfline_dfs tiene {nulls} valores nulos.")


DataFrame 1 en scrap_dfs tiene 0 valores nulos.
DataFrame 2 en scrap_dfs tiene 0 valores nulos.
DataFrame 3 en scrap_dfs tiene 0 valores nulos.
DataFrame 1 en pysurfline_dfs tiene 0 valores nulos.
DataFrame 2 en pysurfline_dfs tiene 0 valores nulos.
DataFrame 3 en pysurfline_dfs tiene 0 valores nulos.


## `Tipo de Datos`

In [174]:
# Tipo de Datos

# Mostrar los tipos de datos en el primer DataFrame de scrap_dfs
print("Tipos de datos en el primer DataFrame de scrap_dfs:")
print(scrap_dfs[0].dtypes)
print()

# Mostrar los tipos de datos en el primer DataFrame de pysurfline_dfs
print("Tipos de datos en el primer DataFrame de pysurfline_dfs:")
print(pysurfline_dfs[0].dtypes)



Tipos de datos en el primer DataFrame de scrap_dfs:
Surf(m)                    object
Rating                     object
Primary Swell              object
Secondary Swell            object
Wind                       object
Temperature                object
Pressure                   object
Probability                object
timestamp_dt       datetime64[ns]
surf_min                  float64
surf_max                  float64
dtype: object

Tipos de datos en el primer DataFrame de pysurfline_dfs:
timestamp_dt           datetime64[ns]
timestamp_timestamp             int64
probability                   float64
utcOffset                       int64
surf_min                      float64
                            ...      
gust                          float64
optimalScore                    int64
temperature                   float64
condition                      object
pressure                        int64
Length: 62, dtype: object


In [170]:
# Función para dividir la columna 'Surf(m)' en 'surf_min' y 'surf_max'
def split_surf_column(df):
    # Verificar si la columna 'Surf(m)' está presente
    if 'Surf(m)' in df.columns:
        # Separar la columna 'Surf(m)' en surf_min y surf_max
        df[['surf_min', 'surf_max']] = df['Surf(m)'].str.split('-', expand=True)

        # Convertir las columnas 'surf_min' y 'surf_max' a tipo numérico
        df['surf_min'] = pd.to_numeric(df['surf_min'], errors='coerce')
        df['surf_max'] = pd.to_numeric(df['surf_max'], errors='coerce')

    return df

# Aplicar la función a cada DataFrame de scrap_dfs
scrap_dfs = [df_bio_scrap_surfline, df_pg_scrap_surfline, df_yatch_scrap_surfline]

for i in range(len(scrap_dfs)):
    scrap_dfs[i] = split_surf_column(scrap_dfs[i])

# Verificar el resultado en el primer DataFrame de scrap_dfs
print(scrap_dfs[0].head())

   Surf(m)        Rating Primary Swell Secondary Swell      Wind Temperature  \
0  0.6-1.1  POOR TO FAIR       0.3m 8s      2.7m 8s |   3648 kph        13ºc   
1  0.6-1.1          FAIR       0.3m 8s      2.9m 9s |   3546 kph        15ºc   
2  0.6-1.1          FAIR       0.3m 8s     2.7m 10s |   3052 kph        12ºc   
3  0.9-1.2          FAIR      0.3m 10s       3m 10s |   2641 kph         8ºc   
4  0.9-1.2          FAIR      0.2m 10s     2.8m 10s |   3450 kph        17ºc   

  Pressure Probability        timestamp_dt  surf_min  surf_max  
0   1006mb        100% 2024-12-02 06:00:00       0.6       1.1  
1   1009mb        100% 2024-12-02 12:00:00       0.6       1.1  
2   1009mb        100% 2024-12-02 18:00:00       0.6       1.1  
3   1011mb        100% 2024-12-03 06:00:00       0.9       1.2  
4   1013mb        100% 2024-12-03 12:00:00       0.9       1.2  


In [171]:
# Eliminar columnas 'Surf(m)' y 'Time' para el DataFrame df_bio_scrap_surfline
df_bio_scrap_surfline = df_bio_scrap_surfline.drop(columns=['Surf(m)']).reset_index(drop=True)

# Eliminar columnas 'Date' y 'Time' para el DataFrame df_pg_scrap_surfline
df_pg_scrap_surfline = df_pg_scrap_surfline.drop(columns=['Surf(m)']).reset_index(drop=True)

# Eliminar columnas 'Date' y 'Time' para el DataFrame df_yatch_scrap_surfline
df_yatch_scrap_surfline = df_yatch_scrap_surfline.drop(columns=['Surf(m)']).reset_index(drop=True)

In [None]:
# Datos duplicados

In [None]:
# Conversión de Datos

In [None]:
# Manejo de Nulos

In [None]:
# Eliminar caracteres especiales

In [None]:
# Describe

In [None]:
# Unificar los datasets

In [None]:
df_bio_scrap_surfline.dtypes

In [159]:
df_bio_scrap_surfline.head(10)

Unnamed: 0,Surf(m),Rating,Primary Swell,Secondary Swell,Wind,Temperature,Pressure,Probability,timestamp_dt
0,0.6-1.1,POOR TO FAIR,0.3m 8s,2.7m 8s |,3648 kph,13ºc,1006mb,100%,2024-12-02 06:00:00
1,0.6-1.1,FAIR,0.3m 8s,2.9m 9s |,3546 kph,15ºc,1009mb,100%,2024-12-02 12:00:00
2,0.6-1.1,FAIR,0.3m 8s,2.7m 10s |,3052 kph,12ºc,1009mb,100%,2024-12-02 18:00:00
3,0.9-1.2,FAIR,0.3m 10s,3m 10s |,2641 kph,8ºc,1011mb,100%,2024-12-03 06:00:00
4,0.9-1.2,FAIR,0.2m 10s,2.8m 10s |,3450 kph,17ºc,1013mb,100%,2024-12-03 12:00:00
5,0.6-1.1,FAIR,2.5m 10s,0.2m 10s |,2431 kph,17ºc,1013mb,100%,2024-12-03 18:00:00
6,0.9-1.2,FAIR,1.7m 11s,1m 9s |,1834 kph,11ºc,1012mb,100%,2024-12-04 06:00:00
7,0.9-1.4,POOR TO FAIR,1.7m 12s,0.8m 9s | 0.6m 3s,3245 kph,23ºc,1009mb,90%,2024-12-04 12:00:00
8,0.9-1.2,FAIR,1.5m 12s,0.7m 9s | 0.8m 4s,3145 kph,25ºc,1004mb,100%,2024-12-04 18:00:00
9,0.6-0.9,FAIR,1.1m 11s,0.3m 6s | 0.6m 8s,57 kph,15ºc,1007mb,100%,2024-12-05 06:00:00


## `Estandarizar columnas Date, Time de scrap_dfs`

In [155]:
def unify_datetime_columns(df, output_col="timestamp_dt"):
    """
    Unifica las columnas 'Date' y 'Time' en un DataFrame en una columna tipo timestamp,
    reemplaza 'Noon' por '12pm', y elimina las columnas originales.

    Args:
        df (pd.DataFrame): DataFrame que contiene las columnas 'Date' y 'Time'.
        output_col (str): Nombre de la nueva columna unificada. Por defecto es 'timestamp_dt'.

    Returns:
        pd.DataFrame: DataFrame con la nueva columna unificada y sin las columnas originales.
    """
    # Verificar que las columnas 'Date' y 'Time' están presentes
    required_cols = ["Date", "Time"]
    for col in required_cols:
        if col not in df.columns:
            raise KeyError(f"La columna requerida '{col}' no está presente en el DataFrame.")


    # Reemplazar "Noon" por "12pm" en la columna 'Time'
    df["Time"] = df["Time"].replace("Noon", "12pm")

    # Crear la nueva columna unificada como timestamp
    df[output_col] = pd.to_datetime(
        df["Date"] + " " + df["Time"],
        format="%Y-%m-%d %I%p",
        errors="coerce"
    )


    # Retornar el DataFrame
    return df





In [156]:
scrap_dfs = [unify_datetime_columns(df,output_col="timestamp_dt") for df in scrap_dfs]

In [157]:
# Eliminar columnas 'Date' y 'Time' para el DataFrame df_bio_scrap_surfline
df_bio_scrap_surfline = df_bio_scrap_surfline.drop(columns=['Date', 'Time']).reset_index(drop=True)

# Eliminar columnas 'Date' y 'Time' para el DataFrame df_pg_scrap_surfline
df_pg_scrap_surfline = df_pg_scrap_surfline.drop(columns=['Date', 'Time']).reset_index(drop=True)

# Eliminar columnas 'Date' y 'Time' para el DataFrame df_yatch_scrap_surfline
df_yatch_scrap_surfline = df_yatch_scrap_surfline.drop(columns=['Date', 'Time']).reset_index(drop=True)



In [158]:
# Vuelvo a declarar los dfs corregidos

scrap_dfs = [df_bio_scrap_surfline,df_pg_scrap_surfline,df_yatch_scrap_surfline]
pysurfline_dfs = [df_bio_pysurfline,df_pg_pysurfline,df_yatch_pysurfline]

In [None]:
df_bio_pysurfline.dtypes

In [None]:
df_

## EDA

#### Datetime

In [7]:
def process_surfline_df(df, is_pysurfline=True):
    if is_pysurfline:
        # Eliminar la columna timestamp_timestamp
        df = df.drop(columns=['timestamp_timestamp'], errors='ignore')
    else:
        # Reemplazar valores como 'Noon' y 'Midnight' por tiempos estándar
        df['Time'] = df['Time'].replace({'Noon': '12:00 PM', 'Midnight': '12:00 AM'})

        # Concatenar Date y Time y convertir a timestamp_dt
        # Intentar convertir a un formato datetime adecuado
        df['timestamp_dt'] = pd.to_datetime(df['Date'] + ' ' + df['Time'], format='%Y-%m-%d %I:%M %p', errors='coerce')

        # Verificar si hay NaT en timestamp_dt y mostrar las filas problemáticas
        if df['timestamp_dt'].isna().any():
            print("Hay valores NaT en 'timestamp_dt' debido a problemas de formato:")
            print(df[df['timestamp_dt'].isna()])

        # Eliminar las columnas originales
        df = df.drop(columns=['Date', 'Time'], errors='ignore')

    return df

# Aplicar la función a los DataFrames correspondientes
df_bio_pysurfline = process_surfline_df(df_bio_pysurfline, is_pysurfline=True)
df_pg_pysurfline = process_surfline_df(df_pg_pysurfline, is_pysurfline=True)
df_yatch_pysurfline = process_surfline_df(df_yatch_pysurfline, is_pysurfline=True)

df_bio_scrap_surfline = process_surfline_df(df_bio_scrap_surfline, is_pysurfline=False)
df_pg_scrap_surfline = process_surfline_df(df_pg_scrap_surfline, is_pysurfline=False)
df_yatch_scrap_surfline = process_surfline_df(df_yatch_scrap_surfline, is_pysurfline=False)


Hay valores NaT en 'timestamp_dt' debido a problemas de formato:
          Date Time  Surf(m)        Rating Primary Swell     Secondary Swell  \
0   2024-12-02  6am  0.6-1.1  POOR TO FAIR       0.3m 8s          2.7m 8s |    
2   2024-12-02  6pm  0.6-1.1          FAIR       0.3m 8s         2.7m 10s |    
3   2024-12-03  6am  0.9-1.2          FAIR      0.3m 10s           3m 10s |    
5   2024-12-03  6pm  0.6-1.1          FAIR      2.5m 10s         0.2m 10s |    
6   2024-12-04  6am  0.9-1.2          FAIR      1.7m 11s            1m 9s |    
8   2024-12-04  6pm  0.9-1.2          FAIR      1.5m 12s   0.7m 9s | 0.8m 4s   
9   2024-12-05  6am  0.6-0.9          FAIR      1.1m 11s   0.3m 6s | 0.6m 8s   
11  2024-12-05  6pm  0.3-0.6  POOR TO FAIR      0.8m 10s   0.3m 6s | 0.6m 8s   
12  2024-12-06  6am  0.3-0.6  POOR TO FAIR      0.7m 11s    1m 10s | 0.4m 5s   
14  2024-12-06  6pm  0.6-0.9          POOR       1.7m 9s          0.3m 5s |    
15  2024-12-07  6am  0.9-1.2          FAIR       2.3m 8

**df_bio_pysurfline**

In [None]:
df_bio_pysurfline.head(5)

df_bio_scrap_surfline

In [None]:
df_bio_scrap_surfline.head(5)