<a href="https://colab.research.google.com/github/Dantelarroy/SurfForecasting/blob/main/01_data_exploration.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# `Challenge Surf Forecasting and Spot Recommendations`

## `Contexto`
Estás desarrollando un sistema avanzado de predicción de olas utilizando Deep Learning para series temporales.
Este sistema no solo determinará si será un buen día para surfear en los puntos clave de Playa Grande (Biología, Yacht Club y PG), sino que también evaluará otras playas de Mar del Plata para recomendar el mejor lugar para surfear en los próximos días.

## `Objetivo`
**Predicción del surf**

Entrenar un modelo que evalúe si será un buen día de surf en cualquiera de los tres puntos de Playa Grande.
Basar la predicción en datos históricos de Surfline obtenidos a través de dos métodos: scraping y la biblioteca pysurfline.


**Recomendación de spots**

Analizar características de todas las playas de Mar del Plata para asignar un puntaje de calidad (surf score) a cada lugar.
Implementar un modelo de lenguaje (LLM) que haga recomendaciones personalizadas y justifique su elección.
Formato de los datos

- Archivos pysurfline: Contienen información detallada sobre las condiciones del surf, incluyendo:
  - Swells (altura, período, dirección).
  - Viento (velocidad y dirección).
  - Temperatura, presión atmosférica y probabilidad de buen surf.

- Archivos scrap: Resumen las condiciones con menos detalle, pero incluyen:
  - Rango de altura de olas.
  - Clasificación (e.g., "POOR TO FAIR").
  - Swells y viento.

## `Fases del Challenge`
- Fase 1

Exploración y Preprocesamiento
Unifica los datos de ambos formatos (pysurfline y scrap).
Gestiona diferencias en resoluciones y formatos.
Maneja valores nulos o inconsistencias, asegurando calidad en los datos.

- Fase 2

**Modelado Predictivo**
Utiliza modelos de Deep Learning para series temporales, como:
LSTMs o GRUs para capturar patrones temporales.
Transformers si deseas explorar arquitecturas más avanzadas.
Etiqueta los datos como "Buen día" o "Mal día" basándote en parámetros como altura de olas, dirección del viento, y clasificación de las olas.
Evalúa el modelo con métricas como accuracy, precision, y recall.

- Fase 3

**Recomendación de Spots**
Diseña una métrica personalizada para puntuar cada playa en Mar del Plata:
Considera swells, viento, temperatura, y estacionalidad.
Crea un sistema de recomendación basado en la puntuación y características históricas de cada spot.

- Fase 4

**Implementación de LLM**
Entrena o utiliza un modelo de lenguaje como GPT o Llama para:
Generar recomendaciones en lenguaje natural.
Justificar la elección del mejor lugar para surfear basándose en las predicciones y análisis.

- Fase 5

**Evaluación**
Valida las predicciones y recomendaciones con datos reales o históricos.
Incorpora retroalimentación de surfistas locales para afinar la herramienta.


## `Entregables`
- Jupyter Notebook que incluya:
  - Análisis exploratorio de datos.
  - Implementación del modelo de predicción.
  - Evaluación y visualización de los resultados.

- Demo funcional:
Herramienta que permita cargar nuevos datos y obtener predicciones.
Interfaz para visualizar recomendaciones y justificaciones del LLM.
Extras (Opcionales)
Integrar visualizaciones interactivas con bibliotecas como Plotly o Dash.
Permitir análisis en tiempo real con actualizaciones de datos.
Comparativa con modelos tradicionales (e.g., Random Forests o ARIMA).


### `Cronograma del Proyecto (3/1 - 22/1)`

#### Fase 1: Exploración y Preprocesamiento de Datos (3/1 - 6/1)
- **3/1**: Revisión y unificación de los formatos de los datos (pysurfline y scrap).
- **4/1**: Limpieza de datos (manejo de nulos e inconsistencias), normalización de las resoluciones.
- **5/1**: Análisis exploratorio de los datos (EDA) y visualización inicial de las características (swells, viento, temperatura, etc.).
- **6/1**: Revisión de la calidad de los datos, preparación para el modelado.

#### Fase 2: Modelado Predictivo (7/1 - 12/1)
- **7/1**: Selección de arquitectura para Deep Learning (LSTM, GRU o Transformer).
- **8/1**: Preprocesamiento de datos para Deep Learning (creación de series temporales, normalización, etc.).
- **9/1 - 11/1**: Entrenamiento del modelo predictivo para clasificación de "Buen día" vs. "Mal día". Ajuste de hiperparámetros.
- **12/1**: Evaluación del modelo (accuracy, precision, recall). Ajustes finales para optimización.

#### Fase 3: Recomendación de Spots (13/1 - 15/1)
- **13/1**: Diseño de la métrica personalizada para puntuar las playas (basado en swells, viento, temperatura, estacionalidad).
- **14/1**: Desarrollo del sistema de recomendación basado en la puntuación de cada spot.
- **15/1**: Evaluación de la calidad del sistema de recomendación, ajustes según resultados.

#### Fase 4: Implementación de LLM (16/1 - 18/1)
- **16/1**: Implementación de un modelo de lenguaje (GPT o Llama) para generar recomendaciones en lenguaje natural.
- **17/1**: Entrenamiento del modelo de lenguaje para justificar las recomendaciones.
- **18/1**: Integración del modelo de lenguaje con el sistema de recomendación de spots.

#### Fase 5: Evaluación y Validación (19/1 - 20/1)
- **19/1**: Validación de las predicciones y recomendaciones con datos reales o históricos.
- **20/1**: Revisión de retroalimentación de surfistas locales (si es posible) y ajuste de la herramienta.

#### Fase 6: Demo Funcional y Entregables (21/1 - 22/1)
- **21/1**: Desarrollo de la demo funcional que permita cargar nuevos datos y obtener predicciones.
  - Visualización de las recomendaciones y justificaciones generadas por el modelo de lenguaje.
- **22/1**: Entrega final del Jupyter Notebook con todo el análisis, la implementación del modelo y la evaluación de los resultados.
  - Extras (si se completan a tiempo): Integración de visualizaciones interactivas con Plotly o Dash, análisis en tiempo real, comparativa con modelos tradicionales.


# Definiciones de features para entender el contexto

`¿Qué es un Swell?`

En el contexto de las olas del mar, un swell es un grupo de olas generadas por el viento que sopla sobre el océano, generalmente a largas distancias de la costa. A medida que el viento empuja el agua, se forman ondas que viajan a través del océano. -Estas ondas (o swells) pueden desplazarse miles de kilómetros antes de llegar a la costa, donde finalmente rompen y se convierten en las olas que los surfistas suelen montar.

Los swells se caracterizan principalmente por:

- Altura: cuán grandes son las olas.
- Período: cuánto tiempo pasa entre cada ola, se mide desde el momento en que una ola pasa un punto dado hasta que la siguiente lo hace.
- Dirección: Dirección de la ola es el ángulo desde el cual llega la ola a la costa, medido en grados.
  - El norte está a 0°
  - El este a 90°
  - El sur a 180°
  - El oeste a 270°

Otros:
- Impacto: Cuán fuerte es la ola cuando llega a la costa o cuando rompe.
- Power: Energía que transporta la ola. Una ola más potente es capaz de mover objetos más grandes y tiene una mayor capacidad para surfear.


# Instalaciones

In [684]:
!pip install pandas openpyxl



# Importaciones

In [685]:
import pandas as pd
import numpy as np

# Clono el repositorio

In [686]:
!git clone https://github.com/Dantelarroy/SurfForecasting.git

fatal: destination path 'SurfForecasting' already exists and is not an empty directory.


# Carga de Datos

In [687]:
# Ruta de los archivos Excel en el repositorio clonado
df_bio_pysurfline = pd.read_excel('SurfForecasting/data/bio_pysurfline.xlsx')
df_bio_scrap_surfline = pd.read_excel('SurfForecasting/data/bio_scrap_surfline.xlsx')
df_pg_pysurfline = pd.read_excel('SurfForecasting/data/pg_pysurfline.xlsx')
df_pg_scrap_surfline = pd.read_excel('SurfForecasting/data/pg_scrap_surfline.xlsx')
df_yatch_pysurfline = pd.read_excel('SurfForecasting/data/yatch_pysurfline.xlsx')
df_yatch_scrap_surfline = pd.read_excel('SurfForecasting/data/yatch_scrap_surfline.xlsx')


# EDA

## `Lista de dfs de pysurfline y scrap para facilitar la limpieza`

In [688]:
scrap_dfs_dict = {
    'df_bio_scrap_surfline': df_bio_scrap_surfline,
    'df_pg_scrap_surfline': df_pg_scrap_surfline,
    'df_yatch_scrap_surfline': df_yatch_scrap_surfline,
}

pysurfline_dfs_dict = {
    'df_bio_pysurfline': df_bio_pysurfline,
    'df_pg_pysurfline':df_pg_pysurfline,
    'df_yatch_pysurfline':df_yatch_pysurfline,
}

In [689]:
df_bio_scrap_surfline = scrap_dfs_dict['df_bio_scrap_surfline']
df_pg_scrap_surfline = scrap_dfs_dict['df_pg_scrap_surfline']
df_yatch_scrap_surfline = scrap_dfs_dict['df_yatch_scrap_surfline']

df_bio_pysurfline = pysurfline_dfs_dict['df_bio_pysurfline']
df_pg_pysurfline = pysurfline_dfs_dict['df_pg_pysurfline']
df_yatch_pysurfline = pysurfline_dfs_dict['df_yatch_pysurfline']


# SCRAP DF

## `Columnas`

In [690]:
df_pg_scrap_surfline.columns

Index(['Date', 'Time', 'Surf(m)', 'Rating', 'Primary Swell', 'Secondary Swell',
       'Wind', 'Temperature', 'Pressure', 'Probability'],
      dtype='object')

## `Visualización`

In [717]:
# Visualizacion general de los df

df_pg_scrap_surfline.head(1)

Unnamed: 0,Rating,Primary Swell,Wind,Temperature,Pressure,Probability,Surf_Min,Surf_Max,Secondary_Swell,Third_Swell,timestamp_dt
0,POOR,0.8m 7s,2442 kph,15.0,1009.0,100%,0.6,0.9,0.1m 12s,0.1m 9s,2024-12-01 06:00:00


In [692]:
df_pg_pysurfline.head(1)

Unnamed: 0,timestamp_dt,timestamp_timestamp,probability,utcOffset,surf_min,surf_max,surf_optimalScore,surf_plus,surf_humanRelation,surf_raw_min,...,swells_5_directionMin,swells_5_optimalScore,speed,direction,directionType,gust,optimalScore,temperature,condition,pressure
0,2024-12-01 06:00:00,1733032800,100.0,-3,0.6,0.9,2,False,Thigh to waist,0.56,...,108.905,0,22.11154,352.05657,Cross-shore,40.36737,0,13.52705,NIGHT_CLEAR,1011


## `Nulos`

In [715]:
# Nulos

# Contabilizar los valores nulos en los DataFrames de scrap_dfs_dict
for name, df in scrap_dfs_dict.items():
    nulls = df.isnull().sum().sum()  # Total de valores nulos en todo el DataFrame
    print(f"DataFrame '{name}' en scrap_dfs_dict tiene {nulls} valores nulos.")

# Contabilizar los valores nulos en los DataFrames de pysurfline_dfs_dict
for name, df in pysurfline_dfs_dict.items():
    nulls = df.isnull().sum().sum()  # Total de valores nulos en todo el DataFrame
    print(f"DataFrame '{name}' en pysurfline_dfs_dict tiene {nulls} valores nulos.")



DataFrame 'df_bio_scrap_surfline' en scrap_dfs_dict tiene 45 valores nulos.
DataFrame 'df_pg_scrap_surfline' en scrap_dfs_dict tiene 25 valores nulos.
DataFrame 'df_yatch_scrap_surfline' en scrap_dfs_dict tiene 36 valores nulos.
DataFrame 'df_bio_pysurfline' en pysurfline_dfs_dict tiene 0 valores nulos.
DataFrame 'df_pg_pysurfline' en pysurfline_dfs_dict tiene 0 valores nulos.
DataFrame 'df_yatch_pysurfline' en pysurfline_dfs_dict tiene 0 valores nulos.


## `Tipo de Datos`

In [694]:
# Tipo de Datos

# Mostrar los tipos de datos en el primer DataFrame de scrap_dfs_dict
first_scrap_key = list(scrap_dfs_dict.keys())[0]  # Obtener la primera clave del diccionario
print(f"Tipos de datos en el DataFrame '{first_scrap_key}' de scrap_dfs_dict:")
print(scrap_dfs_dict[first_scrap_key].dtypes)
print()

# Mostrar los tipos de datos en el primer DataFrame de pysurfline_dfs_dict
first_pysurf_key = list(pysurfline_dfs_dict.keys())[0]  # Obtener la primera clave del diccionario
print(f"Tipos de datos en el DataFrame '{first_pysurf_key}' de pysurfline_dfs_dict:")
print(pysurfline_dfs_dict[first_pysurf_key].dtypes)




Tipos de datos en el DataFrame 'df_bio_scrap_surfline' de scrap_dfs_dict:
Date               object
Time               object
Surf(m)            object
Rating             object
Primary Swell      object
Secondary Swell    object
Wind               object
Temperature        object
Pressure           object
Probability        object
dtype: object

Tipos de datos en el DataFrame 'df_bio_pysurfline' de pysurfline_dfs_dict:
timestamp_dt           datetime64[ns]
timestamp_timestamp             int64
probability                   float64
utcOffset                       int64
surf_min                      float64
                            ...      
gust                          float64
optimalScore                    int64
temperature                   float64
condition                      object
pressure                        int64
Length: 62, dtype: object


In [695]:
# Función para dividir la columna 'Surf(m)' en 'Surf_Min' y 'Surf_Max'
def split_surf_column(df):
    # Verificar si la columna 'Surf(m)' está presente
    if 'Surf(m)' in df.columns:
        # Separar la columna 'Surf(m)' en Surf_Min y Surf_Max
        df[['Surf_Min', 'Surf_Max']] = df['Surf(m)'].str.split('-', expand=True)

        # Convertir las columnas 'Surf_Min' y 'Surf_Max' a tipo numérico
        df['Surf_Min'] = pd.to_numeric(df['Surf_Min'], errors='coerce')
        df['Surf_Max'] = pd.to_numeric(df['Surf_Max'], errors='coerce')

    return df

# Aplicar la función a cada DataFrame del diccionario
for name, df in scrap_dfs_dict.items():
    scrap_dfs_dict[name] = split_surf_column(df)

In [696]:
# Eliminar columnas 'Surf(m)' y 'Time' para el DataFrame df_bio_scrap_surfline
scrap_dfs_dict['df_bio_scrap_surfline'] = scrap_dfs_dict['df_bio_scrap_surfline'].drop(columns=['Surf(m)']).reset_index(drop=True)

# Eliminar columnas 'Surf(m)' y 'Time' para el DataFrame df_pg_scrap_surfline
scrap_dfs_dict['df_pg_scrap_surfline'] = scrap_dfs_dict['df_pg_scrap_surfline'].drop(columns=['Surf(m)']).reset_index(drop=True)

# Eliminar columnas 'Surf(m)' y 'Time' para el DataFrame df_yatch_scrap_surfline
scrap_dfs_dict['df_yatch_scrap_surfline'] = scrap_dfs_dict['df_yatch_scrap_surfline'].drop(columns=['Surf(m)']).reset_index(drop=True)


In [697]:
# Datos duplicados

In [698]:
# Conversión de Datos

In [699]:
# Manejo de Nulos

In [700]:
# Eliminar caracteres especiales

In [701]:
# Describe

In [702]:
# Unificar los datasets

In [703]:
df_bio_scrap_surfline.dtypes

Unnamed: 0,0
Date,object
Time,object
Surf(m),object
Rating,object
Primary Swell,object
Secondary Swell,object
Wind,object
Temperature,object
Pressure,object
Probability,object


 ## `Split Secondary Swell y agregar Third Swell `

In [705]:
# Iterar sobre los DataFrames en el diccionario
for name, df in scrap_dfs_dict.items():
    # Dividir la columna 'Secondary Swell' en 'Secondary_Swell' y 'Third_Swell' usando el separador '|'
    if 'Secondary Swell' in df.columns:
        df[['Secondary_Swell', 'Third_Swell']] = df['Secondary Swell'].str.split(' \| ', expand=True)
        df.drop(columns=['Secondary Swell'], inplace=True)  # Eliminar la columna original

    # Actualizar el DataFrame modificado en el diccionario
    scrap_dfs_dict[name] = df




In [706]:
# Iterar sobre los DataFrames en el diccionario
for name, df in scrap_dfs_dict.items():
    # Eliminar la columna 'Secondary Swell' si existe
    if 'Secondary Swell' in df.columns:
        df = df.drop(columns=['Secondary Swell'])

    # Reemplazar valores vacíos o None en 'Third_Swell' con np.nan
    if 'Third_Swell' in df.columns:
        df['Third_Swell'] = df['Third_Swell'].replace(['', None], np.nan)

    # Actualizar el DataFrame en el diccionario
    scrap_dfs_dict[name] = df


## `Estandarizar columnas Date, Time de scrap_dfs`

In [707]:
def unify_datetime_columns_in_dict(dataframes_dict, output_col="timestamp_dt"):
    """
    Unifica las columnas 'Date' y 'Time' en cada DataFrame de un diccionario en una columna tipo timestamp,
    reemplaza 'Noon' por '12pm', y elimina las columnas originales.

    Args:
        dataframes_dict (dict): Diccionario donde las claves son nombres y los valores son DataFrames.
        output_col (str): Nombre de la nueva columna unificada. Por defecto es 'timestamp_dt'.

    Returns:
        dict: Diccionario actualizado con los DataFrames modificados.
    """
    for name, df in dataframes_dict.items():
        try:
            # Verificar que las columnas 'Date' y 'Time' están presentes
            required_cols = ["Date", "Time"]
            for col in required_cols:
                if col not in df.columns:
                    raise KeyError(f"La columna requerida '{col}' no está presente en el DataFrame '{name}'.")

            # Reemplazar "Noon" por "12pm" en la columna 'Time'
            df["Time"] = df["Time"].replace("Noon", "12pm")

            # Crear la nueva columna unificada como timestamp
            df[output_col] = pd.to_datetime(
                df["Date"] + " " + df["Time"],
                format="%Y-%m-%d %I%p",
                errors="coerce"
            )

            # Eliminar columnas originales
            df.drop(columns=["Date", "Time"], inplace=True)

            # Actualizar el DataFrame en el diccionario
            dataframes_dict[name] = df

        except KeyError as e:
            print(f"Error procesando '{name}': {e}")

    return dataframes_dict


# Aplicar la función al diccionario de DataFrames
scrap_dfs_dict = unify_datetime_columns_in_dict(scrap_dfs_dict)





## `Temperatura y Pressure a float`

In [708]:
# Para la columna 'Temperature' en todos los DataFrames de scrap_dfs_dict
for name, df in scrap_dfs_dict.items():
    if 'Temperature' in df.columns:
        # Convertir la columna 'Temperature' a string antes de aplicar str.replace()
        df['Temperature'] = df['Temperature'].astype(str).str.replace('ºc', '', regex=True).astype(float)

        # Validación: Verificar que los cambios se aplicaron correctamente
        print(f"Cambios en 'Temperature' para {name}:")
        print(df['Temperature'].head())  # Muestra las primeras filas de la columna 'Temperature'
        print(f"Tipo de datos en 'Temperature' para {name}: {df['Temperature'].dtype}")

# Para la columna 'Pressure' en todos los DataFrames de scrap_dfs_dict
for name, df in scrap_dfs_dict.items():
    if 'Pressure' in df.columns:
        # Convertir la columna 'Pressure' a string antes de aplicar str.replace()
        df['Pressure'] = df['Pressure'].astype(str).str.replace('mb', '', regex=True).astype(float)

        # Validación: Verificar que los cambios se aplicaron correctamente
        print(f"Cambios en 'Pressure' para {name}:")
        print(df['Pressure'].head())  # Muestra las primeras filas de la columna 'Pressure'
        print(f"Tipo de datos en 'Pressure' para {name}: {df['Pressure'].dtype}")



Cambios en 'Temperature' para df_bio_scrap_surfline:
0    13.0
1    15.0
2    12.0
3     8.0
4    17.0
Name: Temperature, dtype: float64
Tipo de datos en 'Temperature' para df_bio_scrap_surfline: float64
Cambios en 'Temperature' para df_pg_scrap_surfline:
0    15.0
1    16.0
2    18.0
3    13.0
4    15.0
Name: Temperature, dtype: float64
Tipo de datos en 'Temperature' para df_pg_scrap_surfline: float64
Cambios en 'Temperature' para df_yatch_scrap_surfline:
0    13.0
1    15.0
2    12.0
3     8.0
4    17.0
Name: Temperature, dtype: float64
Tipo de datos en 'Temperature' para df_yatch_scrap_surfline: float64
Cambios en 'Pressure' para df_bio_scrap_surfline:
0    1006.0
1    1009.0
2    1009.0
3    1011.0
4    1013.0
Name: Pressure, dtype: float64
Tipo de datos en 'Pressure' para df_bio_scrap_surfline: float64
Cambios en 'Pressure' para df_pg_scrap_surfline:
0    1009.0
1    1003.0
2     999.0
3    1006.0
4    1009.0
Name: Pressure, dtype: float64
Tipo de datos en 'Pressure' para df_pg_sc

In [712]:
# Declarar las variables con los DataFrames del diccionario
df_bio_scrap_surfline = scrap_dfs_dict['df_bio_scrap_surfline']
df_pg_scrap_surfline = scrap_dfs_dict['df_pg_scrap_surfline']
df_yatch_scrap_surfline = scrap_dfs_dict['df_yatch_scrap_surfline']


In [716]:
df_bio_scrap_surfline.describe()

Unnamed: 0,Temperature,Pressure,Surf_Min,Surf_Max,timestamp_dt
count,75.0,75.0,75.0,75.0,75
mean,16.826667,1012.986667,0.56,0.918667,2024-12-14 15:50:24
min,8.0,1001.0,0.3,0.6,2024-12-02 06:00:00
25%,15.0,1010.0,0.3,0.6,2024-12-08 09:00:00
50%,17.0,1014.0,0.6,0.9,2024-12-14 12:00:00
75%,18.0,1016.0,0.6,1.1,2024-12-20 15:00:00
max,26.0,1021.0,0.9,1.4,2024-12-28 18:00:00
std,3.699428,4.566308,0.205334,0.242004,


# PYSURFLINE DF