<a href="https://colab.research.google.com/github/Dantelarroy/SurfForecasting/blob/main/notebooks/01_data_exploration.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# `Challenge Surf Forecasting and Spot Recommendations`

## `Contexto`
Estás desarrollando un sistema avanzado de predicción de olas utilizando Deep Learning para series temporales.
Este sistema no solo determinará si será un buen día para surfear en los puntos clave de Playa Grande (Biología, Yacht Club y PG), sino que también evaluará otras playas de Mar del Plata para recomendar el mejor lugar para surfear en los próximos días.

## `Objetivo`
**Predicción del surf**

Entrenar un modelo que evalúe si será un buen día de surf en cualquiera de los tres puntos de Playa Grande.
Basar la predicción en datos históricos de Surfline obtenidos a través de dos métodos: scraping y la biblioteca pysurfline.


**Recomendación de spots**

Analizar características de todas las playas de Mar del Plata para asignar un puntaje de calidad (surf score) a cada lugar.
Implementar un modelo de lenguaje (LLM) que haga recomendaciones personalizadas y justifique su elección.
Formato de los datos

- Archivos pysurfline: Contienen información detallada sobre las condiciones del surf, incluyendo:
  - Swells (altura, período, dirección).
  - Viento (velocidad y dirección).
  - Temperatura, presión atmosférica y probabilidad de buen surf.

- Archivos scrap: Resumen las condiciones con menos detalle, pero incluyen:
  - Rango de altura de olas.
  - Clasificación (e.g., "POOR TO FAIR").
  - Swells y viento.

## `Fases del Challenge`
- Fase 1

Exploración y Preprocesamiento
Unifica los datos de ambos formatos (pysurfline y scrap).
Gestiona diferencias en resoluciones y formatos.
Maneja valores nulos o inconsistencias, asegurando calidad en los datos.

- Fase 2

**Modelado Predictivo**
Utiliza modelos de Deep Learning para series temporales, como:
LSTMs o GRUs para capturar patrones temporales.
Transformers si deseas explorar arquitecturas más avanzadas.
Etiqueta los datos como "Buen día" o "Mal día" basándote en parámetros como altura de olas, dirección del viento, y clasificación de las olas.
Evalúa el modelo con métricas como accuracy, precision, y recall.

- Fase 3

**Recomendación de Spots**
Diseña una métrica personalizada para puntuar cada playa en Mar del Plata:
Considera swells, viento, temperatura, y estacionalidad.
Crea un sistema de recomendación basado en la puntuación y características históricas de cada spot.

- Fase 4

**Implementación de LLM**
Entrena o utiliza un modelo de lenguaje como GPT o Llama para:
Generar recomendaciones en lenguaje natural.
Justificar la elección del mejor lugar para surfear basándose en las predicciones y análisis.

- Fase 5

**Evaluación**
Valida las predicciones y recomendaciones con datos reales o históricos.
Incorpora retroalimentación de surfistas locales para afinar la herramienta.


## `Entregables`
- Jupyter Notebook que incluya:
  - Análisis exploratorio de datos.
  - Implementación del modelo de predicción.
  - Evaluación y visualización de los resultados.

- Demo funcional:
Herramienta que permita cargar nuevos datos y obtener predicciones.
Interfaz para visualizar recomendaciones y justificaciones del LLM.
Extras (Opcionales)
Integrar visualizaciones interactivas con bibliotecas como Plotly o Dash.
Permitir análisis en tiempo real con actualizaciones de datos.
Comparativa con modelos tradicionales (e.g., Random Forests o ARIMA).


## Instalaciones

In [5]:
!pip install pandas openpyxl



## Importaciones

In [3]:
import pandas as pd

## Clono el repositorio

In [7]:
!git clone https://github.com/Dantelarroy/SurfForecasting.git

Cloning into 'SurfForecasting'...
remote: Enumerating objects: 1235, done.[K
remote: Counting objects: 100% (1235/1235), done.[K
remote: Compressing objects: 100% (1131/1131), done.[K
remote: Total 1235 (delta 92), reused 1227 (delta 91), pack-reused 0 (from 0)[K
Receiving objects: 100% (1235/1235), 4.08 MiB | 14.26 MiB/s, done.
Resolving deltas: 100% (92/92), done.


In [8]:
# Ruta de los archivos Excel en el repositorio clonado
df_bio_pysurfline = pd.read_excel('SurfForecasting/data/bio_pysurfline.xlsx')
df_bio_scrap_surfline = pd.read_excel('SurfForecasting/data/bio_scrap_surfline.xlsx')
df_pg_pysurfline = pd.read_excel('SurfForecasting/data/pg_pysurfline.xlsx')
df_pg_scrap_surfline = pd.read_excel('SurfForecasting/data/pg_scrap_surfline.xlsx')
df_yatch_pysurfline = pd.read_excel('SurfForecasting/data/yatch_pysurfline.xlsx')
df_yatch_scrap_surfline = pd.read_excel('SurfForecasting/data/yatch_scrap_surfline.xlsx')


## EDA

Unnamed: 0,timestamp_dt,timestamp_timestamp,probability,utcOffset,surf_min,surf_max,surf_optimalScore,surf_plus,surf_humanRelation,surf_raw_min,...,swells_5_directionMin,swells_5_optimalScore,speed,direction,directionType,gust,optimalScore,temperature,condition,pressure
0,2024-12-02 06:00:00,1733119200,100.0,-3,0.6,0.9,2,False,Thigh to waist,0.68414,...,0.0,0,37.7976,203.90703,Cross-shore,50.07138,0,12.49002,NIGHT_LIGHT_SHOWERS,1004
1,2024-12-02 12:00:00,1733140800,100.0,-3,0.6,1.1,2,False,Thigh to stomach,0.81303,...,0.0,0,38.20642,214.09855,Offshore,51.84837,0,14.50244,CLEAR,1007
2,2024-12-02 18:00:00,1733162400,100.0,-3,0.9,1.2,2,False,Waist to chest,0.87252,...,0.0,0,36.78693,221.22881,Offshore,41.76968,0,12.57727,BRIEF_SHOWERS_POSSIBLE,1010
3,2024-12-03 06:00:00,1733205600,100.0,-3,0.9,1.2,2,False,Waist to chest,0.93201,...,0.0,0,31.52607,236.99269,Offshore,52.9637,0,11.78859,NIGHT_CLEAR,1009
4,2024-12-03 12:00:00,1733227200,100.0,-3,0.6,1.1,2,False,Thigh to stomach,0.76346,...,0.0,0,29.85658,235.34402,Offshore,45.08364,0,13.07494,BRIEF_SHOWERS_POSSIBLE,1014
