### Planteamiento

Basándonos en un histórico de datos meteorológicos de la ciudad de Sevilla, vamos a hacer una predicción a 7 días mediante el uso de Machine Learning.

La primera idea fue pronosticar las precipitaciones, pero el elevado numero de valores a cero en nuestra ciudad hace inviable el cálculo como veremos. Pasamos entonces a la temperatura media diaria.

Modelo basado en series temporales.

### Recogida de datos

- Hemos sacado los datos diarios de la estación meteorológica del aeropuerto de sevilla entre el 01/01/1990 y el último registro disponible. A día de cierre de proyecto es el 12/03/2023.

- Para ello hemos usado la API de la AEMET (Agencia Estatal de Meteorología), en la estación 5783 situada en el Aeropuerto Sevilla / San Pablo.



        IDEMA - 5783
        NOMBRE - SEVILLA AEROPUERTO
        LOCALIDAD - SEVILLA
        PROVINCIA - SEVILLA
        ALTITUD - 34 msnm

- De la API (AEMET OpenData API) obtenemos un JSON con los registros diarios de dicha estación. Usaremos los siguientes valores:
    1. **tmin** -> Temperatura minima (ºC)
    1. **tmax** -> Temperatura máxima (ºC)
    1. **tmed** -> Temperatura media (ºC)
    1. **presMin** -> Presión mínima (milibares)
    1. **presMax** -> Presión máxima (milibares)
    1. **dir** -> Dirección del viento en base a los rumbos principales
    1. **velmedia** -> Velocidad media del viento (km/h)
    1. **racha** -> Velocidad de la racha máxima de viento (km/h)
    1. **sol** -> Indice Ultravioleta
    1. **prec** -> Precipitación acumulada (l/m2)

---

### Limpieza de datos

Partimos de un volumen bajo de missings (max. de un 3.64%), pero no queremos tener ninguno a la hora de trabajar con el dataset al ser una serie temporal.

<img src="img\df_raw_report.png">



Tras separar por bloques "temáticos", usamos el método 'fillna' combinado con una media móvil. 

```
df_presion = df_presion.fillna(df_presion.rolling(24, center=True, min_periods=1).mean()).round(2)
```

La ventana de días que usamos para la media varía dependiendo del volumen de missings consecutivos que tengamos para cada conjunto de valores. Partimos por ejemplo de 10 días para las temperaturas, hasta por ejemplo 28 días para el viento. 

Tras ello, incluimos el target por si queremos usar clasificación y nos queda el DF limpio para empezar a trabajar.

<img src="img\df_clean_report.png">

In [1]:
import pandas as pd
df = pd.read_csv('../data/processed/data_processed_1990_2023.csv')
df.tail(7)

Unnamed: 0,fecha,tmin,tmax,tmed,presMin,presMax,dir,velmedia,racha,sol,prec,target
12117,2023-03-06,10.3,15.9,13.1,1008.7,1013.4,21.0,1.9,8.3,0.0,3.3,1
12118,2023-03-07,12.9,19.7,16.3,1009.8,1013.4,22.0,3.9,10.3,3.2,0.6,1
12119,2023-03-08,14.4,20.5,17.4,1011.6,1015.1,22.0,6.1,10.3,3.2,2.5,1
12120,2023-03-09,13.6,20.5,17.0,1013.7,1019.5,21.0,5.3,12.5,3.0,0.9,1
12121,2023-03-10,8.9,21.8,15.4,1019.2,1022.5,99.0,1.7,6.7,10.5,0.1,1
12122,2023-03-11,8.9,24.0,16.4,1018.7,1022.2,99.0,2.8,7.8,9.9,0.0,0
12123,2023-03-12,9.5,26.5,18.0,1014.1,1020.3,8.0,2.2,8.3,10.6,0.0,0


---

### EDA

- El EDA se realiza sobre las precipitaciones, pese a que se descartaron luego.
- Obtenemos unos valores interesantes en la features importance:
    - Los más relevantes según RF son la radiación solar y la presión atmosférica mínima.
    - La presión atmosférica baja cuando se acerca un frente lluvioso, por lo que parece bastante revelador este feature.
    - SelectKBest nos ratifica lo que veíamos sobre la radiación solar, aunque también da importancia a las rachas de viento. 
    - Ante cambios rápidos de presión atmosférica, se dan mayores rachas de viento, por lo que sigue teniendo sentido.

---

### Feature Engineering

---

### Prueba de los modelos

---

### Interpretación de variables

---