# EDA - Weather Forecast

In [1]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

- Aseguramos al hacer la importación que las fechas sean de tipo Datetime y los decimales en caso de tener comas se sustituya por puntos.

In [None]:
df = pd.read_csv('../Data/raw/open_meteo/historico_provincias_espana.csv')

In [3]:
df.head(5)

Unnamed: 0,time,temperature_2m_max,temperature_2m_min,temperature_2m_mean,precipitation_sum,windspeed_10m_max,date,provincia
0,2013-01-01,12.3,9.3,10.8,1.2,19.8,2013-01-01,A Coruña
1,2013-01-02,12.4,6.0,9.1,0.0,20.4,2013-01-02,A Coruña
2,2013-01-03,16.1,6.4,10.1,0.0,17.1,2013-01-03,A Coruña
3,2013-01-04,15.2,5.0,9.0,0.0,11.3,2013-01-04,A Coruña
4,2013-01-05,14.2,4.1,8.2,0.0,9.7,2013-01-05,A Coruña


- Vemos la información general de nuestro dataset.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 142016 entries, 0 to 142015
Data columns (total 8 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   time                 142016 non-null  object 
 1   temperature_2m_max   141984 non-null  float64
 2   temperature_2m_min   141984 non-null  float64
 3   temperature_2m_mean  141952 non-null  float64
 4   precipitation_sum    141952 non-null  float64
 5   windspeed_10m_max    141984 non-null  float64
 6   date                 142016 non-null  object 
 7   provincia            142016 non-null  object 
dtypes: float64(5), object(3)
memory usage: 8.7+ MB


In [5]:
df.drop(columns=['date'], inplace=True)

- Comprobamos los valores nulos.

In [6]:
df.isna().sum()

time                    0
temperature_2m_max     32
temperature_2m_min     32
temperature_2m_mean    64
precipitation_sum      64
windspeed_10m_max      32
provincia               0
dtype: int64

- Previamente vemos que hay diferentes datos en un mismo día sin tener en cuenta las horas, por lo que realizamos una agrupación de los datos por día segun la media.

In [7]:
df.shape

(142016, 7)

## Histograma

- Extraemos la lista de provincias

In [8]:
provincias = df['provincia'].unique()
print(provincias)

['A Coruña' 'Albacete' 'Alicante' 'Almería' 'Ávila' 'Badajoz' 'Barcelona'
 'Vizcaya' 'Burgos' 'Cáceres' 'Cádiz' 'Castellón' 'Ciudad Real' 'Córdoba'
 'Girona' 'Granada' 'Huelva' 'Huesca' 'Jaén' 'Las Palmas' 'León' 'Lleida'
 'La Rioja' 'Lugo' 'Madrid' 'Málaga' 'Melilla' 'Murcia' 'Ourense'
 'Asturias' 'Palencia' 'Baleares']


In [9]:
df_diario_madrid = df[df['provincia'] == 'Madrid']

### Temperatura media

In [10]:
df_diario_madrid.sort_values(by='time', ascending=True, inplace=True)
fig = go.Figure()
fig.add_trace(
    go.Scatter(
        x = df_diario_madrid['time'],
        y = df_diario_madrid['temperature_2m_mean'],
        mode = 'lines',
        name = "MADRID"
    )
)

fig.update_layout(
    title = f"Evolución temporal de tmed para Madrid",
    xaxis_title = "Fecha",
    yaxis_title = "Temperatura Media (tmed)"
)

fig.show()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_diario_madrid.sort_values(by='time', ascending=True, inplace=True)


### Temperatura máxima

In [11]:
fig = go.Figure()
fig.add_trace(
    go.Scatter(
        x = df_diario_madrid['time'],
        y = df_diario_madrid['temperature_2m_max'],
        mode = 'lines',
        name = "MADRID"
    )
)

fig.update_layout(
    title = f"Evolución temporal de temperature_2m_max para Madrid",
    xaxis_title = "Fecha",
    yaxis_title = "Temperatura Máxima (temperature_2m_max)"
)

fig.show()

### Temperatura mínima

In [12]:
fig = go.Figure()
fig.add_trace(
    go.Scatter(
        x = df_diario_madrid['time'],
        y = df_diario_madrid['temperature_2m_min'],
        mode = 'lines',
        name = "MADRID"
    )
)

fig.update_layout(
    title = f"Evolución temporal de temperature_2m_min para Madrid",
    xaxis_title = "Fecha",
    yaxis_title = "Temperatura Mínima (temperature_2m_min)"
)

fig.show()

### Velocidad máxima (km/h)

In [13]:
fig = go.Figure()

fig.add_trace(
    go.Bar(
        x=df_diario_madrid['time'],
        y=df_diario_madrid['windspeed_10m_max'],
        name="MADRID"
    )
)

fig.update_layout(
    title = f"Evolución temporal de velocidad máxima del viento para Madrid",
    xaxis_title = "Fecha",
    yaxis_title = "Velocidad media (windspeed_10m_max)"
)

fig.show()

### Precipitaciones (ml)

In [14]:
fig = go.Figure()

fig.add_trace(
    go.Bar(
        x=df_diario_madrid['time'],
        y=df_diario_madrid['precipitation_sum'],
        name="MADRID"
    )
)

fig.update_layout(
    title = f"Evolución temporal de precipitaciones en milímetros para Madrid",
    xaxis_title = "Fecha",
    yaxis_title = "Precipitaciones (precipitation_sum)"
)

fig.show()