# EDA - Weather Forecast

In [1]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

- Aseguramos al hacer la importación que las fechas sean de tipo Datetime y los decimales en caso de tener comas se sustituya por puntos.

In [2]:
df = pd.read_csv('../Data/Sources/temp_historico.csv', parse_dates=["fecha"], decimal=',')

In [3]:
df.head(5)

Unnamed: 0,fecha,indicativo,provincia,velmedia,velmax,tmed,tmax,tmin
0,2025-02-11,2918Y,SALAMANCA,4.4,17.5,8.4,10.6,6.1
1,2025-02-11,8293X,VALENCIA,1.1,6.1,12.6,19.5,5.7
2,2025-02-11,8492X,CASTELLON,2.2,8.3,10.4,17.4,3.5
3,2025-02-11,8270X,VALENCIA,0.6,4.4,13.3,18.8,7.8
4,2025-02-11,2400E,PALENCIA,3.1,8.9,8.2,12.1,4.4


- Vemos la información general de nuestro dataset.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1393465 entries, 0 to 1393464
Data columns (total 8 columns):
 #   Column      Non-Null Count    Dtype         
---  ------      --------------    -----         
 0   fecha       1393465 non-null  datetime64[ns]
 1   indicativo  1393465 non-null  object        
 2   provincia   1393465 non-null  object        
 3   velmedia    1110442 non-null  float64       
 4   velmax      1103708 non-null  float64       
 5   tmed        1362777 non-null  float64       
 6   tmax        1363316 non-null  float64       
 7   tmin        1363098 non-null  float64       
dtypes: datetime64[ns](1), float64(5), object(2)
memory usage: 85.1+ MB


- Comprobamos los valores nulos.

In [5]:
df.isna().sum()

fecha              0
indicativo         0
provincia          0
velmedia      283023
velmax        289757
tmed           30688
tmax           30149
tmin           30367
dtype: int64

- Previamente vemos que hay diferentes datos en un mismo día sin tener en cuenta las horas, por lo que realizamos una agrupación de los datos por día segun la media.

In [6]:
df_diario = df.groupby(['fecha', 'provincia'], as_index=False).agg({
    'velmedia': 'mean',
    'velmax': 'mean',
    'tmed': 'mean',
    'tmax': 'mean',
    'tmin': 'mean'
})

In [7]:
df_diario.duplicated().sum()

np.int64(0)

In [8]:
df_diario.isna().sum()

fecha         0
provincia     0
velmedia      2
velmax       10
tmed          6
tmax          6
tmin          6
dtype: int64

- Vemos que siguen habiendo valores nulos por lo que posteriormente deberemos inputar valores a nuestro dataset

In [9]:
df.shape

(1393465, 8)

In [10]:
df_diario.shape

(87264, 7)

- Podemos comprobar que al hacer la media de cada día de las variables meteorológicas en nuestro dataset, hemos reducido considerablemente el tamaño. 

## Histograma

- Extraemos la lista de provincias

In [11]:
provincias = df_diario['provincia'].unique()
print(provincias)

['A CORUÑA' 'ALBACETE' 'ALICANTE' 'ALMERIA' 'ARABA/ALAVA' 'ASTURIAS'
 'AVILA' 'BADAJOZ' 'BALEARES' 'BARCELONA' 'BIZKAIA' 'BURGOS' 'CACERES'
 'CADIZ' 'CANTABRIA' 'CASTELLON' 'CEUTA' 'CIUDAD REAL' 'CORDOBA' 'CUENCA'
 'GIPUZKOA' 'GIRONA' 'GRANADA' 'GUADALAJARA' 'HUELVA' 'HUESCA'
 'ILLES BALEARS' 'JAEN' 'LA RIOJA' 'LAS PALMAS' 'LEON' 'LLEIDA' 'LUGO'
 'MADRID' 'MALAGA' 'MELILLA' 'MURCIA' 'NAVARRA' 'OURENSE' 'PALENCIA'
 'PONTEVEDRA' 'SALAMANCA' 'SANTA CRUZ DE TENERIFE' 'SEGOVIA' 'SEVILLA'
 'SORIA' 'STA. CRUZ DE TENERIFE' 'TARRAGONA' 'TERUEL' 'TOLEDO' 'VALENCIA'
 'VALLADOLID' 'ZAMORA' 'ZARAGOZA']


In [12]:
df_diario_madrid = df_diario[df_diario['provincia'] == 'MADRID']

### Temperatura media

In [13]:
df_diario_madrid.sort_values(by='fecha', ascending=True, inplace=True)
fig = go.Figure()
fig.add_trace(
    go.Scatter(
        x = df_diario_madrid['fecha'],
        y = df_diario_madrid['tmed'],
        mode = 'lines',
        name = "MADRID"
    )
)

fig.update_layout(
    title = f"Evolución temporal de tmed para Madrid",
    xaxis_title = "Fecha",
    yaxis_title = "Temperatura Media (tmed)"
)

fig.show()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_diario_madrid.sort_values(by='fecha', ascending=True, inplace=True)


### Temperatura máxima

In [14]:
fig = go.Figure()
fig.add_trace(
    go.Scatter(
        x = df_diario_madrid['fecha'],
        y = df_diario_madrid['tmax'],
        mode = 'lines',
        name = "MADRID"
    )
)

fig.update_layout(
    title = f"Evolución temporal de tmax para Madrid",
    xaxis_title = "Fecha",
    yaxis_title = "Temperatura Máxima (tmax)"
)

fig.show()

### Temperatura mínima

In [15]:
fig = go.Figure()
fig.add_trace(
    go.Scatter(
        x = df_diario_madrid['fecha'],
        y = df_diario_madrid['tmin'],
        mode = 'lines',
        name = "MADRID"
    )
)

fig.update_layout(
    title = f"Evolución temporal de tmin para Madrid",
    xaxis_title = "Fecha",
    yaxis_title = "Temperatura Mínima (tmin)"
)

fig.show()

### Velocidad media

In [17]:
fig = go.Figure()

fig.add_trace(
    go.Bar(  # Usamos go.Bar() correctamente
        x=df_diario_madrid['fecha'],
        y=df_diario_madrid['velmedia'],
        name="MADRID"
    )
)

fig.update_layout(
    title = f"Evolución temporal de velmedia para Madrid",
    xaxis_title = "Fecha",
    yaxis_title = "Velocidad media (velmedia)"
)

fig.show()

In [18]:
fig = go.Figure()

fig.add_trace(
    go.Bar(  # Usamos go.Bar() correctamente
        x=df_diario_madrid['fecha'],
        y=df_diario_madrid['velmax'],
        name="MADRID"
    )
)

fig.update_layout(
    title = f"Evolución temporal de velmax para Madrid",
    xaxis_title = "Fecha",
    yaxis_title = "Velocidad máxima (velmax)"
)

fig.show()