In [45]:
"""Data Processing for the SMHI data.
https://www.smhi.se/data/meteorologi/ladda-ner-meteorologiska-observationer#param=airtemperatureInstant,stations=active,stationid=97200
"""
__author__ = "Casper Kristiansson"
__copyright__ = "WeatherBrain"

__maintainer__ = "Casper Kristiansson"
__email__ = "casperkr@kth.se"
__status__ = "Development"

In [61]:
import pandas as pd
import datetime

In [47]:
temperature_dataframe = pd.read_excel('..\\Data\\Raw Data\\smhi\\smhi-opendata_1_97200_20220419_071322.xlsx')
temperature_last_months_dataframe = pd.read_excel('..\\Data\\Raw Data\\smhi\\smhi-opendata_1_97200_20220419_071323.xlsx')

In [48]:
temperature_dataframe.head(25)

Unnamed: 0,Stationsnamn,Klimatnummer,Mäthöjd (meter över marken),Unnamed: 3,Unnamed: 4,Unnamed: 5
0,Stockholm-Bromma Flygplats,97200,2.0,,,
1,,,,,,
2,Parameternamn,Beskrivning,Enhet,,,
3,Lufttemperatur,"momentanvärde, 1 gång/tim",degree celsius,,,
4,,,,,,
5,Tidsperiod (fr.o.m),Tidsperiod (t.o.m),Höjd (meter över havet),Latitud (decimalgrader),Longitud (decimalgrader),
6,1949-01-01 00:00:00,2022-04-01 07:00:00,14.0,59.3537,17.9513,
7,,,,,,
8,Datum,Tid (UTC),Lufttemperatur,Kvalitet,,Tidsutsnitt:
9,1949-01-01 00:00:00,00:00:00,2.0,Y,,Kvalitetskontrollerade historiska data (utom d...


In [49]:
temperature_dataframe.drop(columns=['Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5'], inplace=True)
temperature_last_months_dataframe.drop(columns=['Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5'], inplace=True)

temperature_dataframe.head()

Unnamed: 0,Stationsnamn,Klimatnummer,Mäthöjd (meter över marken)
0,Stockholm-Bromma Flygplats,97200,2.0
1,,,
2,Parameternamn,Beskrivning,Enhet
3,Lufttemperatur,"momentanvärde, 1 gång/tim",degree celsius
4,,,


In [50]:
temperature_dataframe.drop(range(9), inplace=True)
temperature_last_months_dataframe.drop(range(9), inplace=True)

temperature_dataframe.head()

Unnamed: 0,Stationsnamn,Klimatnummer,Mäthöjd (meter över marken)
9,1949-01-01 00:00:00,00:00:00,2.0
10,1949-01-01 00:00:00,06:00:00,3.3
11,1949-01-01 00:00:00,12:00:00,3.5
12,1949-01-01 00:00:00,18:00:00,3.4
13,1949-01-02 00:00:00,00:00:00,4.0


In [51]:
temperature_dataframe.rename(columns={'Stationsnamn': 'Date', 'Klimatnummer': 'Time (h)', 'Mäthöjd (meter över marken)': 'Temperature'}, inplace=True)
temperature_last_months_dataframe.rename(columns={'Stationsnamn': 'Date', 'Klimatnummer': 'Time (h)', 'Mäthöjd (meter över marken)': 'Temperature'}, inplace=True)

temperature_dataframe.columns

Index(['Date', 'Time (h)', 'Temperature'], dtype='object')

In [52]:
temperature_dataframe = pd.concat([temperature_dataframe, temperature_last_months_dataframe], ignore_index=True)

temperature_dataframe.shape

(539378, 3)

In [53]:
air_pressure_dataframe = pd.read_excel('..\\Data\\Raw Data\\smhi\\smhi-opendata_9_97200_20220419_071543_2.xlsx')
air_pressure_last_months_dataframe = pd.read_excel('..\\Data\\Raw Data\\smhi\\smhi-opendata_9_97200_20220419_071558.xlsx')

In [54]:
air_pressure_dataframe.head(25)

Unnamed: 0,Stationsnamn,Klimatnummer,Mäthöjd (meter över marken),Unnamed: 3,Unnamed: 4,Unnamed: 5
0,Stockholm-Bromma Flygplats,97200,0.0,,,
1,,,,,,
2,Parameternamn,Beskrivning,Enhet,,,
3,Lufttryck reducerat havsytans nivå,"vid havsytans nivå, momentanvärde, 1 gång/tim",hectopascal,,,
4,,,,,,
5,Tidsperiod (fr.o.m),Tidsperiod (t.o.m),Höjd (meter över havet),Latitud (decimalgrader),Longitud (decimalgrader),
6,1939-01-01 00:00:00,2022-04-01 12:00:00,14.0,59.3537,17.9513,
7,,,,,,
8,Datum,Tid (UTC),Lufttryck reducerat havsytans nivå,Kvalitet,,Tidsutsnitt:
9,1939-01-01 00:00:00,01:00:00,1003.9,Y,,Kvalitetskontrollerade historiska data (utom d...


In [55]:
air_pressure_dataframe.drop(columns=['Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5'], inplace=True)
air_pressure_last_months_dataframe.drop(columns=['Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5'], inplace=True)

air_pressure_dataframe.head()

Unnamed: 0,Stationsnamn,Klimatnummer,Mäthöjd (meter över marken)
0,Stockholm-Bromma Flygplats,97200,0.0
1,,,
2,Parameternamn,Beskrivning,Enhet
3,Lufttryck reducerat havsytans nivå,"vid havsytans nivå, momentanvärde, 1 gång/tim",hectopascal
4,,,


In [56]:
air_pressure_dataframe.drop(range(9), inplace=True)
air_pressure_last_months_dataframe.drop(range(9), inplace=True)

air_pressure_dataframe.head()

Unnamed: 0,Stationsnamn,Klimatnummer,Mäthöjd (meter över marken)
9,1939-01-01 00:00:00,01:00:00,1003.9
10,1939-01-01 00:00:00,07:00:00,1006.4
11,1939-01-01 00:00:00,13:00:00,1008.0
12,1939-01-01 00:00:00,18:00:00,1009.6
13,1939-01-02 00:00:00,01:00:00,1010.0


In [57]:
air_pressure_dataframe.rename(columns={'Stationsnamn': 'Date', 'Klimatnummer': 'Time (h)', 'Mäthöjd (meter över marken)': 'Air Pressure'}, inplace=True)
air_pressure_last_months_dataframe.rename(columns={'Stationsnamn': 'Date', 'Klimatnummer': 'Time (h)', 'Mäthöjd (meter över marken)': 'Air Pressure'}, inplace=True)

air_pressure_dataframe.columns

Index(['Date', 'Time (h)', 'Air Pressure'], dtype='object')

In [58]:
air_pressure_dataframe = pd.concat([air_pressure_dataframe, air_pressure_last_months_dataframe], ignore_index=True)

air_pressure_dataframe.shape

(553874, 3)

In [59]:
result_df = pd.merge(temperature_dataframe, air_pressure_dataframe, on=['Date', 'Time (h)'])

In [60]:
result_df.head()

Unnamed: 0,Date,Time (h),Temperature,Air Pressure
0,1949-01-01 00:00:00,00:00:00,2.0,990.8
1,1949-01-01 00:00:00,06:00:00,3.3,985.7
2,1949-01-01 00:00:00,12:00:00,3.5,992.0
3,1949-01-01 00:00:00,18:00:00,3.4,993.0
4,1949-01-02 00:00:00,00:00:00,4.0,990.6


In [64]:
air_pressure_dataframe[air_pressure_dataframe['Date'] == datetime.datetime(1949, 1, 1)]

Unnamed: 0,Date,Time (h),Air Pressure
12853,1949-01-01 00:00:00,00:00:00,990.8
12854,1949-01-01 00:00:00,06:00:00,985.7
12855,1949-01-01 00:00:00,12:00:00,992.0
12856,1949-01-01 00:00:00,18:00:00,993.0


In [65]:
temperature_dataframe[temperature_dataframe['Date'] == datetime.datetime(1949, 1, 1)]

Unnamed: 0,Date,Time (h),Temperature
0,1949-01-01 00:00:00,00:00:00,2.0
1,1949-01-01 00:00:00,06:00:00,3.3
2,1949-01-01 00:00:00,12:00:00,3.5
3,1949-01-01 00:00:00,18:00:00,3.4


In [66]:
result_df.to_csv('..\\Data\\Processed Data\\smhi_data.csv', index=False)