In [1]:
import requests
from tqdm import tqdm
import pandas as pd

## Opis problemu

Według Międzynarodowej Organizacji Pracy zanieczyszczenie powietrza definiuje się jako
wszelkie skażenie powietrza przez substancje, które są szkodliwe dla zdrowia lub
niebezpieczne z innych przyczyn, bez względu na ich postać fizyczną. Głównym źródłem
zanieczyszczeń powietrza we współczesnym świecie są takie rzeczy jak spalanie paliw
kopalnych, eksploatacja górnicza, działalność rolnicza, transport itp. Najczęściej i najbardziej
zanieczyszczającymi powietrze substancjami są: dwutlenek węgla, dwutlenek siarki, tlenki
azotu oraz wszelkiego rodzaju pyły.

Według danych udostępnionych przez WHO szacuje się, że zanieczyszczenie powietrza jest
przyczyną około siedmiu milionów przedwczesnych zgonów ludzi na całym świecie,
dodatkowo szacuje się, że na działanie skażonego powietrze przekraczającego ustalone
przez WHO normy narażone jest aż 91% światowej populacji. Przyczyniając się do
skrócenia życia, zanieczyszczenie powietrza może wpływać na nasze życie codzienne
powodując m.in. choroby układu oddechowego, szczególnie narażone są dzieci oraz osoby
starsze. Życie dziecka w zanieczyszczonym środowisku we wczesnych fazach rozwoju
układu oddechowego może trwale zmniejszyć jego pojemność płuc. Dodatkowymi skutkami
ubocznymi dla całej populacji mogą też być infekcje bakteryjne, podrażnienia oczu, zawały
serca, choroby układu krążenia i układu nerwowego. Objawy skutków przebywania w
zanieczyszczonym środowisku często występują po czasie i w ten sposób ich przyczyna
może być błędnie identyfikowana. Wśród negatywnych skutków złej jakości powietrza
wpływających na życie ludzi możemy również wymienić osłabienie kondycji zwierząt, zły
stan zieleni miejskiej, zmniejszenie ilości składników odżywczych w glebie, czy spadek
jakości upraw.

Głównymi rodzajami zanieczyszczeń znajdujących się w powietrzu są: czarny karbon, pyły
zawieszone, ozon na poziomie gruntu, tlenki azotu i siarki. Największe zagrożenie dla
ludzkiego zdrowia stanowią pyły zawieszone, w szczególności cząstki o średnicy mniejszej
niż 10 mikronów oraz drobniejsze cząstki poniżej 2,5 mikrona. Ta wielkość cząstki pozwala
się jej dostać do ludzkich płuc, a następnie przeniknąć do ludzkiego krwiobiegu. Tego
rodzaju pyły są emitowane podczas pracy silników spalinowych, spalania paliw stałych(np.
węgiel), a także podczas innych rodzajów działalności przemysłu(budownictwo, wydobycie).

Globalne ocieplenie oraz zanieczyszczenie powietrza są silnie skorelowane.
Zanieczyszczenia powietrza mogą powodować miejscowe ocieplenie lub ochłodzenie Ziemi.
Dzieje się tak przez działalność światła słonecznego, którego dostęp do Ziemi jest
ograniczany lub cząstki w zanieczyszczonym powietrzu go nie odbijają, bądź nadmiernie
pochłaniają zwiększając w ten sposób temperaturę. Reakcje chemiczne zachodzące w
zanieczyszczonym powietrzu mogą przyspieszać zmiany klimatu i wzrost temperatur. Przez
to, mimo podejmowanych przez ludzkość działań mających na celu zmniejszanie emisji
zanieczyszczeń, tempo globalnego ocieplenia nie spada, a wręcz przeciwnie – rośnie.
Oprócz ograniczenia emisji konieczne jest również podjęcie szeregu innych działań
mających na celu poprawę jakości powietrza takich jak właściwe planowanie przestrzenne
umożliwiające zapobieganie przegrzewaniu się miast, czy sadzenie drzew.

## Pobieranie danych niezbędnych do przeprowadzania badania

Prezentowany projekt zakłada analizy danych jakości powietrza w wybranych stolicach europejskich w
okresie od 24 listopada 2021 roku do 1 stycznia 2022 roku. Dane zaczerpnięte zostały ze strony OpenWeatherMap przy wykorzystaniu darmowego API.

In [4]:
api_key = 'bd9c8d6646a2274b211a70d227734493'
start_date = 1577833200 #01-01-2020
end_date = 1640991600 #01-01-2022
cities = {
    'Warszawa' : {'lat':52.23022878686064, 'lon':21.013026391458265},
    'Wilno':{'lat':54.70227152551265, 'lon':25.26745325517322},
    'Kijów':{'lat':50.457149277152354,'lon':30.56015636937755},
    'Bratysława':{'lat':48.15708350193662, 'lon':17.12440138838671},
    'Praga':{'lat':50.07201099937842, 'lon':14.441591308044634},
    'Budapeszt':{'lat':47.489101825665614, 'lon':19.087044334480346},
    'Bukareszt':{'lat':44.438316020116694, 'lon':26.079531349342343},
    'Wiedeń':{'lat':48.2138221396932, 'lon':16.37525343160893},
    'Berno':{'lat':46.95185774655687, 'lon':7.414782769048729},
    'Bruksela':{'lat':50.88630374160421, 'lon':4.36582783309767},
    'Amsterdam':{'lat':52.38233631032214, 'lon':4.889540844826782},
    'Sztokholm':{'lat':59.32965561652341, 'lon':18.06845313423811},
    'Kopenhaga':{'lat':55.67756983322892, 'lon':12.572899977086267},
    'Madryt' : {'lat':40.41865092966006, 'lon':-3.70142548811499},
    'Berlin' : {'lat':52.51936255069942, 'lon':13.404251128255233},
    'Paryż': { 'lat':48.856186736752, 'lon':2.3514525560654733},
    'Oslo' : {'lat': 59.91372477628147, 'lon':10.752146511705593},
    'Helsinki' : {'lat':60.16990656217715, 'lon':24.937682492645845},
    'Rzym':{'lat':41.88962792531848, 'lon':12.496859107499853},
    'Mińsk':{'lat':53.90446646596854, 'lon':27.5501097846051},
    'Londyn':{'lat':51.511978652372285, 'lon':-0.12151136899130237},
    'Lizbona':{'lat':38.726486880440675, 'lon':-9.148530276798201}
}

In [5]:
rows = []
for city,geo in tqdm(cities.items()):
  city_data = requests.get(f"http://api.openweathermap.org/data/2.5/air_pollution/history?lat={geo['lat']}&lon={geo['lon']}&start={start_date}&end={end_date}&appid={api_key}").json()
  for cc in city_data['list']:
    temp = cc['components']
    temp['dt'] = cc['dt']
    temp['city'] = city
    rows.append(temp)
df = pd.DataFrame(rows)
df

100%|██████████| 22/22 [00:37<00:00,  1.71s/it]


Unnamed: 0,co,no,no2,o3,so2,pm2_5,pm10,nh3,dt,city
0,347.14,0.13,21.76,22.89,9.66,18.86,22.68,0.55,1606266000,Warszawa
1,353.81,0.18,21.94,20.56,9.54,19.24,23.14,0.58,1606269600,Warszawa
2,353.81,0.22,21.76,19.13,9.42,19.26,23.18,0.60,1606273200,Warszawa
3,350.48,0.26,21.08,18.95,9.89,18.57,22.31,0.67,1606276800,Warszawa
4,350.48,0.34,21.25,18.77,14.66,18.86,22.46,1.50,1606280400,Warszawa
...,...,...,...,...,...,...,...,...,...,...
211701,400.54,0.02,29.82,33.62,5.42,16.52,24.56,1.95,1640977200,Lizbona
211702,433.92,0.03,28.79,31.47,5.42,16.77,23.57,2.09,1640980800,Lizbona
211703,453.95,0.03,25.02,31.11,5.36,16.30,22.12,2.18,1640984400,Lizbona
211704,460.62,0.03,21.59,30.04,5.01,15.67,20.67,2.12,1640988000,Lizbona


Pierwiastki zaczerpnięte i wykorzystane w badaniu to
* PM2,5 - wszystkie aerozole atmosferyczne o wielkości cząstek 2,5 mikrometra lub mniejszej, w skład których wchodzą zwykle stosunkowo reaktywne związki organiczne i nieorganiczne,
* PM10 - wszystkie cząstki o wielkości 10 mikrometrów lub mniejszej, w skład których wchodzą zwykle stosunkowo obojętne związki chemiczne,
* SO2 - dwutlenek siarki; produkt uboczny spalania paliw kopalnych, przez co przyczynia się do zanieczyszczenia atmosfery (smog),
* NOx - tlenki azotu; grupa nieorganicznych związków chemicznych zbudowanych z tlenu i azotu,
* NH3 - amoniak; nieorganiczny związek chemiczny azotu i wodoru; wywołuje podrażnienie śluzówki oczu, nosa i dróg oddechowych,
* CO - nieorganiczny związek chemiczny z grupy tlenków węgla; ma silne własności toksyczne i prowadzi do niedotlenienia tkanek,
* O3 - ozon; gaz drażniący, powoduje uszkodzenie błon biologicznych

## Policzenie uśrednień godzinowych

Do wyznaczenia Wartości wskaźnika jakości powietrza (AQI) w pierwszym etapie konieczne jest wyznaczenie uśrednionej lub maksymalnej wartości poszczególnych pierwiatsków z konkretnego okresu czasu (https://www.breeze-technologies.de/blog/what-is-an-air-quality-index-how-is-it-calculated/). Zostanie to później wykorzystane do policzenia ineksów pierwiastków, które z kolei posłuą jako podstawa wyznaczenia końcowego AQI. Ponadto stęenie tlenku węgla w powietrza publikowane przez OpenWeatherMap przedstawione jest w innych jednostkach, w związku z czym konieczne było dokonanie przekształcenia.

In [6]:
df['co'] = df['co']*0.001
df

Unnamed: 0,co,no,no2,o3,so2,pm2_5,pm10,nh3,dt,city
0,0.34714,0.13,21.76,22.89,9.66,18.86,22.68,0.55,1606266000,Warszawa
1,0.35381,0.18,21.94,20.56,9.54,19.24,23.14,0.58,1606269600,Warszawa
2,0.35381,0.22,21.76,19.13,9.42,19.26,23.18,0.60,1606273200,Warszawa
3,0.35048,0.26,21.08,18.95,9.89,18.57,22.31,0.67,1606276800,Warszawa
4,0.35048,0.34,21.25,18.77,14.66,18.86,22.46,1.50,1606280400,Warszawa
...,...,...,...,...,...,...,...,...,...,...
211701,0.40054,0.02,29.82,33.62,5.42,16.52,24.56,1.95,1640977200,Lizbona
211702,0.43392,0.03,28.79,31.47,5.42,16.77,23.57,2.09,1640980800,Lizbona
211703,0.45395,0.03,25.02,31.11,5.36,16.30,22.12,2.18,1640984400,Lizbona
211704,0.46062,0.03,21.59,30.04,5.01,15.67,20.67,2.12,1640988000,Lizbona


In [7]:
df_index = pd.DataFrame()

for cc in set(df.city):
  df_city = df.loc[df.city==cc].reset_index(drop=True)
  dict_city = df_city.to_dict('records')
  counter = 24
  for row in dict_city[24:]:
    pm2_5_i = [x['pm2_5'] for x in dict_city[counter-24:counter]]
    row['pm2_5_avg'] = sum(pm2_5_i)/len(pm2_5_i)

    pm10_i = [x['pm10'] for x in dict_city[counter-24:counter]]
    row['pm10_avg'] = sum(pm10_i)/len(pm10_i)

    nh3_i = [x['nh3'] for x in dict_city[counter-24:counter]]
    row['nh3_avg'] = sum(nh3_i)/len(nh3_i)
    
    so2_i = [x['so2'] for x in dict_city[counter-24:counter]]
    row['so2_avg'] = sum(so2_i)/len(so2_i)

    no2_i = [x['no2'] for x in dict_city[counter-24:counter]]
    row['no2_avg'] = sum(no2_i)/len(no2_i)

    row['co_max'] = max([x['co'] for x in dict_city[counter-8:counter]])

    row['o3_max'] = max([x['o3'] for x in dict_city[counter-8:counter]])

    counter+=1
  df_index = pd.concat([df_index,pd.DataFrame.from_dict(dict_city)[24:]])

## Policzenie indeksów

Kolejnym etapem badania jest wzynaczenie wartości indeksów pierwiastków chemicznych w danym okresie opartych na wartościach uśrednionych lub maksymalnych wyznaczonych w poprzednim kroku.

In [8]:
def get_PM25_subindex(x):
    if x <= 30:
        return x * 50 / 30
    elif x <= 60:
        return 50 + (x - 30) * 50 / 30
    elif x <= 90:
        return 100 + (x - 60) * 100 / 30
    elif x <= 120:
        return 200 + (x - 90) * 100 / 30
    elif x <= 250:
        return 300 + (x - 120) * 100 / 130
    elif x > 250:
        return 400 + (x - 250) * 100 / 130
    else:
        return 0

In [9]:
def get_PM10_subindex(x):
    if x <= 50:
        return x
    elif x <= 100:
        return x
    elif x <= 250:
        return 100 + (x - 100) * 100 / 150
    elif x <= 350:
        return 200 + (x - 250)
    elif x <= 430:
        return 300 + (x - 350) * 100 / 80
    elif x > 430:
        return 400 + (x - 430) * 100 / 80
    else:
        return 0

In [10]:
def get_SO2_subindex(x):
    if x <= 40:
        return x * 50 / 40
    elif x <= 80:
        return 50 + (x - 40) * 50 / 40
    elif x <= 380:
        return 100 + (x - 80) * 100 / 300
    elif x <= 800:
        return 200 + (x - 380) * 100 / 420
    elif x <= 1600:
        return 300 + (x - 800) * 100 / 800
    elif x > 1600:
        return 400 + (x - 1600) * 100 / 800
    else:
        return 0

In [11]:
def get_NO2_subindex(x):
    if x <= 40:
        return x * 50 / 40
    elif x <= 80:
        return 50 + (x - 40) * 50 / 40
    elif x <= 180:
        return 100 + (x - 80) * 100 / 100
    elif x <= 280:
        return 200 + (x - 180) * 100 / 100
    elif x <= 400:
        return 300 + (x - 280) * 100 / 120
    elif x > 400:
        return 400 + (x - 400) * 100 / 120
    else:
        return 0

In [12]:
def get_NH3_subindex(x):
    if x <= 200:
        return x * 50 / 200
    elif x <= 400:
        return 50 + (x - 200) * 50 / 200
    elif x <= 800:
        return 100 + (x - 400) * 100 / 400
    elif x <= 1200:
        return 200 + (x - 800) * 100 / 400
    elif x <= 1800:
        return 300 + (x - 1200) * 100 / 600
    elif x > 1800:
        return 400 + (x - 1800) * 100 / 600
    else:
        return 0

In [13]:
def get_CO_subindex(x):
    if x <= 1:
        return x * 50 / 1
    elif x <= 2:
        return 50 + (x - 1) * 50 / 1
    elif x <= 10:
        return 100 + (x - 2) * 100 / 8
    elif x <= 17:
        return 200 + (x - 10) * 100 / 7
    elif x <= 34:
        return 300 + (x - 17) * 100 / 17
    elif x > 34:
        return 400 + (x - 34) * 100 / 17
    else:
        return 0

In [14]:
def get_O3_subindex(x):
    if x <= 50:
        return x * 50 / 50
    elif x <= 100:
        return 50 + (x - 50) * 50 / 50
    elif x <= 168:
        return 100 + (x - 100) * 100 / 68
    elif x <= 208:
        return 200 + (x - 168) * 100 / 40
    elif x <= 748:
        return 300 + (x - 208) * 100 / 539
    elif x > 748:
        return 400 + (x - 400) * 100 / 539
    else:
        return 0

In [15]:
df_index.columns

Index(['co', 'no', 'no2', 'o3', 'so2', 'pm2_5', 'pm10', 'nh3', 'dt', 'city',
       'pm2_5_avg', 'pm10_avg', 'nh3_avg', 'so2_avg', 'no2_avg', 'co_max',
       'o3_max'],
      dtype='object')

In [16]:
df_index["o3_subIndex"] = df_index["o3_max"].apply(lambda x: get_O3_subindex(x))
df_index["co_subIndex"] = df_index["co_max"].apply(lambda x: get_CO_subindex(x))
df_index["no2_subIndex"] = df_index["no2_avg"].apply(lambda x: get_NO2_subindex(x))
df_index["so2_subIndex"] = df_index["so2_avg"].apply(lambda x: get_SO2_subindex(x))
df_index["pm2_5_subIndex"] = df_index["pm2_5_avg"].apply(lambda x: get_PM25_subindex(x))
df_index["pm10_subIndex"] = df_index["pm10_avg"].apply(lambda x: get_PM10_subindex(x))
df_index["nh3_subIndex"] = df_index["nh3_avg"].apply(lambda x: get_NH3_subindex(x))

In [17]:
df_index

Unnamed: 0,co,no,no2,o3,so2,pm2_5,pm10,nh3,dt,city,...,no2_avg,co_max,o3_max,o3_subIndex,co_subIndex,no2_subIndex,so2_subIndex,pm2_5_subIndex,pm10_subIndex,nh3_subIndex
24,0.24366,0.00,4.03,55.08,2.68,14.01,15.60,0.27,1606352400,Bratysława,...,4.670833,0.25368,58.65,58.65,12.6840,5.838542,1.876042,22.752083,14.640833,0.078958
25,0.24033,0.00,4.03,53.64,3.49,15.36,17.03,0.19,1606356000,Bratysława,...,4.581667,0.25368,57.22,57.22,12.6840,5.727083,1.956771,22.032639,14.217917,0.077917
26,0.24033,0.00,4.20,51.50,4.29,17.07,18.87,0.11,1606359600,Bratysława,...,4.540833,0.25034,56.51,56.51,12.5170,5.676042,2.088021,21.468750,13.904167,0.077708
27,0.24366,0.00,4.50,50.07,5.42,17.91,19.68,0.03,1606363200,Bratysława,...,4.564167,0.25034,56.51,56.51,12.5170,5.705208,2.260937,21.273611,13.831250,0.077396
28,0.24700,0.00,5.31,49.35,5.48,18.60,20.39,0.03,1606366800,Bratysława,...,4.647083,0.25034,55.79,55.79,12.5170,5.808854,2.490625,21.514583,14.028750,0.076875
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9618,0.23699,0.02,17.99,40.05,3.01,4.55,7.98,0.20,1640977200,Amsterdam,...,10.634583,0.23365,49.35,49.35,11.6825,13.293229,2.450521,4.754167,4.917083,0.077396
9619,0.23365,0.02,16.79,40.05,2.98,5.25,9.35,0.19,1640980800,Amsterdam,...,10.941667,0.23699,48.64,48.64,11.8495,13.677083,2.506250,4.819444,4.953333,0.078125
9620,0.23365,0.02,16.11,38.98,2.95,6.27,11.32,0.17,1640984400,Amsterdam,...,11.245000,0.23699,45.42,45.42,11.8495,14.056250,2.565104,4.968056,5.079583,0.078646
9621,0.23031,0.02,15.42,38.27,2.86,7.10,13.06,0.16,1640988000,Amsterdam,...,11.548333,0.23699,41.84,41.84,11.8495,14.435417,2.631250,5.211806,5.328750,0.078958


Aby jeszcze lepiej zrozumieć przeprowadzony proces należy przyjrzeć się przedstawionemu ponieżej obrazkowi.

<img src="Obrazy/AQI_calc.png" width="800">

## Wyznaczenie AQI

AQI konkretnej lokalizacji w konkretnej godzinie jest niczym innym jak maksymalną wartością wśród indeksów pierwiatsków wyznaczonych wcześniej.

In [18]:
df_index['AQI_index'] = df_index.filter(regex='subIndex?',axis=1).max(axis=1)

In [19]:
df_index.filter(regex='ndex?',axis=1)

Unnamed: 0,o3_subIndex,co_subIndex,no2_subIndex,so2_subIndex,pm2_5_subIndex,pm10_subIndex,nh3_subIndex,AQI_index
24,58.65,12.6840,5.838542,1.876042,22.752083,14.640833,0.078958,58.65
25,57.22,12.6840,5.727083,1.956771,22.032639,14.217917,0.077917,57.22
26,56.51,12.5170,5.676042,2.088021,21.468750,13.904167,0.077708,56.51
27,56.51,12.5170,5.705208,2.260937,21.273611,13.831250,0.077396,56.51
28,55.79,12.5170,5.808854,2.490625,21.514583,14.028750,0.076875,55.79
...,...,...,...,...,...,...,...,...
9618,49.35,11.6825,13.293229,2.450521,4.754167,4.917083,0.077396,49.35
9619,48.64,11.8495,13.677083,2.506250,4.819444,4.953333,0.078125,48.64
9620,45.42,11.8495,14.056250,2.565104,4.968056,5.079583,0.078646,45.42
9621,41.84,11.8495,14.435417,2.631250,5.211806,5.328750,0.078958,41.84


In [20]:
df_index.groupby('city').mean()['AQI_index']

city
Amsterdam     66.297297
Berlin        61.908029
Berno         67.334011
Bratysława    68.092251
Bruksela      64.993847
Budapeszt     69.601079
Bukareszt     82.879312
Helsinki      61.220114
Kijów         59.959996
Kopenhaga     68.852131
Lizbona       81.460865
Londyn        64.286376
Madryt        82.404224
Mińsk         61.293219
Oslo          57.825123
Paryż         94.869614
Praga         67.114867
Rzym          95.434886
Sztokholm     60.910509
Warszawa      67.784482
Wiedeń        74.334584
Wilno         61.524144
Name: AQI_index, dtype: float64

## Wizualizacja

Teraz gdy Air Quality Indeks został już policzony, możemy dokonać wizualizacji w celu lepszego zrozumienia zależności jakości powietrza na przestrzeni czasu w postaci szeregu czasowgeo, znalezienia zalżności między różnymi lokalizacjami oraz wyszukania anomalii występujących w badanym okresie.