# **<center>Predykcja ekstremalnych zjawisk meteorologicznych</center>**
## <center> Metody analizy i eksploracji danych</center>
<center>Przemysław Marciniak <br/>
Jakub Mazur</center>

## Plan prezentacji
- Cel i założenia projektu
- Charakterystyka zbioru danych
- Eksploracyjna analizy danych
- Predykcja zjawiska przy wykorzystaniu klasyfikatora z oknem czasowym
- Poszukiwanie zależności pomiędzy parametrami za pomocą uczenia asocjacji
- Wnioski 

## Cel i założenia projektu
**Główne cele:**
- Stworzenie programu przewidującego ekstremalne (niebezpieczne) zjawiska meteorologiczne
- Zapoznanie się z metodami analizy i eksploracji danych
- Badanie zależności między parametrami, w celu rozwiązania postawionego problemu, przy pomocy różnych algorytmów
- Analiza otrzymanych wyników

**Założenia:**
- Wykorzystywany język- Python
- Środowisko programistyczne- Visual Studio Code
- Wykorzystywane biblioteki:
    - pandas
    - NumPy
    - matplotlib
    - scikit-learn
    - MLxtend
- Baza danych- publiczne archiwum Instytutu Meteorologii i Gospodarki Wodnej
- Rozpatrywane miasto- Warszawa
- Rozpatrywane ekstremalne zjawiska pogodowe:
    - ulewa
    - śnieżyca
    - wichura
    - burza
    - upał
    - mróz
- Wykorzystane algorytmy do predykcji anomalii pogodowych:
    - klasyfikator + okno czasowe
    - uczenie asocjacji

## Charakterystyka zbioru danych:
- Baza danych pochodzi ze strony internetowej Instytutu Meteorologii i Gospodarki Wodnej (https://danepubliczne.imgw.pl/data/)
- Zbiór danych prowadzony jest od 1960 r. do dzisiaj
- Zawiera dobową analize 44 parametrów, w projekcie wykorzystywać będziemy:
    -	kod stacji
    -	nazwa stacji
    -	rok
    -	miesiąc
    -	dzień
    -	max temp. d. [°C]
    -	min temp. d. [°C]
    -	śr. temp. d. [°C]
    -	suma d. opadu [mm]
    -	rodzaj opadu [S/W/ ]
    -	wysokość pokrywy śnieżnej [cm]
    -	czas trwania wiatru >= 10 m/s [godz.]
    -	czas trwania wiatru > 15 m/s [godz.]
    -	czas trwania burzy [godz.]
    -	wystąpienie pokrywy śnieżnej [0/1]
    -	wystąpienie błyskawicy [0/1]
    -	śr. d. zachmurzenie ogólne [oktanty]
    -	śr. d. prędkość wiatru [m/s]
    -	śr. d. wilgotność względna [%]
    -	śr. d. ciśnienie na poziomie stacji [hPa]
- Każdy pomiar posiada atrybut "status pomiaru" przyjmujący wartość:
    - 8- brak przeprowadzenia pomiaru
    - 9- brak wystąpienia zjawiska
    - puste pole- zjawisko wystąpiło i dokonano pomiaru
- Z bazy danych usunięto dni zawierająca kompletny brak pomiarów (status pomiaru = 8)
- Dodano kolumnę "Pora roku" przyjmująca wartości:
    - Wiosna dla miesięcy: marzec, kwiecień, maj
    - Lato dla miesięcy: czerwiec, lipiec, sierpień
    - Jesień dla miesięcy: wrzesień, październik, listopad
    - Zima dla miesięcy: grudzień, styczeń, luty
- Ostateczna baza danych posiada 20 454 rekordów

## Eksploracyjna analiza danych
Wymagania według których tworzony był podzbiór dla danego ekstremalnego zjawiska pogodowego:
- Ulewa:
    - suma dobowa opadu > 30 mm
    - rodzaj opadu - W
- Śnieżyca:
    - wysokość pokrywy śnieżnej > 15 cm
    - czas trwania wiatru >= 10 m/s przekracza 1 godzinę
- Wichura:
    - czas trwania wiatru > 15 m/s nie jest równy 0 h
- Burza:
    - czas trwania burzy > 0 h
- Upał:
    - minimalna temperatura dobowa > 15 °C
    - maksymalna temperatura dobowa > 30 °C
- Mróz:
    - minimalna temperatura dobowa < -15 °C
    - maksymalna temperatura dobowa < -5 °C
<!-- end of the list -->
**Zależności między zmiennymi:**
- Ulewa:
    - Rozkład ilości wystąpień zjawiska w zależności od roku oraz od miesiąca:<center><br/>
    <img src="wykresy/ulewa_lata.png" style="height:400px; width:480px;"/>
    <img src="wykresy/ulewa_miesiace.png" style="height:400px; width:480px;"/><br/></center>
    - Suma dobowa opadów do średniego ciśnienia atmosferycznego:<center><br/>
    <img src="wykresy/ulewa_opady_p_2.png" style="height: 400px; width:480px;"/><br/></center>
    - Średnie zachmurzenie od średniej dobowej wilgotności:<center><br/>
    <img src="wykresy/ulewa_zach_wilgotnosc.png" style="height: 400px; width:480px;"/><br/></center>
- Śnieżyca:
    - Rozkład ilości wystąpień zjawiska w zależności od roku oraz od miesiąca:<center><br/>
    <img src="wykresy/sniezyca_lata.png" style="height:400px; width:480px;"/>
    <img src="wykresy/sniezyca_miesiace.png" style="height:400px; width:480px;"/><br/></center>
    - Wysokość pokrywy śnieżnej od średniej temperatury dobowej:<center><br/>
    <img src="wykresy/sniezyca_pokrywa_temp.png" style="height:400px; width:480px;"/><br/></center>
- Wichura:
    - Rozkład ilości wystąpień zjawiska w zależności od roku oraz od miesiąca:<center><br/>
    <img src="wykresy/wichura_lata.png" style="height:400px; width:480px;"/>
    <img src="wykresy/wichura_miesiace.png" style="height:400px; width:480px;"/><br/></center>
    - Średnia temperatura dobowa od zmiany średniego ciśnienia pomiędzy dwoma kolejnymi dniami:<center><br/>
    <img src="wykresy/wichura_temp_dp.png" style="height:400px; width:480px;"/><br/></center>
- Burza:
    - Rozkład ilości wystąpień zjawiska w zależności od roku oraz od miesiąca:<center><br/>
    <img src="wykresy/burza_lata.png" style="height:400px; width:480px;"/>
    <img src="wykresy/burza_miesiace.png" style="height:400px; width:480px;"/><br/></center>
    - Średnia wilgotność względna od średniej temperatury dobowej:<center><br/>
    <img src="wykresy/burza_wilgotnosc_temp.png" style="height:400px; width:480px;"/><br/></center>
- Upał:
    - Rozkład ilości wystąpień zjawisk w zależności od roku oraz od miesiąca:<center><br/>
    <img src="wykresy/upal_lata.png" style="height:400px; width:480px;"/>
    <img src="wykresy/upal_miesiace.png" style="height:400px; width:480px;"/><br/></center>
    - Średnie zachmurzenie od średniego ciśnienia atmosferycznego:<center><br/>
    <img src="wykresy/upal_zach_p.png" style="height:400px; width:480px;"/><br/></center>
- Mróz:
    - Rozkład ilości wystąpień zjawisk w zależności od roku oraz od miesiąca:<center><br/>
    <img src="wykresy/mroz_lata.png" style="height:400px; width:480px;"/>
    <img src="wykresy/mroz_miesiace.png" style="height:400px; width:480px;"/><br/></center>
    - Średnie zachmurzenie od średniego ciśnienia atmosferycznego:<center><br/>
    <img src="wykresy/mroz_zach_p.png" style="height:400px; width:480px;"/><br/></center>
<!-- end of the list -->

## Predykcja zjawiska przy wykorzystaniu klasyfikatora z oknem czasowym
Model predykcji który jako zmienne wykorzystuje dane z poprzednich dni. Rozpatrywane rodzaje klasyfikatorów:
- AdaBoost
- RandomForest
- ExtraTrees
- Bagging
<!-- end of the list -->
Dla poszczególnych ekstremalnych zjawisk meteorologicznych utworzono macierz pomyłek dla każdego klasyfikatora. Najlepsze otrzymane wyniki:
- Ulewa (okno = 2, rozpatrywane parametry: średnia wilgotność względna, średnie dobowe zachmurzenie, najlepszy klasyfikator: Bagging):<center><br/>
<img src="macierz pomylek/ulewa_tab.png" style="height:400px; width:400px;"/>
<img src="macierz pomylek/ulewa_fig.png" style="height:400px; width:900px;"/> <br/></center>
- Śnieżyca (okno = 3, rozpatrywane parametry: wysokość pokrywy śnieżnej, średnia dobowa temperatura, najlepszy klasyfikator: AdaBoost):<center><br/>
<img src="macierz pomylek/sniezyca_tab.png" style="height:400px; width:400px;"/>
<img src="macierz pomylek/sniezyca_fig.png" style="height:400px; width:900px;"/> <br/></center>
- Wichura (okno = 2, rozpatrywane parametry: średnie dobowe ciśnienie, średnia dobowa temperatura, najlepszy klasyfikator: ExtraTrees):<center><br/>
<img src="macierz pomylek/wichura_tab.png" style="height:400px; width:400px;"/>
<img src="macierz pomylek/wichura_fig.png" style="height:400px; width:900px;"/> <br/></center>
- Burza (okno = 2, rozpatrywane parametry: średnia wilgotność względna, średnia dobowa temperatura, najlepszy klasyfikator: Bagging):<center><br/>
<img src="macierz pomylek/burza_tab.png" style="height:400px; width:400px;"/>
<img src="macierz pomylek/burza_fig.png" style="height:400px; width:900px;"/> <br/></center>
- Upał (okno = 4, rozpatrywane parametry: średnie dobowe zachmurzenie, maksymalna temperatura dobowa, średnia temperatura dobowa, najlepszy klasyfikator: AdaBoost):<center><br/>
<img src="macierz pomylek/upal_tab.png" style="height:400px; width:400px;"/>
<img src="macierz pomylek/upal_fig.png" style="height:400px; width:900px;"/> <br/></center>
- Mróz (okno = 7, rozpatrywane parametry: minimalna dobowa temperatura, maksymalna temperatura dobowa, średnia temperatura dobowa, najlepszy klasyfikator: AdaBoost):<center><br/>
<img src="macierz pomylek/mroz_tab.png" style="height:400px; width:400px;"/>
<img src="macierz pomylek/mroz_fig.png" style="height:400px; width:900px;"/> <br/></center>

## Poszukiwanie zależności pomiędzy parametrami za pomocą uczenia asocjacji
Uczenie asocjacji ma na celu odkrycie grup parametrów meteorologicznych występujących najczęściej w momencie zaobserwowania ekstremalnego zjawiska pogodowego:
- Wykorzystano algorytm Apriori
- Zmodyfikowano bazę danych: usunięto niepotrzebne parametry, podzielono każdy czynnik na przedziały wartości o równej szerokości (same_width), a następnie o równej liczebności (same_amount), przyjmujące wartości True i False
- Reguły asocjacji:
    -	Antecedents - pierwszy zestaw zjawisk
    -	Consequents - drugi zestaw zjawisk
    -	Antecedent/Consequents support- prawdopodobieństwo wystąpienia pierwszego zestawu/drugiego zestawu
    -	Support- prawdopodobieństwo wystąpienia pierwszego i drugiego zestawu jednocześnie
    -	Confidence- prawdopodobieństwo wystąpienia drugiego zestawu jeśli wystąpił pierwszy zestaw
    -	Lift- kiedy wystąpił pierwszy zestaw, prawdopodobieństwo wystąpienia drugiego zestawu wzrasta o wartość lift
    -	Leverage- podobny do lift ale w naszym problemie będziemy go pomijać
    -	Conviction- szansa na wystąpienie pierwszego zestawu cech bez drugiego zestawu
    -	Length- ilość elementów pierwszego zestawu
- Analizowany zbiór ograniczono do dni w których wystąpiło zjawisko
<!-- end of the list -->
**Tablice reguł asocjacji**
- Ulewa:
    <center>Min_supp = 50%, same_width (wszystkie wyniki)<br/>
    <img src="tabele/ulewa_min50_sw.png" style="height:80px; width:700px;"/><br/>
    Min_supp = 50%, same_amount (wszystkie wyniki)<br/>
    <img src="tabele/ulewa_min50_sa_all.png" style="height:32px; width:700px;"/><br/>
    Min_supp = 25%, same_width (wybrane wyniki)<br/>
    <img src="tabele/ulewa_min25_sw.png" style="height:96px; width:700px;"/><br/>
    Min_supp = 25%, same_amount (wybrane wyniki)<br/>
    <img src="tabele/ulewa_min25_sa_all.png" style="height:96px; width:700px;"/><br/></center>
- Śnieżyca:
    <center>Min_supp = 50%, same_width (wybrane wyniki)<br/>
    <img src="tabele/sniezyca_min50.png" style="height:80px; width:600px;"/><br/>
    Min_supp = 25%, same_width (wybrane wyniki)<br/>
    <img src="tabele/sniezyca_min25.png" style="height:80px; width:700px;"/><br/></center>
- Wichura:
    <center>Min_supp = 50%, same_width (wszystkie wyniki)<br/>
    <img src="tabele/wichura_min50.png" style="height:48px; width:600px;"/><br/>
    Min_supp = 25%, same_width (wybrane wyniki)<br/>
    <img src="tabele/wichura_min25.png" style="height:112px; width:700px;"/><br/></center>
- Burza:
    <center>Min_supp = 50%, same_width (wybrane wyniki)<br/>
    <img src="tabele/burza_min50.png" style="height:80px; width:600px;"/><br/>
    Min_supp = 25%, same_width (wybrane wyniki)<br/>
    <img src="tabele/burza_min25.png" style="height:96px; width:600px;"/><br/></center>
- Upał:
    <center>Min_supp = 50%, same_width (wybrane wyniki)<br/>
    <img src="tabele/upal_min50.png" style="height:64px; width:700px;"/><br/>
    Min_supp = 25%, same_width (wybrane wyniki)<br/>
    <img src="tabele/upal_min25.png" style="height:48px; width:700px;"/><br/></center>
- Mróz:
    <center>Min_supp = 50%, same_width (wybrane wyniki)<br/>
    <img src="tabele/mroz_min50.png" style="height:96px; width:600px;"/><br/>
    Min_supp = 25%, same_width (wybrane wyniki)<br/>
    <img src="tabele/mroz_min25.png" style="height:112px; width:600px;"/><br/></center>

## Wnioski
- Udało się stworzyć modele predykcji, które co do zasady działania są poprawne, jednak przez wybrany region geograficzny, nieodpowiednią do tego zadania bazę danych oraz ogólną złożoność predykowanego problemu, nie uzyskano zadowalających wyników
- Przy niektórych wyznaczonych zależnościach widać tendencyjność oraz konkretne przedziały wartości dla najczęstszego występowania zjawiska (np. upał, ulewa i burza), przy pozostałych natomiast mimo wielu prób nie udało się wyznaczyć zależności z których wynikałoby coś interesującego (np. śnieżyca, wichura i mróz)
- Użyte klasyfikatory do predykcji z wykorzystaniem okna czasowego radziły sobie lepiej lub gorzej w zależności od zjawiska pogodowego, dużym zaskoczeniem okazała się burza, która mimo największej liczby wystąpień poradziła sobie bardzo słabo
- Przy wykorzystaniu uczenia asocjacji udało się zaobserwować zestawy warunków atmosferycznych towarzyszących danemu ekstremalnemu zjawisku
- Przemyślenia dotyczące możliwej poprawy działania programu:
    - Zmienić bazę danych aby zawierała dane z poszczególnych godzin, a nie dni
    - Wybrać inny region geograficzny w którym częściej pojawiają się niebezpieczne zjawiska meteorologiczne
    - Do modelu predykcji, oprócz okna czasowego, dodać obszar sąsiedni do badanego miasta (np. pobierać warunki atmosferyczne z sąsiednich miast)
