# Wstęp

Analizie został poddany zbiór skumulowanych danych ze strony https://bdl.stat.gov.pl/BDL/dane/podgrup/temat/9/216/1649.
Pobrane informacje były wybrane z kilku kategori, które były przydatne w analizie. Dane zostały wstępnie przygotowane do dalszej analizy, m.in. połączenie wszystkich danych do jednego pliku.

Dane zawierają informację na temat zanieczyszczenia powietrza, zgonach spowodowanych nowotworem oraz populacji każdego z województw Polski na przestrzeni lat 1996 - 2017.

Analiza obrazować będzie tendencję zanieczyszczeń oraz analizę ich wpływu na umieralność z powodu nowotworów.

Zbiór danych zawiera poniższe kolumny:

| Nazwa             | Opis                                         |
| ------------------|----------------------------------------------|
| Kod               | Kod województwa                              |
| Nazwa             | Nazwa województwa                            |
| Rok               | Rok                                          |
| populacja         | Liczba ludności w danym województwie         |
| zgony             | Liczba zgonów spowodowanych nowotworem       |
| tlenki_azotu      | Zanieczyszczenie tlenkami azotu w tonach     |
| tlenek_wegla      | Zanieczyszczenie tlenkiem węgla w tonach     |
| podtlenek_azotu   | Zanieczyszczenie podtlenkiem azotu w tonach  |
| dwutlenek_siarki  | Zanieczyszczenie dwutlenkiem siarki w tonach |
| dwutlenek_wegla   | Zanieczyszczenie dwutlenkiem węgla w tonach  |
| nie_zorganizowana | Pozostałe zanieczyszczenia w tonach          |


# Przegląd danych

Do przeglądania oraz przetwarzania zbioru danych wykorzystano bibliotekę *Pandas*. Aby wczytać plik z danymi należało skorzystać z polecenia *pd.read_csv()*. Następnie, czy pomocy polecenia *columns.tolist()* uzyskano informację na temat kolumn, które znajdują się w pliku, co potwierdza informacje przedstawione w tabeli przedstawionej we wstępie. 

Aby poprawnie wczytać plik z danymi do tego notatnika, musi on być w tym samym katalogu co ten Notebook, lub należy zmienić ścieżkę na własną.

In [5]:
import pandas as pd

df = pd.read_csv(r'DANE.csv', encoding= 'unicode_escape')

In [6]:
# Usunięcie warningów z Notebooka w Binder
from warnings import simplefilter
simplefilter(action='ignore', category=FutureWarning)

In [8]:
# Weryfikacja kolumn
columns = df.columns.tolist()
print(columns)

['Kod', 'Nazwa', 'Rok', 'populacja', 'zgony', 'tlenki_azotu', 'tlenek_wegla', 'podtlenek_azotu', 'dwutlenek_siarki', 'dwutlenek_wegla', 'metan', 'nie_zorganizowana']


Aby zweryfikować, jakie typy danych znajdują się w każdej z kolumn, użyto polecenia dtypes. Jego wyniki znajdują się poniżej. Na ich podstawie można wnioskować, najprawdopodobniej wszystkie wartości w kolumnach mają poprawne wartości. Jednak konieczna jest dalsza analiza, aby to potwierdzić.

In [9]:
# Typy danych w kolumnach

print(df.dtypes)

Kod                    int64
Nazwa                 object
Rok                    int64
populacja              int64
zgony                float64
tlenki_azotu         float64
tlenek_wegla         float64
podtlenek_azotu      float64
dwutlenek_siarki     float64
dwutlenek_wegla      float64
metan                float64
nie_zorganizowana    float64
dtype: object


Aby zweryfikować, które kolumny zawierają puste wartości i jaka jest ich liczba, skorzystano z metody isnull().sum(). W wynikach można zaobserwować braki we wszystkich kolumnach z zanieczyszczeniami oraz w kolumnie *zgony*.

In [11]:
# Weryfikacja pustych wartosci

print(df.isnull().sum())

Kod                   0
Nazwa                 0
Rok                   0
populacja             0
zgony                48
tlenki_azotu         32
tlenek_wegla         32
podtlenek_azotu      32
dwutlenek_siarki     32
dwutlenek_wegla      32
metan                32
nie_zorganizowana    32
dtype: int64


Kolejną wykonaną analizą danych była weryfikacja przy pomocy polecenia *describe()*. Wynikiem jest zbiór danych z wyszczególnionymi parametrami takimi jak liczba, średnia, odchylenie standardowe, wartości minimalna, maksymalna oraz kartyle. Wykonano także polecenie *describe* z parametrem *include='object'*, aby zweryfikować zawartość kolumny Nazwa. Jej opis zawiera liczbę, liczbę unikatowych wartości, element najczęściej występujący oraz liczbę jego wystąpień.

In [12]:
# Opis danych

desc = df.describe()
descObj = df.describe(include='object')

print(desc)
print(descObj)

                Kod         Rok     populacja         zgony  tlenki_azotu  \
count  3.520000e+02   352.00000  3.520000e+02    304.000000    320.000000   
mean   1.700000e+06  2006.50000  2.397414e+06   5962.078947  20671.965625   
std    9.232668e+05     6.35332  1.209577e+06   3240.052173  18192.057273   
min    2.000000e+05  1996.00000  9.900690e+05   2094.000000   2163.000000   
25%    9.500000e+05  2001.00000  1.401194e+06   3245.000000   6722.000000   
50%    1.700000e+06  2006.50000  2.129622e+06   5109.500000  16396.500000   
75%    2.450000e+06  2012.00000  3.039429e+06   7614.750000  25015.500000   
max    3.200000e+06  2017.00000  5.384617e+06  14898.000000  87099.000000   

        tlenek_wegla  podtlenek_azotu  dwutlenek_siarki  dwutlenek_wegla  \
count     320.000000       320.000000        320.000000     3.200000e+02   
mean    21320.775000       181.771875      44090.481250     1.325814e+07   
std     31952.537564       509.340099      52286.509046     1.203262e+07   
mi

Poniżej znajduje się weryfikacja kolumny *Nazwa* pod względem znaków spoza alfabetu:

In [15]:
# Weryfikacja nazwy województw

poprawne_nazwy = df.loc[(~df['Nazwa'].str.isalpha())]

print(poprawne_nazwy['Nazwa'].unique())

['KUJAWSKO-POMORSKIE' 'SWIE\x98TOKRZYSKIE' 'WARMINSKO-MAZURSKIE']


Poniżej znajduje się weryfikacja pustych wartości w kolumnie *zgony*:

In [21]:
# Pobranie wierszy zawierające puste wartosci

puste_wartosci = df[df['zgony'].isna()]
puste_wartosci_zgony_1996_1997 = puste_wartosci.loc[(puste_wartosci['Rok'] == 1996) | (puste_wartosci['Rok'] == 1997)]

print('Lata z pustymi wartościami dla kolumny zgony')
print(puste_wartosci['Rok'].unique())
print('')
print('Puste wiersze dla lat 1996 i 1997')
print(puste_wartosci_zgony_1996_1997)



Lata z pustymi wartościami dla kolumny zgony
[1996 1997 1998]

Puste wiersze dla lat 1996 i 1997
         Kod                Nazwa   Rok  populacja  zgony  tlenki_azotu  \
0     200000         DOLNOSLASKIE  1996    2986884    NaN           NaN   
1     200000         DOLNOSLASKIE  1997    2985381    NaN           NaN   
22    400000   KUJAWSKO-POMORSKIE  1996    2095819    NaN           NaN   
23    400000   KUJAWSKO-POMORSKIE  1997    2098018    NaN           NaN   
44    600000            LUBELSKIE  1996    2244212    NaN           NaN   
45    600000            LUBELSKIE  1997    2241952    NaN           NaN   
66    800000             LUBUSKIE  1996    1017596    NaN           NaN   
67    800000             LUBUSKIE  1997    1020345    NaN           NaN   
88   1000000              LODZKIE  1996    2680350    NaN           NaN   
89   1000000              LODZKIE  1997    2672823    NaN           NaN   
110  1200000          MALOPOLSKIE  1996    3197064    NaN           NaN   
111

Na podstawie powyższych analiz można stwierdzić, że dla lat 1996 i 1997 nie ma danych. Wiersze o tych wartościach zostaną usunięte. 

Dla roku 1998 brakuje informacji o zgonach.

Województwo Świętokrzyskie, ma niepoprawny znak w nazwie.

# Czyszczenie danych

Czyszenie danych polegać będzie na usunięciu niepoprawnych lub niepotrzebnych danych, uzupełnieniu brakujących tam, gdzie to możliwe. Podjeta zostanie także próba poprawienia tych informacji, których będzie możliwość.

## Usunięcie wierszy z brakiem danych

Pierwszym elementem, z którego zostanie oczyszczony zbiór danych, to wiersze z pustymi wartościami. Nowy zbiór zapisany zostanie do zmiennej *df_bez_lat_1996_1997*. Zostanie także przeliczona na nowo kolumna indeksująca poleceniem reset_index(drop=True).

In [23]:
# %% Usuniecie wierszy z brakiem danych

df_bez_lat_1996_1997 = df.drop(df[(df.Rok == 1996) | (df.Rok == 1997)].index)
df_bez_lat_1996_1997 = df_bez_lat_1996_1997.reset_index(drop=True)
print(df_bez_lat_1996_1997.isnull().sum())

Kod                   0
Nazwa                 0
Rok                   0
populacja             0
zgony                16
tlenki_azotu          0
tlenek_wegla          0
podtlenek_azotu       0
dwutlenek_siarki      0
dwutlenek_wegla       0
metan                 0
nie_zorganizowana     0
dtype: int64


## Uzuepłnienie barkujących wartości dla roku 1998

Do uzupełnienia wartości zostanie wykorzysany algorytm KNN (K Najbliższych sąsiadów). Wynikowy zbiór zostanie zapisany do zmiennej *df_uzupelnione*.

In [24]:
# Uzupelnienie brakujacych wartosci dla roku 1998

from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=8)
df_bez_lat_1996_1997_drop_name = df_bez_lat_1996_1997.drop(columns='Nazwa')
df_bez_lat_1996_1997_uzupelnione_1998 = pd.DataFrame(imputer.fit_transform(
                    df_bez_lat_1996_1997_drop_name), 
                    columns = df_bez_lat_1996_1997_drop_name.columns)


df_uzupelnione = df_bez_lat_1996_1997.copy()
df_uzupelnione.loc[df_bez_lat_1996_1997_uzupelnione_1998.index, 'zgony'] = df_bez_lat_1996_1997_uzupelnione_1998


print(df_uzupelnione.isnull().sum())

Kod                  0
Nazwa                0
Rok                  0
populacja            0
zgony                0
tlenki_azotu         0
tlenek_wegla         0
podtlenek_azotu      0
dwutlenek_siarki     0
dwutlenek_wegla      0
metan                0
nie_zorganizowana    0
dtype: int64


## Poprawa kolumny Nazwa

W celu poprawy wartości kolumny *Nazwa* zastosowano metodę title(), która miała na celu zmianę tekstu w następujący sposób:

DOLNOSLASKIE -> Dolnoslaskie

Dodatkowo poprawiono nazwę województwa Świętokrzyskiego. Wynikowy zbiór zostanie zapisany do zmiennej *df_poprawa_nazwa*.

In [27]:
# Formatowanie nazw wojewodztw

df_poprawa_nazwa = df_uzupelnione.copy()
df_poprawa_nazwa['Nazwa'] = df_poprawa_nazwa['Nazwa'].str.title()

df_poprawa_nazwa['Nazwa'] = df_poprawa_nazwa['Nazwa'].str.replace(r"\SwieTokrzyskie\b", "Swietokrzyskie")

print(df_poprawa_nazwa['Nazwa'].unique())

['Dolnoslaskie' 'Kujawsko-Pomorskie' 'Lubelskie' 'Lubuskie' 'Lodzkie'
 'Malopolskie' 'Mazowieckie' 'Opolskie' 'Podkarpackie' 'Podlaskie'
 'Pomorskie' 'Slaskie' 'Swietokrzyskie' 'Warminsko-Mazurskie'
 'Wielkopolskie' 'Zachodniopomorskie']


## Dodanie kolumny Zgony_per_100k

Ostatnim etapem czyszczenia danych było dodanie kolumny z obliczonym współczynnikiem umieralności w przeliczeniu na 100 000 mieszkańców województwa. Wynik zostanie zaokrąglony do dwóch miejsc po przecinku. Wynikowy zbiór zostanie zapisany do zmiennej *df_obliczone*.

In [28]:
# %% dodanie kolumny z liczba zgonow w przeliczeniu na 100 000 mieszkancow
df_obliczone = df_poprawa_nazwa.copy()

df_obliczone['Zgony_per_100k'] = (df_obliczone.zgony / df_obliczone.populacja) * 100000
df_obliczone['Zgony_per_100k'] = df_obliczone['Zgony_per_100k'].round(2)

print(df_obliczone['Zgony_per_100k'].describe())

count    320.000000
mean     245.694094
std       24.983356
min      173.860000
25%      229.380000
50%      244.440000
75%      261.545000
max      314.560000
Name: Zgony_per_100k, dtype: float64


# Analiza danych

W wyniku przeprowadzonych analiz, można stwierdzić, że w kolejnych latach, rośnie liczba zgonów spowodowanych nowotworami. Można także zauważyć wpływ wzrostu zanieczyszczeń, na liczbę zgonów w przeliczeniu na 100 000 mieszkańców danego województwa.
Największy wpływ mają następujące gazy:

* dwutlenek węgla,
* tlenki azotu.


Dodatkowo nie można określić spadku emisji zanieczyszczeń na przestrzeni lat. Jedynymi wyjątkami są tutaj tlenki azotu i dwutlenek siarki, którego każde województwo z czasem produkuje mniej.

Zdecydowaną większość zanieczyszczeń stanowi dwutlenek węgla.
Najwiekszymi producentami tego gazu są województwa łódzkie i śląskie.
Najmniejszą emisją odznaczają się województwa podlaskie i warmińsko-mazurskie.

# Wizualizacja danych

Do wizualizacji danych została wykorzystana biblioteka dash. Pozwala ona na stworzenie interfejsu użytkownika w postaci aplikacji webowej. Aplikacja została wdrożona na platformę Heroku i jest dostępna pod poniższym linkiem:<br />
https://oruba-dash-app.herokuapp.com/

Kod aplikacji dostępny jest w serwisie GitHub:<br />
https://github.com/michalOruba/dash_app

Przy kolorowaniu wykresów, skorzystano z poniższych palet kolorów:

Kolory województw:<br />
Pierwsze 8 kolorów wybranych zostało z poniższej palety:<br />
https://colorbrewer2.org/#type=qualitative&scheme=Pastel2&n=8 <br />
Pozostałe 8 z poniższej:<br />
https://colorbrewer2.org/#type=qualitative&scheme=Set1&n=8 <br />
Ze względu na 16 wartości, zdecydowano się na połączenie dwóch palet<br />

Kolory zanieczyszczeń:<br />
https://colorbrewer2.org/#type=qualitative&scheme=Set3&n=7 <br />