## Praca domowa 1
#### Eksploracja zbioru https://www.apispreadsheets.com/datasets/129

Import bibliotek i wczytanie danych

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv("forest_fires_dataset.csv")
df.info()

Od razu możemy zauważyć, że nie mamy braków danych, więc nie musimy się tym przejmować. 

In [None]:
df.describe()

In [None]:
df.hist(figsize=(21, 12), bins=50)
plt.show()

##### Naszą zmienną objaśnianą jest **powierzchnia lasu**. Widzimy, że ma ona rozkład skośny do 0. 
##### Wśród zmiennych objaśniających mamy:
- zmienne kategoryczne (X, Y, month, day)
- zmienne numeryczne (reszta)
##### Wyjaśnijmy skrótowe zmienne:
-FFMC - wilgotność ściułki w lesie
-DMC - wilgotność warstw organicznych średniej głębokości
-DC - wilgotność błębokich warstw
-ISI - określa jak szybko pożar może się rozprzestrzeniać
-RH - wilgotność powietrza


#### Heatmapa korelacji

In [None]:
plt.figure(figsize=(16,16))
sns.heatmap(df.corr(), annot=True)
plt.show()

##### Możemy zauważyć korelację pomiędzy współczynnikami wilgotności gleby na różnych poziomach między sobą oraz z temperatuarą.

In [None]:
#### Przenalizujmy teraz zależności pomiędzy zmiennymi 

In [None]:
sns.pairplot(df.drop('area', axis=1))
plt.show()

Możemy zauważyć, że w niektórych obserwacjach istnieją pojedyńcze obserwacje odstające zaburzające odbiór wykresów. Szczególnie rzuca się w oczy wyjątkowo duże obserwacje odstające w kolumnach rain i ISI. Zobaczmy zatem jak wykresy będzie wyglądał bez nich.

In [None]:
tdf = df.loc[(df['rain']<=5) & (df['ISI']<=40)]
sns.pairplot(tdf.drop('area', axis=1))
plt.show()

Raz jeszcze widzimy skorelowanie wcześniej wspomnianych współczynników. Zauważmy, że współżędne na tych wykresach nie mówią nam za wiele. Sprawdźmy lecz czy występują jakieś miejsca wyjątkowo narażone na pożary.

In [None]:
fdf = (df.groupby(["X", "Y"]).size().reset_index(name='fires_n')).pivot(index="Y", columns="X", values="fires_n").fillna(0)
sns.heatmap(fdf, cmap="Reds")
plt.show()

Możemy zauważyć, że znacznie wyróżniają się miejsca, w ktrórych pożary występują wyjątkowo często.

##### Spójrzmy teraz jak na liczbę pożarów wpływa miesiąc i dzień

In [None]:
months_order=['jan','feb','mar','apr','may','jun','jul','aug','sep','oct','nov','dec']
grouped_by_month = df.groupby("month").size().reindex(months_order)
sns.lineplot(data=grouped_by_month)
plt.show()


In [None]:
days_order=['mon', 'tue', 'wed', 'thu', 'fri', 'sat', 'sun']
grouped_by_day=df.groupby("day").size().reindex(days_order)
sns.lineplot(data=grouped_by_day).axes.set_ylim(0,110)
plt.show()

Wyraźnie widać, że pożary znacznie częśniej występowały w wakacyjne miesiące. Wyróżnia się również spora liczba pożarów w marcu. Możemy także zauważyć, że więcej pożarów miało miejsce w weekendy.

### Pakiet do automatycznej eksploracji

In [None]:
from pandas_profiling import ProfileReport

In [None]:
profile = ProfileReport(df, title="Pandas Profiling Report")
profile.to_notebook_iframe()

In [None]:
profile.to_file("raport.html")

Narzędzie to pozwala na dosyć szybkie (zależne od wielkości danych) przeanalizowanie danego zbiorku. Oczywiście jest ograniczone i nie zapewnia takich możliwości jak własna analiza.
Na pewno narzędzie to może pomóc przy wstępnej analizie danych i po przeanalizowaniu może pozwolić nam do zabrania się za bardziej szczegółowej, wnikliwej analizy.