## Import pakietów

In [None]:
%matplotlib inline
import numpy as np
import pandas as pd

from matplotlib import pyplot as plt
from sklearn.datasets import make_regression

## Jak obserwacja odstająca może wpłynąć na model?

Wygenerujmy sobie losowy zbiór danych do stworzenia prostego modelu regresji:

In [None]:
x, y = make_regression(
    30, n_features=1, n_informative=1, random_state=123, noise=15
)
x = x.flatten()

Za pomocą funkcji ``np.polyfit()`` dopasuj prostą regresji do tych danych i zapisz współczynniki do zmiennych ``a, b``

Tak prezentuje się postać analityczna regresji liniowej:

Nanieśmy ją na wykres:

Dodajmy do danych punkt ``(3, -400)``:

Stwórzmy wykres punktowy:

Dopasujmy prostą regresji do danych z uwzględnieniem obserwacji odstającej:

Jak wygląda postać analityczna regresji?

Na jednym wykresie przedstaw dane, oryginalną prostą regresji, oraz prostą regresji uwzględniającą obserwację odstającą

## Wykrywanie obserwacji odstających - jednowymiarowych

Wczytaj dane dotyczące wysokości budynków we Wrocławiu.

In [None]:
wysokosc = pd.read_csv('wysokosc_budynkow.csv')

Co przedstawiają poniższe dane?

Wyświetl podstawowe statystyki opisowe dotyczące wysokości budynków we Wrocławiu:

Stwórz histogram wysokości budynków. Wybierz odpowiednią wartość parametru bins, żeby rozrzut danych był lepiej widocznych. Usuń siatkę

Stwórz wykres pudełkowy dla tej zmiennej:

### IQR (rozstęp ćwiartkowy)

Rozstęp ćwiartkowy jest pozycyjną miarą rozproszenia wykorzystującą wartości kwartyla trzeciego i pierwszego.

$IQR = Q_3 - Q_1$

Za obserwację odstającą uważa się obserwację, która jest wyższa od wartości $Q3$ o $1.5 * IQR$ oraz niższa od wartości $Q1$ o $1.5 * IQR$ - jest to domyślna granica 'wąsów' w wykresie pudełkowym. 

Oblicz wartości kwartyla1 i kwartyla3, następnie oblicz IQR. Wskaż które z wartości wychodzą poza zakres

Za pomocą pythona możemy wyciągnąć informacje o outlierach z wykresu:

### Z-score

Z-score określa o ile odchyleń standardowych od średniej wartości zmiennej odchyla się konkretna zmienna. Jednostki z wysoką wartością bezwzględną z-score (powyżej 3) można określić jako obserwacje odstające

In [None]:
from scipy.stats import zscore

## Dane wielowymiarowe - przykładowe dane

Wygenerujmy dwuwymiarowe dane za pomocą ``make_blobs`` w bibliotece ``sklearn``

In [None]:
from sklearn.datasets import make_blobs

Wygenerujmy dwa klastry danych (łącznie 100 elementów) określonymi przez dwie zmienne:

In [None]:
dane, klaster = make_blobs(
    n_samples=100, n_features=2, centers=np.array([[0,0], [8,8]]), cluster_std=0.5
)

Przedstawmy te obserwacje na wykresie:

Wygenerujmy kilkanaście obserwacji z rozkładu jednostajnego:

Połączmy oba zbiory danych:

### Isolation Forest

Zaimportujmy odpowiednią klasę:

In [None]:
from sklearn.ensemble import IsolationForest

Za pomocą metody ``.fit`` dopasuj model do połączonych danych:

Za pomocą metody ``predict`` dokonaj predykcji - czy dana obserwacja jest odstająca?

Stwórz wykres punktowy, na którym kolorem oznaczysz, które z obserwacji są odstające

Za pomocą metody ``score_samples`` wskaż szansę na to, że dany obiekt nie jest anomalią, a następnie przedstaw rozkład tych wartości, a na wykresie punktowym kolorem oznacz score

Bazując na histogramie w jaki sposób ustaliłbyś wartość graniczną poniżej której dana wartość nie jest odstającą? Ile powinno być obserwacji odstających? Czy zgadza się to z wartością parametru contamination?

Przykład przerobiony na bazie:
https://scikit-learn.org/stable/auto_examples/ensemble/plot_isolation_forest.html

Zwizualizuj za pomocą poniższego kodu wartości 'scoringu na anomalie dla całej przestrzeni ``x = (-3,12) oraz y=(-3,12)``

In [None]:
# tworzymy przestrzeń punktów
xx, yy = np.meshgrid(np.linspace(-3, 12, 200), np.linspace(-3, 13, 200))

# Używamy .decision_function obiektu typu Isolation Forest dla każdego z tych punktów
Z = las.decision_function(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.title("IsolationForest")
plt.contourf(xx, yy, Z, cmap=plt.cm.hot)

b1 = plt.scatter(polaczone[:, 0], polaczone[:, 1], c='white',s=20, edgecolor='k')

plt.xlim((-3, 12))
plt.ylim((-3, 12))

plt.show()

### Local Outlier Factor

Skorzystajmy ponownie z ramki z połączonymi danymi

Algorytm Local Outlier Factor jest w swym działaniu podobny do algorytmu K-Najbliższych Sąsiadów. Mierzy on zależność między gęstością punktów dookoła danego punktu. Jednym z parametrów jest liczba sąsiadów. 

In [None]:
from sklearn.neighbors import LocalOutlierFactor

Stwórz obiekt klasy ``LocalOutlierFactor``, ustaw parametr ``novelty=True``, i dopasuj wygenerowane dane do modelu

Dokonaj predykcji

Przedstaw predykcje na wykresie

Przedstaw wynik ``decision_function`` na wykresie:

Przedstaw przestrzeń decyzyjną algorytmu LOF:

In [None]:
# tworzymy przestrzeń punktów
xx, yy = np.meshgrid(np.linspace(-3, 12, 200), np.linspace(-3, 13, 200))

# Używamy .decision_function obiektu typu Isolation Forest dla każdego z tych punktów
Z = lof.decision_function(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.title("Local Outlier Factor")
plt.contourf(xx, yy, Z, cmap=plt.cm.hot)

b1 = plt.scatter(polaczone[:, 0], polaczone[:, 1], c='white',s=20, edgecolor='k')

plt.xlim((-3, 12))
plt.ylim((-3, 12))

plt.show()

## Case 1 - wypadki we Wrocławiu

Gdzie we Wrocławiu miały miejsce nietypowe wypadki jeśli chodzi o liczbę uczestników, zmarłych?

Pobierz dane dotyczące wypadków w roku 2019

Jakie mamy informacje w tej ramce?

Ile mamy obserwacji?

Ile było ofiar śmiertelnych. Ile osób odniosło ciężkie rany?

Stwórz model Isolation forest na zmiennych: 'POJ_SUMA', 'UCZ_SUMA', 'CR_SUMA', 'Z_SUMA'
Przedstaw histogram wartości pobranych z funkcji 'score_

Dokonaj predykcji nietypowości obserwacji za pomocą metody ``predict``

Przedstaw geograficznie rozkład zdarzeń drogowych, jako kolor przyjmij to czy wypadek został uznany za anomalię bądź nie

## Case 2 - Kardiotokografia

Ze strony https://archive.ics.uci.edu/ml/datasets/Cardiotocography pobrano zbiór danych dotyczących analizy danych z kardiotokografii - zapisów z monitorowania acji serca płodu.

Za pomocą automatycznych metod chcemy przewidzieć, czy dany przypadek można uznać za zagrożony. Zmienna ``NSP`` przyjmuje 3 wartości. ``1`` - z płodem wszystko w porządku, ``2`` przypadek podejrzany, ``3`` - Występuje patologia. Z analizy wyłącz zmienne z kategorii 'Classification' - więcej informacji w załączonym obrazku

Twoim zadaniem jest wstępna analiza danych:

* liczba zmiennych, ich typy, wraz z podstawowymi vizualizacjami (histogramy)
* analiza zbalansowania klasy wyjściowej
* podział zbioru na treningowy i testowy
* stworzenie modelu klasyfikacji (może to być np. RandomForest)
* stworzenie wykresu istotności zmiennych (np. z RandomForesta)
* wykres punktowy dla dwóch lub trzech najbardziej istotnych zmiennych z zaznaczniem która jest anomalią
* zbadanie skuteczności klasyfikacji 
* wykrycie anomalii za pomocą poznanych dzisiaj algorytmów
* porównanie skuteczności klasyfikatora z metodą do wykrywania anomalii