### Wstęp do Uczenia Maszynowego 
##### Laboratorium 04

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

## 0. Przycinanie drzewa decyzyjnego

In [None]:
# Dane z lab02, podział na X i y oraz na zbiór treningowy i testowy
pima = pd.read_csv("../lab02/pima.csv")

y = pima.Outcome
X = pima.drop(["Outcome"], axis = 1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 123)

In [None]:
# Tworzenie modelu drzewa decyzyjnego
Tree = DecisionTreeClassifier(random_state=0)
# Szukanie możliwych wartości parametru ccp_alpha
path = Tree.cost_complexity_pruning_path(X_train, y_train)
ccp_alphas = path.ccp_alphas

In [None]:
# Eksperyment dla każdej z rozpatrywanych wartości ccp_alpha
clfs = []
for ccp_alpha in ccp_alphas:
    clf = DecisionTreeClassifier(random_state=0, ccp_alpha=ccp_alpha)
    clf.fit(X_train, y_train)
    clfs.append(Tree)

In [None]:
# Analiza wyników wartości dokładności dla różnych wartości parametru przycinania drzewa
train_scores = [clf.score(X_train, y_train) for clf in clfs]
test_scores = [clf.score(X_test, y_test) for clf in clfs]

fig, ax = plt.subplots()
ax.set_xlabel("alpha")
ax.set_ylabel("accuracy")
ax.set_title("Accuracy vs alpha for training and testing sets")
ax.plot(ccp_alphas, train_scores, marker="o", label="train", drawstyle="steps-post")
ax.plot(ccp_alphas, test_scores, marker="o", label="test", drawstyle="steps-post")
ax.legend()
plt.show()

## 1. Model regresji liniowej

In [4]:
hills = pd.read_csv("hills.csv")

-----
##### *Zadanie 1*
------
Dla danych `hills.csv`:

a) Narysuj wykres rozproszenia zmiennej *time* od *dist* oraz *time* od *climb*.

b) Oblicz współczynnik korelacji.


### Budujemy model regresji liniowej dla pary zmiennych dist i time

In [None]:
X = ?
y = ?

In [None]:
lm = LinearRegression()

-----
##### *Zadanie 2*
------
Na wykresie rozproszenia dla `dist` i `time` zaznacz wyestymowaną prostą z modelu liniowego.

-----
##### *Zadanie 3*
------
Zbuduj model regresji liniowej wyliczający zależność *time* od *climb*, wyznacz współczynniki, narysuj wykres rozproszenie i zaznacz wyestymowaną prostą.

## 2. Model regresji logistycznej

W modelu regresji liniowej, predykcja jest ciągłą wartością (np. cena domu, wzrost), a model wygląda następująco:

$$\hat{y} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n$$
$\hat{y}$ to przewidywana ciągła wartość.

$\beta_i$ to współczynniki (wagi) modelu.

$x_i$ to zmienne niezależne (cechy).

W związku z tym, że wartości jakie przyjmuje model regresji liniowej są wartościami rzeczywistymi (od $-\infty$ do $+\infty$) a naszym celem jest przygotowanie modelu do klasyfikacji (regresja logistyczna) to chcemy zastosować funkcję logistyczną jako przekształcenia.

$$\sigma(z) = \frac{1}{1 + e^{-z}}$$
Gdzie $z$ to liniowa: $z = \beta_0 + \beta_1 x_1 + \dots + \beta_n x_n$.

Podstawiając predykcję liniową ($z$) do funkcji logistycznej, otrzymujemy model regresji logistycznej, który zwraca prawdopodobieństwo $P(Y=1|X)$:$$P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \dots + \beta_n x_n)}}$$

W regresji logistycznej istotne jest pojęcie logitu, który jest logarytmem naturalnym ze stosunku szans:$$\text{Logit} = \ln\left(\frac{P(Y=1|X)}{1 - P(Y=1|X)}\right)$$Zauważ, że logit jest równy liniowej kombinacji cech (wynikowi regresji liniowej):$$\ln\left(\frac{P(Y=1|X)}{1 - P(Y=1|X)}\right) = \beta_0 + \beta_1 x_1 + \dots + \beta_n x_n$$To jest powód, dla którego model nazywa się regresją logistyczną - ponieważ regresja jest wykonywana na logarytmie szans (logits).

----
##### *Zadanie 4*
----
Przygotuj zbiór danych `SAheart.data` do dalszej pracy.


In [None]:
SAheart = pd.read_csv("SAheart.data")

----
##### *Zadanie 5*
----
a) Dopasuj model regresji logistycznej do danych `SAheart.data`.

b) Oblicz prawdopodobieństw przynależności do klasy 1 dla zbioru testowego.

c) Dokonaj predykcji dla obserwacji o wartości `sbp = 127`, `age = 30`, `alcohol = 0`, `obesity = 25`, `typea = 49`, `famhist = 'Present'`, `tobbaco = 0`, `ldl = 4.44`, `adiposity = 18`.

----
##### *Zadanie 6*
----
Weźmy pod uwagę dane `earthquake.csv`, które dotyczą klasyfikacji wstrząsów (zmienna *popn*). Zmienne objaśniające to zmienne *body* i *surface* (zmienne sejsmologiczne).

a) Wykonaj wykres dla zmiennych *body* i *surface* z zaznaczeniem przynależności do klas.

b) Dopasuj modej regresji logistycznej. 

c) Interpretacja współczynników.

In [None]:
earthquake = pd.read_csv("earthquake.txt", sep=" ")