# Wczytywanie wbudowanych danych

Import funkcji która jest odpowiedzialna za wczytywanie zbioru danych

In [None]:
from sklearn.datasets import load_breast_cancer

Wczytywanie wbudowanego zbioru danych

In [None]:
breast = load_breast_cancer()

Wyświetlamy zmienną breast. Widzimy, że ma strukturę słownikową (czyli {klucz:wartość})

In [None]:
breast

Skoro mamy słownik to sprawdźmy jakie klucze mamy dostępne.

In [None]:
breast.keys()

# Podział na X (data frame ze zmiennymi niezależymi) i y (series - jedna kolumna ze zmienną zależną)

Dane wbudowane w scikit-learn mają mniej więcej tą samą strukturę, z dokumentacji możemy się dowiedzieć, że zmienne niezależne będą w kluczu ["data"] a zmienna zależna w kluczu ["target"]. Przypiszmy je więc do odpowiednich zmiennych. Konwencja w scikit-learn przyjmuje że nasze zmienne niezależne będą w zbiorze X a zależne w y.

Dane otrzymaliśmy w formie macierzowej, przeróbmy je więc na DataFrame i Series, żeby w przyszłości jak będziemy potrzebować odnieść się do konkretnego przypadku mieć jego index.

In [None]:
import pandas as pd
X = pd.DataFrame(breast["data"])
y = pd.Series(breast["target"])

W tym momencie dokonamy podziału na zbiory treningowy i testowy. W tym celu zaimportujemy funkcję **train_test_split**

In [None]:
from sklearn.model_selection import train_test_split

Możemy sobie podejrzeć kształt(wymiary i liczność) naszych zmiennych żeby upewnić się, że jak do tej pory wszystko działa zgodnie z planem (X powinien być 2-wymiarowy, a y 1-wymiarowy, liczność w pierwszych wymiarach powinna się zgadzać)

In [None]:
X.shape, y.shape

# Podział na zbiór treningowy i testowy

Podzielmy teraz obydwa obiekty na nowe zbiory treningowe i testowe. Funkcja **train_test_split** dzieli nam każdy kolejny obiekt który jej podamy (w tym wypadku X i y) na dwa zbiory zgodnie z proporcją którą podamy jako parametr - 0.2.
Zwróćmy uwagę, że wynik jednej funkcji jest zapisywany w czterech zmiennych. W Pythonie nazywa się to rozpakowywaniem - funkcja **train_test_split** wyprodukuje nam cztery obiekty które zostaną przyporządkowane do kolejnych zmiennych.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.2, random_state=42)

Oceńmy ponownie, czy otrzymaliśmy to co chcieliśmy

In [None]:
X_train.shape, y_train.shape, X_test.shape, y_test.shape

# Uczenie maszynowe

Skoro mamy już zbiory testowe i treningowe, możemy przystąpić do uczenia maszynowego. Zaimportujmy funkcję klasyfikatora - drzewo decyzyjne

In [None]:
from sklearn.tree import DecisionTreeClassifier

Skonfigurujmy sobie klasyfikator z wszystkimi parametrami domyślnymi, oprócz kryterium które ustawimy jako entropię

In [None]:
classifier = DecisionTreeClassifier(criterion = "entropy")

Wytrenujmy nasz klasyfikator

In [None]:
classifier.fit(X = X_train, y = y_train)

# Wizualizacja

Ten sposób wizualizacji działa tylko do wizualizacji drzew decyzyjnych. Zaczynamy od importów.

In [None]:
from sklearn import tree
import graphviz

Przerabiamy klasyfikator na dane do wizualizacji 

In [None]:
dane_do_wizu = tree.export_graphviz(classifier, out_file = None) 

Używamy **dane_do_wizu** do wizualizacji

In [None]:
graph = graphviz.Source(dane_do_wizu) 

I zapisujemy wizualizację do pliku, który będzie miał rozszerzenie .pdf

In [None]:
graph.render("../output/breast") 

A tutaj robimy nieco ładniejsza wizualizację i wyświetlamy ją w notebooku

In [None]:
dane_do_wizu = tree.export_graphviz(classifier, out_file = None, 
                                feature_names = breast.feature_names, 
                                class_names = breast.target_names, filled = True, 
                                rounded = True, special_characters = True)
graph = graphviz.Source(dane_do_wizu)  
graph

Predykcja

In [None]:
predicted = classifier.predict(X_test)

Możemy posklejać wartości które odłożyliśmy na bok z tym co przewidzieliśmy

In [None]:
import pandas as pd
wyniki = pd.DataFrame({"y_true":y_test,"y_pred":predicted}, index = y_test.index)

Naoczne porównanie uzyskanych wyników

In [None]:
wyniki