## Wprowadzenie
Skrypt pokazuje jak użyć pakietu SciKit do klasyfikacji danych. Rozważane są dwa przykłady:  zestaw danych IRIS oraz zestaw danych TITANIC  (do ściągnięcia z https://www.kaggle.com/c/titanic, dokładniej: potrzebny jest  plik https://www.kaggle.com/c/titanic/download/train.csv).

In [1]:
% matplotlib inline

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

from sklearn import tree

## 1. Pierwszy zestaw danych
Dane IRIS

In [2]:
# wczytanie zestawu danych
from sklearn import datasets
iris = datasets.load_iris()

data = pd.DataFrame(iris.data, columns=iris.feature_names)
data['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)
data.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [3]:
# rozbicie zestawu danych na dane opisujące kwiat (X) i etykietę klasy (y)
y = data['species']
X = data.drop('species', axis = 1)

# stworzenie drzewa klasyfikacyjnego
t = tree.DecisionTreeClassifier()
t = t.fit(X.as_matrix(), y.as_matrix())

In [4]:
# zapisanie drzewa klasyfikacyjnego do pliku .dot
# plik ten można przekształcić do pliku .pdf za pomocą programu graphviz używając polecenia:
#   dot -Tpdf iris.dot -o iris.pdf

with open("iris.dot", "w") as f:
    tree.export_graphviz(t, out_file=f, feature_names=X.columns)

In [5]:
# ocena stworzonego klasyfikatora na danych uczących
t.score(X.as_matrix(), y.as_matrix())

1.0

In [6]:
# Uczciwiej byłoby oceniać klasyfikator na danych, które nie były używane podczas tworzenia
# klasyfikatora. Dlatego cały zestaw danych warto podzielić na dwie części: dane uczące i dane
# testowe.

data['train'] = np.random.uniform(0, 1, len(data))

data_train = data[data['train'] <= 0.65]
data_test = data[data['train'] > 0.65]

y = data_train['species']
X = data_train.drop('species', axis = 1)

t = tree.DecisionTreeClassifier()
t = t.fit(X.as_matrix(), y.as_matrix())

print(t.score(X.as_matrix(), y.as_matrix()))

y = data_test['species']
X = data_test.drop('species', axis = 1)

print(t.score(X, y))

1.0
0.9841269841269841


## 2. Drugi zestaw danych
Dane TITANIC (do ściągnięcia z https://www.kaggle.com/c/titanic, dokładniej: potrzebny jest  plik https://www.kaggle.com/c/titanic/download/train.csv).

In [7]:
# wczytanie zestawu danych z pliku
data = pd.read_csv("train.csv")
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [8]:
# usunięcie z zestawu danych atrybutów nieistotnych dla klasyfikacji
data = data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis = 1)
data = data.dropna()
data.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S


In [9]:
# zmiana kodowania atrybutów nominalnych w zestawie danych
data['Sex'] = pd.Categorical(data['Sex']).codes
data['Embarked'] = pd.Categorical(data['Embarked']).codes
data.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,1,22.0,1,0,7.25,2
1,1,1,0,38.0,1,0,71.2833,0
2,1,3,0,26.0,0,0,7.925,2
3,1,1,0,35.0,1,0,53.1,2
4,0,3,1,35.0,0,0,8.05,2


In [10]:
# rozbicie zestawu danych na dane opisujące pasażera (X) i etykietę klasy (y)
y = data['Survived']
X = data.drop('Survived', axis = 1)

# stworzenie drzewa klasyfikacyjnego
t = tree.DecisionTreeClassifier() ## 
t = t.fit(X, y)

In [11]:
# zapisanie drzewa klasyfikacyjnego do pliku .dot
# plik ten można przekształcić do pliku .pdf za pomocą programu graphviz używając polecenia:
#   dot -Tpdf titanic.dot -o titanic.pdf

with open("titanic.dot", "w") as f:
    tree.export_graphviz(t, out_file=f, feature_names=X.columns)

In [12]:
# ocena stworzonego klasyfikatora na danych uczących
t.score(X, y)

0.9859550561797753

In [13]:
# Uczciwiej byłoby oceniać klasyfikator na danych, które nie były używane podczas tworzenia
# klasyfikatora. Dlatego cały zestaw danych warto podzielić na dwie części: dane uczące i dane
# testowe (lista 5 zadanie 2b).

## Task 2
### a:

In [14]:
## Gini

t_gini = tree.DecisionTreeClassifier() ## 
t_gini = t_gini.fit(X, y)

In [15]:
import graphviz
     
with open("titanicGini.dot", "w") as f:
    tree.export_graphviz(t_gini, out_file=f, feature_names=X.columns)
    


In [16]:
# ocena stworzonego klasyfikatora na danych uczących
t_gini.score(X, y)

0.9859550561797753

In [17]:
## Entropy

t_entropy = tree.DecisionTreeClassifier(criterion="entropy") ## 
t_entropy = t_entropy.fit(X, y)

In [18]:
import graphviz
     
with open("titanicEntropy.dot", "w") as f:
    tree.export_graphviz(t_entropy, out_file=f, feature_names=X.columns)



In [19]:
# ocena stworzonego klasyfikatora na danych uczących
t_entropy.score(X, y)

0.9859550561797753

### b:

In [20]:
shuffler = np.arange(len(data))
np.random.shuffle(shuffler)

train_size = 4*len(data) // 5


X = data.drop("Survived", axis=1)
Y = data["Survived"]
X_train, X_test = X.iloc[shuffler[:train_size]], X.iloc[shuffler[train_size:]]
Y_train, Y_test = Y.iloc[shuffler[:train_size]], Y.iloc[shuffler[train_size:]]








In [21]:
t_twosets = tree.DecisionTreeClassifier(criterion="gini")

t_twosets = t_twosets.fit(X_train, Y_train)

print(t_twosets.score(X_train, Y_train))
print(t_twosets.score(X_test, Y_test))


0.984182776801406
0.6643356643356644


### c:

In [22]:
shuffler = np.arange(len(data))
np.random.shuffle(shuffler)

train_size = 4*len(data) // 5



t_trimmed = tree.DecisionTreeClassifier(criterion="gini", max_depth=7)

t_trimmed = t_trimmed.fit(X_train, Y_train)

print(t_trimmed.score(X_train, Y_train))
print(t_trimmed.score(X_test, Y_test))




0.9050966608084359
0.7482517482517482


### d:

In [23]:
def size_trimmer(tree,X,limit=5):
    
    n_nodes = tree.node_count
    counts = tree.decision_path(X).toarray().sum(axis=0)
    children_left = tree.children_left
    children_right = tree.children_right
    feature = tree.feature
    threshold = tree.threshold

    def dfs(i):
        if children_left[i] == children_right[i]:
            return counts[i]
        
        l = dfs(children_left[i])
        r = dfs(children_right[i])
        
        if l + r + counts[i] <= limit:
            children_left[i] = children_right[i] = -1
            feature[i] = -2
        
        return l + r + counts[i]
        
        
    dfs(0)
    return tree
    


size_trimmer(t_trimmed.tree_, X_train.values.astype(np.float32))


<sklearn.tree._tree.Tree at 0x7f41f3296718>

In [24]:
class auto_manual_trimmer:
    def __init__(self, limit):
        self.tree = tree.DecisionTreeClassifier()
        self.limit = limit
        
    def fit(self, X,Y):
        self.tree = self.tree.fit(X, Y)
        size_trimmer(self.tree.tree_, X.astype(np.float32), self.limit)
        return self.tree
    
    def score(self, X, Y):
        return self.tree.score(X,Y)

In [25]:


t_manual_trim = tree.DecisionTreeClassifier()

t_manual_trim = t_manual_trim.fit(X_train, Y_train)
print(t_manual_trim.score(X_train, Y_train))
print(t_manual_trim.score(X_test, Y_test))

size_trimmer(t_manual_trim.tree_, X_train.values.astype(np.float32), 20)

print(t_manual_trim.score(X_train, Y_train))
print(t_manual_trim.score(X_test, Y_test))



0.984182776801406
0.6503496503496503
0.9173989455184535
0.7272727272727273


In [26]:
t_auto_trim = auto_manual_trimmer(20)

In [27]:
def cross_validation(data, target, model):
    num_samples = data.shape[0]
    perm = np.arange(num_samples)
    np.random.shuffle(perm)
    data = data[perm]
    target = target[perm]

    batch_sz = num_samples//10
    
    errs = 0
    cnt = 0
    for batch in range(0, num_samples - batch_sz + 1, batch_sz):
        cnt +=1
        
        batch_train_X = np.concatenate( [data[:batch],   data[(batch+batch_sz):]] )
        batch_train_Y = np.concatenate( [target[:batch], target[(batch + batch_sz):]] )

        batch_test_X = data[batch:batch+batch_sz]
        batch_test_Y = target[batch:batch+batch_sz]
        model = model.fit(batch_train_X,batch_train_Y)

        #print(pred)
        #print(t.score(batch_test_X, batch_test_Y))
        errs += model.score(batch_test_X, batch_test_Y)

    return errs/cnt

In [28]:

print()
print("gini", cross_validation(X.as_matrix(), y.as_matrix(), t_gini))
print()
print("entropy", cross_validation(X.as_matrix(), y.as_matrix(), t_entropy))
print()
print("trimmed", cross_validation(X.as_matrix(), y.as_matrix(), t_trimmed))
print()
print("manually trimmed", cross_validation(X.as_matrix(), y.as_matrix(), t_auto_trim))
print()


gini 0.7563380281690141

entropy 0.7619718309859154

trimmed 0.804225352112676

manually trimmed 0.7661971830985916

