# Arborele de decizie

### Importăm librăriile necesare

In [2]:
# Încărcarea librăriilor
import pandas as pd # Dataframe-ul și series-ul nostru
from sklearn.tree import DecisionTreeClassifier # Importăm Clasificatorul „Arborele decizional”
from sklearn.model_selection import train_test_split # Importăm funcția de separare a datelor în date de antrenare și date de testare
from sklearn import metrics #Importăm modulel metrici pentru caluclarea acurateții

### Importăm setul de date


Eu voi lucra cu data set-ul Breast Cancer
Labels:
1=Healthy controls
2=Patients

In [3]:
# încărcarea setului de date
BC = pd.read_csv("data/dataR2.csv")
BC.iloc[44]

Age                71.000000
BMI                30.300000
Glucose           102.000000
Insulin             8.340000
HOMA                2.098344
Leptin             56.502000
Adiponectin         8.130000
Resistin            4.298900
MCP.1             200.976000
Classification      1.000000
Name: 44, dtype: float64

In [4]:
#despărțim datasetul în vector de caracteristici (features) și vectorul clasă
features = [ 'Age','BMI','Glucose','Insulin','HOMA','Leptin','Adiponectin','Resistin','MCP.1']
X = BC[features] # caracteristicile (atributele pentru X)
y = BC.Classification # Variabila clasă (independentă dacă facem analogie cu regresia)

### Împărțirea setului de date
Pentru a evalua performanța modelului o strategie ar fie împărțirea setului de date în: date de antrenare/învățare și date pentru testare/evaluare.

Putem face acest lucru utilizând funcția train_test_split(). Funcția ia 3 parametri: caracteristicile, clasa și lungimea setului de date pentru testare.

In [5]:
# Împărțim setul de date în train set și test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1) # 70% pentru antrenare and 30% testare
X_test

Unnamed: 0,Age,BMI,Glucose,Insulin,HOMA,Leptin,Adiponectin,Resistin,MCP.1
95,49,29.777778,70,8.396,1.449709,51.3387,10.73174,20.76801,602.486
44,71,30.3,102,8.34,2.098344,56.502,8.13,4.2989,200.976
56,42,21.359915,93,2.999,0.687971,19.0826,8.462915,17.37615,321.919
97,40,27.636054,103,2.432,0.61789,14.3224,6.78387,26.0136,293.123
69,44,19.56,114,15.89,4.468268,13.08,20.37,4.62,220.66
114,72,25.59,82,2.82,0.570392,24.96,33.75,3.27,392.46
73,72,23.62,105,4.42,1.14478,21.78,17.86,4.82,195.94
58,51,19.132653,93,4.364,1.001102,11.0816,5.80762,5.57055,90.6
35,67,29.606767,79,5.819,1.133929,21.9033,2.19428,4.2075,585.307
38,60,26.349292,103,5.138,1.305395,24.2998,2.19428,20.2535,378.996


### Construirea modelului

In [6]:
# Crearea obiectului de clasificare pe bază de arbore de decizie cu parametru criterie
clasificator = DecisionTreeClassifier(criterion="entropy")

# Antrenarea clasificatorului cu datele noastre utilizând metoda fit() și ca parametru avem datele de antrenare
clasificator_arbore_decizie = clasificator.fit(X_train,y_train)

### Evaluarea modelului

In [7]:
#Prezice clasele pentru setul de testare utilizând metoda predict(parametru_setu_de_testare)
y_prezis = clasificator_arbore_decizie.predict(X_test)


# Model Accuracy, how often is the classifier correct?
print("Accuracy:",metrics.accuracy_score(y_test, y_prezis))
print(y_test, y_prezis)

Accuracy: 0.7714285714285715
95     2
44     1
56     2
97     2
69     2
114    2
73     2
58     2
35     1
38     1
65     2
96     2
2      1
78     2
109    2
53     2
102    2
99     2
94     2
42     1
104    2
17     1
80     2
54     2
93     2
33     1
67     2
48     1
46     1
92     2
31     1
55     2
59     2
10     1
32     1
Name: Classification, dtype: int64 [2 2 2 2 2 1 2 2 1 2 2 2 1 2 2 2 2 2 2 1 2 1 2 2 2 2 2 1 1 1 2 1 1 1 1]


In [8]:
obiect_nou = [[45,29.38475666,90,4.713,1.046286,23.8479,6.644245,15.55625,621.273]]

raspuns=clasificator_arbore_decizie.predict(obiect_nou)

print(raspuns)

[2]


### Vizualizarea arborelui

Puteți folosi funcția export_graphviz din Scikit-learn pentru a afișa arborele în Jupyter Notebook. Pentru a face diagram de asemenea este nevoie de biblioteca pudotplus.
Pentru instalarea clasică:

- pip install graphviz

- pip install pydotplus

funcția export_graphviz transformă clasificatorul nostru intr-un fișier cu puncte, iar pydotplus convertește aceste puncte într-un fișier png.

In [9]:
from sklearn.externals.six import StringIO  
from IPython.display import Image  
from sklearn.tree import export_graphviz
import pydotplus




In [10]:
dot_data = StringIO()
export_graphviz(clasificator_arbore_decizie, out_file=dot_data,  
                filled=True, rounded=True,
                special_characters=True, feature_names = features,class_names=['0','1'])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())  


In [11]:
graph.write_png('weather.png')
Image(graph.create_png())

InvocationException: GraphViz's executables not found

Concluzii :
Pentru lucrarea de laborator numarul 4 am ales un dataset despre cancerul mamar, pe baza a mai multor criterii. Aceasta problema am realizat-o cu ajutorul arborilor de decizii.

Pentru a evalua performanța modelului am împărțit setul de date în: date de antrenare/învățare 70% și date pentru testare/evaluare 30%.

Putem spune ca arborele obtinut in final ne permite prezicerea cancerului mamar cu   Accuracuratete de : 0.7714285714285715 ceea ce este un procentaj destul de bun.
