In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot
from sklearn import tree
from sklearn import preprocessing
from IPython.display import Image
from sklearn.externals.six import StringIO  
import pydot 

In [2]:
kerdo_iv = pd.read_csv("kerdo_iv.csv")

In [3]:
kerdo_iv.head(5)

Unnamed: 0,Időbélyeg,1. Mennyire rendszeresen látogatod az előadásokat?,2. Készítesz jegyzetet az előadásokon?,3. Bejársz jelenléti nélküli gyakorlatokra?,4. Miből szoktál tanulni? (leginkább),"5. Egyedül vagy csoportosan, másokkal együtt tanulsz inkább?",6. Tanulás során készítesz saját jegyzetet?,7. Ha van ajánlott irodalom a tárgyhoz akkor bele szoktál olvasni?,8. Egy évközbeni zhra mennyivel hamarabb kezdesz el készülni?,9. Vizsgára mennyivel hamarabb kezdesz el tanulni?,10. A nap folyamán mikor tudsz a legeredményesebben tanulni?,"11. Számonkérés előtt pár órával, az utolsó pillanatokban szoktál e még tanulni?",12. Hallgatsz zenét tanultás közben?,13. Hol laksz?,"14. Reprodukálod önállóan egy gyakorlati feladat megoldását, a megoldókulcsot nem nézve?",Hány kreditet szereztél előző félévben?
0,2015/12/05 6:49:21 du. CET,Néha,Nem,Rendszeresen,Diasorok,Csoportosan,Néha,Nem,Pár nappal,1 héttel,Délután,Rendszeresen,Néha,Albérlet,Néha,26 - 30 kredit
1,2015/12/05 6:49:21 du. CET,Néha,Igen,Rendszeresen,Mások által készített jegyzetből,Egyedül,Néha,Igen,Pár nappal,1 héttel,Éjszaka / este,Rendszeresen,Rendszeresen,Kollégiumban,Rendszeresen,0 - 10 kredit
2,2015/12/05 6:49:57 du. CET,Néha,Nem,Rendszeresen,Diasorok,Egyedül,Néha,Nem,1 héttel,1 héttel,Délután,Rendszeresen,Néha,Albérlet,Soha,26 - 30 kredit
3,2015/12/05 6:50:03 du. CET,Néha,Nem,Néha,VikWikis anyag,Csoportosan,Néha,Nem,Pár nappal,1 héttel,Éjszaka / este,Rendszeresen,Rendszeresen,Kollégiumban,Néha,31 - 37 kredit
4,2015/12/05 6:50:35 du. CET,Néha,Nem,Néha,VikWikis anyag,Egyedül,Néha,Nem,1 héttel,1 héttel,Éjszaka / este,Rendszeresen,Rendszeresen,Otthon,Néha,26 - 30 kredit


In [4]:
features = kerdo_iv

# soha/néha/rendszeresen értékek átírása 0/1/2 -re

In [5]:
soha_indexes = features == "Soha"

In [6]:
features[soha_indexes] = 0

In [7]:
neha_indexes = features == "Néha"

In [8]:
features[neha_indexes] = 1

In [9]:
rendszeresen_indexes = features == "Rendszeresen"

In [10]:
features[rendszeresen_indexes] = 2

# igen/nem átírása 1/0 értékre

In [11]:
nem_indexes = features == "Nem"

In [12]:
igen_indexes = features == "Igen"

In [13]:
features[nem_indexes] = 0

In [14]:
features[igen_indexes] = 1

# Felkészülési idő paramtetrizálása

In [15]:
elotte_valo_este_indexes = features == "Előtte való este"

In [16]:
features[elotte_valo_este_indexes] = 0

In [17]:
par_nappal_indexes = features == "Pár nappal"

In [18]:
features[par_nappal_indexes] = 1

In [19]:
egy_hettel_indexes = features == "1 héttel"

In [20]:
features[egy_hettel_indexes] = 2

In [21]:
folyamatosan_evkozben_indexes = features == "Folyamatosan évközben"

In [22]:
features[folyamatosan_evkozben_indexes] = 3

In [23]:
elso_kredit_interval = features == "0 - 10 kredit"

In [24]:
features[elso_kredit_interval] = 1

In [25]:
masodik_kredit_interval = features == "11 - 15 kredit"

In [26]:
features[masodik_kredit_interval] = 2

In [27]:
harmadik_kredit_interval = features == "16 - 20 kredit"

In [28]:
features[harmadik_kredit_interval] = 3

In [29]:
negyedik_kredit_interval = features == "21 - 25 kredit"

In [30]:
features[negyedik_kredit_interval] = 4

In [31]:
otodik_kredit_interval = features == "26 - 30 kredit"

In [32]:
features[otodik_kredit_interval] = 5

In [33]:
hatodik_kredit_interval = features == "31 - 37 kredit"

In [34]:
features[hatodik_kredit_interval] = 6

In [35]:
hetedik_kredit_interval = features == "38 vagy annál több kredit"

In [36]:
features[hetedik_kredit_interval] = 7

# 4. , 5. , 10. , 13. oszlopok értékeihez konstans értékek rendelése

In [37]:
learning_sources = list(features["4. Miből szoktál tanulni? (leginkább)"].unique())
social_sources = list(features["5. Egyedül vagy csoportosan, másokkal együtt tanulsz inkább?"].unique())
daytime_sources = list(features["10. A nap folyamán mikor tudsz a legeredményesebben tanulni?"].unique())
place_sources = list(features["13. Hol laksz?"].unique())

In [38]:
def change_to_values(line):
    line[4] = learning_sources.index(line[4])
    line[5] = social_sources.index(line[5])
    line[10] = daytime_sources.index(line[10])
    line[13] = place_sources.index(line[13])
    
    return line

In [39]:
features_with_numbers = features.apply(change_to_values,axis=1)

In [40]:
features_with_numbers.head(5)

Unnamed: 0,Időbélyeg,1. Mennyire rendszeresen látogatod az előadásokat?,2. Készítesz jegyzetet az előadásokon?,3. Bejársz jelenléti nélküli gyakorlatokra?,4. Miből szoktál tanulni? (leginkább),"5. Egyedül vagy csoportosan, másokkal együtt tanulsz inkább?",6. Tanulás során készítesz saját jegyzetet?,7. Ha van ajánlott irodalom a tárgyhoz akkor bele szoktál olvasni?,8. Egy évközbeni zhra mennyivel hamarabb kezdesz el készülni?,9. Vizsgára mennyivel hamarabb kezdesz el tanulni?,10. A nap folyamán mikor tudsz a legeredményesebben tanulni?,"11. Számonkérés előtt pár órával, az utolsó pillanatokban szoktál e még tanulni?",12. Hallgatsz zenét tanultás közben?,13. Hol laksz?,"14. Reprodukálod önállóan egy gyakorlati feladat megoldását, a megoldókulcsot nem nézve?",Hány kreditet szereztél előző félévben?
0,2015/12/05 6:49:21 du. CET,1,0,2,0,0,1,0,1,2,0,2,1,0,1,5
1,2015/12/05 6:49:21 du. CET,1,1,2,1,1,1,1,1,2,1,2,2,1,2,1
2,2015/12/05 6:49:57 du. CET,1,0,2,0,1,1,0,2,2,0,2,1,0,0,5
3,2015/12/05 6:50:03 du. CET,1,0,1,2,0,1,0,1,2,1,2,2,1,1,6
4,2015/12/05 6:50:35 du. CET,1,0,1,2,1,1,0,2,2,1,2,2,2,1,5


# Data and Target

In [41]:
features_with_numbers_values = features_with_numbers.values

In [42]:
data = features_with_numbers_values[:,1:15]

In [50]:
data.shape

(141, 14)

In [44]:
target = features_with_numbers_values[:,15]

In [45]:
target

array([5, 1, 5, 6, 5, 5, 6, 5, 3, 6, 3, 3, 6, 1, 6, 3, 6, 5, 5, 4, 6, 5, 2,
       5, 3, 4, 6, 5, 6, 5, 5, 6, 4, 5, 2, 5, 6, 4, 6, 4, 4, 2, 4, 6, 5, 5,
       4, 2, 6, 5, 6, 5, 3, 3, 5, 5, 6, 5, 6, 6, 3, 6, 7, 5, 4, 7, 4, 6, 3,
       5, 5, 3, 4, 5, 6, 6, 4, 4, 5, 6, 6, 6, 4, 6, 7, 4, 5, 4, 1, 5, 6, 2,
       5, 6, 5, 4, 4, 1, 6, 5, 4, 5, 6, 4, 3, 6, 2, 4, 5, 5, 4, 4, 5, 4, 5,
       3, 6, 5, 6, 4, 6, 5, 6, 5, 6, 5, 4, 1, 4, 6, 4, 6, 4, 6, 6, 1, 7, 5,
       6, 5, 1], dtype=object)

# DecisionTree

In [57]:
clf = tree.DecisionTreeClassifier(max_depth=6)

In [58]:
clf.fit(data,target)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=6,
            max_features=None, max_leaf_nodes=None, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            random_state=None, splitter='best')

In [59]:
dot_data = StringIO() 
tree.export_graphviz(clf, out_file=dot_data) 
graph = pydot.graph_from_dot_data(dot_data.getvalue()) 
graph.write_pdf("tree.pdf") 

True