In [1]:
import pandas as pd
from sklearn.datasets import load_iris
import numpy as np
from sklearn.model_selection import train_test_split

iris = load_iris()
X = pd.DataFrame(iris['data'], columns=iris['feature_names'])
y = pd.Series(iris['target'], name='class')

In [2]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [3]:
class Folha:
    def __init__(self, grupo):
        dic = {}
        apareceu = []
        for amostra in grupo:
            if amostra[-1] not in apareceu:
                dic[amostra[-1]] = 1
                apareceu.append(amostra[-1])
            else:
                dic[amostra[-1]] += 1
        self.predicoes = dic
        
class No:
    def __init__(self, coluna, valor, right, left):
        self.coluna = coluna
        self.valor  = valor
        self.right  = right
        self.left   = left

In [4]:
class myDecisionTree:
    def __init__(self, max_depth, min_samples_split = 2, min_samples_leaf = 1, criterion = "gini"):
        """
        -> max_depth: determina quantas folhas(grupos), no máximo, existirão ao fim do treinamento. Limite de divisões.
        Haverá overfitting caso o max_depth não for determinado pois o classificador criará uma folha para cada amostra.
        
        -> min_samples_split: determina quantas amostras, no mínimo, um grupo deve ter para poder ser dividido em outros dois.
        
        -> min_samples_leaf: determinas quantas amostra, no mínino, estarão em cada folha. Limite mínimo de pontos por grupo.
        
        -> criterion: determina qual é a medida de impureza que será usado no modelo.
        """
        self.max_depth = max_depth
        self.min_samples_split = min_samples_split
        self.min_samples_leaf = min_samples_leaf
        self.criterion = criterion
        
        self.arvore = None
        

        
        
    def fit(self, X_train, y_train):
        X_train["y"] = y_train
        
        def calcula_gini(grupo):
            dic_gini = {}
            apareceu = []
            for amostra in grupo:
                if amostra[-1] not in apareceu:
                    dic_gini[amostra[-1]] = 1
                    apareceu.append(amostra[-1])
                else:
                    dic_gini[amostra[-1]] += 1
                    
            gini = 1
            for v in dic_gini.values():
                gini -= (v/sum(dic_gini.values()))**2
            return gini
        
        def separa_grupos(coluna, valor_corte, grupo):
            R, L = [], []
            idx = 0
            while idx < len(grupo):
                amostra = grupo[idx]
                if amostra[coluna].item() < valor_corte:
                    L.append(amostra)
                else:
                    R.append(amostra)
                idx += 1
            return L,R
        
        def acha_ganho(L, R, incerteza_atual):
            p = float(len(L)) / (len(L) + len(R))
            return incerteza_atual - p * calcula_gini(L) - (1 - p) * calcula_gini(R)
        
        def acha_melhor_corte(grupo):
            melhor_ganho = 0
            melhor_col = None
            melhor_val = None
            incerteza_atual = calcula_gini(grupo)
            n_features = len(grupo[0]) - 1

            for col in range(n_features):

                valores = set([linha[col] for linha in grupo])

                for val in valores:

                    l, r = separa_grupos(col,val,grupo)

                    if len(l) == 0 or len(r) == 0:
                        continue

                    ganho = acha_ganho(l, r, incerteza_atual)

                    if ganho >= melhor_ganho:
                        melhor_ganho, melhor_col, melhor_val = ganho, col, val

            return melhor_ganho, melhor_col, melhor_val
        
        def construir_arvore(grupo):
            ganho, coluna, valor = acha_melhor_corte(grupo)

            if ganho == 0:
                return Folha(grupo)

            right, left = separa_grupos(coluna, valor, grupo)

            right_branch = construir_arvore(right)
            left_branch = construir_arvore(left)

            return No(coluna, valor, right_branch, left_branch)
        
        self.arvore = construir_arvore(np.array(X_train))

    def desenha_arvore(self, no, espaco=""):
        if isinstance(no, Folha):
            print (espaco + "Predict", no.predicoes)
            return

        print (espaco + str(no.coluna) + " " + str(no.valor))

        print (espaco + '--> Right:')
        self.desenha_arvore(no.right, espaco + "  ")

        print (espaco + '--> Left:')
        self.desenha_arvore(no.left, espaco + "  ")

            
    def predict(self, no, amostra):

        if isinstance(no, Folha):
            return no.predicoes
        
        if amostra[no.coluna] >= no.valor:
            return self.predict(no.right ,amostra)
        else:
            return self.predict(no.left, amostra)

    def score(self, Y_pred, Y_test):
        pass
    

In [5]:
mdt = myDecisionTree(1)

In [6]:
mdt.fit(X_train, y_train)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X_train["y"] = y_train


In [7]:
mdt.desenha_arvore(mdt.arvore)

3 1.0
--> Right:
  Predict {0.0: 31}
--> Left:
  3 1.8
  --> Right:
    2 5.6
    --> Right:
      0 5.0
      --> Right:
        3 1.7
        --> Right:
          Predict {1.0: 1}
        --> Left:
          Predict {2.0: 1}
      --> Left:
        1 2.3
        --> Right:
          3 1.5
          --> Right:
            Predict {1.0: 2}
          --> Left:
            Predict {2.0: 1}
        --> Left:
          Predict {1.0: 31}
    --> Left:
      Predict {2.0: 2}
  --> Left:
    2 4.9
    --> Right:
      1 3.2
      --> Right:
        Predict {2.0: 2}
      --> Left:
        Predict {1.0: 1}
    --> Left:
      Predict {2.0: 28}


In [8]:
no = No(1,1,1,1)

In [9]:
for i in np.array(X_test):
    print(mdt.predict(mdt.arvore, i))

{0.0: 31}
{2.0: 28}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{2.0: 28}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{2.0: 28}
{2.0: 28}
{2.0: 28}
{2.0: 28}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{2.0: 28}
{0.0: 31}
{2.0: 28}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{2.0: 28}
{2.0: 28}
{2.0: 28}
{2.0: 28}
{0.0: 31}
{2.0: 28}
{2.0: 28}
{0.0: 31}
{0.0: 31}
{2.0: 28}
{2.0: 28}
{2.0: 28}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{2.0: 28}
{2.0: 28}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{0.0: 31}
{0.0: 31}


In [10]:
y_test

73     1
18     0
118    2
78     1
76     1
31     0
64     1
141    2
68     1
82     1
110    2
12     0
36     0
9      0
19     0
56     1
104    2
69     1
55     1
132    2
29     0
127    2
26     0
128    2
131    2
145    2
108    2
143    2
45     0
30     0
22     0
15     0
65     1
11     0
42     0
146    2
51     1
27     0
4      0
32     0
142    2
85     1
86     1
16     0
10     0
81     1
133    2
137    2
75     1
109    2
Name: class, dtype: int32