In [10]:
# Mini-Aula 1: Introdução Árvores de Decisão

# Features são características, para facilitar, 
# trocamos algumas strings por ints:
#                    [peso, 0/1: enrugada/lisa]

# Labels são rótulos, e o nosso "objetivo" é inferí-los
# a partir das features que nos são fornecidas.
# Aqui substituiremos também strings por ints:
# [0/1: maçã/laranja]

from sklearn import tree
features  = [[140,1], [130,1], [150,0], [170,0]]
labels    = [0, 0, 1, 1]
classfier = tree.DecisionTreeClassifier()
classfier = classfier.fit(features, labels)
print(classfier.predict([[150,0]]))

# Fim da Mini-Aula 1

[1]


In [16]:
# Mini-Aula 2: Visualizando uma Árvore de Decisão
# Metas: 
# 1. Importar um dataset
# 2. Treinar um classificador
# 3. Fazer predição para novas flores (entradas)
# 4. Visualizar a Árvore de Decisão


# .target armazena os labels de cada item do dataset, faça a correspondência com .target_names
# Sabemos quais strings são as labels e características através de:
# .target_names e feature_names 

# Lendo o dataset
from sklearn.datasets import load_iris
import numpy as np
iris = load_iris()
print('Características:', iris.feature_names)
print('Rótulos:', iris.target_names, '\n')
print('O primeiro dado do dataset:', iris.data[0])
print('O tipo do primeiro dado do dataset:', iris.target[0], '\n')

# Testando dados

# Peguei 5 de cada tipo, estao ordenados (tipo=posicao): 0=0, 1=50, 2=100
pos = [0, 50, 100]
cinco_teste = []
for i in pos:
    cinco_teste.append(i)
    cinco_teste.append(i+1)
    cinco_teste.append(i+2)
    cinco_teste.append(i+3)
    cinco_teste.append(i+4)

# Removo os 15 dados coletados do conjunto, para usar como treino
treino_target = np.delete(iris.target, cinco_teste)
treino_data   = np.delete(iris.data, cinco_teste, axis=0)

# Coloco os 15 de volta aqui
teste_target = iris.target[cinco_teste]
teste_data   = iris.data[cinco_teste]

# Monto o classificador com os 5 de treino
classifier = tree.DecisionTreeClassifier()
classifier.fit(treino_data, treino_target)

# A partir do classificador, avalio todo o conjunto de testes
print(teste_target)
print(classifier.predict(teste_data))

# Fim da Mini-Aula 2

Características: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Rótulos: ['setosa' 'versicolor' 'virginica'] 

O primeiro dado do dataset: [5.1 3.5 1.4 0.2]
O tipo do primeiro dado do dataset: 0 

[0 0 0 0 0 1 1 1 1 1 2 2 2 2 2]
[0 0 0 0 0 1 1 1 1 1 2 2 2 2 2]


In [6]:
# Mini-Aula 3: Introdução ao Algoritmo K-Nearest Neighbors
# Metas:
# Usar KNN e métricas para avaliar a predição
from sklearn.datasets import load_iris

iris = load_iris()

x = iris.data
y = iris.target

# De agora em diante, já que exercitamos particionar
# treino e teste anteriormente, vamos usar uma função
# built-in para fazê-lo mais rapidamente, 
# com 50% do tamanho de partição do teste;
from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.5)

from sklearn.neighbors import KNeighborsClassifier

# Usando o KNN nos conjuntos de treino e teste
classificador = KNeighborsClassifier()
classificador.fit(x_treino, y_treino)

# Faço o teste no conjunto de teste X
predicao = classificador.predict(x_teste)

from sklearn.metrics import accuracy_score

# Vejo a acurácia do teste: precisão versus conjunto de teste Y
print('Acurácia do algoritmo KNN:', accuracy_score(y_teste, predicao))

# Fim da Mini-Aula 3

Acurácia do algoritmo KNN: 0.9866666666666667


In [51]:
# Mini-Aula 5: Implementar um rascunho de um classificadorx
# Metas:
# Ter noção do que é necessário implementar
from random import choice
from scipy.spatial.distance import euclidean
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np
class ProtoKNN():
    
    def fitDados(self, x_treino, y_treino):
        # Apenas para salvar os dados, chamam só de fit
        self.x_treino = x_treino
        self.y_treino = y_treino
        return
    
    def predicao(self, x_teste):
        # Tenho que retornar o array com as predicoes
        predicoes = []
        for valor in x_teste:
            # Pega os valores do dataset, aplico a função, e 
            # insiro no conjunto de predições
            tipo  = self.mais_proximo(valor)
            predicoes.append(tipo)
        return predicoes
    
    def mais_proximo(self, valor):
        # Distância entre dois pontos ((xf-xi)**2 + (yf-yi)**2)**1/2
        mais_prox = euclidean(valor, self.x_treino[0])
        melhor_idc = 0
        for i in range(1, len(self.x_treino)):
            dist_atual = euclidean(valor, self.x_treino[i])
            if(dist_atual < mais_prox):
                mais_prox = dist_atual
                melhor_idc = i
        # Retorno o tipo do mais próximo (1-NN)
        # Se fosse 3, 5, 7... teria que ver a maior frequência e retorná-la
        return self.y_treino[melhor_idc]

# Import da mini-aula anterior
from sklearn.datasets import load_iris
iris = load_iris()
x = iris.data
y = iris.target
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.5)

classificador = ProtoKNN()
classificador.fitDados(x_treino, y_treino)

# Faço o teste no conjunto de teste X
predicao = classificador.predicao(x_teste)
predicao = np.asarray(predicao)
print(predicao, y_teste)
print('Acurácia do algoritmo KNN:', accuracy_score(y_teste, predicao)*100)
# Obs, deu algum bug aqui e tava mostrando em decimal, corrigi multiplicando por 100


[2 1 0 1 0 0 0 2 0 0 0 0 2 1 1 2 1 0 0 1 1 2 2 2 2 0 0 2 1 2 0 1 0 0 2 1 0
 2 0 2 2 1 0 0 0 2 2 1 0 2 0 2 2 1 0 1 1 1 1 2 1 0 1 0 0 0 1 1 1 2 1 2 2 1
 2] [2 1 0 1 0 0 0 2 0 0 0 0 2 1 1 2 1 0 0 1 1 2 1 2 2 0 0 1 1 2 0 2 0 0 2 1 0
 2 0 2 2 1 0 0 0 2 2 1 0 2 0 2 2 1 0 1 1 1 1 1 1 0 1 0 0 0 1 1 1 2 1 2 2 1
 2]
Acurácia do algoritmo KNN: 94.66666666666667
