# Introdução - Python com Machine Learning

## Utilizando Scikit-Learn para classificar flores.
Este é um exemplo da utilização do Python em projetos de Machine Learning.

Pela simplicidade da linguagem Python, podemos desenvolver poderosos algoritmos que podem nos ajudar a resolver problemas complexos. Neste exemplo vamos utilizar o framework scikit-learn para classificar flores.

## Importando Bibliotecas
O scikit-learn é excelente framework que conta com diversos algoritmos de classificação, regressão, agrupamento e suporte e SVM. Para maiores detalhes você pode acessar o site da organização: https://scikit-learn.org/

Numpy é um pacote criado principalmente para computação científica, que auxilia no tratamento de vetores e matrizes multidimensionais, possui diversas funções úteis na álgebra linear, estatística e matemática em geral.

In [1]:
from sklearn.datasets import load_iris
from sklearn import tree
from sklearn.metrics import accuracy_score
import numpy as np

## Carregando o DataSet e separando conjuntos e rótudos dos dados

In [None]:
# Carregando o DataSet
iris = load_iris()

# Conjunto de dados
x = iris.data
print(x)

In [4]:
# Conjunto de rotulos ou respostas para cada entrada
y = iris.target
print(y)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


## Preparação dos Dados

In [11]:
# Pegando os nomes das 3 especies de Flores
y_names = iris.target_names
print(y_names)

# Utilizando índices aleatórios para dividir o conjunto de dados em treinamento e teste
test_ids = np.random.permutation(len(x))

# Divisão de dados e etiquetas em treinamento e teste
# Mantendo as últimas 10 entradas para teste, e o restante para treinamento
x_train = x[test_ids[:-10]]
x_test = x[test_ids[-10:]] # Últimos 10 registros

y_train = y[test_ids[:-10]]
y_test = y[test_ids[-10:]] # Últimos 10 registros

['setosa' 'versicolor' 'virginica']
[ 20  99  24  26  17 118 100  75 144  21   4  85  76  23   8  70 129 106
 120  86  87  31  51 140 121  72  68  25  98   7  60  74 117 139  71  69
  37 130 114  40  64  67  84  57  13  53  63  29  15  93 109 110  19 102
 115  34 111  61  33 107  30 103 148  45  66 125  48  42   3  36  89  32
  22  90  28  82  62  55  92  94 126 127 119 138  27 108  83  77  44  38
 124  10   5 122  78  50 136  41  39  11  49  73 112 143 116 105  46 101
 131 142  56 146  52  97  16 132 113 123   1  14   9 147 145 133  79  54
 128 149  65  47 135 134  96  59  18 104  95  58 137  80  91  12   2  35
   6   0  43  81  88 141]


## Definindo Modelo de treinamento - Árvore de Decisão

In [12]:
# Classificando utilizando tecnicas de Árvore de Decisão
clf = tree.DecisionTreeClassifier()
print(clf)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')


## Treinando o Modelo

* Estamos trabalhando com uma árvore de decisão, ou seja, um abordagem de aprendizado supervisionado.
* Para o treinamento é necessária a massa de dados (`x_train`) e os rótulos (`y_train`).

In [15]:
# Treinando o classificador com o conjunto de treinamento
clf.fit(x_train, y_train) # Massa de dados + Rótulos

# Fazendo a predição do conjunto de teste
pred = clf.predict(x_test)
print(pred)

[1 0 0 0 0 0 0 1 1 2]


## Analisando o resultado

* Acurácia de 100% : Indica que o algoritmo conseguiu prever corretamente todos os 10 casos de teste.

In [9]:
# Acuracia
print('Acuracia: ', (accuracy_score(pred, y_test))*100)

Acuracia:  100.0
