# Iris Dataset

1936 - Ronald Fisher, biólogo e estatístico, coletou amostras de 150 flores de íris, 50 amostras para cada uma dessas
3 espécies. Para cada flor coletada ele mediu a largura e comprimento da pétala, e a largura e comprimento da sépala.

Desafio:
   - Treinar o computador para reconhecer a espécie de uma flor de uma flor de iris a partir das medidas.
   - Aplicar modelos estatísticos.
   - Criar um programa que vamos fornecer as medidas e ele nos dirá a espécie da planta
   

Obs: o próprio sklearn possui esse modelo para utilização acadêmica.

### Importação de dados

In [277]:
from sklearn.datasets import load_iris
iris = load_iris()

### Observações

In [278]:
x = iris.data
print(x)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

### Array Numpy
* Mais eficientes que um array
* Ocupam menos memória 
* São mais rápidas de percorrer
* Oferecem métodos para realizar operações matriciais e vetoriais

In [279]:
print(type(iris.data))

<class 'numpy.ndarray'>


### Target (resultados)

In [280]:
y = iris.target
print(y)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


### Target_names (Nomes da Espécies)

In [281]:
print(iris.target_names)

['setosa' 'versicolor' 'virginica']


### Shape das observações

In [282]:
print(iris.data.shape)

(150, 4)


### Shape do Target

In [283]:
print(f'Quantidade de dados coletados      - {iris.data.shape}')
print(f'Quantidade de resultados coletados - {iris.target.shape}')

Quantidade de dados coletados      - (150, 4)
Quantidade de resultados coletados - (150,)


### Modelo KNN (K Nearest Neighbors) ou K Vizinhos Mais Próximos

Quando:
  - K = 1, o método irá pegar um vizinho mais próximo, na qual será do mesma tipo;
  - K = 3, o método irá pegar três vizinhos mais próximos, na qual será do tipo que tiver maior quantidade de elementos;

In [284]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=4)

### Treinar a máquina
método fit receberá dois numpy, que será x e y

In [285]:
knn.fit(x, y)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=4, p=2,
                     weights='uniform')

### Fazer Previsões

In [286]:
especie = knn.predict([[5.1, 3.5, 1.4, 0.2]])[0]
print(iris.target_names[especie])

setosa


In [287]:
especie = knn.predict([[5.9, 3.,  5.1, 1.8]])[0]
print(iris.target_names[especie])

virginica


In [288]:
especie = knn.predict([[5., 2.3, 3.3, 1. ]])[0]
print(iris.target_names[especie])

versicolor


### Separar os Dados em Dois Grupos

In [289]:
from sklearn.model_selection import train_test_split

In [290]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

In [291]:
print(f'Quantidade de observações separadas para treino - {x_train.shape}')
print(f'Quantidade de observações separadas para teste  - {x_test.shape}')

Quantidade de observações separadas para treino - (120, 4)
Quantidade de observações separadas para teste  - (30, 4)


### Avaliação da performance do modelo

In [292]:
knn.fit(x_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=4, p=2,
                     weights='uniform')

In [293]:
previsoes_knn = knn.predict(x_test)

print(f'Compara resultados:\n{y_test}\n{previsoes_knn}')

Compara resultados:
[1 0 0 2 1 0 1 0 0 2 1 0 0 2 2 0 1 0 0 2 2 1 1 2 2 0 2 0 1 1]
[2 0 0 2 1 0 1 0 0 2 1 0 0 2 2 0 1 0 0 2 2 1 2 2 2 0 2 0 1 1]


In [294]:
from sklearn import metrics
acertos_knn = metrics.accuracy_score(y_test, previsoes_knn)
print(acertos_knn)

0.9333333333333333


### Modelo de Regressão Logística

Usando Machine Learning para previsões categóricas

Exemplos:
    - Se um email é spam ou não               * Binário
    - Se um tumor é maligno ou benigno        * Binário
    - Se uma planta é da espécie A, B ou C    * Múltipla Escolha

Modelo de regressão logística é usado em classificações binárias, mas conseguimos utilizar
com múltiplas escolhas

Tendo duas espécies de planta, é uma classificação binária. Quando tempos 3 ou mais espécies
comparamos especie a com bc, espécie b com ac e especie c com ab, técnica one vs all, um contra
todas, feito isso conseguimos realizar a classificação binária, obter a melhor probabilidade.

In [295]:
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression(multi_class='ovr') # multi_class='ovr' -> 'One versus rest' equivale a 'One versus all'

In [296]:
logreg.fit(x_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='ovr', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [297]:
print(f'Probabilidades para espécies 2 respectivamente - {logreg.predict_proba([[5.9, 3.,  5.1, 1.8]])}')
print(f'Espécie provável - {logreg.predict([[5.9, 3.,  5.1, 1.8]])}')

Probabilidades para espécies 2 respectivamente - [[0.00133654 0.30615772 0.69250574]]
Espécie provável - [2]


In [298]:
previsoes_logreg = logreg.predict(x_test)

print(f'Compara resultados:\n{y_test}\n{previsoes_logreg}')

Compara resultados:
[1 0 0 2 1 0 1 0 0 2 1 0 0 2 2 0 1 0 0 2 2 1 1 2 2 0 2 0 1 1]
[1 0 0 2 1 0 1 0 0 2 1 0 0 2 2 0 1 0 0 2 2 1 2 2 2 0 2 0 1 1]


In [299]:
acertos_logreg = metrics.accuracy_score(y_test, previsoes_logreg)
print(acertos_logreg)

0.9666666666666667


In [300]:
print(f'Comparativos')
print(f'Modelo KNeighborsClassifier - {round(acertos_knn,    7)}')
print(f'Modelo LogisticRegression   - {round(acertos_logreg, 7)}')

Comparativos
Modelo KNeighborsClassifier - 0.9333333
Modelo LogisticRegression   - 0.9666667
