# Machine Learning com o Conjunto de Dados Iris

- Considerado como um problema de Supervised Learning: Prever a espécie de uma iris utilizando as medidas
- É um conjunto de dados muito famoso por ser fácil de prever

In [8]:
from sklearn.datasets import load_iris
import warnings
warnings.filterwarnings('ignore')

In [9]:
# Salva o objeto "bunch" contendo o conjunto de dados iris e seus atributos
iris = load_iris()
type(iris)

sklearn.utils.Bunch

In [10]:
print(iris.data)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

# Terminologia Machine Learning

- Cada linha é uma **observação** (também conhecido como: amostra, exemplo, instância, registro)
- Cada coluna é uma **característica** (também conhecido como: feature, preditor, atributo, variável independente, input, regressor, covariável)

In [11]:
print(iris.feature_names)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [12]:
print(iris.target)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [13]:
print(iris.target_names)

['setosa' 'versicolor' 'virginica']


- Cada valor que estamos prevendo é a **resposta** (também conhecido como: alvo, resultado, rótulo, variável dependente)
- Classificação é **supervised learning** no qual a resposta é categórica (setosa, versicolor ou virginica)
- Regressão é **supervised learning** no qual a resposta é ordenada e contínua (preço de uma casa, altura de uma pessoa)

# Requisitos para trabalhar com dados em Scikit-Learn

1. Características e resposta são **objetos separados**
2. Características e resposta devem ser **numéricos**
3. Características e resposta deve ser **Numpy Arrays**
4. Características e resposta deve possuir **forma específica**

In [7]:
# Checando o tipo das características e resposta
print(type(iris.data))
print(type(iris.target))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [13]:
# Checando a forma das características (primeira dimensão = número de observações, segunda dimensão = número de características)
print(iris.data.shape)

(150, 4)


In [15]:
# Checa a forma da resposta (única dimensão de acordo com o número de observações)
print(iris.target.shape)

(150,)


In [16]:
# Guarda a matriz de características em 'X'
X = iris.data

# Guarda o vetor de resposta em 'y'
y = iris.target

## Classificação com K-Nearest Neighbors (KNN)

1. Escolher um valor para K
2. Buscar por K observações nos dados de treinamento que estão "próximos" às medidas da iris desconhecida fornecida
3. Utilizar o valor da resposta mais popular do K-nearest neighbors como o valor da resposta prevista para a iris desconhecida

In [18]:
# Confirmando se X e y possuem as formas apropriadas para trabalharmos
print(X.shape)
print(y.shape)

(150, 4)
(150,)


# Scikit-learn Padrão de Modelagem de 4 passos

**Passo 1:** Importar a classe que planejamos utilizar

In [19]:
from sklearn.neighbors import KNeighborsClassifier

**Passo 2:** *'Instanciar'* o 'estimador'

- 'Estimador' é o termo para o modelo em Scikit-learn
- 'Instanciar' significa criar uma instância

In [23]:
knn = KNeighborsClassifier(n_neighbors=1)

- Nome do objeto não importa, livre escolha
- Podemos especificar parâmetros de ajuste (também conhecidos como hiperparâmetros) durante esse passo
- Todos os parâmetros não especificados são setados para seus valores padrão

In [24]:
print(knn)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=1, p=2,
           weights='uniform')


**Passo 2:** Ajustar o modelo com os dados (também conhecido como 'treinar o modelo')

- Modelo irá aprender a relação entre X e y
- Ocorre no local

In [25]:
knn.fit(X, y)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=1, p=2,
           weights='uniform')

**Passo 4:** Prever a resposta para uma nova observação

- Novas observações são chamados de dados 'fora de amostra'
- Utilizar a informação aprendida durante o processo de treinamento do modelo

In [28]:
knn.predict([[3,4,5,2]])
print(knn.predict([[3,4,5,2]]))

[2]


- A previsão do nosso algoritmo é 2, que significa iris virginica
- Foi retornado um NumPy Array
- Podemos prever multiplas observações de uma vez

In [30]:
X_new = [[3,5,4,2],[5,4,3,2]]
knn.predict(X_new)
print(knn.predict(X_new))

[2 1]


# Utilizando um valor diferente para K

In [32]:
# Dessa vez instanciamos o modelo utilizando o valor de K=5
knn = KNeighborsClassifier(n_neighbors=5)

# Ajusta o modelo com os dados
knn.fit(X, y)

# Prevê a resposta para as novas observações
knn.predict(X_new)
print(knn.predict(X_new))

[1 1]


Veja que dessa vez nossa previsão é diferente

# Utilizando um modelo diferente para Classificação

In [38]:
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression()

logreg.fit(X,y)

logreg.predict(X_new)

array([2, 0])