# O Scikit-Learn
- Ferramentas simples e eficientes para análise preditiva de dados
- Acessível a todos e reutilizável em vários contextos
- Construído em NumPy, SciPy e Matplotlib
- Disponível em: https://scikit-learn.org/

### Utilizando o Scikit-Learn nos dados vistos no módulo "Utilizando o Aprendizado de Máquinas"
- Vamos usar o dataset iris, bastante conhecido pra quem já trabalha com Machine Learning
    - https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris

In [1]:
# Importando o pandas
import pandas as pd

In [2]:
# Importando o dataset iris
from sklearn.datasets import load_iris
data = load_iris()

In [3]:
# Transformando em um dataframe e usando somente target 0 e 1
iris = pd.DataFrame(data.data)
iris.columns = data.feature_names
iris['target'] = data.target
# iris = iris[iris.target != 2]
iris.head(2)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0


In [4]:
# Verificando os valores na base
iris.target.value_counts()

2    50
1    50
0    50
Name: target, dtype: int64

In [5]:
# Definindo os valores de X e y do modelo
X = iris[['petal length (cm)','petal width (cm)']]
y = iris.target

### <font color='blue'>Separando esses dados em treino e teste</font>
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [27]:
from sklearn.model_selection import train_test_split

In [28]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### Vamos utilizar o Perceptron para separar esses dados
- https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html#sklearn.linear_model.Perceptron

In [29]:
# Importação do perceptron
from sklearn.linear_model import Perceptron

In [30]:
# Criando o nosso classificador
clfPercep = Perceptron()

In [31]:
# Fazendo o fit do modelo
clfPercep.fit(X_train, y_train)

Perceptron()

In [32]:
# Avaliando o modelo para a base completa 
# (não separamos ainda em treino e teste)
clfPercep.score(X, y)

0.6666666666666666

### Agora vamos utilizar a árvore de decisão para tratar esses dados
- https://scikit-learn.org/stable/modules/tree.html

In [33]:
# Importando a árvore de decisão
from sklearn import tree

In [34]:
# Criando o nosso classificador
clfArvore = tree.DecisionTreeClassifier()

In [52]:
# Fazendo o fit com os dados
clfArvore.fit(X_train, y_train)

DecisionTreeClassifier()

In [53]:
# Avaliando o modelo
clfArvore.score(X, y)

0.9933333333333333

### Avaliando esses dois modelos
- https://scikit-learn.org/stable/modules/model_evaluation.html#classification-metrics

In [54]:
from sklearn.metrics import confusion_matrix

In [55]:
predictArvore = clfArvore.predict(X_test)
predictPercep = clfPercep.predict(X_test)

In [56]:
# Perceptron
confusion_matrix(y_test, predictPercep)

array([[19,  0,  0],
       [ 7,  0,  6],
       [ 0,  0, 13]])

In [57]:
# Árvore de Decisão
confusion_matrix(y_test, predictArvore)

array([[19,  0,  0],
       [ 0, 13,  0],
       [ 0,  0, 13]])

**Acurácia**

In [58]:
from sklearn.metrics import accuracy_score

In [59]:
# Perceptron
accuracy_score(y_test, predictPercep)

0.7111111111111111

In [60]:
# Árvore de Decisão
accuracy_score(y_test, predictArvore)

1.0

**Precisão**

In [61]:
from sklearn.metrics import precision_score

In [68]:
# Perceptron
precision_score(y_test, predictPercep,average='micro')

0.7111111111111111

In [63]:
# Árvore de Decisão
precision_score(y_test, predictArvore,average='micro')

1.0

**Recall**

In [64]:
from sklearn.metrics import recall_score

In [65]:
# Perceptron
recall_score(y_test, predictPercep,average='micro')

0.7111111111111111

In [66]:
# Árvore de Decisão
recall_score(y_test, predictArvore,average='micro')

1.0