[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/vicnetto/py-learn/blob/master/machine-learning/ml-sklearn/ml-sklearn.ipynb) 
> # Introdução ao **SKLearn**
(ABRA PELO GOOGLE COLAB PARA MELHOR VISUALIZAÇÃO, ABRA COM UMA NOVA JANELA)

Dentro dessa pequena introdução, o objetivo é realizar algumas previsões com algoritmos de classificação, a partir de alguns passos: **features**, **itens**, **treino**, **teste**, **taxa de acerto**, **otimização** e **previsão**.

## Iniciando o reconhecimento de padrões

Primeiramente é necessário inserir os padrões que serão reconhecidos pelo programa. Para isso, será utilizado dois animais: os porcos e os cachorros. Dentro desses dois animais, serão separados por algumas **features**, como apresentam pelo longo, tem pernas curtas e latem. Tudo isso será representado por valores binários, 0 como não apresenta e 1 caso tenha essa característica.

In [38]:
# Pelos longos | Pernas curtas | Latem

pigs = [[0, 1, 0], [0, 1, 1], [1, 1, 0]]
dogs = [[0, 1, 1], [1, 0, 1], [1, 1 ,1]]

train_x = pigs + dogs
train_y = [1, 1, 1, 0, 0, 0]  # 1 para porco e 0 para cachorro.
print(train_x)

[[0, 1, 0], [0, 1, 1], [1, 1, 0], [0, 1, 1], [1, 0, 1], [1, 1, 1]]


Para isso, será importado uma biblioteca conhecida como **SKLearn**, utilizada para tentar efetuar uma estimação.

In [39]:
from sklearn.svm import LinearSVC

model = LinearSVC()
model.fit(train_x, train_y)  # Mostrando os dados para o reconhecimento.

test_x = [[0, 1, 1], [1, 0, 1], [0, 0, 0]]  # 1 - Porco | 2 - Cachorro | 3 - Porco
test_y = [1, 0, 1]

prediction = model.predict(test_x)
prediction

array([0, 0, 1])

Sendo possível observar que apenas dois desses dados estão corretos.

> É importante notar que a função **predict** retorna um array do **Numpy**, e não um array do Python.

Sendo assim é possível calcular a **taxa de acertos**:

In [40]:
from sklearn.metrics import accuracy_score

tax = accuracy_score(test_y, prediction)
print("Hit rate: %.2f" % (tax * 100), end="%\n")

Hit rate: 66.67%


## Um pouco sobre classificação 

Nesse caso, é possível retirar as informações de um site de forma **boleana**. Por exemplo, existem diversas janelas dentro de um site como "how it works" e "contact". É possível estudar esses dados e verificar quais dos domínios foram abertos e geraram uma compra, sendo possível tratar esses dados futuramente. Para isso, faz-se o seguinte:

In [41]:
import pandas as pd

url = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"
data = pd.read_csv(url)
data.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


Ao obter a tabela do possível site, é necessário oferecer ao **sklearn** qual o *train_x* e o *train_y*, para realizarmos o estudo.

In [49]:
x = data[["home", "how_it_works", "contact"]]  # Elementos totais do X.
y = data["bought"]  # Elementos totais do Y.
print("Size X: " + str(x.shape))

# Pegando cerca de 75% para treino e o resto para testes.
train_x = x[:75]
train_y = y[:75]
test_x = x[75:]
test_y = y[75:]

print("Training with %d elements and testing with %d elements." % (len(train_x), len(test_x)))

Size X: (99, 3)
Training with 75 elements and testing with 24 elements.


Agora treinando essa geração do **sklearn**:

In [53]:
page_model = LinearSVC()
page_model.fit(train_x, train_y)

page_predict = page_model.predict(test_x)
page_score = accuracy_score(test_y, page_predict)
print("Hit rate: %.2f" % (page_score * 100), end="%")

Hit rate: 95.83%

Logicamente que esse processo pode ser automatizado, com a função **train_test_split**, do próprio **sklearn**.

In [62]:
from sklearn.model_selection import train_test_split

SEED = 20  # Setando uma seed para não obtermos resultados inesperados.

# Tentando fazer um equilíbrio no resultado também.
train_x, test_x, train_y, test_y = train_test_split(x, y, random_state = SEED, test_size = 0.25, stratify = y)

page_model = LinearSVC()
page_model.fit(train_x, train_y)

page_predict = page_model.predict(test_x)
page_score = accuracy_score(test_y, page_predict)
print("Hit rate: %.2f" % (page_score * 100), end="%")

Hit rate: 96.00%

> É sempre importante sabermos a proporção do treino com a proporção do teste, para sempre tentar manter uma constância, e para isso utilizamos o parâmetro **stratify**.