<a href="https://colab.research.google.com/github/Brunapupo/machine-learning-classificacao-sklearn/blob/main/treino_e_teste.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd

uri = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"
dados = pd.read_csv(uri)
dados.head() # imprime as primeiras linhas, por default as primerias 5.


👉 **Para modificar as nomeações em inglês que já estamos utilizando, usaremos uma funcionalidade do Pandas que possibilita a renomeação das colunas.**

In [17]:
mapa = {
    "home" : "principal",
    "how_it_works" : "como_funciona",
    "contact" : "contato",
    "bought" : "comprou"
}
dados = dados.rename(columns = mapa)

In [None]:
x = dados[['principal', 'como_funciona', 'contato']] #seleciona apenas as colunas dentro de um array.
y = dados['comprou']
print(y)
y.head()

 👉 **Agora que temos x e y separados, devemos nos questionar: devemos treinar os algorítimos com todos os dados? Se fizermos isso, não teremos o que testar, pois dessa forma a máquina já terá as respostas corretas previamente, sendo incapaz de prever dados fora desse conjunto. De alguma maneira, precisamos sempre separar os dados de treino e os de teste para não enviesarmos os resultados produzidos.**

## **Portanto em um conjunto de dados, sempre separamos o Treino do Teste!.**

In [None]:
dados.shape #formato dos dados

In [21]:
#Separei em média 25% para testar o algorítimo, e o restante (cerca de 75% dos dados) para o treinamento.

treino_x = x[:75]
treino_x.shape

(75, 3)

In [None]:
treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]
teste_y.shape

print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

# ✅ **Algoritmo de Treinamento**

In [None]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

#Criando modelo de treinamento
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

#comparando as previsões
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100 #accuracy taxa de acerto.
print("A acurácia foi %.2f%%" % acuracia)


# **A acurácia foi 95.83%**

👉 Por meio desse exemplo, tivemos um contato mais realista com tratamentos de algorítimos de machine learning, uma vez que importamos a fonte de dados e realizamos os tratamentos necessários, renomeando colunas e separando os dados de treino e teste até que finalmente executamos o modelo.

# ⏭ **Usando Sklearn para separar treino e teste**

In [59]:
from sklearn.model_selection import train_test_split

SEED = 20

#Separar dados de treino e de teste, com o split, uma maneira mais elegante.

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size =0.25)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

Treinaremos com 74 elementos e testaremos com 25 elementos


In [60]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score



#Criando modelo de treinamento
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100 #accuracy taxa de acerto.
print("A acurácia foi %.2f%%" % acuracia)

A acurácia foi 96.00%


In [61]:
treino_y.value_counts()

0    47
1    27
Name: comprou, dtype: int64

 # ⚡ **é importante que a proporção dos nossos dados seja proporcional. Para isso,, inseriremos mais um argumento na separação de dados (train_test_split): o stratify = y, que irá estratificar os dados proporcionalmente de acordo com y.**

In [62]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,
                                                         random_state = SEED, test_size = 0.25,
                                                         stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

Treinaremos com 74 elementos e testaremos com 25 elementos
A acurácia foi 96.00%


# **✅ Treinei com 74 elementos e testaremos com 25 elementos**

# **A acurácia foi 96.00%**