<a href="https://colab.research.google.com/github/buenalves/ML-alura-comprou-ou-nao/blob/main/MachineLearning_ClassificacaocomSKLearn2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Algoritmo para verificar se um usuário comprará ou não a partir das páginas do site que ele visitou.

In [None]:
import pandas as pd

uri = 'https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'

dados = pd.read_csv(uri)
dados.head()

In [None]:
mapa = {
    'home' : 'principal',
    'how_it_works' : 'como_funciona',
    'contact' : 'contato',
    'bought' : 'comprou'
}
dados.rename(columns = mapa, inplace = True)

dados.head()

Unnamed: 0,principal,como_funciona,contato,comprou
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


Para o algoritmo de ML, os dados x são as caracteristicas a serem avaliadas e os dados do conjunto y são os que queremos prever.

In [None]:
x = dados[['principal', 'como_funciona', 'contato']]
y = dados['comprou']


In [None]:
x.head()

Unnamed: 0,principal,como_funciona,contato
0,1,1,0
1,1,1,0
2,1,1,0
3,1,1,0
4,1,1,0


In [None]:
y.head()

0    0
1    0
2    0
3    0
4    0
Name: comprou, dtype: int64

Como precisamos treinar e testar o algoritmo, os conjuntos x e y seram divididos. 75% dos dados será utilizado para treinar e 25% para testar.

In [None]:
dados.shape

(99, 4)

In [None]:
treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]

In [None]:
print(f"Treinaremos com {treino_x.shape[0]} elementos e testaremos com {teste_x.shape[0]}")

Treinaremos com 75 elementos e testaremos com 24


In [None]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes)

print(f"A acuracia foi {acuracia*100:.2f} %")

A acuracia foi 95.83 %


#Usando a biblioteca para separar os dados
A separação dos dados pode ser feita utilizando o train_test_split.

In [None]:
from sklearn.model_selection import train_test_split

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25)

print(treino_x.shape)

print(teste_x.shape)

print(f"Treinaremos com {treino_x.shape[0]} elementos e testaremos com {teste_x.shape[0]}")
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes)

print(f"A acuracia foi {acuracia*100:.2f} %")

(74, 3)
(25, 3)
Treinaremos com 74 elementos e testaremos com 25
A acuracia foi 96.00 %


Como a divisão por esse métodos é feita selecionando dados aleatóriamente para cada conjunto, para que não seja obtido um resultado diferente a cada ver que o algoritmo rodar, precisamos configurar o seed.

In [None]:
from sklearn.model_selection import train_test_split
SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size = 0.25)

print(treino_x.shape)

print(teste_x.shape)

print(f"Treinaremos com {treino_x.shape[0]} elementos e testaremos com {teste_x.shape[0]}")

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes)

print(f"A acuracia foi {acuracia*100:.2f} %")

(74, 3)
(25, 3)
Treinaremos com 74 elementos e testaremos com 25
A acuracia foi 96.00 %


Os valores desproporcionais de pessoas que compraram ou não compraram influencia o resultado. Se o treino for feito com um conjunto de dados que tem apenas pessoas que não compraram, o algoritmo vai sempre responder que a pessoa não comprou

In [None]:
treino_y.value_counts()

0    47
1    27
Name: comprou, dtype: int64

In [None]:
teste_y.value_counts()

0    19
1     6
Name: comprou, dtype: int64


Para que o modelo mantenha a propoção de comprou para não comprou do treino para o teste, usamos o stratify = y

In [None]:
from sklearn.model_selection import train_test_split
SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,
                                                        random_state = SEED,
                                                        test_size = 0.25,
                                                        stratify = y)

print(f"Treinaremos com {treino_x.shape[0]} elementos e testaremos com {teste_x.shape[0]}")

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes)

print(f"A acuracia foi {acuracia*100:.2f} %")



Treinaremos com 74 elementos e testaremos com 25
A acuracia foi 96.00 %


In [None]:
treino_y.value_counts()

0    49
1    25
Name: comprou, dtype: int64

In [None]:
teste_y.value_counts()

0    17
1     8
Name: comprou, dtype: int64