<h1 style="color:red">Projeto 2 - Classificação</h1>

- encontramos uma tabela com quatro colunas diferentes, e na qual cada item representa um usuário que acessou um determinado site. Neste site, temos três páginas diferentes: a principal (home); a how it works, que explica o funcionamento do site; e contact, para entrar em contato. Em cada uma dessas três colunas, que são as features, temos 1 ou 0, indicando se um usuário específico acessou essa página ou não, respectivamente. Por enquanto não nos importa saber a ordem de páginas acessada pelo usuário. Também temos uma quarta coluna (bought) indicando se esse usuário comprou o produto (1) ou não (0). Abaixo temos uma parte da tabela para demonstração: 

| home | how_it_works | contact | bought |
|------|--------------|---------|--------|
|   1  |       1      |    0    |    0   |
|   1  |       1      |    0    |    0   |
|   1  |       1      |    0    |    0   |
|   1  |       1      |    0    |    0   |
|   1  |       1      |    1    |    1   |
|   1  |       1      |    0    |    0   |



In [9]:
import pandas as pd
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score as accuracy
from sklearn.model_selection import train_test_split

In [10]:
uri = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"

dados = pd.read_csv(uri)
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [11]:
# renomear colunas
mapa = {
    "home": "principal", 
    "how_it_works": "como_funciona", 
    "contact": "contato",
    "bought": "comprou"
}

dados = dados.rename(columns=mapa)


In [12]:
# vamos separar o x e o y
# nossa base x vai ser: home, how_it_works, contact que são as paginas que foram acessadar
# e o y é bought, se comprou ou não

x = dados[["principal", "como_funciona", "contato"]]
y = dados["comprou"]

# qual é o tamanho dos dados
dados.shape

(99, 4)

In [13]:
# vamos treinar a maor parte deses dados
# 75% para treino
# 25% para testar

# treino
treino_x = x[:75]
treino_y = y[:75]

# teste
teste_x = x[75:]
teste_y = y[75:]

print(f"Treinaremos com {len(treino_x)} \nTestaremos com {len(teste_x)}")

Treinaremos com 75 
Testaremos com 24


In [14]:
# treinar o modelo
model = LinearSVC(dual=False)
model.fit(treino_x, treino_y)

previsoes = model.predict(teste_x)

# visualizar nossa acuracia
taxa_de_acerto = accuracy(teste_y, previsoes)
taxa_de_acerto = round(taxa_de_acerto, 4)

print(f"Taxa de acerto: {taxa_de_acerto * 100} %")

Taxa de acerto: 95.83 %


#### Separar treino e teste pelo sklearn

In [22]:
# chamamos a base toda dividida em x e y

# para que toda vez que rodar não pegue dados aleatorios vamo usar um seed
# seed vai definir a ordem dos numeros aleatorios que a biblioteca pega, ou seja não vai ter mais dado aleatorios

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state=SEED, test_size=0.25)

print(f"Treinaremos com {len(treino_x)} \nTestaremos com {len(teste_x)}")

# treinar o modelo
model = LinearSVC(dual=False)
model.fit(treino_x, treino_y)

previsoes = model.predict(teste_x)

# visualizar nossa acuracia
taxa_de_acerto = accuracy(teste_y, previsoes)
taxa_de_acerto = round(taxa_de_acerto, 4)

print(f"Taxa de acerto: {taxa_de_acerto * 100} %")

print(treino_y.value_counts()) # não comprou > 47 / comprou > 27 = 1,74 podemos dizer que é 2 que não compraram para 1 que comprou

print(teste_y.value_counts()) # não comprou > 19 / comprou > 6 = 3,17 podemos dizer que é 3 que não compraram para 1 que comprou

Treinaremos com 74 
Testaremos com 25
Taxa de acerto: 96.0 %
comprou
0    47
1    27
Name: count, dtype: int64
comprou
0    19
1     6
Name: count, dtype: int64


In [23]:
# vamos repetir o codigo,mais agora vamos stratificar ele
# stratificar é igualar o maximo possivel os dados de treino_y e teste_y

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, 
                                                        random_state=SEED, 
                                                        test_size=0.25,
                                                        stratify=y)

print(f"Treinaremos com {len(treino_x)} \nTestaremos com {len(teste_x)}")

# treinar o modelo
model = LinearSVC(dual=False)
model.fit(treino_x, treino_y)

previsoes = model.predict(teste_x)

# visualizar nossa acuracia
taxa_de_acerto = accuracy(teste_y, previsoes)
taxa_de_acerto = round(taxa_de_acerto, 4)

print(f"Taxa de acerto: {taxa_de_acerto * 100} %")


print(treino_y.value_counts()) # não comprou > 47 / comprou > 25 = 1,88 podemos dizer que é 2 que não compraram para 1 que comprou

print(teste_y.value_counts()) # não comprou > 17 / comprou > 8 = 2,13 podemos dizer que é 2 que não compraram para 1 que comprou

# agora podemos dizer que esamos trabalhando com similiariedade, manteve a proporção de 50% dos daods de treino e teste 

Treinaremos com 74 
Testaremos com 25
Taxa de acerto: 96.0 %
comprou
0    49
1    25
Name: count, dtype: int64
comprou
0    17
1     8
Name: count, dtype: int64
