In [1]:
import pandas as pd

# URI com os dados do CSV p/ leitura
uri = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"

# Leitura dos dados do CSV
dados = pd.read_csv(uri)

dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [2]:
# Mudança no nome das colunas p/ melhor leitura
# Dicionário para fazer a mudança : coluna_original => nome_desejado
mapa = {
    "home" : "principal",
    "how_it_works" : "como_funciona",
    "contact" : "contato",
    "bought" : "comprado"
}

# Método para fazer a mudança dos nomes
dados = dados.rename(columns = mapa)

In [3]:
# Informações de Treino
x = dados[["principal", "comprado", "contato"]] # para pegar mais de 1 coluna usar lista de lista

x.head()

Unnamed: 0,principal,comprado,contato
0,1,0,0
1,1,0,0
2,1,0,0
3,1,0,0
4,1,0,0


In [4]:
# Informação de Resultado
y = dados["comprado"] # para pegar só 1 coluna não precisa de 2 listas

y.head()

0    0
1    0
2    0
3    0
4    0
Name: comprado, dtype: int64

In [5]:
# Método para olhar quantos dados tem no CSV
dados.shape

(99, 4)

In [6]:
#Separação dos dados de treino e teste
# 75% dos dados p/ treino e 25% p/ teste

# Dados de treino
treino_x = x[:75] # Vai do elemento 0 até o 74
treino_y = y[:75]

# Dados de teste
teste_x = x[75:] # Vai do elemento 75 até o final
teste_y = y[75:]

print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

Treinaremos com 75 elementos e testaremos com 24 elementos


In [16]:
display(treino_y.value_counts())
display(teste_y.value_counts())

0    49
1    25
Name: comprado, dtype: int64

0    17
1     8
Name: comprado, dtype: int64

In [8]:
# Criação do modelo para aprender os dados
from sklearn.svm import LinearSVC

model = LinearSVC()
model.fit(treino_x, treino_y)

LinearSVC()

In [9]:
# Medindo a taxa de acerto do nosso modelo
from sklearn.metrics import accuracy_score

previsoes = model.predict(teste_x)

taxa_acerto = accuracy_score(teste_y, previsoes) * 100

print("A taxa de acerto foi %.2f%%" % taxa_acerto)

A taxa de acerto foi 100.00%


# Usando a Biblioteca para Separação dos dados

In [10]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

# Método para separação dos dados de treino e teste
from sklearn.model_selection import train_test_split

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,random_state = SEED, test_size = 0.25)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

model = LinearSVC()
model.fit(treino_x, treino_y)
previsoes = model.predict(teste_x)

taxa_acerto = accuracy_score(teste_y, previsoes) * 100
print("A taxa de acerto foi %.2f%%" % taxa_acerto)

Treinaremos com 74 elementos e testaremos com 25 elementos
A taxa de acerto foi 100.00%


In [11]:
# Proporção do treino => +- 2
treino_y.value_counts()

0    47
1    27
Name: comprado, dtype: int64

In [12]:
# Proporção do teste => +- 3
teste_y.value_counts()

0    19
1     6
Name: comprado, dtype: int64

## Problema na proporção de treino e teste.

### Vamos usar o argumento do "train_test_split" => stratify em y para alinhar os dados corretamente

In [13]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

# Método para separação dos dados de treino e teste
from sklearn.model_selection import train_test_split

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,
                                                        random_state = SEED, 
                                                        test_size = 0.25,
                                                        stratify = y)

print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

model = LinearSVC()
model.fit(treino_x, treino_y)
previsoes = model.predict(teste_x)

taxa_acerto = accuracy_score(teste_y, previsoes) * 100
print("A taxa de acerto foi %.2f%%" % taxa_acerto)

Treinaremos com 74 elementos e testaremos com 25 elementos
A taxa de acerto foi 100.00%


In [17]:
display(treino_y.value_counts())
display(teste_y.value_counts())

0    49
1    25
Name: comprado, dtype: int64

0    17
1     8
Name: comprado, dtype: int64