In [1]:
import pandas as pd

uri = "https://gist.githubusercontent.com/LuisFelipeFrancisco/38584761b289f74f7a6a1b6818a62c9d/raw/763b93c51a4e3d909db9b476aa1de0c3acf004f3/tracking.csv"
dados = pd.read_csv(uri) # Lê o arquivo CSV e retorna um DataFrame
dados.head() # Exibe as 5 primeiras linhas do DataFrame

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [2]:
mapa = { # Cria um dicionário para renomear as colunas
        "home": "principal",
        "how_it_works": "como_funciona",
        "contact": "contato",
        "bought": "comprou"
}
dados = dados.rename(columns=mapa) # Renomeia as colunas do DataFrame

In [3]:
# dados["coluna"] - Retorna a coluna "coluna" do DataFrame
x = dados [["principal", "como_funciona", "contato"]] # Retorna as colunas "home", "how_it_works" e "contact"
y = dados ["comprou"] # Retorna a coluna "bought"
y.head()

0    0
1    0
2    0
3    0
4    0
Name: comprou, dtype: int64

In [4]:
x.head()

Unnamed: 0,principal,como_funciona,contato
0,1,1,0
1,1,1,0
2,1,1,0
3,1,1,0
4,1,1,0


In [5]:
# Separando os dados de treino e teste
dados.shape # Retorna a quantidade de linhas e colunas do DataFrame

(99, 4)

In [6]:
train_x = x[:75] # Retorna as 75 primeiras linhas da coluna "x"
train_y = y[:75] # Retorna as 75 primeiras linhas da coluna "y"
test_x = x[75:] # Retorna as linhas restantes da coluna "x"
test_y = y[75:] # Retorna as linhas restantes da coluna "y"

In [7]:
train_x.shape

(75, 3)

In [8]:
train_y.shape

(75,)

In [9]:
test_x.shape

(24, 3)

In [10]:
test_y.shape

(24,)

In [11]:
print(f"Treinaremos com {len(train_x)} elementos e testaremos com {len(test_x)} elementos")

Treinaremos com 75 elementos e testaremos com 24 elementos


In [12]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

model = LinearSVC()
model.fit(train_x, train_y)
predict = model.predict(test_x)
accuracy = accuracy_score(test_y, predict) * 100

print(f"A taxa de acerto do algoritmo foi de {accuracy:.2f}%")

A taxa de acerto do algoritmo foi de 95.83%


Usando a bliblioteca para separar os dados em treino e teste

In [13]:
# A bliblioteca sklearn possui uma função que faz a separação dos dados de treino e teste
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20 # Define uma semente para o gerador de números aleatórios

train_x, test_x, train_y, test_y = train_test_split(x, y, random_state=SEED, test_size=0.25) # Retorna 4 valores: x de treino, x de teste, y de treino e y de teste

print(f"Treinaremos com {len(train_x)} elementos e testaremos com {len(test_x)} elementos")

model = LinearSVC()
model.fit(train_x, train_y)
predict = model.predict(test_x)
accuracy = accuracy_score(test_y, predict) * 100

print(f"A taxa de acerto do algoritmo foi de {accuracy:.2f}%")

Treinaremos com 74 elementos e testaremos com 25 elementos
A taxa de acerto do algoritmo foi de 96.00%


In [14]:
train_y.value_counts() # Compradores no treino

comprou
0    47
1    27
Name: count, dtype: int64

In [15]:
test_y.value_counts() # Compradores no teste

comprou
0    19
1     6
Name: count, dtype: int64

In [16]:
# A bliblioteca sklearn possui uma função que faz a separação dos dados de treino e teste
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20 # Define uma semente para o gerador de números aleatórios

train_x, test_x, train_y, test_y = train_test_split(x, y, # Retorna 4 valores: x de treino, x de teste, y de treino e y de teste
                                                    random_state=SEED, # Define uma semente para o gerador de números aleatórios
                                                    test_size=0.25, # Define a porcentagem de dados que serão usados para teste
                                                    stratify = y) # Define que a amostragem deve ser estratificada

print(f"Treinaremos com {len(train_x)} elementos e testaremos com {len(test_x)} elementos")

model = LinearSVC()
model.fit(train_x, train_y)
predict = model.predict(test_x)
accuracy = accuracy_score(test_y, predict) * 100

print(f"A taxa de acerto do algoritmo foi de {accuracy:.2f}%")

Treinaremos com 74 elementos e testaremos com 25 elementos
A taxa de acerto do algoritmo foi de 96.00%


In [17]:
train_y.value_counts() # Compradores no treino

comprou
0    49
1    25
Name: count, dtype: int64

In [18]:
test_y.value_counts() # Compradores no teste

comprou
0    17
1     8
Name: count, dtype: int64