In [1]:
import pandas as pd

dados = pd.read_csv("data/tracking.csv")

dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [2]:
mapa = { 
    "home" : "principal",
    "how_it_works" : "como_funciona",
    "contact" : "contato",
    "bought" : "comprou"
}

dados = dados.rename(columns = mapa)

In [3]:
x = dados.drop(columns={"comprou"})
y = dados["comprou"]

In [4]:
dados.shape

(99, 4)

In [5]:
treino_x = x[:75]
treino_y = y[:75]

teste_x = x[75:]
teste_y = y[75:]

print(f"Treinaremos com {len(treino_x)} elementos e testaremos com {len(teste_x)} elementos")

Treinaremos com 75 elementos e testaremos com 24 elementos


In [6]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes)
print(f"Acurácia: {acuracia * 100:.2f}%")

Acurácia: 95.83%


## Usando a train_Teste_split

In [7]:
# Importando as bibliotecas necessárias
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

# Dividindo o dataset em conjuntos de treino e teste
# x são os dados de entrada e y são os rótulos correspondentes
# test_size=0.25 significa que 25% dos dados serão usados para teste e 75% para treino
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state=SEED, test_size=0.25)
print(f"Treinaremos com {len(treino_x)} elementos e testaremos com {len(teste_x)} elementos")

# Criando o modelo SVM (Support Vector Machine) com um classificador linear
modelo = LinearSVC()

# Treinando o modelo com os dados de treino
modelo.fit(treino_x, treino_y)

# Fazendo previsões nos dados de teste
previsoes = modelo.predict(teste_x)

# Calculando a acurácia das previsões comparando com os rótulos reais do conjunto de teste
acuracia = accuracy_score(teste_y, previsoes)
print(f"Acurácia: {acuracia * 100:.2f}%")


Treinaremos com 74 elementos e testaremos com 25 elementos
Acurácia: 96.00%


In [8]:
treino_y.value_counts()

comprou
0    47
1    27
Name: count, dtype: int64

In [9]:
teste_y.value_counts()

comprou
0    19
1     6
Name: count, dtype: int64

## Separar proporcionalmente a parti do y com o parametro **stratify**

In [10]:
# Importando as bibliotecas necessárias
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

# Definindo uma semente para a randomização, para garantir que os resultados sejam reproduzíveis
SEED = 20

# Dividindo o dataset em conjuntos de treino e teste
# x são os dados de entrada e y são os rótulos correspondentes
# test_size=0.25 significa que 25% dos dados serão usados para teste e 75% para treino
# random_state=SEED garante a reprodutibilidade dos dados divididos
# stratify=y garante que a divisão dos dados mantém a mesma proporção das classes nos conjuntos de treino e teste
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state=SEED, test_size=0.25, stratify=y)
print(f"Treinaremos com {len(treino_x)} elementos e testaremos com {len(teste_x)} elementos")

# Criando o modelo SVM (Support Vector Machine) com um classificador linear
modelo = LinearSVC()

# Treinando o modelo com os dados de treino
modelo.fit(treino_x, treino_y)

# Fazendo previsões nos dados de teste
previsoes = modelo.predict(teste_x)

# Calculando a acurácia das previsões comparando com os rótulos reais do conjunto de teste
acuracia = accuracy_score(teste_y, previsoes)
print(f"Acurácia: {acuracia * 100:.2f}%")


Treinaremos com 74 elementos e testaremos com 25 elementos
Acurácia: 96.00%


In [11]:
treino_y.value_counts()

comprou
0    49
1    25
Name: count, dtype: int64

In [12]:
teste_y.value_counts()

comprou
0    17
1     8
Name: count, dtype: int64