# Base de dados

Obtenção e organização dos dados utilizando pandas e importando do github da aula.

Nesta etapa do projeto deve-se:

- Importar a biblioteca Pandas
- Definir o caminho (URL) da base
- Ajustar a base deixando pronta para uso

In [166]:
# Importação do Pantas
import pandas as pd

# Definir o caminho (URL) dessa base
URL = 'https://raw.githubusercontent.com/profviniciusheltai/AulaIA/refs/heads/main/Projeto02.csv'

# Executa a importação da base
df = pd.read_csv(URL)

df.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


Modificação das informações (indice) da base de dados:

In [167]:
# Criação de um dicionario para traduzir o indice:
mapa ={
    "home":"principal",
    "how_it_works":"como_funciona",
    "contact":"contato",
    "bought":"comprou"
}

df = df.rename(columns=mapa)

print(df)

    principal  como_funciona  contato  comprou
0           1              1        0        0
1           1              1        0        0
2           1              1        0        0
3           1              1        0        0
4           1              1        0        0
..        ...            ...      ...      ...
94          0              0        1        0
95          1              1        1        1
96          0              0        1        0
97          0              1        0        0
98          0              0        0        0

[99 rows x 4 columns]


Separando e extraindo as colunas X1, X2 e X3

- X1: "principal"
- X2: "como_funciona"
- X3: "contato"
- Y = "comprou"

A separação será feita da seguinte forma:

In [168]:
# Quando se extrai varias colunas, utiliza-se OS colchetes da seguinte maneira:
x = df[["principal", "como_funciona", "contato"]]

# Quando se extrai apenas uma coluna, utiliza-se o colchete da seguinte maneira:
y = df["comprou"]

print(x)
print(y)


    principal  como_funciona  contato
0           1              1        0
1           1              1        0
2           1              1        0
3           1              1        0
4           1              1        0
..        ...            ...      ...
94          0              0        1
95          1              1        1
96          0              0        1
97          0              1        0
98          0              0        0

[99 rows x 3 columns]
0     0
1     0
2     0
3     0
4     0
     ..
94    0
95    1
96    0
97    0
98    0
Name: comprou, Length: 99, dtype: int64


Separando base de treino e teste

In [169]:
'''# Modo "normal"

# A base de treino sera do inicio até o 70
treino_x = x[:70]
treino_y = y[:70]

# A base de teste será do 70 até o final
teste_x = x[70:]
teste_y = y[70:]

# Demonstrando a nossa base:
print(f"Treino: {len(treino_x)}; Teste: {len(teste_x)}")'''

# Usando o modelo Sklearn Split
from sklearn.model_selection import train_test_split

SEED = 10

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state=SEED, test_size = 0.29, stratify=y)

# Demonstrando a nossa base
print(f"Treino: {len(treino_x)}; Teste: {len(teste_x)}")

Treino: 70; Teste: 29


# Treino do modelo



In [170]:
# Importação da lib com o modelo LinearSVC:
from sklearn.svm import LinearSVC

# Selecionar o modelo
modelo = LinearSVC()

# Treinar o modelo
modelo.fit(treino_x, treino_y)

# Teste do modelo

Executa a predição do teste para medir sua precisão

In [171]:
# Importação do accuracy_score

from sklearn.metrics import accuracy_score

# Definir a variavel previsoes como "resposta" deste teste:
previsoes = modelo.predict(teste_x)

# Imprime o resultado das previsões
print(f"Previsao: {previsoes}")

# Imprime o resultado esperado
print(f"Esperado: {teste_y.values}")

# Avalia se a previsão foi feita de forma correta
precisao = accuracy_score(teste_y, previsoes)

print(f"Precisão do modelo: {precisao * 100:.2f}%")

Previsao: [0 0 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 1]
Esperado: [0 0 1 1 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 1 0 1 0 1]
Precisão do modelo: 93.10%


Sabendo que as "bases" tem quantidades diferentes de informações

In [174]:
# Conta quantos itens 0 e 1 tem no treino_y
print(f"Quantidade no Treino Y: {treino_y.value_counts()}")

# Conta quantos itens 0 e 1 tem no "teste_y"
print(f"\nQuantidade no Teste Y: {teste_y.value_counts()}")

# Calcula a relação entre os dados
print(f"\nRelação entre os dados de treino: {(treino_y.value_counts()[0] / treino_y.value_counts()[1]):.2f}")
print(f"\nRelação entre os dados de teste: {(teste_y.value_counts()[0] / teste_y.value_counts()[1]):.2f}")

Quantidade no Treino Y: comprou
0    47
1    23
Name: count, dtype: int64

Quantidade no Teste Y: comprou
0    19
1    10
Name: count, dtype: int64

Relação entre os dados de treino: 2.04

Relação entre os dados de teste: 1.90
