In [2]:
! pip install pandas


Collecting pandas
  Using cached pandas-2.2.3-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2024.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Using cached tzdata-2024.2-py2.py3-none-any.whl.metadata (1.4 kB)
Using cached pandas-2.2.3-cp312-cp312-win_amd64.whl (11.5 MB)
Using cached pytz-2024.2-py2.py3-none-any.whl (508 kB)
Using cached tzdata-2024.2-py2.py3-none-any.whl (346 kB)
Installing collected packages: pytz, tzdata, pandas
Successfully installed pandas-2.2.3 pytz-2024.2 tzdata-2024.2


In [3]:
import pandas as pd


In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score

# Etapa 1: Carregar o conjunto de dados
url = "https://raw.githubusercontent.com/romulosilvestre/semanamachinelearning-datasets/main/tracking.csv"
df = pd.read_csv(url)

# Etapa 2: Visão geral dos dados
print(df.head())  # Primeiras 5 linhas
print(df.info())  # Informações do conjunto de dados e valores ausentes
print(df.describe())  # Estatísticas básicas

# Etapa 3: Dividir os dados em variáveis independentes (X) e alvo (y)
# Aqui estamos considerando que o comportamento de clicar em páginas (inicial, palestras, contato) influencia a compra
X = df[['inicial', 'palestras', 'contato']]  # Variáveis independentes (comportamento no site)
y = df['comprou']  # Variável alvo (se comprou ou não)

# Etapa 4: Dividir em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Etapa 5: Treinar um classificador Random Forest
modelo = RandomForestClassifier(random_state=42)
modelo.fit(X_train, y_train)

# Etapa 6: Fazer previsões
y_pred = modelo.predict(X_test)

# Etapa 7: Avaliar o modelo
acuracia = accuracy_score(y_test, y_pred)
print(f"Acurácia: {acuracia * 100:.2f}%")
print(classification_report(y_test, y_pred))

# Extra: Visualizar a importância das variáveis
importances = modelo.feature_importances_
for feature, importance in zip(X.columns, importances):
    print(f"Importância da variável {feature}: {importance:.4f}")


   inicial  palestras  contato  comprou  patrocinio
0        1          1        0        0           0
1        1          1        0        0           0
2        1          1        0        0           0
3        1          1        0        0           0
4        1          1        0        0           0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   inicial     99 non-null     int64
 1   palestras   99 non-null     int64
 2   contato     99 non-null     int64
 3   comprou     99 non-null     int64
 4   patrocinio  99 non-null     int64
dtypes: int64(5)
memory usage: 4.0 KB
None
         inicial  palestras    contato    comprou  patrocinio
count  99.000000  99.000000  99.000000  99.000000   99.000000
mean    0.535354   0.404040   0.626263   0.333333    0.050505
std     0.501287   0.493203   0.486257   0.473804    0.220099
min     0.000000   0.0