<a href="https://colab.research.google.com/github/RafaelMeirellesJ/MineracaoDeDados/blob/main/Atividade_Classifica%C3%A7%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Atividade

**Contexto**:

Você é contratado por uma loja online que deseja melhorar a experiência de compra dos clientes. A loja deseja implementar um sistema que preveja se um cliente fará uma compra ou não, com base em suas atividades de navegação no site, como o tempo gasto em diferentes páginas, número de produtos visualizados, etc.

**Tarefa**:

Seu objetivo é criar um modelo de classificação que, com base nas atividades de navegação de um cliente, preveja se ele fará uma compra ou não.

**Passos**:

**Passo 1: Entendimento do Problema**

Discuta com os alunos sobre o cenário da atividade e como a previsão de compra pode ser útil para uma loja online.

**Passo 2: Exploração dos Dados**

Forneça um conjunto de dados simulado que contenha informações sobre atividades de navegação de clientes (tempo gasto, páginas visitadas, etc.) e se eles realizaram uma compra ou não.
Peça aos alunos para explorar os dados, entender suas colunas e valores, e identificar possíveis padrões.

**Passo 3: Pré-processamento dos Dados**

Guie os alunos na preparação dos dados, incluindo a separação dos atributos e rótulos, divisão em conjuntos de treinamento e teste, etc.

**Passo 4: Treinamento dos Modelos**

Divida a turma em grupos e atribua a cada grupo um algoritmo de classificação (por exemplo, Regressão Logística, K-NN, SVM).
Peça a cada grupo para treinar seu modelo usando o conjunto de treinamento e explicar o processo para a turma.

**Passo 5: Avaliação dos Modelos**

Depois que todos os grupos treinarem seus modelos, peça que avaliem a acurácia de seus modelos usando o conjunto de teste.
Discuta as diferentes acurácias obtidas por cada grupo e como os modelos se saíram na tarefa de previsão.

In [None]:
#Importando bibliotecas

import pandas as pd
import numpy as np
from sklearn import metrics
import warnings
warnings.filterwarnings('ignore')
import random

In [None]:
#Definindo base de dados hipotética

num_entries = 1000

np.random.seed(42)

data = {
    'user_id' : np.arange(1, num_entries +1),
    'time_on_homepage' : np.random.randint(10, 300, num_entries),
    'time_on_product_page' : np.random.randint(4, 600, num_entries),
    'num_products_viewed' : np.random.randint(1, 20, num_entries),
    'time_on_checkout_page' : np.random.randint(0, 200, num_entries),
}
data['purchased'] = [1 if time > 100 else 0 for time in data ['time_on_checkout_page']]

data = pd.DataFrame(data)
data.head()



Unnamed: 0,user_id,time_on_homepage,time_on_product_page,num_products_viewed,time_on_checkout_page,purchased
0,1,112,331,10,86,0
1,2,280,57,7,87,0
2,3,116,242,5,49,0
3,4,81,232,1,7,0
4,5,198,582,13,168,1


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype
---  ------                 --------------  -----
 0   user_id                1000 non-null   int64
 1   time_on_homepage       1000 non-null   int64
 2   time_on_product_page   1000 non-null   int64
 3   num_products_viewed    1000 non-null   int64
 4   time_on_checkout_page  1000 non-null   int64
 5   purchased              1000 non-null   int64
dtypes: int64(6)
memory usage: 47.0 KB


In [None]:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
user_id,1000.0,500.5,288.819436,1.0,250.75,500.5,750.25,1000.0
time_on_homepage,1000.0,156.258,83.404807,10.0,85.0,156.0,229.0,299.0
time_on_product_page,1000.0,300.345,172.900331,4.0,150.0,304.0,452.25,597.0
num_products_viewed,1000.0,10.089,5.531155,1.0,5.0,10.0,15.0,19.0
time_on_checkout_page,1000.0,100.528,56.199926,0.0,54.0,101.0,149.25,199.0
purchased,1000.0,0.501,0.500249,0.0,0.0,1.0,1.0,1.0


In [None]:
#Retirando a coluna do id do usuário

data.drop('user_id', axis=1)

Unnamed: 0,time_on_homepage,time_on_product_page,num_products_viewed,time_on_checkout_page,purchased
0,112,331,10,86,0
1,280,57,7,87,0
2,116,242,5,49,0
3,81,232,1,7,0
4,198,582,13,168,1
...,...,...,...,...,...
995,297,389,15,71,0
996,187,577,17,106,1
997,17,408,18,136,1
998,256,249,6,174,1


In [None]:
# Dividino os dados em atributos (X) e rótulos (y)

x = df[['time_on_homepage', 'time_on_product_page', 'num_products_viewed','time_on_checkout_page']]
y = df[['purchased']]

In [None]:
#Dividindo os dados em conjuntos de treinamento de teste (80/20)

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split ( x,y, test_size = 0.2, random_state = 42 )

In [None]:
#Fazendo o treinamento dos modelos

from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

models = {'Regressão Logística' : LogisticRegression(),
  'k-NN' :  KNeighborsClassifier(),
  'SBN' : SVC(),
  'XGBoost' : XGBClassifier()
}

for purchase, model in models.items():
  model.fit(x_train,y_train)
  y_pred = model.predict(x_test)
  accuracy = accuracy_score(y_test, y_pred)
  metricas = metrics.classification_report(y_test,model.predict(x_test))
  print(f'{purchase} : Acurácia = {accuracy: .2f}')
  print(f'{purchase} : Métricas \n {metricas :}')

Regressão Logística : Acurácia =  0.99
Regressão Logística : Métricas 
               precision    recall  f1-score   support

           0       0.99      1.00      1.00       107
           1       1.00      0.99      0.99        93

    accuracy                           0.99       200
   macro avg       1.00      0.99      0.99       200
weighted avg       1.00      0.99      0.99       200

k-NN : Acurácia =  0.94
k-NN : Métricas 
               precision    recall  f1-score   support

           0       0.94      0.94      0.94       107
           1       0.94      0.94      0.94        93

    accuracy                           0.94       200
   macro avg       0.94      0.94      0.94       200
weighted avg       0.94      0.94      0.94       200

SBN : Acurácia =  0.96
SBN : Métricas 
               precision    recall  f1-score   support

           0       0.95      0.97      0.96       107
           1       0.97      0.95      0.96        93

    accuracy                

In [None]:
#Realizando a previsão da efetivação da compra

purchase_completed = pd.DataFrame({'time_on_homepage' : [175], 'time_on_product_page' : [500], 'num_products_viewed' : [10], 'time_on_checkout_page' : [125]})

for purchase, model in models.items():
  prediction = model.predict(purchase_completed)
  print(f'Previsão de {purchase} : Compra conluída' if prediction[0] == 1 else 'Não concluída')

Previsão de Regressão Logística : Compra conluída
Previsão de k-NN : Compra conluída
Previsão de SBN : Compra conluída
Previsão de XGBoost : Compra conluída
