<h1 style="text-align:center;">🛒🤖 SISTEMA DE PREDIÇÃO DE ABANDONO DE CARRINHO UTILIZANDO XGBOOST</h1>

<p style="text-align:center; font-size: 22px;"><strong>Machine Learning aplicado ao comportamento de compra em e-commerce</strong></p>

---

<p style="font-size:16px;">✅ <strong>Classificação Supervisionada</strong>, utilizando o algoritmo <strong>XGBoost (Extreme Gradient Boosting)</strong>, que identifica padrões em dados históricos para prever a probabilidade de um cliente abandonar o carrinho antes da compra.</p>



---

### 📚 Bibliotecas Utilizadas

- **`json`**  
  Utilizada para manipulação de dados em formato JSON, comum em APIs e exportação de dados estruturados.

- **`pandas`**  
  Biblioteca essencial para análise e manipulação de dados. Fornece estruturas como DataFrames, facilitando a leitura, filtragem, transformação e análise dos dados tabulares.

- **`xgboost`**  
  Uma biblioteca de boosting altamente eficiente e otimizada. O `XGBoost` (Extreme Gradient Boosting) é amplamente utilizado em competições de ciência de dados devido à sua performance superior em tarefas de classificação e regressão.

- **`sklearn.model_selection.train_test_split`**  
  Função do `scikit-learn` utilizada para dividir o dataset em conjuntos de treino e teste, garantindo validação adequada do modelo.

- **`sklearn.metrics.accuracy_score`**  
  Métrica utilizada para avaliar a performance do modelo de classificação, comparando os rótulos previstos com os reais e calculando a acurácia (proporção de acertos).

> 💡 Essas bibliotecas formam a base de um pipeline de machine learning em Python, desde o carregamento dos dados até a avaliação do modelo treinado.


In [8]:
# Install required Python packages (only needed if not already installed)
!pip install pandas xgboost scikit-learn



In [9]:
# Import required libraries for data processing, modeling, and evaluation
import json
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

---
### 🧾 Pré-processamento dos Dados

A seguir, realizamos o carregamento e a preparação dos dados para alimentar o modelo de machine learning:

```python
# 📥 Carregamento do arquivo JSON
with open("dados_clientes_.json", "r") as f:
    data = json.load(f)

df = pd.DataFrame(data)

# ✅ One-hot encoding na coluna 'perfil_compra'
df = pd.get_dummies(df, columns=["perfil_compra"])

# 🎯 Separação de variáveis independentes (X) e alvo (y)
X = df.drop("abandonou_carrinho", axis=1)
y = df["abandonou_carrinho"]


In [10]:
# load json
with open("dados_clientes.json", "r") as f:
    data = json.load(f)
    
df = pd.DataFrame(data)

# ✅ One-hot encoding
df = pd.get_dummies(df, columns=["perfil_compra"])

# Separate features and target
X = df.drop("abandonou_carrinho", axis=1)
y = df["abandonou_carrinho"]

---
### 🤖 Treinamento do Modelo com XGBoost

Após o pré-processamento, seguimos para a divisão dos dados em treino e teste, e o treinamento do modelo de classificação.

```python
# 🔀 Separar os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# ⚙️ Treinamento do modelo XGBoost
model = xgb.XGBClassifier(max_depth=3, n_estimators=50, learning_rate=0.1)
model.fit(X_train, y_train)


In [11]:
# Split train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [12]:
# Train the model
model = xgb.XGBClassifier(max_depth=3, n_estimators=50, learning_rate=0.1)
model.fit(X_train, y_train)

---
### 🔎 Função de Predição para Novos Clientes

Após treinar o modelo, criamos uma função que permite prever se um cliente específico irá ou não abandonar o carrinho com base em seus dados.

```python
def predict_cart_abandonment(client_data, model, training_columns):
    import pandas as pd

    # Cria um DataFrame com uma única linha (dados do cliente)
    df_client = pd.DataFrame([client_data])

    # Aplica one-hot encoding da mesma forma feita durante o treinamento
    df_client = pd.get_dummies(df_client)

    # Garante que todas as colunas esperadas estejam presentes
    for col in training_columns:
        if col not in df_client.columns:
            df_client[col] = 0

    # Reordena as colunas para coincidir com os dados de treino
    df_client = df_client[training_columns]

    # Faz a predição
    prediction = model.predict(df_client)[0]

    # Mostra o resultado
    print("🔍 Prediction for the client:")
    print("❌ Cart Abandoned" if prediction == 1 else "✅ Purchase Completed")


In [13]:
def predict_cart_abandonment(client_data, model, training_columns):
    import pandas as pd

    # Create a DataFrame with a single row
    df_client = pd.DataFrame([client_data])

    # Apply the same one-hot encoding used during training
    df_client = pd.get_dummies(df_client)

    # Ensure all expected columns are present
    for col in training_columns:
        if col not in df_client.columns:
            df_client[col] = 0

    # Reorder columns to match the training set
    df_client = df_client[training_columns]

    # Make prediction
    prediction = model.predict(df_client)[0]

    # Show result
    print("🔍 Prediction for the client:")
    print("➡️ Cart Abandoned" if prediction == 1 else "✅ Purchase Completed")


---
### 🧪 Testando o Modelo com Clientes Simulados

Para validar o modelo, criamos dois exemplos de clientes com comportamentos distintos de navegação e interação:

```python
# 🔹 Cliente com baixo engajamento
client1 = {
    "tempo_na_pagina": 60,
    "cliques": 2,
    "perfil_compra": "impulsivo",
    "produtos_visualizados": 1,
    "visitou_pagina_frete": 0
}

predict_cart_abandonment(client1, model, X.columns)

# 🔸 Cliente com alto engajamento
client2 = {
    "tempo_na_pagina": 378,
    "cliques": 32,
    "perfil_compra": "impulsivo",
    "produtos_visualizados": 7,
    "visitou_pagina_frete": 0
}

predict_cart_abandonment(client2, model, X.columns)



In [14]:
# Define sample client data for testing cart abandonment prediction

# Define first test client with low engagement
client1 = {
    "tempo_na_pagina": 60,
    "cliques": 2,
    "perfil_compra": "impulsivo",
    "produtos_visualizados": 1,
    "visitou_pagina_frete": 0
}

predict_cart_abandonment(client1, model, X.columns)

# Define second test client with high engagement
client2 = {
  "tempo_na_pagina": 378,
  "cliques": 32,
  "perfil_compra": "impulsivo",
  "produtos_visualizados": 7,
  "visitou_pagina_frete": 0
}


predict_cart_abandonment(client2, model, X.columns)


🔍 Prediction for the client:
➡️ Cart Abandoned
🔍 Prediction for the client:
✅ Purchase Completed
