<h1 style="text-align:center;">üõíü§ñ SISTEMA DE PREDI√á√ÉO DE ABANDONO DE CARRINHO UTILIZANDO XGBOOST</h1>

<p style="text-align:center; font-size: 22px;"><strong>Machine Learning aplicado ao comportamento de compra em e-commerce</strong></p>

---

<p style="font-size:16px;">‚úÖ <strong>Classifica√ß√£o Supervisionada</strong>, utilizando o algoritmo <strong>XGBoost (Extreme Gradient Boosting)</strong>, que identifica padr√µes em dados hist√≥ricos para prever a probabilidade de um cliente abandonar o carrinho antes da compra.</p>



---

### üìö Bibliotecas Utilizadas

- **`json`**  
  Utilizada para manipula√ß√£o de dados em formato JSON, comum em APIs e exporta√ß√£o de dados estruturados.

- **`pandas`**  
  Biblioteca essencial para an√°lise e manipula√ß√£o de dados. Fornece estruturas como DataFrames, facilitando a leitura, filtragem, transforma√ß√£o e an√°lise dos dados tabulares.

- **`xgboost`**  
  Uma biblioteca de boosting altamente eficiente e otimizada. O `XGBoost` (Extreme Gradient Boosting) √© amplamente utilizado em competi√ß√µes de ci√™ncia de dados devido √† sua performance superior em tarefas de classifica√ß√£o e regress√£o.

- **`sklearn.model_selection.train_test_split`**  
  Fun√ß√£o do `scikit-learn` utilizada para dividir o dataset em conjuntos de treino e teste, garantindo valida√ß√£o adequada do modelo.

- **`sklearn.metrics.accuracy_score`**  
  M√©trica utilizada para avaliar a performance do modelo de classifica√ß√£o, comparando os r√≥tulos previstos com os reais e calculando a acur√°cia (propor√ß√£o de acertos).

> üí° Essas bibliotecas formam a base de um pipeline de machine learning em Python, desde o carregamento dos dados at√© a avalia√ß√£o do modelo treinado.


In [8]:
# Install required Python packages (only needed if not already installed)
!pip install pandas xgboost scikit-learn



In [9]:
# Import required libraries for data processing, modeling, and evaluation
import json
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

---
### üßæ Pr√©-processamento dos Dados

A seguir, realizamos o carregamento e a prepara√ß√£o dos dados para alimentar o modelo de machine learning:

```python
# üì• Carregamento do arquivo JSON
with open("dados_clientes_.json", "r") as f:
    data = json.load(f)

df = pd.DataFrame(data)

# ‚úÖ One-hot encoding na coluna 'perfil_compra'
df = pd.get_dummies(df, columns=["perfil_compra"])

# üéØ Separa√ß√£o de vari√°veis independentes (X) e alvo (y)
X = df.drop("abandonou_carrinho", axis=1)
y = df["abandonou_carrinho"]


In [10]:
# load json
with open("dados_clientes.json", "r") as f:
    data = json.load(f)
    
df = pd.DataFrame(data)

# ‚úÖ One-hot encoding
df = pd.get_dummies(df, columns=["perfil_compra"])

# Separate features and target
X = df.drop("abandonou_carrinho", axis=1)
y = df["abandonou_carrinho"]

---
### ü§ñ Treinamento do Modelo com XGBoost

Ap√≥s o pr√©-processamento, seguimos para a divis√£o dos dados em treino e teste, e o treinamento do modelo de classifica√ß√£o.

```python
# üîÄ Separar os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# ‚öôÔ∏è Treinamento do modelo XGBoost
model = xgb.XGBClassifier(max_depth=3, n_estimators=50, learning_rate=0.1)
model.fit(X_train, y_train)


In [11]:
# Split train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [12]:
# Train the model
model = xgb.XGBClassifier(max_depth=3, n_estimators=50, learning_rate=0.1)
model.fit(X_train, y_train)

---
### üîé Fun√ß√£o de Predi√ß√£o para Novos Clientes

Ap√≥s treinar o modelo, criamos uma fun√ß√£o que permite prever se um cliente espec√≠fico ir√° ou n√£o abandonar o carrinho com base em seus dados.

```python
def predict_cart_abandonment(client_data, model, training_columns):
    import pandas as pd

    # Cria um DataFrame com uma √∫nica linha (dados do cliente)
    df_client = pd.DataFrame([client_data])

    # Aplica one-hot encoding da mesma forma feita durante o treinamento
    df_client = pd.get_dummies(df_client)

    # Garante que todas as colunas esperadas estejam presentes
    for col in training_columns:
        if col not in df_client.columns:
            df_client[col] = 0

    # Reordena as colunas para coincidir com os dados de treino
    df_client = df_client[training_columns]

    # Faz a predi√ß√£o
    prediction = model.predict(df_client)[0]

    # Mostra o resultado
    print("üîç Prediction for the client:")
    print("‚ùå Cart Abandoned" if prediction == 1 else "‚úÖ Purchase Completed")


In [13]:
def predict_cart_abandonment(client_data, model, training_columns):
    import pandas as pd

    # Create a DataFrame with a single row
    df_client = pd.DataFrame([client_data])

    # Apply the same one-hot encoding used during training
    df_client = pd.get_dummies(df_client)

    # Ensure all expected columns are present
    for col in training_columns:
        if col not in df_client.columns:
            df_client[col] = 0

    # Reorder columns to match the training set
    df_client = df_client[training_columns]

    # Make prediction
    prediction = model.predict(df_client)[0]

    # Show result
    print("üîç Prediction for the client:")
    print("‚û°Ô∏è Cart Abandoned" if prediction == 1 else "‚úÖ Purchase Completed")


---
### üß™ Testando o Modelo com Clientes Simulados

Para validar o modelo, criamos dois exemplos de clientes com comportamentos distintos de navega√ß√£o e intera√ß√£o:

```python
# üîπ Cliente com baixo engajamento
client1 = {
    "tempo_na_pagina": 60,
    "cliques": 2,
    "perfil_compra": "impulsivo",
    "produtos_visualizados": 1,
    "visitou_pagina_frete": 0
}

predict_cart_abandonment(client1, model, X.columns)

# üî∏ Cliente com alto engajamento
client2 = {
    "tempo_na_pagina": 378,
    "cliques": 32,
    "perfil_compra": "impulsivo",
    "produtos_visualizados": 7,
    "visitou_pagina_frete": 0
}

predict_cart_abandonment(client2, model, X.columns)



In [14]:
# Define sample client data for testing cart abandonment prediction

# Define first test client with low engagement
client1 = {
    "tempo_na_pagina": 60,
    "cliques": 2,
    "perfil_compra": "impulsivo",
    "produtos_visualizados": 1,
    "visitou_pagina_frete": 0
}

predict_cart_abandonment(client1, model, X.columns)

# Define second test client with high engagement
client2 = {
  "tempo_na_pagina": 378,
  "cliques": 32,
  "perfil_compra": "impulsivo",
  "produtos_visualizados": 7,
  "visitou_pagina_frete": 0
}


predict_cart_abandonment(client2, model, X.columns)


üîç Prediction for the client:
‚û°Ô∏è Cart Abandoned
üîç Prediction for the client:
‚úÖ Purchase Completed
