In [52]:

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import time
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from imblearn.over_sampling import SMOTE
import shap
from lime.lime_tabular import LimeTabularExplainer
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor
from scipy.stats import shapiro
from google.colab import files
from IPython.display import display, Markdown

# ---------------- Upload de arquivo ----------------
uploaded = files.upload()
for fn in uploaded.keys():
    if fn.endswith(".csv"):
        dados = pd.read_csv(fn)
    else:
        dados = pd.read_excel(fn)

# ---------------- Tradu√ß√£o de colunas ----------------
traducao = {"Revenue":"Compra","BounceRates":"TaxaRejei√ß√£o","ExitRates":"TaxaSa√≠da",
            "PageValues":"ValorP√°gina","SpecialDay":"DiaEspecial","Month":"M√™s",
            "OperatingSystems":"SistemaOperacional","Browser":"Navegador","Region":"Regi√£o",
            "TrafficType":"TipoTr√°fego","VisitorType":"TipoVisitante","Weekend":"FimDeSemana"}
dados = dados.rename(columns=traducao)

X = dados.drop(columns=["Compra"])
y = dados["Compra"].astype(int)

colunas_num = X.select_dtypes(include=[float,int]).columns.tolist()
colunas_cat = X.select_dtypes(exclude=[float,int]).columns.tolist()

preprocessador = ColumnTransformer([
    ("num", StandardScaler(), colunas_num),
    ("cat", OneHotEncoder(handle_unknown="ignore", sparse_output=False), colunas_cat)
])

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.2, random_state=42)
X_train_proc = preprocessador.fit_transform(X_train)
X_test_proc = preprocessador.transform(X_test)

smote = SMOTE(random_state=42)
X_train_bal, y_train_bal = smote.fit_resample(X_train_proc, y_train)

# ---------------- Modelagem ----------------
modelo = LogisticRegression(max_iter=1000)
modelo.fit(X_train_bal, y_train_bal)

def avaliar(modelo, X_teste, y_teste):
    y_pred = modelo.predict(X_teste)
    y_proba = modelo.predict_proba(X_teste)[:,1]
    return {
        "Acur√°cia": accuracy_score(y_teste, y_pred),
        "Precis√£o": precision_score(y_teste, y_pred),
        "Recall": recall_score(y_teste, y_pred),
        "F1": f1_score(y_teste, y_pred),
        "AUC": roc_auc_score(y_teste, y_proba)
    }

resultados = avaliar(modelo, X_test_proc, y_test)
display(pd.DataFrame([resultados]))

# ---------------- Gr√°ficos EDA ----------------
px.histogram(dados, x="ValorP√°gina", color="Compra").show()
px.box(dados, x="Compra", y="TaxaRejei√ß√£o").show()
px.imshow(dados[colunas_num].corr(), text_auto=True, color_continuous_scale="Blues").show()

# ---------------- Testes Estat√≠sticos ----------------
vif_data = pd.DataFrame()
vif_data["feature"] = colunas_num
vif_data["VIF"] = [variance_inflation_factor(X_train[colunas_num].values, i)
                   for i in range(len(colunas_num))]
display(vif_data)

residuos = y_test - modelo.predict(X_test_proc)
stat, p = shapiro(residuos)
print(f"Normalidade dos res√≠duos (Shapiro-Wilk): p-valor={p:.4f}")

X_test_bp = sm.add_constant(X_test_proc)
bp_test = sm.stats.diagnostic.het_breuschpagan(residuos, X_test_bp)
print(f"Homoscedasticidade (Breusch-Pagan): estat√≠stica={bp_test[0]:.3f}, p-valor={bp_test[1]:.4f}")

# ---------------- Relat√≥rio Executivo ----------------
relatorio = f"""
üìÑ Relat√≥rio Executivo ‚Äì {modelo.__class__.__name__}

üìä Principais m√©tricas:
- Acur√°cia: {resultados['Acur√°cia']:.3f}
- Precis√£o: {resultados['Precis√£o']:.3f}
- Recall: {resultados['Recall']:.3f}
- F1: {resultados['F1']:.3f}
- AUC: {resultados['AUC']:.3f}

üîç Vari√°veis mais influentes:
- ValorP√°gina: p√°ginas com alto valor aumentam chance de compra.
- TaxaRejei√ß√£o: altas taxas reduzem probabilidade de compra.
- DiaEspecial: datas pr√≥ximas a eventos especiais elevam convers√£o.

üìå Interpreta√ß√£o executiva:
O modelo √© eficaz para identificar potenciais compradores em campanhas amplas.
A precis√£o moderada sugere aten√ß√£o a falsos positivos em a√ß√µes direcionadas.

üéØ Recomenda√ß√µes:
- Segmentar usu√°rios que acessam p√°ginas de alto valor.
- Intensificar campanhas em datas especiais.
- Monitorar taxa de rejei√ß√£o para remarketing.
"""
display(Markdown(relatorio))

Saving online_shoppers_intention.csv to online_shoppers_intention (1).csv


Unnamed: 0,Acur√°cia,Precis√£o,Recall,F1,AUC
0,0.844688,0.499136,0.756545,0.601457,0.896967


Unnamed: 0,feature,VIF
0,Administrative,2.781934
1,Administrative_Duration,2.013374
2,Informational,2.172212
3,Informational_Duration,1.844925
4,ProductRelated,6.355323
5,ProductRelated_Duration,5.789253
6,TaxaRejei√ß√£o,6.790181
7,TaxaSa√≠da,9.772725
8,ValorP√°gina,1.134976
9,DiaEspecial,1.119321


Normalidade dos res√≠duos (Shapiro-Wilk): p-valor=0.0000
Homoscedasticidade (Breusch-Pagan): estat√≠stica=432.813, p-valor=0.0000



üìÑ Relat√≥rio Executivo ‚Äì LogisticRegression

üìä Principais m√©tricas:
- Acur√°cia: 0.845
- Precis√£o: 0.499
- Recall: 0.757
- F1: 0.601
- AUC: 0.897

üîç Vari√°veis mais influentes:
- ValorP√°gina: p√°ginas com alto valor aumentam chance de compra.
- TaxaRejei√ß√£o: altas taxas reduzem probabilidade de compra.
- DiaEspecial: datas pr√≥ximas a eventos especiais elevam convers√£o.

üìå Interpreta√ß√£o executiva:
O modelo √© eficaz para identificar potenciais compradores em campanhas amplas.
A precis√£o moderada sugere aten√ß√£o a falsos positivos em a√ß√µes direcionadas.

üéØ Recomenda√ß√µes:
- Segmentar usu√°rios que acessam p√°ginas de alto valor.
- Intensificar campanhas em datas especiais.
- Monitorar taxa de rejei√ß√£o para remarketing.
