# An√°lise Explorat√≥ria e Modelagem com √Årvores de Decis√£o  
**Projeto de Machine Learning Aplicado ao Varejo - Luiz Gustavo Lisboa Viana | 6¬∫P Sistema de Informa√ß√£o**

## 1. Importa√ß√£o de Bibliotecas

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

plt.rcParams["figure.figsize"] = (10, 6)

## 2. Carregamento de Dados

In [None]:
df = pd.read_csv("../uploads/dataset.csv")
df["Data_Pedido"] = pd.to_datetime(df["Data_Pedido"], format="%d/%m/%Y")
df.head()

## 3. An√°lise Explorat√≥ria

In [None]:
print("üîé Informa√ß√µes gerais:")
print(df.info())
print("\nüìä Estat√≠sticas descritivas:")
print(df.describe())
print("\nüßº Valores ausentes por coluna:")
print(df.isnull().sum())

In [None]:
sns.histplot(df["Valor_Venda"], bins=30, kde=True)
plt.title("Distribui√ß√£o de Valor de Venda")
plt.show()

In [None]:
sns.countplot(data=df, x='Categoria')
plt.title("Distribui√ß√£o por Categoria")
plt.xticks(rotation=45)
plt.show()

In [None]:
df.groupby(df["Data_Pedido"].dt.to_period("M"))["Valor_Venda"].sum().plot()
plt.title("Evolu√ß√£o Mensal das Vendas")
plt.ylabel("Total de Vendas")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 4. Prepara√ß√£o dos Dados

In [None]:
# Engenharia de Features
df["Ano"] = df["Data_Pedido"].dt.year
df["Mes"] = df["Data_Pedido"].dt.month

# Codifica√ß√£o de vari√°veis categ√≥ricas
label_encoders = {}
for col in ["Segmento", "Pais", "Estado", "Cidade"]:
    le = LabelEncoder()
    df[f"{col}_Encoded"] = le.fit_transform(df[col])
    label_encoders[col] = le

In [None]:
# Sele√ß√£o de features e vari√°vel alvo
X = df[["Valor_Venda", "Segmento_Encoded", "Pais_Encoded", "Estado_Encoded", "Mes", "Ano"]]
y = df["Categoria"]

# Separa√ß√£o treino/teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print(f"üîπ Treino: {X_train.shape[0]} amostras")
print(f"üîπ Teste: {X_test.shape[0]} amostras")

## 5. Modelagem com √Årvores de Decis√£o

In [None]:
model = DecisionTreeClassifier(max_depth=5, random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

## 6. Avalia√ß√£o do Modelo

In [None]:
acc = accuracy_score(y_test, y_pred)
print(f"Acur√°cia: {acc:.4f} ({acc * 100:.2f}%)")
print("üìã Relat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred))

In [None]:
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=model.classes_, yticklabels=model.classes_)
plt.xlabel("Previs√£o")
plt.ylabel("Valor Real")
plt.title("Matriz de Confus√£o")
plt.tight_layout()
plt.show()

## 7. Visualiza√ß√£o da √Årvore e Import√¢ncia das Features

In [None]:
plt.figure(figsize=(20, 10))
plot_tree(model, filled=True, feature_names=X.columns, class_names=model.classes_, rounded=True)
plt.title("√Årvore de Decis√£o - Profundidade M√°xima = 5")
plt.show()

In [None]:
importances = pd.Series(model.feature_importances_, index=X.columns)
importances.sort_values(ascending=True).plot(kind="barh")
plt.title("Import√¢ncia das Features")
plt.xlabel("Import√¢ncia")
plt.tight_layout()
plt.show()

### ‚úÖ Valida√ß√£o Cruzada (Cross-Validation)

Para garantir a robustez do modelo de √Årvore de Decis√£o, aplicamos valida√ß√£o cruzada com 5 folds (divis√µes dos dados).  
Essa t√©cnica avalia o desempenho do modelo em diferentes subconjuntos do conjunto de dados, evitando vieses na separa√ß√£o treino/teste.

As m√©tricas obtidas permitem verificar a consist√™ncia do modelo, sua acur√°cia m√©dia e o desvio padr√£o entre os folds.

Isso √© essencial para confirmar que o modelo est√° generalizando bem e n√£o est√° sobreajustado a um subconjunto espec√≠fico dos dados.

In [None]:
from sklearn.model_selection import cross_val_score

# Valida√ß√£o cruzada com 5 folds
cv_scores = cross_val_score(
    model, X, y,
    cv=5,
    scoring='accuracy'
)

# Exibi√ß√£o dos resultados
print("üìä Valida√ß√£o Cruzada - Acur√°cia por fold:")
for i, score in enumerate(cv_scores, 1):
    print(f"Fold {i}: {score:.4f} ({score * 100:.2f}%)")

print("\nüìà Acur√°cia m√©dia:", f"{cv_scores.mean():.4f} ({cv_scores.mean() * 100:.2f}%)")
print("üìâ Desvio padr√£o:", f"{cv_scores.std():.4f}")

### üìä Visualiza√ß√£o da Valida√ß√£o Cruzada

O gr√°fico abaixo mostra a acur√°cia obtida em cada um dos 5 folds utilizados na valida√ß√£o cruzada.  
√â poss√≠vel observar que os resultados s√£o consistentes entre os folds, o que indica que o modelo tem um bom poder de generaliza√ß√£o.

Isso refor√ßa a confian√ßa no desempenho do modelo, mostrando que ele n√£o est√° dependendo de uma divis√£o espec√≠fica dos dados para obter bons resultados.

In [None]:
import matplotlib.pyplot as plt

# Gr√°fico de barras com acur√°cia por fold
plt.figure(figsize=(8, 5))
plt.bar(range(1, 6), cv_scores, color='skyblue')
plt.ylim(0.6, 0.65)
plt.xticks(range(1, 6))
plt.title("Acur√°cia por Fold - Valida√ß√£o Cruzada (5 Folds)")
plt.xlabel("Fold")
plt.ylabel("Acur√°cia")
plt.grid(axis='y', linestyle='--', alpha=0.7)

# Exibir valores acima de cada barra
for i, score in enumerate(cv_scores):
    plt.text(i + 1, score + 0.002, f"{score * 100:.2f}%", ha='center', va='bottom')

plt.tight_layout()
plt.show()