# Notebook 3: Comparação PyCaret vs Scikit-learn para Clustering

**Objetivo:** Implementar PyCaret para comparação com Scikit-learn, incluindo todas as features do dataset

**Desenvolvido por:** Alan de Souza Maximiano (RM: 557088)

**Data:** 2025

---

## 🎯 Objetivos

1. **Implementar PyCaret** para clustering com todas as features
2. **Comparar PyCaret vs Scikit-learn** em múltiplas métricas
3. **Justificar a escolha** do melhor modelo
4. **Documentar resultados** para o webapp


## 1. Instalação e Importação das Bibliotecas


In [None]:
# Instalação das bibliotecas necessárias
%pip install pycaret[full] --quiet
%pip install scikit-learn pandas numpy matplotlib seaborn plotly --quiet


In [None]:
# Importação das bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# PyCaret imports
from pycaret.clustering import *
from pycaret.utils import enable_colab

# Scikit-learn imports
from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
from sklearn.mixture import GaussianMixture
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

import warnings
warnings.filterwarnings('ignore')

# Configurações
pd.set_option('display.max_rows', 1000)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 100)

plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

print("✅ Bibliotecas importadas com sucesso!")
print(f"📊 Pandas version: {pd.__version__}")
print(f"🔢 NumPy version: {np.__version__}")
print(f"🤖 PyCaret version: {__import__('pycaret').__version__}")
