# Basic Synthetic Data Generation with DeepBridge

This tutorial demonstrates how to generate synthetic data using the DeepBridge library. I'll walk you through creating synthetic datasets with different methods and comparing their results.

## Overview

In this demonstration, we'll:
1. Create a sample dataset with mixed data types
2. Generate synthetic versions using three different methods:
   - Gaussian Copula
   - CTGAN (Conditional Tabular GAN)
   - UltraLight Generator
3. Evaluate and compare the quality of each method
4. Visualize the differences between original and synthetic data

## Understanding the Different Methods

Each synthetic data generation method has its unique characteristics:

### Gaussian Copula
- Statistical method that preserves the marginal distributions and correlations between features
- Good balance between quality and computational efficiency
- Works well for numerical data with linear relationships
- Medium memory requirements

### CTGAN (Conditional Tabular GAN)
- Neural network-based approach using Generative Adversarial Networks
- Can capture complex, non-linear relationships in the data
- Highest quality for capturing complex patterns
- More computationally intensive and requires more memory
- Longer training time

### UltraLight Generator
- Simplest and fastest approach with minimal memory requirements
- Uses basic statistical modeling rather than complex ML models
- Excellent for large datasets or limited computational resources
- Quality may be lower for complex relationships

## Example Implementation

Let's look at the code to implement these methods:

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer


import sys
import os

sys.path.append(os.path.expanduser("~/projetos/DeepBridge"))




from deepbridge.core.db_data import DBDataset
from deepbridge.synthetic import Synthesize
from deepbridge.core.experiment import Experiment


from deepbridge.validation.wrappers import (
    RobustnessSuite, UncertaintySuite, 
)

from deepbridge.utils.robustness import run_robustness_tests
from deepbridge.utils.uncertainty import run_uncertainty_tests
from deepbridge.utils.resilience import run_resilience_tests
from deepbridge.utils.hyperparameter import run_hyperparameter_tests
#---------------------------------------------------------
# Preparação de dados com cuidado especial 
#---------------------------------------------------------
print("Carregando e preparando dados...")

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification

# Gerar dados sintéticos com duas classes
X, y = make_classification(n_samples=10000, n_features=20, n_classes=2, random_state=42)
X = pd.DataFrame(X, columns=[f"feature_{i}" for i in range(20)])
y = pd.Series(y)

# Verificar e lidar com valores ausentes
print(f"Valores NaN em X antes da limpeza: {X.isna().sum().sum()}")
print(f"Valores infinitos em X: {np.isinf(X.values).sum()}")

# Resetar índices para garantir alinhamento limpo
X = X.reset_index(drop=True)
y = y.reset_index(drop=True)

# Dividir dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Resetar índices novamente após a divisão
X_train = X_train.reset_index(drop=True)
X_test = X_test.reset_index(drop=True)
y_train = y_train.reset_index(drop=True)
y_test = y_test.reset_index(drop=True)

# Criar DataFrames de treino e teste com nomes explícitos de colunas
train_df = X_train.copy()
train_df['target'] = y_train
test_df = X_test.copy()
test_df['target'] = y_test

# Verificação final
print(f"NaN em train_df: {train_df.isna().sum().sum()}")
print(f"NaN em test_df: {test_df.isna().sum().sum()}")

# Treinar modelo
print("\nTreinando modelo...")
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)


# Criar objeto de dataset
print("\nCriando objeto de dataset...")
dataset = DBDataset(
    train_data=train_df,
    test_data=test_df,
    target_column='target',
    model=model
)

  from .autonotebook import tqdm as notebook_tqdm


Carregando e preparando dados...
Valores NaN em X antes da limpeza: 0
Valores infinitos em X: 0
NaN em train_df: 0
NaN em test_df: 0

Treinando modelo...

Criando objeto de dataset...


DBDataset(with 10000 samples (not split))
Features: 20 total (0 categorical, 20 numerical)
Target: 'target'
Model: loaded
Predictions: available

In [None]:
# 5. Initialize the Experiment class
experiment = Experiment(
    dataset=dataset,
    experiment_type="binary_classification", 
    tests=['robustness', 'uncertainty', 'resilience']
)

results = experiment.run_tests("quick")

In [None]:
results['resilience']

In [None]:
    # Run robustness tests
print("\nRunning quick robustness tests...")
quick_results = run_robustness_tests(dataset, config_name="quick", verbose=False)
    
print("\nRunning full robustness tests...")
full_results = run_robustness_tests(dataset, config_name="full", verbose=False)


    # Run robustness tests
print("\nRunning quick robustness tests...")
quick_results = run_uncertainty_tests(dataset, config_name="quick", verbose=False)
    
print("\nRunning full robustness tests...")
full_results = run_uncertainty_tests(dataset, config_name="full", verbose=False)

In [None]:
full_results

In [None]:
uncertainty = UncertaintySuite(dataset, verbose=True)
uncertainty.config('quick')
results = uncertainty.run()

In [None]:
robustness_results = experiment.get_robustness_results()
# Verifica se os resultados existem
print("Visualizações disGuponíveis:", list(experiment.get_robustness_visualizations().keys()))
# Agora tente mostrar o gráfico
comparison_plot = experiment.plot_robustness_comparison()
if comparison_plot:
    comparison_plot.show()
else:
    print("Visualização ainda não disponível")

In [None]:
experiment.alternative_models

In [None]:
# 5. Initialize the Experiment class
experiment = Experiment(
    dataset=dataset,
    experiment_type="binary_classification", 
    auto_fit=True
)

In [None]:
experiment

In [None]:
comprehensive_results = experiment.get_comprehensive_results()

In [None]:
comprehensive_results

In [None]:
# Obter e avaliar os modelos alternativos
alternative_models = experiment.get_alternative_models()
print(f"Número de modelos alternativos criados: {len(alternative_models)}")

# Ver quais modelos foram criados
for name, model in alternative_models.items():
    print(f"- {name}: {type(model).__name__}")

# Comparar o desempenho dos modelos
comparison_results = experiment.evaluate_alternative_models(dataset='test')
print("\nComparação de desempenho dos modelos no conjunto de teste:")
print(comparison_results)

In [None]:
alternative_models

In [None]:
print(experiment.distillation_model.__class__.__name__)

In [None]:
experiment

In [None]:
import warnings
import matplotlib as plt

# Filtrar os avisos relacionados a feature names
warnings.filterwarnings("ignore", category=UserWarning, 
                       message="X does not have valid feature names")

# # Criar suite de robustez e configurar
# print("\nExecutando testes de robustez...")
# suite = RobustnessSuite(dataset, verbose=True)

# # Método 1: Configurar e executar
# results_quick = suite.config('quick').run()
# print(f"Pontuação de robustez (quick): {results_quick['robustness_scores']['overall_score']:.3f}")

# # Método 2: Configurar para teste completo
# results_full = suite.config('full').run()
# print(f"Pontuação de robustez (full): {results_full['robustness_scores']['overall_score']:.3f}")

# # Usuários avançados ainda podem personalizar completamente os testes
# custom_config = {
#     'feature_perturbation': [
#         {'type': 'noise', 'params': {'feature_name': 'mean radius', 'level': 0.3}}
#     ],
#     'outlier_robustness': [
#         {'type': 'isolation_forest', 'params': {'contamination': 0.15}}
#     ]
# }

# # Executar com configuração personalizada
# results_custom = suite.run_custom_test(custom_config)


In [None]:
from deepbridge.validation.wrappers.robustness_suite import RobustnessSuite

# Inicializar com um conjunto de dados
suite = RobustnessSuite(dataset, verbose=True)

# Usar configuração 'full' padrão
results_full = suite.config('full').run()

# Salvar relatório HTML
suite.save_report("robustness_report_full.html")

In [None]:
suite = RobustnessSuite(dataset, verbose=True)
results_full = suite.config('full').run()



suite.save_report("report_quick.html")

In [None]:
results_full


In [None]:
results_full

In [None]:
suite

In [None]:
suite.results

In [None]:
import os
suite.save_report("report1.html")

In [None]:
suite.config('quick')

In [None]:
# Acessar resultados organizados
robustness_results = results_full['results']

# Acessar visualizações
visualizations = robustness_results['visualizations']

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
from statsmodels.genmod.families import Binomial
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_curve, auc
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Configurar semente para reprodutibilidade
np.random.seed(42)

# Gerar dados sintéticos para classificação
def gerar_dados_classificacao(n_amostras=1000, n_features=2):
    """
    Gera conjunto de dados sintéticos para classificação binária.
    """
    # Gerar features com alguma correlação
    covariancia = np.array([[1.0, 0.5], [0.5, 1.0]])
    X = np.random.multivariate_normal(mean=[0, 0], cov=covariancia, size=n_amostras)
    
    # Adicionar mais features independentes se necessário
    if n_features > 2:
        X_extra = np.random.normal(size=(n_amostras, n_features-2))
        X = np.hstack((X, X_extra))
    
    # Gerar coeficientes reais
    beta = np.random.uniform(-1, 1, size=n_features)
    intercept = 0.5
    
    # Calcular log-odds
    log_odds = intercept + np.dot(X, beta)
    
    # Transformar em probabilidades
    p = 1 / (1 + np.exp(-log_odds))
    
    # Gerar rótulos binários
    y = np.random.binomial(1, p)
    
    return X, y, np.append(intercept, beta)

# Gerar dados
X, y, coef_verdadeiros = gerar_dados_classificacao(n_amostras=1000, n_features=3)

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Padronizar os dados para o modelo sklearn
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# ======================================================
# 1. MODELO GLM USANDO STATSMODELS
# ======================================================
print("="*50)
print("1. MODELO GLM PARA CLASSIFICAÇÃO (STATSMODELS)")
print("="*50)

# Adicionar constante para o intercepto
X_train_sm = sm.add_constant(X_train)
X_test_sm = sm.add_constant(X_test)

# Ajustar GLM com família binomial e função de ligação logit
glm_model = sm.GLM(y_train, X_train_sm, family=Binomial())
glm_results = glm_model.fit()

# Resumo do modelo
print(glm_results.summary())

# Fazer previsões (probabilidades)
y_pred_proba_glm = glm_results.predict(X_test_sm)

# Converter probabilidades para classes (0 ou 1)
y_pred_glm = (y_pred_proba_glm >= 0.5).astype(int)

# Avaliar o modelo GLM
accuracy_glm = accuracy_score(y_test, y_pred_glm)
print(f"\nAcurácia do modelo GLM: {accuracy_glm:.4f}")

# Matriz de confusão
conf_matrix_glm = confusion_matrix(y_test, y_pred_glm)
print("\nMatriz de Confusão (GLM):")
print(conf_matrix_glm)

# Relatório de classificação
print("\nRelatório de Classificação (GLM):")
print(classification_report(y_test, y_pred_glm))

# ======================================================
# 2. REGRESSÃO LOGÍSTICA USANDO SCIKIT-LEARN
# ======================================================
print("\n" + "="*50)
print("2. REGRESSÃO LOGÍSTICA (SCIKIT-LEARN)")
print("="*50)

# Ajustar modelo de regressão logística
logreg_model = LogisticRegression(random_state=42, max_iter=1000)
logreg_model.fit(X_train_scaled, y_train)

# Fazer previsões (probabilidades)
y_pred_proba_logreg = logreg_model.predict_proba(X_test_scaled)[:, 1]

# Converter probabilidades para classes (0 ou 1)
y_pred_logreg = (y_pred_proba_logreg >= 0.5).astype(int)

# Avaliar o modelo de regressão logística
accuracy_logreg = accuracy_score(y_test, y_pred_logreg)
print(f"\nAcurácia da Regressão Logística: {accuracy_logreg:.4f}")

# Matriz de confusão
conf_matrix_logreg = confusion_matrix(y_test, y_pred_logreg)
print("\nMatriz de Confusão (Regressão Logística):")
print(conf_matrix_logreg)

# Relatório de classificação
print("\nRelatório de Classificação (Regressão Logística):")
print(classification_report(y_test, y_pred_logreg))

# ======================================================
# 3. COMPARAÇÃO DOS MODELOS
# ======================================================
print("\n" + "="*50)
print("3. COMPARAÇÃO DOS MODELOS")
print("="*50)

# Comparar coeficientes
print("\nCoeficientes verdadeiros:", coef_verdadeiros)
print("Coeficientes GLM:", glm_results.params)
print("Coeficientes Regressão Logística:", 
      np.append(logreg_model.intercept_[0], logreg_model.coef_[0]))

# Calcular o ROC AUC para ambos os modelos
fpr_glm, tpr_glm, _ = roc_curve(y_test, y_pred_proba_glm)
roc_auc_glm = auc(fpr_glm, tpr_glm)

fpr_logreg, tpr_logreg, _ = roc_curve(y_test, y_pred_proba_logreg)
roc_auc_logreg = auc(fpr_logreg, tpr_logreg)

print(f"\nROC AUC (GLM): {roc_auc_glm:.4f}")
print(f"ROC AUC (Regressão Logística): {roc_auc_logreg:.4f}")

# ======================================================
# 4. VISUALIZAÇÃO
# ======================================================

# Plotar curvas ROC
plt.figure(figsize=(10, 8))
plt.plot(fpr_glm, tpr_glm, 'b-', linewidth=2, label=f'GLM (AUC = {roc_auc_glm:.3f})')
plt.plot(fpr_logreg, tpr_logreg, 'r--', linewidth=2, label=f'Regressão Logística (AUC = {roc_auc_logreg:.3f})')
plt.plot([0, 1], [0, 1], 'k--', linewidth=1)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Taxa de Falso Positivo')
plt.ylabel('Taxa de Verdadeiro Positivo')
plt.title('Curva ROC - Comparação dos Modelos')
plt.legend(loc="lower right")
plt.grid(True, alpha=0.3)
plt.savefig('comparacao_roc_curve.png')

# Visualizar as probabilidades preditas
plt.figure(figsize=(10, 8))
plt.scatter(y_pred_proba_glm, y_pred_proba_logreg, alpha=0.5)
plt.plot([0, 1], [0, 1], 'k--', linewidth=1)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.xlabel('Probabilidades GLM')
plt.ylabel('Probabilidades Regressão Logística')
plt.title('Comparação das Probabilidades Preditas pelos Modelos')
plt.grid(True, alpha=0.3)
plt.savefig('comparacao_probabilidades.png')

# Exemplo de aplicação: Fazer previsão para uma nova observação
print("\n" + "="*50)
print("5. EXEMPLO DE APLICAÇÃO")
print("="*50)

# Criar exemplo de nova observação
nova_obs = np.array([[0.5, -0.3, 0.8]])
nova_obs_scaled = scaler.transform(nova_obs)

# Adicionar constante para o GLM
nova_obs_sm = sm.add_constant(nova_obs)

# Fazer previsões
prob_glm = glm_results.predict(nova_obs_sm)[0]
prob_logreg = logreg_model.predict_proba(nova_obs_scaled)[0, 1]

print(f"\nNova observação: {nova_obs[0]}")
print(f"Probabilidade predita pelo GLM: {prob_glm:.4f}")
print(f"Probabilidade predita pela Regressão Logística: {prob_logreg:.4f}")
print(f"Classe predita pelo GLM: {1 if prob_glm >= 0.5 else 0}")
print(f"Classe predita pela Regressão Logística: {1 if prob_logreg >= 0.5 else 0}")

# ======================================================
# FUNÇÕES PARA USO PRÁTICO DOS MODELOS
# ======================================================

def prever_probabilidade_glm(modelo, nova_obs, adicionar_constante=True):
    """
    Faz previsão de probabilidade usando o modelo GLM.
    
    Args:
        modelo: Modelo GLM treinado
        nova_obs: Array numpy com features da nova observação
        adicionar_constante: Se True, adiciona coluna de 1's para o intercepto
        
    Returns:
        Probabilidade de pertencer à classe positiva
    """
    if adicionar_constante:
        nova_obs = sm.add_constant(nova_obs)
    return modelo.predict(nova_obs)

def prever_probabilidade_logreg(modelo, nova_obs, scaler=None):
    """
    Faz previsão de probabilidade usando o modelo de Regressão Logística.
    
    Args:
        modelo: Modelo de regressão logística treinado
        nova_obs: Array numpy com features da nova observação
        scaler: Scaler usado para padronizar os dados, se aplicável
        
    Returns:
        Probabilidade de pertencer à classe positiva
    """
    if scaler is not None:
        nova_obs = scaler.transform(nova_obs)
    return modelo.predict_proba(nova_obs)[:, 1]

In [None]:
# Verifique primeiro se a visualização existe
if 'feature_importance' in visualizations:
    with open('feature_importance.html', 'w') as f:
        f.write(visualizations['feature_importance'])
else:
    print("Visualização 'feature_importance' não disponível.")

    
# Exemplo: Exibir uma visualização específica em um notebook
from IPython.display import HTML
HTML(visualizations['robustness_summary'])

# Exemplo: Salvar uma visualização em um arquivo HTML
with open('feature_importance.html', 'w') as f:
    f.write(visualizations['feature_importance'])

In [None]:
synthetic_df = Synthesize(
    dataset=dataset,
    method='gaussian',
    num_samples=1000,  
    verbose=False
)

In [None]:
from deepbridge.synthetic.metrics.similarity import calculate_similarity

# Acesse os dados originais e os dados sintéticos
original_data = synthetic_df.original_data
synthetic_data = synthetic_df.data

# Calcule a similaridade
similarity_scores = calculate_similarity(
    original_data=original_data,
    synthetic_data=synthetic_data,
    # Parâmetros opcionais:
    metric='euclidean',         # Métrica de distância a ser usada
    n_neighbors=5,              # Número de vizinhos a considerar
    sample_size=10000,          # Tamanho máximo da amostra a usar
    random_state=42,            # Seed para reprodutibilidade
    verbose=True                # Mostrar informações de progresso
)

# similarity_scores é um pandas.Series com um score para cada amostra sintética
# Valores mais próximos de 1 indicam maior similaridade (mais parecidos)
# Valores mais próximos de 0 indicam menor similaridade (mais diferentes)

# Estatísticas de similaridade
print(f"Similaridade média: {similarity_scores.mean():.4f}")
print(f"Similaridade mínima: {similarity_scores.min():.4f}")
print(f"Similaridade máxima: {similarity_scores.max():.4f}")

# Você também pode visualizar a distribuição dos scores
import matplotlib.pyplot as plt
plt.hist(similarity_scores, bins=50)
plt.title('Distribuição dos Scores de Similaridade')
plt.xlabel('Score de Similaridade')
plt.ylabel('Frequência')
plt.show()

In [None]:
from deepbridge.synthetic.metrics.similarity import filter_by_similarity

# Filtra dados com similaridade acima de um limiar
filtered_data = filter_by_similarity(
    original_data=original_data,
    synthetic_data=synthetic_data,
    threshold=0.9,              # Remove samples com similaridade >= 0.9
    verbose=True
)

print(f"Amostras originais: {len(synthetic_data)}")
print(f"Amostras após filtragem: {len(filtered_data)}")

In [None]:
# Avaliação da diversidade dos dados sintéticos
from deepbridge.synthetic.metrics.similarity import calculate_diversity

diversity_metrics = calculate_diversity(
    synthetic_data=synthetic_df.data,
    verbose=True
)

# Avaliação das diferenças de correlação entre variáveis numéricas
from deepbridge.synthetic.metrics.similarity import evaluate_pairwise_correlations

correlation_analysis = evaluate_pairwise_correlations(
    original_data=original_data,
    synthetic_data=synthetic_data
)

# Mostrar pares de colunas com maiores diferenças de correlação
print(correlation_analysis.head(10))

In [None]:
try:
    from deepbridge.synthetic.metrics.similarity import plot_distribution_comparison
    
    fig = plot_distribution_comparison(
        original_data=original_data,
        synthetic_data=synthetic_data
    )
    plt.show()
except ImportError:
    print("Módulo de visualização não disponível")

In [None]:
# Gerando um relatório HTML
report_path = synthetic_df.save_report("relatorio_dados_sinteticos.html")
print(f"Relatório gerado e salvo em: {report_path}")

In [None]:
X = synthetic_df.data.drop('target', axis=1)
y = synthetic_df.data['target']

In [None]:
y_pred = model.predict(X)

In [None]:
# # 6. Avaliação do modelo
# accuracy = accuracy_score(y, y_pred)
# report = classification_report(y, y_pred)

# print(report)

In [None]:
import pandas as pd
from sqlalchemy import create_engine, text
import sys # Para sair em caso de erro crítico

# --- 1. Configurações ---
DB_HOST = '127.0.0.1'
DB_PORT = 3306 # Porta geralmente é um inteiro
DB_USER = 'root'
DB_PASSWORD = 'rootpass'
DB_NAME = 'gevao'
CSV_FILE_PATH = '/home/guhaase/projetos/DeepBridge/examples/Synthetic/EST_MOD_ANA_MON.csv'
TABLE_NAME = 'EST_MOD_ANA_MON' # Nome da tabela no MySQL

# --- 2. Montar a String de Conexão SQLAlchemy ---
# Formato: mysql+mysqlconnector://user:password@host:port/database
try:
    db_connection_str = f'mysql+mysqlconnector://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}'
    print(f"String de conexão (sem senha): mysql+mysqlconnector://{DB_USER}:***@{DB_HOST}:{DB_PORT}/{DB_NAME}")
except Exception as e:
    print(f"Erro ao formatar a string de conexão: {e}")
    sys.exit(1) # Sai do script se não conseguir nem formatar a string

# --- 3. Criar o Engine de Conexão ---
engine = None # Inicializa engine como None
try:
    engine = create_engine(db_connection_str)
    # Tenta conectar para verificar as credenciais e a disponibilidade do DB
    with engine.connect() as connection:
        print(f"Conexão com o banco de dados '{DB_NAME}' estabelecida com sucesso!")
except Exception as e:
    print(f"Erro ao conectar ao banco de dados MySQL: {e}")
    print("Verifique se o servidor MySQL está rodando, as credenciais estão corretas e o banco de dados existe.")
    sys.exit(1) # Sai do script se a conexão falhar

# --- 4. Ler o arquivo CSV ---
try:
    print(f"Lendo o arquivo CSV: {CSV_FILE_PATH}")
    df = pd.read_csv(CSV_FILE_PATH)
    print(f"Arquivo CSV lido com sucesso. Shape: {df.shape}")

    # Pré-tratamento: Remover colunas "Unnamed" se existirem (opcional, mas boa prática)
    unnamed_cols = [col for col in df.columns if col.startswith('Unnamed')]
    if unnamed_cols:
        print(f"Removendo colunas 'Unnamed': {unnamed_cols}")
        df = df.drop(columns=unnamed_cols)
        print(f"Colunas removidas. Novo shape: {df.shape}")

    # Opcional: Limpar nomes de colunas para serem compatíveis com SQL (ex: remover espaços, caracteres especiais)
    # df.columns = df.columns.str.replace(' ', '_', regex=False).str.replace('[^A-Za-z0-9_]+', '', regex=True)
    # print("Nomes das colunas após limpeza básica:", df.columns.tolist())


except FileNotFoundError:
    print(f"Erro: Arquivo CSV não encontrado em '{CSV_FILE_PATH}'")
    if engine:
        engine.dispose() # Libera recursos do engine se ele foi criado
    sys.exit(1)
except Exception as e:
    print(f"Erro ao ler ou pré-processar o arquivo CSV: {e}")
    if engine:
        engine.dispose()
    sys.exit(1)

# --- 5. Enviar o DataFrame para o MySQL ---
try:
    print(f"Enviando dados para a tabela '{TABLE_NAME}' no MySQL...")
    # Usando 'replace': Se a tabela existir, ela será excluída e recriada.
    # Use 'append' se quiser adicionar os dados a uma tabela existente.
    # Use 'fail' (padrão) se não quiser sobrescrever e gerar erro se a tabela existir.
    df.to_sql(name=TABLE_NAME, con=engine, if_exists='replace', index=False, chunksize=1000)
    # chunksize=1000 ajuda a enviar dados em lotes, útil para tabelas grandes

    print(f"Dados enviados com sucesso para a tabela '{TABLE_NAME}'.")

    # Verifica quantas linhas foram inseridas (opcional)
    with engine.connect() as connection:
        result = connection.execute(text(f"SELECT COUNT(*) FROM {TABLE_NAME}"))
        count = result.scalar()
        print(f"Verificação: A tabela '{TABLE_NAME}' contém {count} linhas.")


except Exception as e:
    print(f"Erro ao enviar dados para o MySQL: {e}")
    print("Verifique permissões do usuário, tipos de dados incompatíveis ou outros problemas no DB.")

finally:
    # --- 6. Fechar a Conexão (liberar recursos) ---
    if engine:
        engine.dispose()
        print("Conexão com o banco de dados fechada.")