# üìä An√°lise de Pr√©-processamento de Dados

Este notebook analisa um dataset e determina automaticamente se voc√™ deve usar:
- ‚úÖ Apenas escalonamento
- ‚úÖ Apenas transforma√ß√£o
- ‚úÖ Transforma√ß√£o + escalonamento
- ‚úÖ Nenhum dos dois

---

## üì¶ Importa√ß√£o de Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import shapiro, normaltest, skew, kurtosis
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√£o de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print("‚úÖ Bibliotecas importadas com sucesso!")

## üìÇ Carregamento dos Dados

**Instru√ß√µes:** Altere o caminho do arquivo para o seu dataset.

In [None]:
# Carregue seu dataset aqui
df = pd.read_csv('/mnt/user-data/uploads/1761482687687_pasted-content-1761482687686.txt')

print(f"‚úì Dataset carregado: {df.shape[0]} linhas, {df.shape[1]} colunas")
print(f"\nPrimeiras linhas:")
df.head()

## üîß Classe Analisadora

In [None]:
class AnalisadorPreProcessamento:
    """Classe para analisar necessidade de pr√©-processamento"""
    
    def __init__(self, df, target_col='target'):
        """
        Inicializa o analisador
        
        Parameters:
        -----------
        df : pd.DataFrame
            Dataset a ser analisado
        target_col : str
            Nome da coluna target (ser√° exclu√≠da da an√°lise)
        """
        self.df = df.copy()
        self.target_col = target_col
        
        # Separar features num√©ricas (excluindo target e colunas n√£o num√©ricas)
        self.features = self.df.select_dtypes(include=[np.number]).columns.tolist()
        if target_col in self.features:
            self.features.remove(target_col)
        
        # Remover colunas com todos valores iguais ou NaN
        self.features = [col for col in self.features 
                        if self.df[col].nunique() > 1 and self.df[col].notna().sum() > 0]
        
        self.resultados = {}
        
    def calcular_estatisticas(self):
        """Calcula estat√≠sticas descritivas de cada feature"""
        print("=" * 80)
        print("üìä ESTAT√çSTICAS DESCRITIVAS")
        print("=" * 80)
        
        estatisticas = []
        
        for col in self.features:
            dados = self.df[col].dropna()
            
            if len(dados) == 0:
                continue
                
            stats_dict = {
                'Feature': col,
                'Min': dados.min(),
                'Max': dados.max(),
                'Mean': dados.mean(),
                'Median': dados.median(),
                'Std': dados.std(),
                'Range': dados.max() - dados.min(),
                'Zeros_%': (dados == 0).sum() / len(dados) * 100,
                'Skewness': skew(dados),
                'Kurtosis': kurtosis(dados)
            }
            estatisticas.append(stats_dict)
        
        self.stats_df = pd.DataFrame(estatisticas)
        print(f"\n‚úì Analisadas {len(self.features)} features num√©ricas\n")
        
        return self.stats_df
    
    def analisar_escala(self):
        """Analisa a necessidade de escalonamento"""
        print("\n" + "=" * 80)
        print("üìè AN√ÅLISE DE ESCALA")
        print("=" * 80)
        
        # Calcular ranges e magnitudes
        ranges = self.stats_df['Range'].values
        max_range = ranges.max()
        min_range = ranges[ranges > 0].min() if any(ranges > 0) else 0
        
        # Verificar disparidade de escalas
        if min_range > 0:
            ratio_escala = max_range / min_range
        else:
            ratio_escala = np.inf
        
        print(f"\nüìä Estat√≠sticas de Escala:")
        print(f"   ‚Ä¢ Range m√≠nimo: {min_range:.2e}")
        print(f"   ‚Ä¢ Range m√°ximo: {max_range:.2e}")
        print(f"   ‚Ä¢ Raz√£o max/min: {ratio_escala:.2e}")
        
        # Crit√©rios para recomendar escalonamento
        precisa_escalonamento = False
        razoes = []
        
        if ratio_escala > 100:
            precisa_escalonamento = True
            razoes.append(f"Grande disparidade de escalas (raz√£o = {ratio_escala:.0f}x)")
        
        # Verificar features com diferentes ordens de magnitude
        magnitudes = self.stats_df['Max'].apply(lambda x: np.floor(np.log10(abs(x) + 1)))
        diff_magnitudes = magnitudes.max() - magnitudes.min()
        
        if diff_magnitudes > 3:
            precisa_escalonamento = True
            razoes.append(f"Features com diferentes ordens de magnitude (diferen√ßa: {diff_magnitudes:.0f})")
        
        self.resultados['escalonamento'] = {
            'necessario': precisa_escalonamento,
            'razoes': razoes,
            'ratio_escala': ratio_escala,
            'diff_magnitudes': diff_magnitudes
        }
        
        if precisa_escalonamento:
            print(f"\n‚úÖ ESCALONAMENTO RECOMENDADO")
            print(f"\nMotivos:")
            for r in razoes:
                print(f"   ‚Ä¢ {r}")
        else:
            print(f"\n‚ùå ESCALONAMENTO N√ÉO NECESS√ÅRIO")
            print(f"   ‚Ä¢ Escalas relativamente uniformes")
        
        return precisa_escalonamento
    
    def analisar_normalidade(self):
        """Analisa a normalidade e necessidade de transforma√ß√£o"""
        print("\n" + "=" * 80)
        print("üìà AN√ÅLISE DE NORMALIDADE E ASSIMETRIA")
        print("=" * 80)
        
        features_problematicas = []
        
        for col in self.features[:20]:  # An√°lise detalhada das primeiras 20
            dados = self.df[col].dropna()
            
            if len(dados) < 3:
                continue
            
            # Calcular m√©tricas
            sk = skew(dados)
            kt = kurtosis(dados)
            
            # Teste de normalidade
            if len(dados) >= 8:
                try:
                    _, p_shapiro = shapiro(dados[:5000])  # Limitar para performance
                except:
                    p_shapiro = 1.0
            else:
                p_shapiro = 1.0
            
            # Identificar problemas
            problemas = []
            if abs(sk) > 1:
                problemas.append(f"Alta assimetria ({sk:.2f})")
            if abs(kt) > 3:
                problemas.append(f"Curtose anormal ({kt:.2f})")
            if p_shapiro < 0.05:
                problemas.append("N√£o-normal (p<0.05)")
            
            if problemas:
                features_problematicas.append({
                    'feature': col,
                    'skewness': sk,
                    'kurtosis': kt,
                    'p_value': p_shapiro,
                    'problemas': problemas
                })
        
        print(f"\nüìä Resumo da An√°lise:")
        print(f"   ‚Ä¢ Features analisadas: {min(20, len(self.features))}")
        print(f"   ‚Ä¢ Features com problemas: {len(features_problematicas)}")
        
        if features_problematicas:
            print(f"\n‚ö†Ô∏è  Features mais problem√°ticas (top 10):")
            sorted_features = sorted(features_problematicas, 
                                   key=lambda x: abs(x['skewness']), 
                                   reverse=True)[:10]
            
            for i, feat in enumerate(sorted_features, 1):
                print(f"\n   {i}. {feat['feature']}")
                print(f"      Skewness: {feat['skewness']:.3f}")
                print(f"      Kurtosis: {feat['kurtosis']:.3f}")
                print(f"      p-value: {feat['p_value']:.4f}")
        
        # An√°lise de assimetria geral
        skewness_values = self.stats_df['Skewness'].abs()
        
        pct_alta_assimetria = (skewness_values > 1).sum() / len(skewness_values) * 100
        pct_moderada_assimetria = ((skewness_values > 0.5) & (skewness_values <= 1)).sum() / len(skewness_values) * 100
        
        print(f"\nüìà Distribui√ß√£o de Assimetria:")
        print(f"   ‚Ä¢ Alta assimetria (|skew| > 1): {pct_alta_assimetria:.1f}%")
        print(f"   ‚Ä¢ Moderada (0.5 < |skew| ‚â§ 1): {pct_moderada_assimetria:.1f}%")
        print(f"   ‚Ä¢ Baixa (|skew| ‚â§ 0.5): {100 - pct_alta_assimetria - pct_moderada_assimetria:.1f}%")
        
        # Decis√£o sobre transforma√ß√£o
        precisa_transformacao = pct_alta_assimetria > 30 or len(features_problematicas) > len(self.features) * 0.3
        
        self.resultados['transformacao'] = {
            'necessario': precisa_transformacao,
            'pct_alta_assimetria': pct_alta_assimetria,
            'features_problematicas': len(features_problematicas),
            'total_features': len(self.features)
        }
        
        if precisa_transformacao:
            print(f"\n‚úÖ TRANSFORMA√á√ÉO RECOMENDADA")
            print(f"\nMotivos:")
            print(f"   ‚Ä¢ {pct_alta_assimetria:.1f}% das features t√™m alta assimetria")
            print(f"   ‚Ä¢ {len(features_problematicas)} features com distribui√ß√£o problem√°tica")
        else:
            print(f"\n‚ùå TRANSFORMA√á√ÉO N√ÉO NECESS√ÅRIA")
            print(f"   ‚Ä¢ Maioria das features tem distribui√ß√£o aceit√°vel")
        
        return precisa_transformacao
    
    def analisar_outliers(self):
        """Analisa a presen√ßa de outliers"""
        print("\n" + "=" * 80)
        print("üéØ AN√ÅLISE DE OUTLIERS")
        print("=" * 80)
        
        outliers_info = []
        
        for col in self.features:
            dados = self.df[col].dropna()
            
            if len(dados) < 4:
                continue
            
            Q1 = dados.quantile(0.25)
            Q3 = dados.quantile(0.75)
            IQR = Q3 - Q1
            
            lower_bound = Q1 - 3 * IQR
            upper_bound = Q3 + 3 * IQR
            
            outliers = ((dados < lower_bound) | (dados > upper_bound)).sum()
            pct_outliers = outliers / len(dados) * 100
            
            if pct_outliers > 0:
                outliers_info.append({
                    'feature': col,
                    'n_outliers': outliers,
                    'pct_outliers': pct_outliers
                })
        
        # Ordenar por percentual
        outliers_info.sort(key=lambda x: x['pct_outliers'], reverse=True)
        
        print(f"\nüìä Resumo:")
        print(f"   ‚Ä¢ Features com outliers: {len(outliers_info)}/{len(self.features)}")
        
        if outliers_info:
            print(f"\n‚ö†Ô∏è  Top 10 features com mais outliers:")
            for i, info in enumerate(outliers_info[:10], 1):
                print(f"   {i}. {info['feature']}: {info['n_outliers']} outliers ({info['pct_outliers']:.2f}%)")
        
        # Calcular m√©dia de outliers
        if outliers_info:
            media_pct_outliers = np.mean([x['pct_outliers'] for x in outliers_info])
            print(f"\n   M√©dia de outliers: {media_pct_outliers:.2f}%")
            
            if media_pct_outliers > 5:
                print(f"\nüí° DICA: Transforma√ß√µes como Yeo-Johnson podem ajudar a reduzir o impacto dos outliers")
        
        self.resultados['outliers'] = outliers_info
        
        return outliers_info
    
    def gerar_visualizacoes(self, n_features=6):
        """Gera visualiza√ß√µes das features mais problem√°ticas"""
        print("\n" + "=" * 80)
        print("üìä GERANDO VISUALIZA√á√ïES")
        print("=" * 80)
        
        # Selecionar features com maior assimetria
        features_sorted = self.stats_df.nlargest(n_features, 'Skewness')['Feature'].tolist()
        
        fig, axes = plt.subplots(n_features, 2, figsize=(15, 4*n_features))
        
        for i, col in enumerate(features_sorted):
            dados = self.df[col].dropna()
            
            # Histograma
            axes[i, 0].hist(dados, bins=50, edgecolor='black', alpha=0.7)
            axes[i, 0].set_title(f'{col}\nHistograma', fontweight='bold')
            axes[i, 0].set_xlabel('Valor')
            axes[i, 0].set_ylabel('Frequ√™ncia')
            
            # Adicionar estat√≠sticas
            sk = skew(dados)
            kt = kurtosis(dados)
            axes[i, 0].text(0.02, 0.98, f'Skew: {sk:.2f}\nKurt: {kt:.2f}',
                          transform=axes[i, 0].transAxes,
                          verticalalignment='top',
                          bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))
            
            # Boxplot
            axes[i, 1].boxplot(dados, vert=False)
            axes[i, 1].set_title(f'{col}\nBoxplot', fontweight='bold')
            axes[i, 1].set_xlabel('Valor')
        
        plt.tight_layout()
        plt.show()
        print("‚úì Visualiza√ß√µes de distribui√ß√µes geradas")
        
        # Gr√°fico de resumo de assimetria
        fig, ax = plt.subplots(figsize=(12, 6))
        
        # Selecionar top 20 features por assimetria
        top_skewed = self.stats_df.nlargest(20, 'Skewness', keep='all')
        
        colors = ['red' if abs(x) > 1 else 'orange' if abs(x) > 0.5 else 'green' 
                 for x in top_skewed['Skewness']]
        
        ax.barh(range(len(top_skewed)), top_skewed['Skewness'], color=colors, alpha=0.7)
        ax.set_yticks(range(len(top_skewed)))
        ax.set_yticklabels(top_skewed['Feature'], fontsize=8)
        ax.set_xlabel('Skewness', fontweight='bold')
        ax.set_title('Top 20 Features por Assimetria', fontsize=14, fontweight='bold')
        ax.axvline(x=0, color='black', linestyle='--', linewidth=1)
        ax.axvline(x=-1, color='red', linestyle=':', alpha=0.5, label='|skew| = 1')
        ax.axvline(x=1, color='red', linestyle=':', alpha=0.5)
        ax.grid(axis='x', alpha=0.3)
        ax.legend()
        
        plt.tight_layout()
        plt.show()
        print("‚úì Gr√°fico de assimetria gerado")
    
    def gerar_recomendacao_final(self):
        """Gera recomenda√ß√£o final com base em todas as an√°lises"""
        print("\n" + "=" * 80)
        print("üéØ RECOMENDA√á√ÉO FINAL")
        print("=" * 80)
        
        precisa_escalonamento = self.resultados['escalonamento']['necessario']
        precisa_transformacao = self.resultados['transformacao']['necessario']
        
        print(f"\nüìã An√°lise Completa:")
        print(f"   ‚Ä¢ Escalonamento necess√°rio: {'SIM ‚úÖ' if precisa_escalonamento else 'N√ÉO ‚ùå'}")
        print(f"   ‚Ä¢ Transforma√ß√£o necess√°ria: {'SIM ‚úÖ' if precisa_transformacao else 'N√ÉO ‚ùå'}")
        
        print(f"\n" + "‚îÄ" * 80)
        
        if precisa_transformacao and precisa_escalonamento:
            print(f"\nüîß RECOMENDA√á√ÉO: TRANSFORMA√á√ÉO + ESCALONAMENTO")
            print(f"\nüìù Pipeline Recomendado:")
            print(f"   1Ô∏è‚É£  Yeo-Johnson ou Box-Cox (transforma√ß√£o)")
            print(f"   2Ô∏è‚É£  Sele√ß√£o de Features")
            print(f"   3Ô∏è‚É£  StandardScaler ou RobustScaler (escalonamento)")
            print(f"   4Ô∏è‚É£  Modelo")
            
            print(f"\nüí° Justificativa:")
            print(f"   ‚Ä¢ Dados apresentam alta assimetria ({self.resultados['transformacao']['pct_alta_assimetria']:.1f}% features)")
            print(f"   ‚Ä¢ Escalas muito diferentes entre features (raz√£o: {self.resultados['escalonamento']['ratio_escala']:.0f}x)")
            print(f"   ‚Ä¢ Transforma√ß√£o corrige distribui√ß√µes antes da sele√ß√£o de features")
            print(f"   ‚Ä¢ Escalonamento garante magnitude compar√°vel para o modelo")
            
        elif precisa_transformacao:
            print(f"\nüîß RECOMENDA√á√ÉO: APENAS TRANSFORMA√á√ÉO")
            print(f"\nüìù Pipeline Recomendado:")
            print(f"   1Ô∏è‚É£  Yeo-Johnson ou Box-Cox (transforma√ß√£o)")
            print(f"   2Ô∏è‚É£  Sele√ß√£o de Features")
            print(f"   3Ô∏è‚É£  Modelo")
            
            print(f"\nüí° Justificativa:")
            print(f"   ‚Ä¢ Dados apresentam alta assimetria ({self.resultados['transformacao']['pct_alta_assimetria']:.1f}% features)")
            print(f"   ‚Ä¢ Escalas relativamente uniformes")
            print(f"   ‚Ä¢ Transforma√ß√£o melhorar√° a normalidade para modelos que assumem isso")
            
        elif precisa_escalonamento:
            print(f"\nüîß RECOMENDA√á√ÉO: APENAS ESCALONAMENTO")
            print(f"\nüìù Pipeline Recomendado:")
            print(f"   1Ô∏è‚É£  Sele√ß√£o de Features (se usar m√©todos sens√≠veis √† escala)")
            print(f"   2Ô∏è‚É£  StandardScaler ou MinMaxScaler")
            print(f"   3Ô∏è‚É£  Modelo")
            
            print(f"\nüí° Justificativa:")
            print(f"   ‚Ä¢ Grande disparidade de escalas (raz√£o: {self.resultados['escalonamento']['ratio_escala']:.0f}x)")
            print(f"   ‚Ä¢ Distribui√ß√µes relativamente normais")
            print(f"   ‚Ä¢ Escalonamento evitar√° domin√¢ncia de features com valores grandes")
            
        else:
            print(f"\nüîß RECOMENDA√á√ÉO: NENHUM PR√â-PROCESSAMENTO OBRIGAT√ìRIO")
            print(f"\nüìù Pipeline Recomendado:")
            print(f"   1Ô∏è‚É£  Sele√ß√£o de Features (m√©todos baseados em √°rvores funcionam bem)")
            print(f"   2Ô∏è‚É£  Modelo")
            
            print(f"\nüí° Justificativa:")
            print(f"   ‚Ä¢ Escalas relativamente uniformes")
            print(f"   ‚Ä¢ Distribui√ß√µes aceit√°veis")
            print(f"   ‚Ä¢ Considere usar modelos baseados em √°rvores (Random Forest, XGBoost)")
        
        print(f"\n" + "‚îÄ" * 80)
        
        return precisa_transformacao, precisa_escalonamento

print("‚úÖ Classe AnalisadorPreProcessamento criada!")

## üöÄ Execu√ß√£o da An√°lise

### Configura√ß√£o

**Importante:** Altere o nome da coluna target se necess√°rio.

In [None]:
# Criar inst√¢ncia do analisador
analisador = AnalisadorPreProcessamento(df, target_col='target')

print(f"‚úì Analisador criado com sucesso!")
print(f"‚úì Features num√©ricas identificadas: {len(analisador.features)}")

### 1Ô∏è‚É£ Estat√≠sticas Descritivas

In [None]:
stats_df = analisador.calcular_estatisticas()

# Visualizar as 10 primeiras features
stats_df.head(10)

### 2Ô∏è‚É£ An√°lise de Escala

In [None]:
precisa_escalonamento = analisador.analisar_escala()

### 3Ô∏è‚É£ An√°lise de Normalidade e Assimetria

In [None]:
precisa_transformacao = analisador.analisar_normalidade()

### 4Ô∏è‚É£ An√°lise de Outliers

In [None]:
outliers_info = analisador.analisar_outliers()

### 5Ô∏è‚É£ Visualiza√ß√µes

In [None]:
# Gerar visualiza√ß√µes das 6 features mais assim√©tricas
analisador.gerar_visualizacoes(n_features=6)

### 6Ô∏è‚É£ Recomenda√ß√£o Final

In [None]:
precisa_transformacao, precisa_escalonamento = analisador.gerar_recomendacao_final()

## üíª Exemplo de Pipeline

Com base na an√°lise acima, aqui est√° um exemplo de c√≥digo para implementar o pipeline recomendado:

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PowerTransformer, StandardScaler, RobustScaler
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_score

# Separar features e target
X = df.drop(columns=['target', 'os_timestamp', 'node_name'], errors='ignore')
y = df['target']

# Manter apenas features num√©ricas
X = X.select_dtypes(include=[np.number])

# Split train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"‚úì Dados preparados:")
print(f"   ‚Ä¢ X_train: {X_train.shape}")
print(f"   ‚Ä¢ X_test: {X_test.shape}")
print(f"   ‚Ä¢ Features: {X.shape[1]}")

In [None]:
# Pipeline baseado na recomenda√ß√£o
if precisa_transformacao and precisa_escalonamento:
    print("üìù Criando pipeline com: Transforma√ß√£o + Sele√ß√£o + Escalonamento + Modelo")
    pipeline = Pipeline([
        ('transformer', PowerTransformer(method='yeo-johnson')),
        ('selector', SelectKBest(f_classif, k=20)),
        ('scaler', StandardScaler()),
        ('model', LogisticRegression(max_iter=1000))
    ])
    
elif precisa_transformacao:
    print("üìù Criando pipeline com: Transforma√ß√£o + Sele√ß√£o + Modelo")
    pipeline = Pipeline([
        ('transformer', PowerTransformer(method='yeo-johnson')),
        ('selector', SelectKBest(f_classif, k=20)),
        ('model', LogisticRegression(max_iter=1000))
    ])
    
elif precisa_escalonamento:
    print("üìù Criando pipeline com: Sele√ß√£o + Escalonamento + Modelo")
    pipeline = Pipeline([
        ('selector', SelectKBest(f_classif, k=20)),
        ('scaler', StandardScaler()),
        ('model', LogisticRegression(max_iter=1000))
    ])
    
else:
    print("üìù Criando pipeline com: Sele√ß√£o + Modelo (√°rvores)")
    from sklearn.ensemble import RandomForestClassifier
    pipeline = Pipeline([
        ('selector', SelectKBest(f_classif, k=20)),
        ('model', RandomForestClassifier(n_estimators=100, random_state=42))
    ])

print("‚úÖ Pipeline criado!")

In [None]:
# Treinar e avaliar
print("üöÄ Treinando o modelo...\n")

# Cross-validation
scores = cross_val_score(pipeline, X_train, y_train, cv=5, scoring='accuracy')

print(f"üìä Resultados da Valida√ß√£o Cruzada (5-fold):")
print(f"   ‚Ä¢ Acur√°cias: {scores}")
print(f"   ‚Ä¢ M√©dia: {scores.mean():.4f} (+/- {scores.std() * 2:.4f})")

# Treinar no conjunto completo de treino
pipeline.fit(X_train, y_train)

# Avaliar no teste
test_score = pipeline.score(X_test, y_test)
print(f"\n‚úì Acur√°cia no conjunto de teste: {test_score:.4f}")

## üìä Exportar Estat√≠sticas

In [None]:
# Salvar estat√≠sticas em CSV
stats_df.to_csv('estatisticas_features.csv', index=False)
print("‚úÖ Estat√≠sticas salvas em: estatisticas_features.csv")

# Visualizar resumo
print("\nüìã Resumo das Estat√≠sticas:")
print(f"   ‚Ä¢ Total de features analisadas: {len(stats_df)}")
print(f"   ‚Ä¢ Features com alta assimetria (|skew|>1): {(stats_df['Skewness'].abs() > 1).sum()}")
print(f"   ‚Ä¢ Range m√©dio: {stats_df['Range'].mean():.2e}")
print(f"   ‚Ä¢ Desvio padr√£o m√©dio: {stats_df['Std'].mean():.2e}")

## üìù Conclus√µes

### Resumo da An√°lise:

Execute todas as c√©lulas acima para ver:
- ‚úÖ Se seu dataset precisa de **transforma√ß√£o** (Yeo-Johnson/Box-Cox)
- ‚úÖ Se seu dataset precisa de **escalonamento** (StandardScaler/MinMaxScaler)
- ‚úÖ A **ordem correta** do pipeline de pr√©-processamento
- ‚úÖ Visualiza√ß√µes das distribui√ß√µes mais problem√°ticas
- ‚úÖ C√≥digo pronto para implementa√ß√£o

### üí° Dicas Finais:

1. **Sempre use Pipelines** do scikit-learn para evitar data leakage
2. **Transforma√ß√£o vem antes** da sele√ß√£o de features
3. **Escalonamento vem depois** da sele√ß√£o de features
4. Para **modelos baseados em √°rvores**, transforma√ß√£o e escalonamento geralmente n√£o s√£o necess√°rios
5. Use **PowerTransformer** com `method='yeo-johnson'` pois aceita valores negativos

---

**üéâ Notebook criado com sucesso!**