In [7]:
# Verifica√ß√£o e instala√ß√£o de depend√™ncias
import sys
import subprocess
import pickle

def check_and_install_packages():
    """
    Verifica e instala pacotes necess√°rios se houver problemas de compatibilidade
    """
    required_packages = [
        'numpy>=1.24.0',
        'pandas>=1.5.0',
        'scikit-learn>=1.3.0',
        'matplotlib>=3.7.0',
        'seaborn>=0.12.0'
    ]
    
    for package in required_packages:
        try:
            if 'numpy' in package:
                import numpy as np
                print(f"‚úÖ NumPy version: {np.__version__}")
            elif 'pandas' in package:
                import pandas as pd
                print(f"‚úÖ Pandas version: {pd.__version__}")
            elif 'scikit-learn' in package:
                import sklearn
                print(f"‚úÖ Scikit-learn version: {sklearn.__version__}")
            elif 'matplotlib' in package:
                import matplotlib
                print(f"‚úÖ Matplotlib version: {matplotlib.__version__}")
            elif 'seaborn' in package:
                import seaborn as sns
                print(f"‚úÖ Seaborn version: {sns.__version__}")
        except ImportError as e:
            print(f"‚ùå Erro ao importar {package}: {e}")
            print(f"üîÑ Instalando {package}...")
            subprocess.check_call([sys.executable, "-m", "pip", "install", package])
    
    print("üéâ Todas as depend√™ncias est√£o funcionando corretamente!")

# Executar verifica√ß√£o
try:
    check_and_install_packages()
except Exception as e:
    print(f"‚ö†Ô∏è Problema detectado: {e}")
    print("üîÑ Reinstalando NumPy especificamente...")
    subprocess.check_call([sys.executable, "-m", "pip", "install", "--force-reinstall", "numpy==1.24.4"])

‚úÖ NumPy version: 1.24.4
‚úÖ Pandas version: 1.5.3
‚úÖ Scikit-learn version: 1.3.0
‚úÖ Matplotlib version: 3.7.2
‚úÖ Seaborn version: 0.12.2
üéâ Todas as depend√™ncias est√£o funcionando corretamente!


# An√°lise de Ganho de Informa√ß√£o e Mutual Information

Este notebook calcula o ganho de informa√ß√£o e mutual information para o dataset SVM.
- **Ganho de Informa√ß√£o**: Mede a redu√ß√£o na entropia ap√≥s dividir o dataset com base em um atributo
- **Mutual Information**: Mede a depend√™ncia m√∫tua entre duas vari√°veis

In [11]:
# Importa√ß√£o das bibliotecas necess√°rias
import pandas as pd
import numpy as np
from sklearn.feature_selection import mutual_info_classif
from sklearn.preprocessing import LabelEncoder
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import entropy
import warnings
import pickle
warnings.filterwarnings('ignore')

In [2]:
#Vari√°veis globais
arq_dataset_pkl = '../dataset/svm.pkl'

In [None]:
# Carregar os datasets de teste, treino e valida√ß√£o do arquivo pickle
print("üìÇ Carregando datasets preprocessados...")

try:
    import pickle
    import numpy as np
    import pandas as pd
    
    # Verificar se o arquivo existe
    import os
    if not os.path.exists(arq_dataset_pkl):
        print(f"‚ùå Arquivo pickle n√£o encontrado: {arq_dataset_pkl}")
        print("üîÑ Executando carregamento direto do CSV...")
        # Carregar diretamente do CSV se o pickle n√£o existir
        raise FileNotFoundError("Pickle n√£o encontrado")
    
    # Carregar o arquivo pickle
    with open(arq_dataset_pkl, 'rb') as f:
        datasets = pickle.load(f)
    
    # Extrair os datasets
    X_train = datasets['X_train']
    X_test = datasets['X_test']
    X_val = datasets['X_val']
    y_train = datasets['y_train']
    y_test = datasets['y_test']
    y_val = datasets['y_val']
    X_train_scaled = datasets['X_train_scaled']
    X_test_scaled = datasets['X_test_scaled']
    X_val_scaled = datasets['X_val_scaled']
    classes_mapping = datasets['classes_mapping']
    
    print("‚úÖ Datasets carregados com sucesso!")
    print(f"   ‚Ä¢ X_train shape: {X_train.shape}")
    print(f"   ‚Ä¢ X_test shape: {X_test.shape}")
    print(f"   ‚Ä¢ X_val shape: {X_val.shape}")
    print(f"   ‚Ä¢ Classes mapping: {classes_mapping}")
    
    # Usar os dados preprocessados para an√°lise
    print("\nüìä Usando dados preprocessados para an√°lise de ganho de informa√ß√£o...")
    
    # Para o ganho de informa√ß√£o, vamos usar X_train e y_train
    X_for_analysis = pd.DataFrame(X_train)
    y_for_analysis = y_train
    
    print(f"   ‚Ä¢ Dados para an√°lise: {X_for_analysis.shape}")
    print(f"   ‚Ä¢ Target para an√°lise: {len(y_for_analysis)} amostras")

except Exception as e:
    print(f"‚ö†Ô∏è Erro ao carregar pickle: {e}")
    print("üîÑ Carregando dados diretamente do CSV...")
    
    # Fallback: carregar diretamente do CSV
    try:
        df = pd.read_csv('../dataset/svm.csv')
        print(f"‚úÖ Dataset CSV carregado: {df.shape}")
        
        # Assumir que a √∫ltima coluna √© o target
        X_for_analysis = df.iloc[:, :-1]
        y_for_analysis = df.iloc[:, -1]
        
        print(f"   ‚Ä¢ Features: {X_for_analysis.shape}")
        print(f"   ‚Ä¢ Target: {len(y_for_analysis)} amostras")
        
    except Exception as csv_error:
        print(f"‚ùå Erro ao carregar CSV: {csv_error}")
        print("üõë N√£o foi poss√≠vel carregar os dados. Verifique os arquivos.")
        raise

NameError: name 'pickle' is not defined

In [None]:
# Carregamento do dataset
print("Carregando dataset SVM...")
df = pd.read_csv('../dataset/svm.csv')

print(f"Shape do dataset: {df.shape}")
print(f"\nPrimeiras 5 linhas:")
print(df.head())
print(f"\nInforma√ß√µes do dataset:")
print(df.info())
print(f"\nValores √∫nicos por coluna:")
for col in df.columns:
    print(f"{col}: {df[col].nunique()} valores √∫nicos")

## Fun√ß√µes para C√°lculo de Ganho de Informa√ß√£o

O ganho de informa√ß√£o √© calculado como:
**IG(S, A) = H(S) - H(S|A)**

Onde:
- H(S) √© a entropia do conjunto original
- H(S|A) √© a entropia condicional ap√≥s a divis√£o pelo atributo A

In [None]:
def calculate_entropy(y):
    """
    Calcula a entropia de um vetor de r√≥tulos
    """
    if len(y) == 0:
        return 0
    
    # Conta a frequ√™ncia de cada classe
    _, counts = np.unique(y, return_counts=True)
    probabilities = counts / len(y)
    
    # Calcula a entropia
    entropy_value = -np.sum(probabilities * np.log2(probabilities + 1e-10))
    return entropy_value

def calculate_information_gain(X_feature, y):
    """
    Calcula o ganho de informa√ß√£o para um atributo espec√≠fico
    """
    # Entropia total do conjunto
    total_entropy = calculate_entropy(y)
    
    # Valores √∫nicos do atributo
    unique_values = np.unique(X_feature)
    
    # Entropia condicional
    weighted_entropy = 0
    for value in unique_values:
        # √çndices onde o atributo tem esse valor
        indices = X_feature == value
        subset_y = y[indices]
        
        # Peso da subdivis√£o
        weight = len(subset_y) / len(y)
        
        # Entropia da subdivis√£o
        subset_entropy = calculate_entropy(subset_y)
        
        # Adiciona √† entropia ponderada
        weighted_entropy += weight * subset_entropy
    
    # Ganho de informa√ß√£o
    information_gain = total_entropy - weighted_entropy
    return information_gain

def calculate_information_gain_ratio(X_feature, y):
    """
    Calcula a raz√£o do ganho de informa√ß√£o (Information Gain Ratio)
    """
    ig = calculate_information_gain(X_feature, y)
    
    # Entropia intr√≠nseca do atributo
    unique_values, counts = np.unique(X_feature, return_counts=True)
    probabilities = counts / len(X_feature)
    intrinsic_entropy = -np.sum(probabilities * np.log2(probabilities + 1e-10))
    
    # Evita divis√£o por zero
    if intrinsic_entropy == 0:
        return 0
    
    return ig / intrinsic_entropy

In [None]:
import pickle  
# Os dados de treino foram gerados e gravados do 
#carregar os datasets do arquivo pickle
with open('datasets.pkl', 'rb') as f:
    datasets = pickle.load(f)

X_train = datasets['X_train']
y_train = datasets['y_train']
X_train_scaled = datasets['X_train_scaled']

print(datasets)

In [None]:
# Prepara√ß√£o dos dados
print("Preparando os dados...")

# Identifica a coluna alvo (assumindo que √© a √∫ltima coluna ou uma coluna espec√≠fica)
# Vamos tentar identificar automaticamente a coluna alvo
print("Colunas dispon√≠veis:")
for i, col in enumerate(df.columns):
    print(f"{i}: {col}")

# Se n√£o soubermos qual √© a coluna alvo, vamos assumir que √© a √∫ltima
# Ou voc√™ pode especificar manualmente
target_column = df.columns[-1]  # √öltima coluna como padr√£o
print(f"\nUsando '{target_column}' como vari√°vel alvo")

# Separa features e target
X = df.drop(columns=[target_column])
y = df[target_column]

print(f"\nShape das features: {X.shape}")
print(f"Shape do target: {y.shape}")
print(f"Valores √∫nicos no target: {y.nunique()}")
print(f"Distribui√ß√£o do target:\n{y.value_counts()}")

## C√°lculo do Ganho de Informa√ß√£o

Agora vamos calcular o ganho de informa√ß√£o para cada feature em rela√ß√£o √† vari√°vel alvo.

In [None]:
# C√°lculo do ganho de informa√ß√£o para cada feature
print("Calculando ganho de informa√ß√£o...")

# Para features cont√≠nuas, vamos discretiz√°-las primeiro
def discretize_continuous_features(X, n_bins=10):
    """
    Discretiza features cont√≠nuas em bins
    """
    X_discrete = X.copy()
    
    for column in X.columns:
        if X[column].dtype in ['float64', 'int64'] and X[column].nunique() > 20:
            # Discretiza em bins
            X_discrete[column] = pd.cut(X[column], bins=n_bins, labels=False)
    
    return X_discrete

# Discretiza as features se necess√°rio
X_discrete = discretize_continuous_features(X)

# Calcula o ganho de informa√ß√£o para cada feature
information_gains = {}
information_gain_ratios = {}

for column in X_discrete.columns:
    # Remove valores NaN se houver
    mask = ~(pd.isna(X_discrete[column]) | pd.isna(y))
    feature_clean = X_discrete[column][mask].values
    y_clean = y[mask].values
    
    if len(feature_clean) > 0:
        ig = calculate_information_gain(feature_clean, y_clean)
        igr = calculate_information_gain_ratio(feature_clean, y_clean)
        
        information_gains[column] = ig
        information_gain_ratios[column] = igr

# Cria DataFrame com os resultados
ig_results = pd.DataFrame({
    'Feature': list(information_gains.keys()),
    'Information_Gain': list(information_gains.values()),
    'Information_Gain_Ratio': list(information_gain_ratios.values())
})

# Ordena por ganho de informa√ß√£o
ig_results = ig_results.sort_values('Information_Gain', ascending=False)

print("\nGanho de Informa√ß√£o por Feature (Top 15):")
print(ig_results.head(15))

## C√°lculo do Mutual Information

O Mutual Information mede a depend√™ncia estat√≠stica entre duas vari√°veis. Vamos usar a implementa√ß√£o do scikit-learn.

In [None]:
# C√°lculo do Mutual Information usando scikit-learn
print("Calculando Mutual Information...")

# Prepara os dados para o mutual information
# Remove valores NaN
mask = ~(X.isna().any(axis=1) | pd.isna(y))
X_clean = X[mask]
y_clean = y[mask]

# Para features categ√≥ricas, usa mutual_info_classif diretamente
# Para features cont√≠nuas, tamb√©m funciona bem
try:
    # Calcula mutual information
    mi_scores = mutual_info_classif(X_clean, y_clean, random_state=42)
    
    # Cria DataFrame com os resultados
    mi_results = pd.DataFrame({
        'Feature': X_clean.columns,
        'Mutual_Information': mi_scores
    })
    
    # Ordena por mutual information
    mi_results = mi_results.sort_values('Mutual_Information', ascending=False)
    
    print("\nMutual Information por Feature (Top 15):")
    print(mi_results.head(15))
    
except Exception as e:
    print(f"Erro no c√°lculo do Mutual Information: {e}")
    print("Tentando com encoding das vari√°veis categ√≥ricas...")
    
    # Se houver erro, tenta fazer encoding das vari√°veis categ√≥ricas
    X_encoded = X_clean.copy()
    label_encoders = {}
    
    for column in X_encoded.columns:
        if X_encoded[column].dtype == 'object':
            le = LabelEncoder()
            X_encoded[column] = le.fit_transform(X_encoded[column].astype(str))
            label_encoders[column] = le
    
    # Tenta novamente
    mi_scores = mutual_info_classif(X_encoded, y_clean, random_state=42)
    
    mi_results = pd.DataFrame({
        'Feature': X_encoded.columns,
        'Mutual_Information': mi_scores
    })
    
    mi_results = mi_results.sort_values('Mutual_Information', ascending=False)
    
    print("\nMutual Information por Feature (Top 15):")
    print(mi_results.head(15))

## Compara√ß√£o e Visualiza√ß√£o dos Resultados

In [None]:
# Combina os resultados para compara√ß√£o
try:
    # Merge dos resultados
    combined_results = ig_results.merge(
        mi_results, 
        on='Feature', 
        how='outer', 
        suffixes=('_IG', '_MI')
    )
    
    print("Compara√ß√£o entre Information Gain e Mutual Information:")
    print("="*70)
    print(combined_results.head(15))
    
    # Calcula correla√ß√£o entre as m√©tricas
    if len(combined_results) > 1:
        correlation = combined_results['Information_Gain'].corr(
            combined_results['Mutual_Information']
        )
        print(f"\nCorrela√ß√£o entre Information Gain e Mutual Information: {correlation:.4f}")
    
except Exception as e:
    print(f"Erro ao combinar resultados: {e}")
    print("\nResultados separados:")
    print("\nInformation Gain:")
    if 'ig_results' in locals():
        print(ig_results.head(10))
    print("\nMutual Information:")
    if 'mi_results' in locals():
        print(mi_results.head(10))

In [None]:
# Visualiza√ß√µes
plt.figure(figsize=(15, 10))

# Subplot 1: Top 15 features por Information Gain
plt.subplot(2, 2, 1)
if 'ig_results' in locals() and len(ig_results) > 0:
    top_ig = ig_results.head(15)
    plt.barh(range(len(top_ig)), top_ig['Information_Gain'])
    plt.yticks(range(len(top_ig)), top_ig['Feature'], fontsize=8)
    plt.xlabel('Information Gain')
    plt.title('Top 15 Features - Information Gain')
    plt.gca().invert_yaxis()

# Subplot 2: Top 15 features por Mutual Information
plt.subplot(2, 2, 2)
if 'mi_results' in locals() and len(mi_results) > 0:
    top_mi = mi_results.head(15)
    plt.barh(range(len(top_mi)), top_mi['Mutual_Information'])
    plt.yticks(range(len(top_mi)), top_mi['Feature'], fontsize=8)
    plt.xlabel('Mutual Information')
    plt.title('Top 15 Features - Mutual Information')
    plt.gca().invert_yaxis()

# Subplot 3: Correla√ß√£o entre IG e MI (se dispon√≠vel)
plt.subplot(2, 2, 3)
try:
    if 'combined_results' in locals() and len(combined_results) > 1:
        plt.scatter(combined_results['Information_Gain'], 
                   combined_results['Mutual_Information'], 
                   alpha=0.7)
        plt.xlabel('Information Gain')
        plt.ylabel('Mutual Information')
        plt.title('Information Gain vs Mutual Information')
        
        # Adiciona linha de tend√™ncia
        z = np.polyfit(combined_results['Information_Gain'].fillna(0), 
                      combined_results['Mutual_Information'].fillna(0), 1)
        p = np.poly1d(z)
        plt.plot(combined_results['Information_Gain'].fillna(0), 
                p(combined_results['Information_Gain'].fillna(0)), 
                "r--", alpha=0.8)
    else:
        plt.text(0.5, 0.5, 'Dados n√£o dispon√≠veis\npara correla√ß√£o', 
                ha='center', va='center', transform=plt.gca().transAxes)
except Exception as e:
    plt.text(0.5, 0.5, f'Erro: {str(e)[:50]}...', 
            ha='center', va='center', transform=plt.gca().transAxes)

# Subplot 4: Distribui√ß√£o dos valores
plt.subplot(2, 2, 4)
try:
    if 'ig_results' in locals() and 'mi_results' in locals():
        plt.hist(ig_results['Information_Gain'], alpha=0.7, label='Information Gain', bins=20)
        plt.hist(mi_results['Mutual_Information'], alpha=0.7, label='Mutual Information', bins=20)
        plt.xlabel('Valor')
        plt.ylabel('Frequ√™ncia')
        plt.title('Distribui√ß√£o dos Valores')
        plt.legend()
    else:
        plt.text(0.5, 0.5, 'Dados n√£o dispon√≠veis', 
                ha='center', va='center', transform=plt.gca().transAxes)
except Exception as e:
    plt.text(0.5, 0.5, f'Erro: {str(e)[:50]}...', 
            ha='center', va='center', transform=plt.gca().transAxes)

plt.tight_layout()
plt.show()

## Salvando os Resultados

In [None]:
# Salva os resultados em arquivos CSV
try:
    # Salva Information Gain
    if 'ig_results' in locals():
        ig_results.to_csv('../dataset/information_gain_results.csv', index=False)
        print("‚úÖ Resultados do Information Gain salvos em '../dataset/information_gain_results.csv'")
    
    # Salva Mutual Information
    if 'mi_results' in locals():
        mi_results.to_csv('../dataset/mutual_information_results.csv', index=False)
        print("‚úÖ Resultados do Mutual Information salvos em '../dataset/mutual_information_results.csv'")
    
    # Salva resultados combinados se dispon√≠vel
    if 'combined_results' in locals():
        combined_results.to_csv('../dataset/combined_information_results.csv', index=False)
        print("‚úÖ Resultados combinados salvos em '../dataset/combined_information_results.csv'")
    
    print("\nüìä Resumo da An√°lise:")
    print("="*50)
    
    if 'ig_results' in locals():
        print(f"‚Ä¢ Total de features analisadas: {len(ig_results)}")
        print(f"‚Ä¢ Feature com maior Information Gain: {ig_results.iloc[0]['Feature']} ({ig_results.iloc[0]['Information_Gain']:.4f})")
    
    if 'mi_results' in locals():
        print(f"‚Ä¢ Feature com maior Mutual Information: {mi_results.iloc[0]['Feature']} ({mi_results.iloc[0]['Mutual_Information']:.4f})")
    
    if 'combined_results' in locals() and len(combined_results) > 1:
        correlation = combined_results['Information_Gain'].corr(combined_results['Mutual_Information'])
        print(f"‚Ä¢ Correla√ß√£o entre IG e MI: {correlation:.4f}")
    
except Exception as e:
    print(f"‚ùå Erro ao salvar resultados: {e}")

print("\nüéâ An√°lise conclu√≠da!")

## Interpreta√ß√£o dos Resultados

### Information Gain vs Mutual Information

**Information Gain:**
- Mede a redu√ß√£o na entropia quando dividimos o dataset por um atributo
- Valores mais altos indicam maior capacidade de discrimina√ß√£o
- Favorece atributos com mais valores √∫nicos (pode ter vi√©s)

**Mutual Information:**
- Mede a depend√™ncia estat√≠stica entre vari√°veis
- Mais robusto para diferentes tipos de vari√°veis
- N√£o favorece atributos com mais valores √∫nicos

### Como usar os resultados:
1. **Sele√ß√£o de Features**: Use as features com maior IG ou MI para modelos de ML
2. **Feature Engineering**: Combine ou transforme features com baixo IG/MI
3. **An√°lise Explorat√≥ria**: Entenda quais vari√°veis s√£o mais informativas
4. **Redu√ß√£o de Dimensionalidade**: Mantenha apenas as features mais importantes