In [1]:
pip install pandas numpy scikit-learn

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.0.1 -> 25.1.1
[notice] To update, run: C:\Users\migue\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.12_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [2]:
# Importando bibliotecas necessárias
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
import warnings
warnings.filterwarnings('ignore')

# Carregando os dados
try:
    print("Carregando dados...")
    df = pd.read_csv('../data/raw/data_set_grupo_a.csv')
    
    # 1. Separando features e target
    X = df.drop('Bankrupt?', axis=1)
    y = df['Bankrupt?']
    
    print(f"Shape dos dados: {df.shape}")
    
    # 2. Tratamento de valores ausentes
    print("\nTratando valores ausentes...")
    imputer = SimpleImputer(strategy='median')
    X_imputed = pd.DataFrame(imputer.fit_transform(X), columns=X.columns)
    
    # 3. Normalização dos dados
    print("Normalizando os dados...")
    scaler = StandardScaler()
    X_scaled = pd.DataFrame(scaler.fit_transform(X_imputed), columns=X_imputed.columns)
    
    # 4. Recombinando com a variável target
    dados_preprocessados = pd.concat([pd.Series(y, name='Bankrupt?'), X_scaled], axis=1)
    
    # 5. Verificação dos dados processados
    print("\n=== Verificação dos Dados Processados ===")
    print(f"Shape final: {dados_preprocessados.shape}")
    print("\nEstatísticas básicas:")
    print(dados_preprocessados.describe().round(2))
    
    # 6. Verificando se ainda existem valores ausentes
    missing = dados_preprocessados.isnull().sum()
    if missing.sum() > 0:
        print("\nAtenção: Ainda existem valores ausentes:")
        print(missing[missing > 0])
    else:
        print("\nNenhum valor ausente encontrado nos dados processados.")
    
    # 7. Salvando os dados preprocessados
    import os
    os.makedirs('../data/processed', exist_ok=True)
    
    caminho_saida = '../data/processed/dados_preprocessados.csv'
    dados_preprocessados.to_csv(caminho_saida, index=False)
    print(f"\nDados preprocessados salvos em: {caminho_saida}")
    
    # 8. Informações adicionais sobre o processamento
    info_processamento = {
        'num_amostras': len(dados_preprocessados),
        'num_features': len(dados_preprocessados.columns) - 1,
        'balanceamento': dados_preprocessados['Bankrupt?'].value_counts().to_dict(),
        'colunas': list(dados_preprocessados.columns)
    }
    
    # Salvando informações do processamento
    import json
    with open('../data/processed/info_preprocessamento.json', 'w') as f:
        json.dump(info_processamento, f, indent=4)
    
    print("\nProcessamento concluído com sucesso!")

except FileNotFoundError:
    print("Erro: Arquivo não encontrado. Verifique se o caminho do arquivo CSV está correto.")
except Exception as e:
    print(f"Erro inesperado: {str(e)}")

Carregando dados...
Shape dos dados: (6819, 96)

Tratando valores ausentes...
Normalizando os dados...

=== Verificação dos Dados Processados ===
Shape final: (6819, 96)

Estatísticas básicas:
       Bankrupt?   ROA(C) before interest and depreciation before interest  \
count    6819.00                                            6819.00          
mean        0.03                                              -0.00          
std         0.18                                               1.00          
min         0.00                                              -8.33          
25%         0.00                                              -0.47          
50%         0.00                                              -0.04          
75%         0.00                                               0.50          
max         1.00                                               8.15          

        ROA(A) before interest and % after tax  \
count                                  6819.00   
mean