In [1]:
import pandas as pd
import numpy as np

DATASETS = {    
    'wine': {
        'path': 'wine/wine.data',
        'columns': [
            'Class',
            'Alcohol', 'Malic', 'Ash', 'Alcalinity',
            'Magnesium', 'Phenols', 'Flavanoids',
            'Nonflav', 'Proanth', 'Color', 'Hue',
            'OD', 'Proline'
        ],
        'target': 'Class',
        'drop': []
    },
    'image_segmentation': {
        'path': 'image_segmentation/segmentation_full_clean.csv',
        'sep': ',',
        'header': 0,
        'columns': [
            'Class',
            'Region-centroid-col', 'Region-centroid-row',
            'Region-pixel-count', 'Short-line-density-5',
            'Short-line-density-2', 'Vedge-mean',
            'Vedge-sd', 'Hedge-mean', 'Hedge-sd',
            'Intensity-mean', 'Rawred-mean',
            'Rawblue-mean', 'Rawgreen-mean',
            'Exred-mean', 'Exblue-mean', 'Exgreen-mean',
            'Value-mean', 'Saturation-mean', 'Hue-mean'
        ],
        'target': 'Class',
        'drop': []
    },
    'pen_based_recognition': {
        'path': 'pen_based_recognition/pendigits_full.csv',
        'sep': ',',
        'header': 0,
        'columns': None,   
        'target': 'Class',
        'drop': []
},
    'student': {
        'path': 'student/student-por.csv', 
        'sep': ';',          # IMPORTANTE: essa base usa ';'
        'header': 0,         # primeira linha é cabeçalho
        'columns': None,     # já vem com nomes
        'target': 'G3',      # nota final
        'drop': []
    },
    'obesity': {
        'path': 'obesity/ObesityDataSet_raw_and_data_sinthetic.csv',
        'sep': ',',
        'header': 0,
        'columns': None,
        'target': 'NObeyesdad',
        'drop': []
    },
        'bank_marketing': {
        'path': 'bank/bank-full.csv',
        'sep': ';',
        'header': 0,
        'columns': None,         # usa os nomes do CSV
        'target': 'job',           # coluna alvo (yes/no)
        'drop': []
    },
    'balance_scale': {
        'path': 'balance_scale/balance-scale.data',
        'sep': ',',
        'header': None,     # NÃO há cabeçalho
        'columns': [
            'Class',
            'Left-Weight',
            'Left-Distance',
            'Right-Weight',
            'Right-Distance'
        ],
        'target': 'Class',
        'drop': []
    },
    'nursery': {
        'path': 'nursery/nursery.data',
        'sep': ',',
        'header': None,   # NÃO há cabeçalho
        'columns': [
            'Parents',
            'Has_nurs',
            'Form',
            'Children',
            'Housing',
            'Finance',
            'Social',
            'Health',
            'Class'
        ],
        'target': 'Class',
        'drop': []
    },
    'car_evaluation': {
        'path': 'car_evaluation/car.data',
        'sep': ',',
        'header': None,   # não tem cabeçalho
        'columns': [
            'buying',
            'maint',
            'doors',
            'persons',
            'lug_boot',
            'safety',
            'class'
        ],
        'target': 'class',
        'drop': []
    }
}


def check_missing_all(DATASETS):
    print("\n========== VERIFICAÇÃO DE DADOS FALTANTES ==========")

    for name, cfg in DATASETS.items():
        print(f"\n--- Dataset: {name} ---")

        # leitura padronizada
        df = pd.read_csv(
            cfg['path'],
            sep=cfg.get('sep', ','),
            header=cfg.get('header', 0)
        )

        if cfg.get('columns') is not None:
            df.columns = cfg['columns']

        if cfg.get('n_rows'):
            df = df.iloc[:cfg['n_rows']]

        print("Shape:", df.shape)

        # contagens
        nan_counts = df.isna().sum()
        total_nan = nan_counts.sum()

        qmark_counts = (df == '?').sum()
        total_qmark = qmark_counts.sum()

        empty_counts = (df == '').sum()
        total_empty = empty_counts.sum()

        # linhas problemáticas
        rows_with_nan = df.isna().any(axis=1).sum()
        rows_with_qmark = (df == '?').any(axis=1).sum()
        rows_with_empty = (df == '').any(axis=1).sum()

        print("Total NaN:", total_nan)
        print("Total '?':", total_qmark)
        print("Total vazios:", total_empty)

        print("Linhas com NaN:", rows_with_nan)
        print("Linhas com '?':", rows_with_qmark)
        print("Linhas vazias:", rows_with_empty)

        if total_nan + total_qmark + total_empty == 0:
            print("✅ Dataset LIMPO")
        else:
            print("⚠ Dataset contém valores suspeitos")

print("\nRodando verificação...")
check_missing_all(DATASETS)



Rodando verificação...


--- Dataset: wine ---
Shape: (177, 14)
Total NaN: 0
Total '?': 0
Total vazios: 0
Linhas com NaN: 0
Linhas com '?': 0
Linhas vazias: 0
✅ Dataset LIMPO

--- Dataset: image_segmentation ---
Shape: (2312, 20)
Total NaN: 2
Total '?': 0
Total vazios: 0
Linhas com NaN: 2
Linhas com '?': 0
Linhas vazias: 0
⚠ Dataset contém valores suspeitos

--- Dataset: pen_based_recognition ---
Shape: (10992, 17)
Total NaN: 0
Total '?': 0
Total vazios: 0
Linhas com NaN: 0
Linhas com '?': 0
Linhas vazias: 0
✅ Dataset LIMPO

--- Dataset: student ---
Shape: (649, 33)
Total NaN: 0
Total '?': 0
Total vazios: 0
Linhas com NaN: 0
Linhas com '?': 0
Linhas vazias: 0
✅ Dataset LIMPO

--- Dataset: obesity ---
Shape: (2111, 17)
Total NaN: 0
Total '?': 0
Total vazios: 0
Linhas com NaN: 0
Linhas com '?': 0
Linhas vazias: 0
✅ Dataset LIMPO

--- Dataset: bank_marketing ---
Shape: (45211, 17)
Total NaN: 0
Total '?': 0
Total vazios: 0
Linhas com NaN: 0
Linhas com '?': 0
Linhas vazias: 0
✅ Dataset LIM