In [1]:
import math
import time
import warnings
from typing import List, Tuple

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from catboost import CatBoostClassifier
from cleanlab import Datalab
from sklearn.calibration import CalibratedClassifierCV
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.metrics import (accuracy_score, balanced_accuracy_score,
                             classification_report, confusion_matrix, f1_score,
                             matthews_corrcoef, mean_squared_error)
from sklearn.model_selection import StratifiedKFold, cross_val_predict
from sklearn.naive_bayes import MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.svm import LinearSVC
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier

In [2]:
pd.set_option("display.float_format", lambda x: "%.5f" % x)
pd.set_option("display.max_columns", None)
warnings.simplefilter(action="ignore", category=FutureWarning)

In [3]:
def train_and_evaluate_models(
    X_train: pd.DataFrame, y_train: pd.Series, num_jobs: int = -1
) -> Tuple[pd.DataFrame, List]:
    """
    Train a variety of models and evaluate them using cross-validation.

    Args:
        X_train (pd.DataFrame): The training data.
        y_train (pd.Series): The training labels.
        num_jobs (int, optional): The number of jobs to run in parallel. Defaults to -1 (use all processors).

    Returns:
        Tuple[pd.DataFrame, List]: A DataFrame of the evaluation results and a list of classification reports.
    """

    # Calculate class weights for balancing
    class_weights = dict(pd.Series(y_train).value_counts(normalize=True))

    # Define the models to be trained
    models = []
    models.append(
        (
            "Calibrated-LSVC",
            CalibratedClassifierCV(
                LinearSVC(random_state=314, class_weight="balanced", dual="auto")
            ),
        )
    )
    models.append(
        (
            "LogisticRegression",
            LogisticRegression(
                random_state=314, n_jobs=num_jobs, class_weight="balanced"
            ),
        )
    )
    models.append(
        (
            "RandomForest",
            RandomForestClassifier(
                random_state=314, n_jobs=num_jobs, class_weight="balanced"
            ),
        )
    )
    models.append(
        (
            "XGBoost",
            XGBClassifier(
                random_state=314, n_jobs=num_jobs, class_weight="balanced", verbosity=0
            ),
        )
    )
    models.append(("MLP", MLPClassifier(random_state=314)))
    models.append(
        (
            "SGD",
            SGDClassifier(random_state=314, n_jobs=num_jobs, class_weight="balanced"),
        )
    )
    models.append(("NaiveBayes", MultinomialNB()))
    models.append(
        ("LinearSVC", LinearSVC(random_state=314, class_weight="balanced", dual="auto"))
    )
    models.append(("KNN", KNeighborsClassifier(n_jobs=num_jobs)))
    models.append(
        (
            "DecisionTree",
            DecisionTreeClassifier(random_state=314, class_weight="balanced"),
        )
    )
    models.append(
        (
            "ExtraTrees",
            ExtraTreesClassifier(
                random_state=314, n_jobs=num_jobs, class_weight="balanced"
            ),
        )
    )
    models.append(
        (
            "CatBoost",
            CatBoostClassifier(
                random_state=314, verbose=0, class_weights=class_weights
            ),
        )
    )

    num_folds = 10
    evaluation_results = []
    classification_reports = []
    stratified_kfold = StratifiedKFold(
        n_splits=num_folds, shuffle=True, random_state=314
    )

    # Train and evaluate each model
    for model_name, model in models:
        start_time = time.time()

        try:
            # Use cross-validation to get out-of-sample predictions
            predictions = cross_val_predict(
                model, X_train, y_train, cv=stratified_kfold, n_jobs=2
            )

        except Exception as e:
            print(f"Error {model_name} - {e}")
            continue

        # Calculate evaluation metrics
        f1 = f1_score(y_train, predictions, average="micro")
        balanced_accuracy = balanced_accuracy_score(y_train, predictions)
        accuracy = accuracy_score(y_train, predictions)
        mcc = matthews_corrcoef(y_train, predictions)
        confusion_mat = confusion_matrix(y_train, predictions)
        class_report = classification_report(y_train, predictions)
        rmse = math.sqrt(mean_squared_error(y_train, predictions))

        elapsed_time = time.time() - start_time
        evaluation_results.append(
            [
                model_name,
                f1,
                balanced_accuracy,
                accuracy,
                mcc,
                rmse,
                elapsed_time,
                confusion_mat,
                class_report,
            ]
        )

        # Print evaluation results
        print(
            f"Name: {model_name} - F1: {f1:.4f} - Balanced Accuracy: {balanced_accuracy:.4f} - Accuracy: {accuracy:.4f} - MCC: {mcc:.4f} - RMSE {rmse:.4f} - Elapsed: {elapsed_time:.2f}s"
        )
        print(class_report)
        print(confusion_mat)
        print("*" * 20, "\n")

    # Create a DataFrame of the evaluation results
    columns = [
        "Model",
        "F1",
        "Balanced Accuracy",
        "Accuracy",
        "MCC",
        "RMSE",
        "Total Time",
        "Confusion Matrix",
        "Classification Report",
    ]
    df_results = pd.DataFrame(evaluation_results, columns=columns)
    df_results["Confusion Matrix"] = df_results["Confusion Matrix"].apply(
        lambda x: str(x)
    )

    return df_results, classification_reports

In [4]:
df = pd.read_parquet("output/data_8_classes_one_hot_encoded.parquet")
df

Unnamed: 0,idfam,V0409____Quantos_cartoes_de_credito_tem,V0410____Quantas_contas_correntes_tem,ANOS_ESTUDO____Anos_de_estudo_da_pessoa_Variavel_derivada_construida_a_partir_dos_quesitos_referentes_a_educacao,V0205____Quantos_comodos_tem_este_domicilio,V0206____Quantos_comodos_estao_servindo_permanentemente_de_dormitorio_para_os_moradores_deste_domicilio,V02111____Quantos_banheiros_com_chuveiro_e_vaso_sanitario_de_uso_exclusivo_dos_moradores_existem_neste_domicilio_inclusive_os_localizados_no_terreno_ou_na_propriedade,pessoas_na_familia,imc_medio_familia,energia_kcal_medio_familia,anos_estudo_medio_familia,idade_media_familia,RENDA_TOTAL,renda_total_sm,categoria_renda,uid,TIPO_SITUACAO_REG____Situacao_do_Domicilio_Urbano,V0405____Cor_ou_raca_Amarela,V0405____Cor_ou_raca_Branca,V0405____Cor_ou_raca_Indígena,V0405____Cor_ou_raca_Parda,V0405____Cor_ou_raca_Preta,V0405____Cor_ou_raca_Sem declaração,V0406_____tem_plano_ou_segurosaude_Sim,V0407_____teve_algum_tipo_de_rendimento_ou_executou_algum_trabalho_remunerado_ou_nao_no_periodo_de_referencia_de_12_meses_Sim,V0414_____sabe_ler_e_escrever_Sim,V0201____Este_domicilio_e_do_tipo_Apartamento,V0201____Este_domicilio_e_do_tipo_Casa,"V0201____Este_domicilio_e_do_tipo_Habitação em casa de cômodos, cortiço ou cabeça de porco",V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Alvenaria com revestimento / Taipa com revestimento,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Alvenaria sem revestimento,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Madeira apropriada para construção [aparelhada],V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Madeira aproveitada,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Outro material,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Taipa sem revestimento,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Madeira apropriada para construção [aparelhada],V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Outro material,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Somente laje de concreto,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Telha com laje de concreto,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Telha sem laje de concreto,"V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Zinco, alumínio ou chapa metálica","V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Cerâmica, lajota ou pedra",V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Cimento,V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Madeira apropriada para construção [aparelhada],V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Outro Material,V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Terra,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Fonte ou nascente,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Outra forma,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Poço profundo ou artesiano,"V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Poço raso, freático ou cacimba",V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Rede geral de distribuição,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Água da chuva armazenada,V0209____A_agua_utilizada_neste_domicilio_chega_Canalizada em pelo menos um cômodo,V0209____A_agua_utilizada_neste_domicilio_chega_Canalizada só na propriedade ou terreno,V0209____A_agua_utilizada_neste_domicilio_chega_Não canalizada,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_0,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Fossa não ligada à rede,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Outra forma,"V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Rede geral, rede pluvial ou fossa ligada à rede","V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Rio, lago ou mar",V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Vala,V0213____Qual_o_principal_destino_dado_ao_lixo_Coletado diretamente por serviço de limpeza,V0213____Qual_o_principal_destino_dado_ao_lixo_Coletado em caçamba de serviço de limpeza,V0213____Qual_o_principal_destino_dado_ao_lixo_Enterrado [na propriedade],V0213____Qual_o_principal_destino_dado_ao_lixo_Jogado em terreno baldio ou logradouro,V0213____Qual_o_principal_destino_dado_ao_lixo_Outro destino,V0213____Qual_o_principal_destino_dado_ao_lixo_Queimado [na propriedade],V02141____A_energia_eletrica_utilizada_neste_domicilio_e_proveniente_de_rede_geral_Sim,V02161____Usa_gas_de_botijao_para_preparar_alimentos_Sim,V02162____Lenha_ou_carvao_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos_Sim,V02163____Energia_eletrica_e_utilizada_neste_domicilio_na_preparacao_dos_alimentos_Sim,V02164____Outro_combustivel_oleo_querosene_etc_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos_Sim,V0217____Este_domicilio_e_Alugado,V0217____Este_domicilio_e_Cedido de outra forma,V0217____Este_domicilio_e_Cedido por empregador,V0217____Este_domicilio_e_Cedido por familiar,V0217____Este_domicilio_e_Outra condição,V0217____Este_domicilio_e_Próprio de algum morador – ainda pagando,V0217____Este_domicilio_e_Próprio de algum morador – já pago,V0220____Existe_pavimentacao_na_rua_onde_se_localiza_este_domicilio_Sim,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Em agência de correiros mais próxima,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Em caixa postal comunitária – CPC,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Por entrega domiciliária [pelo carteiro],V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Por entrega em outro endereço,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Por outra forma,pior_situacao_san_IA grave,pior_situacao_san_IA leve,pior_situacao_san_IA moderada,pior_situacao_san_SAN,pessoa_referencia_mulher_Sim,UF____Unidade_da_Federacao_Acre,UF____Unidade_da_Federacao_Alagoas,UF____Unidade_da_Federacao_Amapá,UF____Unidade_da_Federacao_Amazonas,UF____Unidade_da_Federacao_Bahia,UF____Unidade_da_Federacao_Ceará,UF____Unidade_da_Federacao_Distrito Federal,UF____Unidade_da_Federacao_Espírito Santo,UF____Unidade_da_Federacao_Goiás,UF____Unidade_da_Federacao_Maranhão,UF____Unidade_da_Federacao_Mato Grosso,UF____Unidade_da_Federacao_Mato Grosso do Sul,UF____Unidade_da_Federacao_Minas Gerais,UF____Unidade_da_Federacao_Paraná,UF____Unidade_da_Federacao_Paraíba,UF____Unidade_da_Federacao_Pará,UF____Unidade_da_Federacao_Pernambuco,UF____Unidade_da_Federacao_Piauí,UF____Unidade_da_Federacao_Rio Grande do Norte,UF____Unidade_da_Federacao_Rio Grande do Sul,UF____Unidade_da_Federacao_Rio de Janeiro,UF____Unidade_da_Federacao_Rondônia,UF____Unidade_da_Federacao_Roraima,UF____Unidade_da_Federacao_Santa Catarina,UF____Unidade_da_Federacao_Sergipe,UF____Unidade_da_Federacao_São Paulo,UF____Unidade_da_Federacao_Tocantins,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Avô ou avó,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Convivente – não parente que compartilha despesas,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Cônjuge ou companheiro[a] de sexo diferente,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Cônjuge ou companheiro[a] do mesmo sexo,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Filho[a] da pessoa de referência e do cônjuge,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Filho[a] somente da pessoa de referência,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Filho[a] somente do cônjuge,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Genro ou nora,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Irmão ou irmã,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Neto[a],V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Outro parente,"V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Pai, mãe, padrasto ou madrasta",V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Pessoa de referência da UC,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Sogro[a]
0,110000016021,0,1,5,6,2,2,3,25,1321,7,55,3855.34000,4.11456,4,0,True,False,False,False,True,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,False,True,False,False,False,False,False,False,False,True,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,False,False,False,True,False,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
1,110000016071,4,1,12,8,3,2,4,23,2070,11,27,6253.24000,6.67368,4,1,True,False,False,False,True,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,False,False,False,True,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,False,False,False,False,True,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
2,110000016121,1,0,11,6,3,1,2,25,1946,8,23,4353.51000,4.64622,4,2,True,False,False,False,True,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,False,True,False,False,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,False,False,True,False,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
3,110000016131,1,0,10,7,1,2,1,23,1654,10,53,1367.63000,1.45958,1,3,True,False,False,False,True,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,False,False,False,True,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,False,False,False,True,True,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
4,110000584021,0,1,14,8,3,2,1,23,1769,14,30,3188.66000,3.40305,3,4,True,False,True,False,False,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,False,False,False,True,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,False,False,False,True,True,False,False,True,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20139,530044198021,2,1,16,10,3,3,4,27,2290,13,34,24739.80000,26.40320,6,20139,True,False,True,False,False,False,False,True,True,True,True,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,True,False,False,False,False,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
20140,530044198031,2,2,14,11,3,3,3,29,2683,11,27,35197.60000,37.56414,7,20140,True,False,False,False,False,True,False,True,True,True,True,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,True,False,False,False,False,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
20141,530044198091,1,1,15,12,2,3,2,28,1279,15,46,31051.45000,33.13922,7,20141,True,False,False,False,True,False,False,True,False,True,True,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,True,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
20142,530044198111,1,1,16,4,1,1,1,19,2041,16,25,1569.03000,1.67453,2,20142,True,False,False,False,True,False,False,True,True,True,True,False,False,True,False,False,False,False,False,False,False,True,False,False,False,True,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False


In [5]:
for col in df.columns:
    print(col)

idfam
V0409____Quantos_cartoes_de_credito_tem
V0410____Quantas_contas_correntes_tem
ANOS_ESTUDO____Anos_de_estudo_da_pessoa_Variavel_derivada_construida_a_partir_dos_quesitos_referentes_a_educacao
V0205____Quantos_comodos_tem_este_domicilio
V0206____Quantos_comodos_estao_servindo_permanentemente_de_dormitorio_para_os_moradores_deste_domicilio
V02111____Quantos_banheiros_com_chuveiro_e_vaso_sanitario_de_uso_exclusivo_dos_moradores_existem_neste_domicilio_inclusive_os_localizados_no_terreno_ou_na_propriedade
pessoas_na_familia
imc_medio_familia
energia_kcal_medio_familia
anos_estudo_medio_familia
idade_media_familia
RENDA_TOTAL
renda_total_sm
categoria_renda
uid
TIPO_SITUACAO_REG____Situacao_do_Domicilio_Urbano
V0405____Cor_ou_raca_Amarela
V0405____Cor_ou_raca_Branca
V0405____Cor_ou_raca_Indígena
V0405____Cor_ou_raca_Parda
V0405____Cor_ou_raca_Preta
V0405____Cor_ou_raca_Sem declaração
V0406_____tem_plano_ou_segurosaude_Sim
V0407_____teve_algum_tipo_de_rendimento_ou_executou_algum_trabalh

In [6]:
X = df.drop(columns=["categoria_renda", "uid", "idfam", "RENDA_TOTAL", "renda_total_sm"])
y = df["categoria_renda"]

In [7]:
y.nunique()

8

In [8]:
X

Unnamed: 0,V0409____Quantos_cartoes_de_credito_tem,V0410____Quantas_contas_correntes_tem,ANOS_ESTUDO____Anos_de_estudo_da_pessoa_Variavel_derivada_construida_a_partir_dos_quesitos_referentes_a_educacao,V0205____Quantos_comodos_tem_este_domicilio,V0206____Quantos_comodos_estao_servindo_permanentemente_de_dormitorio_para_os_moradores_deste_domicilio,V02111____Quantos_banheiros_com_chuveiro_e_vaso_sanitario_de_uso_exclusivo_dos_moradores_existem_neste_domicilio_inclusive_os_localizados_no_terreno_ou_na_propriedade,pessoas_na_familia,imc_medio_familia,energia_kcal_medio_familia,anos_estudo_medio_familia,idade_media_familia,TIPO_SITUACAO_REG____Situacao_do_Domicilio_Urbano,V0405____Cor_ou_raca_Amarela,V0405____Cor_ou_raca_Branca,V0405____Cor_ou_raca_Indígena,V0405____Cor_ou_raca_Parda,V0405____Cor_ou_raca_Preta,V0405____Cor_ou_raca_Sem declaração,V0406_____tem_plano_ou_segurosaude_Sim,V0407_____teve_algum_tipo_de_rendimento_ou_executou_algum_trabalho_remunerado_ou_nao_no_periodo_de_referencia_de_12_meses_Sim,V0414_____sabe_ler_e_escrever_Sim,V0201____Este_domicilio_e_do_tipo_Apartamento,V0201____Este_domicilio_e_do_tipo_Casa,"V0201____Este_domicilio_e_do_tipo_Habitação em casa de cômodos, cortiço ou cabeça de porco",V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Alvenaria com revestimento / Taipa com revestimento,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Alvenaria sem revestimento,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Madeira apropriada para construção [aparelhada],V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Madeira aproveitada,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Outro material,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Taipa sem revestimento,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Madeira apropriada para construção [aparelhada],V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Outro material,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Somente laje de concreto,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Telha com laje de concreto,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Telha sem laje de concreto,"V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Zinco, alumínio ou chapa metálica","V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Cerâmica, lajota ou pedra",V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Cimento,V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Madeira apropriada para construção [aparelhada],V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Outro Material,V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Terra,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Fonte ou nascente,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Outra forma,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Poço profundo ou artesiano,"V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Poço raso, freático ou cacimba",V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Rede geral de distribuição,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Água da chuva armazenada,V0209____A_agua_utilizada_neste_domicilio_chega_Canalizada em pelo menos um cômodo,V0209____A_agua_utilizada_neste_domicilio_chega_Canalizada só na propriedade ou terreno,V0209____A_agua_utilizada_neste_domicilio_chega_Não canalizada,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_0,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Fossa não ligada à rede,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Outra forma,"V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Rede geral, rede pluvial ou fossa ligada à rede","V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Rio, lago ou mar",V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Vala,V0213____Qual_o_principal_destino_dado_ao_lixo_Coletado diretamente por serviço de limpeza,V0213____Qual_o_principal_destino_dado_ao_lixo_Coletado em caçamba de serviço de limpeza,V0213____Qual_o_principal_destino_dado_ao_lixo_Enterrado [na propriedade],V0213____Qual_o_principal_destino_dado_ao_lixo_Jogado em terreno baldio ou logradouro,V0213____Qual_o_principal_destino_dado_ao_lixo_Outro destino,V0213____Qual_o_principal_destino_dado_ao_lixo_Queimado [na propriedade],V02141____A_energia_eletrica_utilizada_neste_domicilio_e_proveniente_de_rede_geral_Sim,V02161____Usa_gas_de_botijao_para_preparar_alimentos_Sim,V02162____Lenha_ou_carvao_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos_Sim,V02163____Energia_eletrica_e_utilizada_neste_domicilio_na_preparacao_dos_alimentos_Sim,V02164____Outro_combustivel_oleo_querosene_etc_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos_Sim,V0217____Este_domicilio_e_Alugado,V0217____Este_domicilio_e_Cedido de outra forma,V0217____Este_domicilio_e_Cedido por empregador,V0217____Este_domicilio_e_Cedido por familiar,V0217____Este_domicilio_e_Outra condição,V0217____Este_domicilio_e_Próprio de algum morador – ainda pagando,V0217____Este_domicilio_e_Próprio de algum morador – já pago,V0220____Existe_pavimentacao_na_rua_onde_se_localiza_este_domicilio_Sim,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Em agência de correiros mais próxima,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Em caixa postal comunitária – CPC,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Por entrega domiciliária [pelo carteiro],V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Por entrega em outro endereço,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Por outra forma,pior_situacao_san_IA grave,pior_situacao_san_IA leve,pior_situacao_san_IA moderada,pior_situacao_san_SAN,pessoa_referencia_mulher_Sim,UF____Unidade_da_Federacao_Acre,UF____Unidade_da_Federacao_Alagoas,UF____Unidade_da_Federacao_Amapá,UF____Unidade_da_Federacao_Amazonas,UF____Unidade_da_Federacao_Bahia,UF____Unidade_da_Federacao_Ceará,UF____Unidade_da_Federacao_Distrito Federal,UF____Unidade_da_Federacao_Espírito Santo,UF____Unidade_da_Federacao_Goiás,UF____Unidade_da_Federacao_Maranhão,UF____Unidade_da_Federacao_Mato Grosso,UF____Unidade_da_Federacao_Mato Grosso do Sul,UF____Unidade_da_Federacao_Minas Gerais,UF____Unidade_da_Federacao_Paraná,UF____Unidade_da_Federacao_Paraíba,UF____Unidade_da_Federacao_Pará,UF____Unidade_da_Federacao_Pernambuco,UF____Unidade_da_Federacao_Piauí,UF____Unidade_da_Federacao_Rio Grande do Norte,UF____Unidade_da_Federacao_Rio Grande do Sul,UF____Unidade_da_Federacao_Rio de Janeiro,UF____Unidade_da_Federacao_Rondônia,UF____Unidade_da_Federacao_Roraima,UF____Unidade_da_Federacao_Santa Catarina,UF____Unidade_da_Federacao_Sergipe,UF____Unidade_da_Federacao_São Paulo,UF____Unidade_da_Federacao_Tocantins,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Avô ou avó,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Convivente – não parente que compartilha despesas,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Cônjuge ou companheiro[a] de sexo diferente,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Cônjuge ou companheiro[a] do mesmo sexo,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Filho[a] da pessoa de referência e do cônjuge,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Filho[a] somente da pessoa de referência,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Filho[a] somente do cônjuge,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Genro ou nora,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Irmão ou irmã,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Neto[a],V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Outro parente,"V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Pai, mãe, padrasto ou madrasta",V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Pessoa de referência da UC,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Sogro[a]
0,0,1,5,6,2,2,3,25,1321,7,55,True,False,False,False,True,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,False,True,False,False,False,False,False,False,False,True,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,False,False,False,True,False,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
1,4,1,12,8,3,2,4,23,2070,11,27,True,False,False,False,True,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,False,False,False,True,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,False,False,False,False,True,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
2,1,0,11,6,3,1,2,25,1946,8,23,True,False,False,False,True,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,False,True,False,False,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,False,False,True,False,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
3,1,0,10,7,1,2,1,23,1654,10,53,True,False,False,False,True,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,False,False,False,True,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,False,False,False,True,True,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
4,0,1,14,8,3,2,1,23,1769,14,30,True,False,True,False,False,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,False,False,False,True,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,False,False,False,True,True,False,False,True,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20139,2,1,16,10,3,3,4,27,2290,13,34,True,False,True,False,False,False,False,True,True,True,True,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,True,False,False,False,False,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
20140,2,2,14,11,3,3,3,29,2683,11,27,True,False,False,False,False,True,False,True,True,True,True,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,True,False,False,False,False,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
20141,1,1,15,12,2,3,2,28,1279,15,46,True,False,False,False,True,False,False,True,False,True,True,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,True,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
20142,1,1,16,4,1,1,1,19,2041,16,25,True,False,False,False,True,False,False,True,True,True,True,False,False,True,False,False,False,False,False,False,False,True,False,False,False,True,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False


In [9]:
X = X.values
y = y.values

In [10]:
# Treinando os modelos
df_results, creports = train_and_evaluate_models(X, y)

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Name: Calibrated-LSVC - F1: 0.2476 - Balanced Accuracy: 0.1431 - Accuracy: 0.2476 - MCC: 0.0033 - RMSE 1.6817 - Elapsed: 39.20s
              precision    recall  f1-score   support

           0       0.00      0.00      0.00       950
           1       0.00      0.00      0.00      2777
           2       0.23      0.01      0.01      3381
           3       0.23      0.30      0.26      5393
           4       0.25      0.62      0.35      4902
           5       0.40      0.13      0.20      1928
           6       0.41      0.09      0.14       618
           7       0.00      0.00      0.00       195

    accuracy                           0.25     20144
   macro avg       0.19      0.14      0.12     20144
weighted avg       0.21      0.25      0.18     20144

[[   0    0   26  397  526    0    1    0]
 [   0    0   37  935 1804    1    0    0]
 [   0    0   25 1082 2269    5    0    0]
 [   0    0   16 1635 3720   22    0    0]
 [   0    0    3 1765 3019  112    3    0]
 [   0

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

Name: LogisticRegression - F1: 0.1740 - Balanced Accuracy: 0.2620 - Accuracy: 0.1740 - MCC: 0.0635 - RMSE 2.2098 - Elapsed: 10.95s
              precision    recall  f1-score   support

           0       0.09      0.47      0.15       950
           1       0.22      0.18      0.20      2777
           2       0.20      0.06      0.09      3381
           3       0.34      0.16      0.22      5393
           4       0.31      0.18      0.23      4902
           5       0.13      0.19      0.15      1928
           6       0.07      0.19      0.10       618
           7       0.07      0.66      0.13       195

    accuracy                           0.17     20144
   macro avg       0.18      0.26      0.16     20144
weighted avg       0.25      0.17      0.18     20144

[[ 446  156   45   72   89   90   43    9]
 [1032  499  145  341  328  259  113   60]
 [1095  513  198  431  432  405  207  100]
 [1362  780  303  855  792  742  352  207]
 [ 799  306  240  658  887  923  579  510]
 [ 



Name: RandomForest - F1: 0.3869 - Balanced Accuracy: 0.2824 - Accuracy: 0.3869 - MCC: 0.2204 - RMSE 1.1730 - Elapsed: 6.67s
              precision    recall  f1-score   support

           0       0.43      0.10      0.16       950
           1       0.35      0.33      0.34      2777
           2       0.29      0.17      0.21      3381
           3       0.38      0.53      0.44      5393
           4       0.43      0.56      0.49      4902
           5       0.39      0.24      0.30      1928
           6       0.39      0.16      0.23       618
           7       0.52      0.17      0.25       195

    accuracy                           0.39     20144
   macro avg       0.40      0.28      0.30     20144
weighted avg       0.38      0.39      0.37     20144

[[  93  455  132  221   47    1    1    0]
 [  71  913  549 1038  197    9    0    0]
 [  31  643  575 1584  534   13    1    0]
 [  15  471  504 2846 1486   65    6    0]
 [   4  103  179 1527 2767  298   22    2]
 [   0    



Name: XGBoost - F1: 0.3952 - Balanced Accuracy: 0.3157 - Accuracy: 0.3952 - MCC: 0.2396 - RMSE 1.1454 - Elapsed: 990.67s
              precision    recall  f1-score   support

           0       0.34      0.18      0.24       950
           1       0.36      0.36      0.36      2777
           2       0.29      0.22      0.25      3381
           3       0.40      0.48      0.44      5393
           4       0.45      0.54      0.49      4902
           5       0.41      0.33      0.36      1928
           6       0.39      0.22      0.28       618
           7       0.38      0.20      0.26       195

    accuracy                           0.40     20144
   macro avg       0.38      0.32      0.33     20144
weighted avg       0.39      0.40      0.39     20144

[[ 172  438  177  129   32    1    1    0]
 [ 201 1008  634  758  164   10    2    0]
 [  76  732  737 1373  439   23    1    0]
 [  47  488  709 2597 1451   91    9    1]
 [   6  111  251 1389 2646  450   44    5]
 [   0   12  



Name: ExtraTrees - F1: 0.3716 - Balanced Accuracy: 0.2762 - Accuracy: 0.3716 - MCC: 0.2027 - RMSE 1.2126 - Elapsed: 7.37s
              precision    recall  f1-score   support

           0       0.35      0.11      0.17       950
           1       0.35      0.31      0.33      2777
           2       0.28      0.19      0.23      3381
           3       0.37      0.49      0.42      5393
           4       0.42      0.54      0.47      4902
           5       0.36      0.23      0.28      1928
           6       0.37      0.17      0.23       618
           7       0.42      0.16      0.24       195

    accuracy                           0.37     20144
   macro avg       0.37      0.28      0.30     20144
weighted avg       0.36      0.37      0.36     20144

[[ 107  399  163  220   57    2    2    0]
 [ 113  874  568  984  230    7    1    0]
 [  47  624  656 1476  554   22    2    0]
 [  32  497  668 2634 1468   85    9    0]
 [   5  116  239 1533 2633  344   27    5]
 [   1   10 



Name: CatBoost - F1: 0.4010 - Balanced Accuracy: 0.2413 - Accuracy: 0.4010 - MCC: 0.2312 - RMSE 1.1309 - Elapsed: 247.02s
              precision    recall  f1-score   support

           0       0.49      0.03      0.05       950
           1       0.39      0.31      0.34      2777
           2       0.31      0.14      0.20      3381
           3       0.38      0.63      0.47      5393
           4       0.45      0.61      0.52      4902
           5       0.41      0.18      0.25      1928
           6       0.35      0.05      0.08       618
           7       0.00      0.00      0.00       195

    accuracy                           0.40     20144
   macro avg       0.35      0.24      0.24     20144
weighted avg       0.39      0.40      0.36     20144

[[  25  494  148  250   31    2    0    0]
 [  18  850  490 1276  141    2    0    0]
 [   6  483  485 2012  392    3    0    0]
 [   1  268  350 3381 1369   23    1    0]
 [   0   59   85 1688 2968   99    3    0]
 [   0    5 

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [11]:
# Ordenando os resultados por MCC
df_results.sort_values(by="MCC", ascending=False)

Unnamed: 0,Model,F1,Balanced Accuracy,Accuracy,MCC,RMSE,Total Time,Confusion Matrix,Classification Report
3,XGBoost,0.3952,0.31574,0.3952,0.23961,1.14543,990.67277,[[ 172 438 177 129 32 1 1 0]\n [...,precision recall f1-score ...
11,CatBoost,0.40101,0.2413,0.40101,0.23125,1.13088,247.02237,[[ 25 494 148 250 31 2 0 0]\n [...,precision recall f1-score ...
2,RandomForest,0.38686,0.28243,0.38686,0.22038,1.17305,6.66974,[[ 93 455 132 221 47 1 1 0]\n [...,precision recall f1-score ...
10,ExtraTrees,0.37162,0.27619,0.37162,0.20271,1.21256,7.37227,[[ 107 399 163 220 57 2 2 0]\n [...,precision recall f1-score ...
7,LinearSVC,0.30729,0.35755,0.30729,0.18641,1.51554,10.17618,[[ 579 247 26 45 33 11 6 3]\n [...,precision recall f1-score ...
4,MLP,0.35107,0.25387,0.35107,0.18091,1.25908,111.96132,[[ 52 563 48 251 32 2 2 0]\n [...,precision recall f1-score ...
9,DecisionTree,0.29031,0.2623,0.29031,0.12671,1.48359,2.99482,[[ 199 281 220 157 84 6 3 0]\n [...,precision recall f1-score ...
6,NaiveBayes,0.27194,0.2755,0.27194,0.12105,1.68405,1.75968,[[ 307 275 63 116 133 32 20 4]\n [...,precision recall f1-score ...
1,LogisticRegression,0.17405,0.26198,0.17405,0.06352,2.20976,10.94814,[[ 446 156 45 72 89 90 43 9]\n [...,precision recall f1-score ...
8,KNN,0.25228,0.16532,0.25228,0.05991,1.67761,5.80867,[[ 84 269 195 265 126 10 1 0]\n [...,precision recall f1-score ...


# Add cleanlab

In [12]:
model = XGBClassifier(random_state=314, n_jobs=-1, class_weight="balanced")
preds_model = cross_val_predict(
    estimator=model,
    X=X,
    y=y,
    cv=StratifiedKFold(n_splits=10, shuffle=True, random_state=314),
    method="predict_proba",
    n_jobs=2,
)

Parameters: { "class_weight" } are not used.

Parameters: { "class_weight" } are not used.



Parameters: { "class_weight" } are not used.

Parameters: { "class_weight" } are not used.

Parameters: { "class_weight" } are not used.

Parameters: { "class_weight" } are not used.

Parameters: { "class_weight" } are not used.

Parameters: { "class_weight" } are not used.

Parameters: { "class_weight" } are not used.

Parameters: { "class_weight" } are not used.



In [13]:
lab = Datalab(data=df, label_name="categoria_renda")
lab.find_issues(features=X, pred_probs=preds_model)
lab.report()

Finding null issues ...
Error in null: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''
Finding label issues ...
Finding outlier issues ...
Fitting OOD estimator based on provided features ...
Finding near_duplicate issues ...
Finding non_iid issues ...
Finding class_imbalance issues ...
Finding underperforming_group issues ...
Failed to check for these issue types: [NullIssueManager]

Audit complete. 11509 issues found in the dataset.
Here is a summary of the different kinds of issues found in the data:

     issue_type  num_issues
          label        9647
        outlier        1656
class_imbalance         195
 near_duplicate          10
        non_iid           1

Dataset Information: num_examples: 20144, num_classes: 8


----------------------- label issues -----------------------

About this issue:
	Examples whose given label is estimated to be potentially incorrect
    (e.



In [14]:
lab.get_issues()

Unnamed: 0,is_label_issue,label_score,is_outlier_issue,outlier_score,is_near_duplicate_issue,near_duplicate_score,is_non_iid_issue,non_iid_score,is_class_imbalance_issue,class_imbalance_score,is_underperforming_group_issue,underperforming_group_score
0,False,0.45661,False,0.22477,False,0.81699,False,0.85173,False,1.00000,False,1.00000
1,True,0.29302,False,0.50849,False,0.51249,False,0.93128,False,1.00000,False,1.00000
2,True,0.09968,False,0.49093,False,0.54589,False,0.86444,False,1.00000,False,1.00000
3,True,0.09793,False,0.50067,False,0.50100,False,0.91735,False,1.00000,False,1.00000
4,True,0.13237,False,0.44093,False,0.60584,False,0.94196,False,1.00000,False,1.00000
...,...,...,...,...,...,...,...,...,...,...,...,...
20139,False,0.47075,False,0.56442,False,0.40316,False,0.86485,False,1.00000,False,1.00000
20140,False,0.17228,False,0.48970,False,0.49577,False,0.90693,True,0.00968,False,1.00000
20141,False,0.55776,False,0.06388,False,0.95088,False,0.84495,True,0.00968,False,1.00000
20142,True,0.08516,False,0.43670,False,0.56205,False,0.91325,False,1.00000,False,1.00000


In [15]:
label_issues = lab.get_issues()
label_issues = label_issues[["is_label_issue", "label_score"]]
label_issues

Unnamed: 0,is_label_issue,label_score
0,False,0.45661
1,True,0.29302
2,True,0.09968
3,True,0.09793
4,True,0.13237
...,...,...
20139,False,0.47075
20140,False,0.17228
20141,False,0.55776
20142,True,0.08516


In [16]:
label_issues["pred_model"] = np.argmax(preds_model, axis=1)
label_issues["original_label"] = y

label_issues

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  label_issues["pred_model"] = np.argmax(preds_model, axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  label_issues["original_label"] = y


Unnamed: 0,is_label_issue,label_score,pred_model,original_label
0,False,0.45661,4,4
1,True,0.29302,5,4
2,True,0.09968,2,4
3,True,0.09793,2,1
4,True,0.13237,4,3
...,...,...,...,...
20139,False,0.47075,6,6
20140,False,0.17228,6,7
20141,False,0.55776,7,7
20142,True,0.08516,3,2


In [17]:
# check if the difference between pred_model and original_label is greater than 1

label_issues["absolute_diff"] = (
    label_issues["pred_model"] - label_issues["original_label"]
)
label_issues["absolute_diff"] = label_issues["absolute_diff"].abs()
label_issues["is_label_issue_over_2_classes"] = label_issues["absolute_diff"] > 1
label_issues["is_label_issue_over_2_classes"].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  label_issues["absolute_diff"] = (
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  label_issues["absolute_diff"] = label_issues["absolute_diff"].abs()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  label_issues["is_label_issue_over_2_classes"] = label_issues["absolute_diff"] > 1


is_label_issue_over_2_classes
False    16754
True      3390
Name: count, dtype: int64

In [18]:
label_issues

Unnamed: 0,is_label_issue,label_score,pred_model,original_label,absolute_diff,is_label_issue_over_2_classes
0,False,0.45661,4,4,0,False
1,True,0.29302,5,4,1,False
2,True,0.09968,2,4,2,True
3,True,0.09793,2,1,1,False
4,True,0.13237,4,3,1,False
...,...,...,...,...,...,...
20139,False,0.47075,6,6,0,False
20140,False,0.17228,6,7,1,False
20141,False,0.55776,7,7,0,False
20142,True,0.08516,3,2,1,False


In [19]:
label_issues.to_parquet("output/label_issues_8c.parquet")

In [20]:
label_issues.query("is_label_issue == True").groupby(
    "absolute_diff"
).label_score.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
absolute_diff,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,7000.0,0.20099,0.09055,0.00052,0.13446,0.20458,0.26668,0.46304
2,2088.0,0.10895,0.07367,0.00016,0.04726,0.09987,0.1604,0.35823
3,481.0,0.04871,0.04651,3e-05,0.01289,0.03474,0.07165,0.23671
4,65.0,0.01342,0.01947,0.00011,0.00272,0.00759,0.0135,0.10995
5,8.0,0.0044,0.00549,0.00011,0.00165,0.00266,0.0048,0.01726
6,4.0,0.00129,0.0024,1e-05,6e-05,0.00013,0.00137,0.00489
7,1.0,9e-05,,9e-05,9e-05,9e-05,9e-05,9e-05


In [21]:
df.rename(columns={"categoria_renda": "categoria_renda_original"}, inplace=True)

In [22]:
label_issues_new = label_issues[
    [
        "label_score",
        "pred_model",
        "original_label",
        "absolute_diff",
        "is_label_issue_over_2_classes",
    ]
]

# Merging label issues to the non one-hot-encoded dataset

In [23]:
df2 = pd.read_parquet("output/data_8_classes.parquet")
df2

Unnamed: 0,idfam,UF____Unidade_da_Federacao,TIPO_SITUACAO_REG____Situacao_do_Domicilio,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo,V0405____Cor_ou_raca,V0406_____tem_plano_ou_segurosaude,V0407_____teve_algum_tipo_de_rendimento_ou_executou_algum_trabalho_remunerado_ou_nao_no_periodo_de_referencia_de_12_meses,V0409____Quantos_cartoes_de_credito_tem,V0410____Quantas_contas_correntes_tem,V0414_____sabe_ler_e_escrever,ANOS_ESTUDO____Anos_de_estudo_da_pessoa_Variavel_derivada_construida_a_partir_dos_quesitos_referentes_a_educacao,V0201____Este_domicilio_e_do_tipo,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio,V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio,V0205____Quantos_comodos_tem_este_domicilio,V0206____Quantos_comodos_estao_servindo_permanentemente_de_dormitorio_para_os_moradores_deste_domicilio,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio,V0209____A_agua_utilizada_neste_domicilio_chega,V02111____Quantos_banheiros_com_chuveiro_e_vaso_sanitario_de_uso_exclusivo_dos_moradores_existem_neste_domicilio_inclusive_os_localizados_no_terreno_ou_na_propriedade,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes,V0213____Qual_o_principal_destino_dado_ao_lixo,V02141____A_energia_eletrica_utilizada_neste_domicilio_e_proveniente_de_rede_geral,V02161____Usa_gas_de_botijao_para_preparar_alimentos,V02162____Lenha_ou_carvao_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos,V02163____Energia_eletrica_e_utilizada_neste_domicilio_na_preparacao_dos_alimentos,V02164____Outro_combustivel_oleo_querosene_etc_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos,V0217____Este_domicilio_e,V0220____Existe_pavimentacao_na_rua_onde_se_localiza_este_domicilio,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado,pessoas_na_familia,imc_medio_familia,energia_kcal_medio_familia,anos_estudo_medio_familia,idade_media_familia,pior_situacao_san,pessoa_referencia_mulher,RENDA_TOTAL,renda_total_sm,categoria_renda,uid
0,110000016021,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,0,1,Sim,5,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,Cimento,6,2,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Próprio de algum morador – ainda pagando,Sim,Por entrega domiciliária [pelo carteiro],3,25,1321,7,55,SAN,Não,3855.34000,4.11456,4,0
1,110000016071,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,4,1,Sim,12,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",8,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],4,23,2070,11,27,SAN,Não,6253.24000,6.67368,4,1
2,110000016121,Rondônia,Urbano,Cônjuge ou companheiro[a] de sexo diferente,Parda,Não,Sim,1,0,Sim,11,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",6,3,Poço profundo ou artesiano,Canalizada em pelo menos um cômodo,1,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Alugado,Sim,Por entrega domiciliária [pelo carteiro],2,25,1946,8,23,SAN,Não,4353.51000,4.64622,4,2
3,110000016131,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,1,0,Sim,10,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",7,1,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],1,23,1654,10,53,SAN,Sim,1367.63000,1.45958,1,3
4,110000584021,Rondônia,Urbano,Filho[a] somente da pessoa de referência,Branca,Não,Sim,0,1,Sim,14,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",8,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],1,23,1769,14,30,IA leve,Não,3188.66000,3.40305,3,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20139,530044198021,Distrito Federal,Urbano,Pessoa de referência da UC,Branca,Sim,Sim,2,1,Sim,16,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],10,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],4,27,2290,13,34,SAN,Não,24739.80000,26.40320,6,20139
20140,530044198031,Distrito Federal,Urbano,Pessoa de referência da UC,Preta,Sim,Sim,2,2,Sim,14,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],11,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],3,29,2683,11,27,SAN,Não,35197.60000,37.56414,7,20140
20141,530044198091,Distrito Federal,Urbano,Pessoa de referência da UC,Parda,Sim,Não,1,1,Sim,15,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],12,2,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],2,28,1279,15,46,SAN,Sim,31051.45000,33.13922,7,20141
20142,530044198111,Distrito Federal,Urbano,Pessoa de referência da UC,Parda,Sim,Sim,1,1,Sim,16,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,"Cerâmica, lajota ou pedra",4,1,Rede geral de distribuição,Canalizada em pelo menos um cômodo,1,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Alugado,Sim,Por entrega domiciliária [pelo carteiro],1,19,2041,16,25,SAN,Sim,1569.03000,1.67453,2,20142


In [24]:
df2 = df2.merge(label_issues_new, left_index=True, right_index=True)
df2

Unnamed: 0,idfam,UF____Unidade_da_Federacao,TIPO_SITUACAO_REG____Situacao_do_Domicilio,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo,V0405____Cor_ou_raca,V0406_____tem_plano_ou_segurosaude,V0407_____teve_algum_tipo_de_rendimento_ou_executou_algum_trabalho_remunerado_ou_nao_no_periodo_de_referencia_de_12_meses,V0409____Quantos_cartoes_de_credito_tem,V0410____Quantas_contas_correntes_tem,V0414_____sabe_ler_e_escrever,ANOS_ESTUDO____Anos_de_estudo_da_pessoa_Variavel_derivada_construida_a_partir_dos_quesitos_referentes_a_educacao,V0201____Este_domicilio_e_do_tipo,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio,V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio,V0205____Quantos_comodos_tem_este_domicilio,V0206____Quantos_comodos_estao_servindo_permanentemente_de_dormitorio_para_os_moradores_deste_domicilio,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio,V0209____A_agua_utilizada_neste_domicilio_chega,V02111____Quantos_banheiros_com_chuveiro_e_vaso_sanitario_de_uso_exclusivo_dos_moradores_existem_neste_domicilio_inclusive_os_localizados_no_terreno_ou_na_propriedade,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes,V0213____Qual_o_principal_destino_dado_ao_lixo,V02141____A_energia_eletrica_utilizada_neste_domicilio_e_proveniente_de_rede_geral,V02161____Usa_gas_de_botijao_para_preparar_alimentos,V02162____Lenha_ou_carvao_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos,V02163____Energia_eletrica_e_utilizada_neste_domicilio_na_preparacao_dos_alimentos,V02164____Outro_combustivel_oleo_querosene_etc_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos,V0217____Este_domicilio_e,V0220____Existe_pavimentacao_na_rua_onde_se_localiza_este_domicilio,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado,pessoas_na_familia,imc_medio_familia,energia_kcal_medio_familia,anos_estudo_medio_familia,idade_media_familia,pior_situacao_san,pessoa_referencia_mulher,RENDA_TOTAL,renda_total_sm,categoria_renda,uid,label_score,pred_model,original_label,absolute_diff,is_label_issue_over_2_classes
0,110000016021,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,0,1,Sim,5,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,Cimento,6,2,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Próprio de algum morador – ainda pagando,Sim,Por entrega domiciliária [pelo carteiro],3,25,1321,7,55,SAN,Não,3855.34000,4.11456,4,0,0.45661,4,4,0,False
1,110000016071,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,4,1,Sim,12,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",8,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],4,23,2070,11,27,SAN,Não,6253.24000,6.67368,4,1,0.29302,5,4,1,False
2,110000016121,Rondônia,Urbano,Cônjuge ou companheiro[a] de sexo diferente,Parda,Não,Sim,1,0,Sim,11,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",6,3,Poço profundo ou artesiano,Canalizada em pelo menos um cômodo,1,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Alugado,Sim,Por entrega domiciliária [pelo carteiro],2,25,1946,8,23,SAN,Não,4353.51000,4.64622,4,2,0.09968,2,4,2,True
3,110000016131,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,1,0,Sim,10,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",7,1,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],1,23,1654,10,53,SAN,Sim,1367.63000,1.45958,1,3,0.09793,2,1,1,False
4,110000584021,Rondônia,Urbano,Filho[a] somente da pessoa de referência,Branca,Não,Sim,0,1,Sim,14,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",8,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],1,23,1769,14,30,IA leve,Não,3188.66000,3.40305,3,4,0.13237,4,3,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20139,530044198021,Distrito Federal,Urbano,Pessoa de referência da UC,Branca,Sim,Sim,2,1,Sim,16,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],10,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],4,27,2290,13,34,SAN,Não,24739.80000,26.40320,6,20139,0.47075,6,6,0,False
20140,530044198031,Distrito Federal,Urbano,Pessoa de referência da UC,Preta,Sim,Sim,2,2,Sim,14,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],11,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],3,29,2683,11,27,SAN,Não,35197.60000,37.56414,7,20140,0.17228,6,7,1,False
20141,530044198091,Distrito Federal,Urbano,Pessoa de referência da UC,Parda,Sim,Não,1,1,Sim,15,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],12,2,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],2,28,1279,15,46,SAN,Sim,31051.45000,33.13922,7,20141,0.55776,7,7,0,False
20142,530044198111,Distrito Federal,Urbano,Pessoa de referência da UC,Parda,Sim,Sim,1,1,Sim,16,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,"Cerâmica, lajota ou pedra",4,1,Rede geral de distribuição,Canalizada em pelo menos um cômodo,1,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Alugado,Sim,Por entrega domiciliária [pelo carteiro],1,19,2041,16,25,SAN,Sim,1569.03000,1.67453,2,20142,0.08516,3,2,1,False


In [25]:
df2.rename(columns={"pred_model": "categoria_renda_corrigida"}, inplace=True)
df2.drop(columns=["original_label"], inplace=True)
df2

Unnamed: 0,idfam,UF____Unidade_da_Federacao,TIPO_SITUACAO_REG____Situacao_do_Domicilio,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo,V0405____Cor_ou_raca,V0406_____tem_plano_ou_segurosaude,V0407_____teve_algum_tipo_de_rendimento_ou_executou_algum_trabalho_remunerado_ou_nao_no_periodo_de_referencia_de_12_meses,V0409____Quantos_cartoes_de_credito_tem,V0410____Quantas_contas_correntes_tem,V0414_____sabe_ler_e_escrever,ANOS_ESTUDO____Anos_de_estudo_da_pessoa_Variavel_derivada_construida_a_partir_dos_quesitos_referentes_a_educacao,V0201____Este_domicilio_e_do_tipo,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio,V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio,V0205____Quantos_comodos_tem_este_domicilio,V0206____Quantos_comodos_estao_servindo_permanentemente_de_dormitorio_para_os_moradores_deste_domicilio,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio,V0209____A_agua_utilizada_neste_domicilio_chega,V02111____Quantos_banheiros_com_chuveiro_e_vaso_sanitario_de_uso_exclusivo_dos_moradores_existem_neste_domicilio_inclusive_os_localizados_no_terreno_ou_na_propriedade,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes,V0213____Qual_o_principal_destino_dado_ao_lixo,V02141____A_energia_eletrica_utilizada_neste_domicilio_e_proveniente_de_rede_geral,V02161____Usa_gas_de_botijao_para_preparar_alimentos,V02162____Lenha_ou_carvao_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos,V02163____Energia_eletrica_e_utilizada_neste_domicilio_na_preparacao_dos_alimentos,V02164____Outro_combustivel_oleo_querosene_etc_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos,V0217____Este_domicilio_e,V0220____Existe_pavimentacao_na_rua_onde_se_localiza_este_domicilio,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado,pessoas_na_familia,imc_medio_familia,energia_kcal_medio_familia,anos_estudo_medio_familia,idade_media_familia,pior_situacao_san,pessoa_referencia_mulher,RENDA_TOTAL,renda_total_sm,categoria_renda,uid,label_score,categoria_renda_corrigida,absolute_diff,is_label_issue_over_2_classes
0,110000016021,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,0,1,Sim,5,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,Cimento,6,2,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Próprio de algum morador – ainda pagando,Sim,Por entrega domiciliária [pelo carteiro],3,25,1321,7,55,SAN,Não,3855.34000,4.11456,4,0,0.45661,4,0,False
1,110000016071,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,4,1,Sim,12,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",8,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],4,23,2070,11,27,SAN,Não,6253.24000,6.67368,4,1,0.29302,5,1,False
2,110000016121,Rondônia,Urbano,Cônjuge ou companheiro[a] de sexo diferente,Parda,Não,Sim,1,0,Sim,11,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",6,3,Poço profundo ou artesiano,Canalizada em pelo menos um cômodo,1,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Alugado,Sim,Por entrega domiciliária [pelo carteiro],2,25,1946,8,23,SAN,Não,4353.51000,4.64622,4,2,0.09968,2,2,True
3,110000016131,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,1,0,Sim,10,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",7,1,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],1,23,1654,10,53,SAN,Sim,1367.63000,1.45958,1,3,0.09793,2,1,False
4,110000584021,Rondônia,Urbano,Filho[a] somente da pessoa de referência,Branca,Não,Sim,0,1,Sim,14,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",8,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],1,23,1769,14,30,IA leve,Não,3188.66000,3.40305,3,4,0.13237,4,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20139,530044198021,Distrito Federal,Urbano,Pessoa de referência da UC,Branca,Sim,Sim,2,1,Sim,16,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],10,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],4,27,2290,13,34,SAN,Não,24739.80000,26.40320,6,20139,0.47075,6,0,False
20140,530044198031,Distrito Federal,Urbano,Pessoa de referência da UC,Preta,Sim,Sim,2,2,Sim,14,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],11,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],3,29,2683,11,27,SAN,Não,35197.60000,37.56414,7,20140,0.17228,6,1,False
20141,530044198091,Distrito Federal,Urbano,Pessoa de referência da UC,Parda,Sim,Não,1,1,Sim,15,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],12,2,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],2,28,1279,15,46,SAN,Sim,31051.45000,33.13922,7,20141,0.55776,7,0,False
20142,530044198111,Distrito Federal,Urbano,Pessoa de referência da UC,Parda,Sim,Sim,1,1,Sim,16,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,"Cerâmica, lajota ou pedra",4,1,Rede geral de distribuição,Canalizada em pelo menos um cômodo,1,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Alugado,Sim,Por entrega domiciliária [pelo carteiro],1,19,2041,16,25,SAN,Sim,1569.03000,1.67453,2,20142,0.08516,3,1,False


In [26]:
df2.is_label_issue_over_2_classes.value_counts(dropna=False)

is_label_issue_over_2_classes
False    16754
True      3390
Name: count, dtype: int64

In [27]:
df2

Unnamed: 0,idfam,UF____Unidade_da_Federacao,TIPO_SITUACAO_REG____Situacao_do_Domicilio,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo,V0405____Cor_ou_raca,V0406_____tem_plano_ou_segurosaude,V0407_____teve_algum_tipo_de_rendimento_ou_executou_algum_trabalho_remunerado_ou_nao_no_periodo_de_referencia_de_12_meses,V0409____Quantos_cartoes_de_credito_tem,V0410____Quantas_contas_correntes_tem,V0414_____sabe_ler_e_escrever,ANOS_ESTUDO____Anos_de_estudo_da_pessoa_Variavel_derivada_construida_a_partir_dos_quesitos_referentes_a_educacao,V0201____Este_domicilio_e_do_tipo,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio,V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio,V0205____Quantos_comodos_tem_este_domicilio,V0206____Quantos_comodos_estao_servindo_permanentemente_de_dormitorio_para_os_moradores_deste_domicilio,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio,V0209____A_agua_utilizada_neste_domicilio_chega,V02111____Quantos_banheiros_com_chuveiro_e_vaso_sanitario_de_uso_exclusivo_dos_moradores_existem_neste_domicilio_inclusive_os_localizados_no_terreno_ou_na_propriedade,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes,V0213____Qual_o_principal_destino_dado_ao_lixo,V02141____A_energia_eletrica_utilizada_neste_domicilio_e_proveniente_de_rede_geral,V02161____Usa_gas_de_botijao_para_preparar_alimentos,V02162____Lenha_ou_carvao_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos,V02163____Energia_eletrica_e_utilizada_neste_domicilio_na_preparacao_dos_alimentos,V02164____Outro_combustivel_oleo_querosene_etc_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos,V0217____Este_domicilio_e,V0220____Existe_pavimentacao_na_rua_onde_se_localiza_este_domicilio,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado,pessoas_na_familia,imc_medio_familia,energia_kcal_medio_familia,anos_estudo_medio_familia,idade_media_familia,pior_situacao_san,pessoa_referencia_mulher,RENDA_TOTAL,renda_total_sm,categoria_renda,uid,label_score,categoria_renda_corrigida,absolute_diff,is_label_issue_over_2_classes
0,110000016021,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,0,1,Sim,5,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,Cimento,6,2,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Próprio de algum morador – ainda pagando,Sim,Por entrega domiciliária [pelo carteiro],3,25,1321,7,55,SAN,Não,3855.34000,4.11456,4,0,0.45661,4,0,False
1,110000016071,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,4,1,Sim,12,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",8,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],4,23,2070,11,27,SAN,Não,6253.24000,6.67368,4,1,0.29302,5,1,False
2,110000016121,Rondônia,Urbano,Cônjuge ou companheiro[a] de sexo diferente,Parda,Não,Sim,1,0,Sim,11,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",6,3,Poço profundo ou artesiano,Canalizada em pelo menos um cômodo,1,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Alugado,Sim,Por entrega domiciliária [pelo carteiro],2,25,1946,8,23,SAN,Não,4353.51000,4.64622,4,2,0.09968,2,2,True
3,110000016131,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,1,0,Sim,10,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",7,1,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],1,23,1654,10,53,SAN,Sim,1367.63000,1.45958,1,3,0.09793,2,1,False
4,110000584021,Rondônia,Urbano,Filho[a] somente da pessoa de referência,Branca,Não,Sim,0,1,Sim,14,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",8,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],1,23,1769,14,30,IA leve,Não,3188.66000,3.40305,3,4,0.13237,4,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20139,530044198021,Distrito Federal,Urbano,Pessoa de referência da UC,Branca,Sim,Sim,2,1,Sim,16,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],10,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],4,27,2290,13,34,SAN,Não,24739.80000,26.40320,6,20139,0.47075,6,0,False
20140,530044198031,Distrito Federal,Urbano,Pessoa de referência da UC,Preta,Sim,Sim,2,2,Sim,14,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],11,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],3,29,2683,11,27,SAN,Não,35197.60000,37.56414,7,20140,0.17228,6,1,False
20141,530044198091,Distrito Federal,Urbano,Pessoa de referência da UC,Parda,Sim,Não,1,1,Sim,15,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],12,2,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],2,28,1279,15,46,SAN,Sim,31051.45000,33.13922,7,20141,0.55776,7,0,False
20142,530044198111,Distrito Federal,Urbano,Pessoa de referência da UC,Parda,Sim,Sim,1,1,Sim,16,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,"Cerâmica, lajota ou pedra",4,1,Rede geral de distribuição,Canalizada em pelo menos um cômodo,1,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Alugado,Sim,Por entrega domiciliária [pelo carteiro],1,19,2041,16,25,SAN,Sim,1569.03000,1.67453,2,20142,0.08516,3,1,False


In [28]:
df2.rename(
    columns={"categoria_renda_corrigida": "categoria_renda_automatizada"}, inplace=True
)

In [29]:
df2["categoria_renda_corrigida"] = df2.apply(
    lambda x: (
        x["categoria_renda_automatizada"]
        if x["is_label_issue_over_2_classes"] == True
        else x["categoria_renda"]
    ),
    axis=1,
)

In [30]:
df2

Unnamed: 0,idfam,UF____Unidade_da_Federacao,TIPO_SITUACAO_REG____Situacao_do_Domicilio,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo,V0405____Cor_ou_raca,V0406_____tem_plano_ou_segurosaude,V0407_____teve_algum_tipo_de_rendimento_ou_executou_algum_trabalho_remunerado_ou_nao_no_periodo_de_referencia_de_12_meses,V0409____Quantos_cartoes_de_credito_tem,V0410____Quantas_contas_correntes_tem,V0414_____sabe_ler_e_escrever,ANOS_ESTUDO____Anos_de_estudo_da_pessoa_Variavel_derivada_construida_a_partir_dos_quesitos_referentes_a_educacao,V0201____Este_domicilio_e_do_tipo,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio,V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio,V0205____Quantos_comodos_tem_este_domicilio,V0206____Quantos_comodos_estao_servindo_permanentemente_de_dormitorio_para_os_moradores_deste_domicilio,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio,V0209____A_agua_utilizada_neste_domicilio_chega,V02111____Quantos_banheiros_com_chuveiro_e_vaso_sanitario_de_uso_exclusivo_dos_moradores_existem_neste_domicilio_inclusive_os_localizados_no_terreno_ou_na_propriedade,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes,V0213____Qual_o_principal_destino_dado_ao_lixo,V02141____A_energia_eletrica_utilizada_neste_domicilio_e_proveniente_de_rede_geral,V02161____Usa_gas_de_botijao_para_preparar_alimentos,V02162____Lenha_ou_carvao_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos,V02163____Energia_eletrica_e_utilizada_neste_domicilio_na_preparacao_dos_alimentos,V02164____Outro_combustivel_oleo_querosene_etc_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos,V0217____Este_domicilio_e,V0220____Existe_pavimentacao_na_rua_onde_se_localiza_este_domicilio,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado,pessoas_na_familia,imc_medio_familia,energia_kcal_medio_familia,anos_estudo_medio_familia,idade_media_familia,pior_situacao_san,pessoa_referencia_mulher,RENDA_TOTAL,renda_total_sm,categoria_renda,uid,label_score,categoria_renda_automatizada,absolute_diff,is_label_issue_over_2_classes,categoria_renda_corrigida
0,110000016021,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,0,1,Sim,5,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,Cimento,6,2,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Próprio de algum morador – ainda pagando,Sim,Por entrega domiciliária [pelo carteiro],3,25,1321,7,55,SAN,Não,3855.34000,4.11456,4,0,0.45661,4,0,False,4
1,110000016071,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,4,1,Sim,12,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",8,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],4,23,2070,11,27,SAN,Não,6253.24000,6.67368,4,1,0.29302,5,1,False,4
2,110000016121,Rondônia,Urbano,Cônjuge ou companheiro[a] de sexo diferente,Parda,Não,Sim,1,0,Sim,11,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",6,3,Poço profundo ou artesiano,Canalizada em pelo menos um cômodo,1,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Alugado,Sim,Por entrega domiciliária [pelo carteiro],2,25,1946,8,23,SAN,Não,4353.51000,4.64622,4,2,0.09968,2,2,True,2
3,110000016131,Rondônia,Urbano,Pessoa de referência da UC,Parda,Não,Sim,1,0,Sim,10,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",7,1,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],1,23,1654,10,53,SAN,Sim,1367.63000,1.45958,1,3,0.09793,2,1,False,1
4,110000584021,Rondônia,Urbano,Filho[a] somente da pessoa de referência,Branca,Não,Sim,0,1,Sim,14,Casa,Alvenaria com revestimento / Taipa com revesti...,Telha sem laje de concreto,"Cerâmica, lajota ou pedra",8,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,2,Fossa não ligada à rede,Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Não,Não,Próprio de algum morador – já pago,Sim,Por entrega domiciliária [pelo carteiro],1,23,1769,14,30,IA leve,Não,3188.66000,3.40305,3,4,0.13237,4,1,False,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20139,530044198021,Distrito Federal,Urbano,Pessoa de referência da UC,Branca,Sim,Sim,2,1,Sim,16,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],10,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],4,27,2290,13,34,SAN,Não,24739.80000,26.40320,6,20139,0.47075,6,0,False,6
20140,530044198031,Distrito Federal,Urbano,Pessoa de referência da UC,Preta,Sim,Sim,2,2,Sim,14,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],11,3,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],3,29,2683,11,27,SAN,Não,35197.60000,37.56414,7,20140,0.17228,6,1,False,7
20141,530044198091,Distrito Federal,Urbano,Pessoa de referência da UC,Parda,Sim,Não,1,1,Sim,15,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,Madeira apropriada para construção [aparelhada],12,2,Rede geral de distribuição,Canalizada em pelo menos um cômodo,3,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Cedido por empregador,Sim,Por entrega domiciliária [pelo carteiro],2,28,1279,15,46,SAN,Sim,31051.45000,33.13922,7,20141,0.55776,7,0,False,7
20142,530044198111,Distrito Federal,Urbano,Pessoa de referência da UC,Parda,Sim,Sim,1,1,Sim,16,Apartamento,Alvenaria com revestimento / Taipa com revesti...,Somente laje de concreto,"Cerâmica, lajota ou pedra",4,1,Rede geral de distribuição,Canalizada em pelo menos um cômodo,1,"Rede geral, rede pluvial ou fossa ligada à rede",Coletado diretamente por serviço de limpeza,Sim,Sim,Não,Sim,Não,Alugado,Sim,Por entrega domiciliária [pelo carteiro],1,19,2041,16,25,SAN,Sim,1569.03000,1.67453,2,20142,0.08516,3,1,False,2


In [31]:
df2.to_parquet("output/data_8_classes_not_onehot_income_fixed.parquet")

In [32]:
df["categoria_renda_corrigida"] = df2["categoria_renda_corrigida"].copy()

In [33]:
df

Unnamed: 0,idfam,V0409____Quantos_cartoes_de_credito_tem,V0410____Quantas_contas_correntes_tem,ANOS_ESTUDO____Anos_de_estudo_da_pessoa_Variavel_derivada_construida_a_partir_dos_quesitos_referentes_a_educacao,V0205____Quantos_comodos_tem_este_domicilio,V0206____Quantos_comodos_estao_servindo_permanentemente_de_dormitorio_para_os_moradores_deste_domicilio,V02111____Quantos_banheiros_com_chuveiro_e_vaso_sanitario_de_uso_exclusivo_dos_moradores_existem_neste_domicilio_inclusive_os_localizados_no_terreno_ou_na_propriedade,pessoas_na_familia,imc_medio_familia,energia_kcal_medio_familia,anos_estudo_medio_familia,idade_media_familia,RENDA_TOTAL,renda_total_sm,categoria_renda_original,uid,TIPO_SITUACAO_REG____Situacao_do_Domicilio_Urbano,V0405____Cor_ou_raca_Amarela,V0405____Cor_ou_raca_Branca,V0405____Cor_ou_raca_Indígena,V0405____Cor_ou_raca_Parda,V0405____Cor_ou_raca_Preta,V0405____Cor_ou_raca_Sem declaração,V0406_____tem_plano_ou_segurosaude_Sim,V0407_____teve_algum_tipo_de_rendimento_ou_executou_algum_trabalho_remunerado_ou_nao_no_periodo_de_referencia_de_12_meses_Sim,V0414_____sabe_ler_e_escrever_Sim,V0201____Este_domicilio_e_do_tipo_Apartamento,V0201____Este_domicilio_e_do_tipo_Casa,"V0201____Este_domicilio_e_do_tipo_Habitação em casa de cômodos, cortiço ou cabeça de porco",V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Alvenaria com revestimento / Taipa com revestimento,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Alvenaria sem revestimento,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Madeira apropriada para construção [aparelhada],V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Madeira aproveitada,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Outro material,V0202____Qual_e_o_material_que_predomina_na_construcao_das_paredes_externas_deste_domicilio_Taipa sem revestimento,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Madeira apropriada para construção [aparelhada],V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Outro material,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Somente laje de concreto,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Telha com laje de concreto,V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Telha sem laje de concreto,"V0203____Qual_e_o_material_que_predomina_na_cobertura_telhado_deste_domicilio_Zinco, alumínio ou chapa metálica","V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Cerâmica, lajota ou pedra",V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Cimento,V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Madeira apropriada para construção [aparelhada],V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Outro Material,V0204____Qual_e_o_material_que_predomina_no_piso_deste_domicilio_Terra,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Fonte ou nascente,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Outra forma,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Poço profundo ou artesiano,"V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Poço raso, freático ou cacimba",V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Rede geral de distribuição,V0207____Qual_a_principal_forma_de_abastecimento_de_agua_utilizada_neste_domicilio_Água da chuva armazenada,V0209____A_agua_utilizada_neste_domicilio_chega_Canalizada em pelo menos um cômodo,V0209____A_agua_utilizada_neste_domicilio_chega_Canalizada só na propriedade ou terreno,V0209____A_agua_utilizada_neste_domicilio_chega_Não canalizada,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_0,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Fossa não ligada à rede,V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Outra forma,"V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Rede geral, rede pluvial ou fossa ligada à rede","V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Rio, lago ou mar",V0212____De_que_forma_e_feito_o_escoadouro_destes_banheiros_sanitarios_ou_buracos_para_dejecoes_Vala,V0213____Qual_o_principal_destino_dado_ao_lixo_Coletado diretamente por serviço de limpeza,V0213____Qual_o_principal_destino_dado_ao_lixo_Coletado em caçamba de serviço de limpeza,V0213____Qual_o_principal_destino_dado_ao_lixo_Enterrado [na propriedade],V0213____Qual_o_principal_destino_dado_ao_lixo_Jogado em terreno baldio ou logradouro,V0213____Qual_o_principal_destino_dado_ao_lixo_Outro destino,V0213____Qual_o_principal_destino_dado_ao_lixo_Queimado [na propriedade],V02141____A_energia_eletrica_utilizada_neste_domicilio_e_proveniente_de_rede_geral_Sim,V02161____Usa_gas_de_botijao_para_preparar_alimentos_Sim,V02162____Lenha_ou_carvao_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos_Sim,V02163____Energia_eletrica_e_utilizada_neste_domicilio_na_preparacao_dos_alimentos_Sim,V02164____Outro_combustivel_oleo_querosene_etc_e_utilizado_neste_domicilio_na_preparacao_dos_alimentos_Sim,V0217____Este_domicilio_e_Alugado,V0217____Este_domicilio_e_Cedido de outra forma,V0217____Este_domicilio_e_Cedido por empregador,V0217____Este_domicilio_e_Cedido por familiar,V0217____Este_domicilio_e_Outra condição,V0217____Este_domicilio_e_Próprio de algum morador – ainda pagando,V0217____Este_domicilio_e_Próprio de algum morador – já pago,V0220____Existe_pavimentacao_na_rua_onde_se_localiza_este_domicilio_Sim,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Em agência de correiros mais próxima,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Em caixa postal comunitária – CPC,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Por entrega domiciliária [pelo carteiro],V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Por entrega em outro endereço,V0221____O_servico_de_distribuicao_dos_correios_para_este_domicilio_e_realizado_Por outra forma,pior_situacao_san_IA grave,pior_situacao_san_IA leve,pior_situacao_san_IA moderada,pior_situacao_san_SAN,pessoa_referencia_mulher_Sim,UF____Unidade_da_Federacao_Acre,UF____Unidade_da_Federacao_Alagoas,UF____Unidade_da_Federacao_Amapá,UF____Unidade_da_Federacao_Amazonas,UF____Unidade_da_Federacao_Bahia,UF____Unidade_da_Federacao_Ceará,UF____Unidade_da_Federacao_Distrito Federal,UF____Unidade_da_Federacao_Espírito Santo,UF____Unidade_da_Federacao_Goiás,UF____Unidade_da_Federacao_Maranhão,UF____Unidade_da_Federacao_Mato Grosso,UF____Unidade_da_Federacao_Mato Grosso do Sul,UF____Unidade_da_Federacao_Minas Gerais,UF____Unidade_da_Federacao_Paraná,UF____Unidade_da_Federacao_Paraíba,UF____Unidade_da_Federacao_Pará,UF____Unidade_da_Federacao_Pernambuco,UF____Unidade_da_Federacao_Piauí,UF____Unidade_da_Federacao_Rio Grande do Norte,UF____Unidade_da_Federacao_Rio Grande do Sul,UF____Unidade_da_Federacao_Rio de Janeiro,UF____Unidade_da_Federacao_Rondônia,UF____Unidade_da_Federacao_Roraima,UF____Unidade_da_Federacao_Santa Catarina,UF____Unidade_da_Federacao_Sergipe,UF____Unidade_da_Federacao_São Paulo,UF____Unidade_da_Federacao_Tocantins,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Avô ou avó,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Convivente – não parente que compartilha despesas,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Cônjuge ou companheiro[a] de sexo diferente,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Cônjuge ou companheiro[a] do mesmo sexo,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Filho[a] da pessoa de referência e do cônjuge,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Filho[a] somente da pessoa de referência,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Filho[a] somente do cônjuge,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Genro ou nora,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Irmão ou irmã,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Neto[a],V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Outro parente,"V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Pai, mãe, padrasto ou madrasta",V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Pessoa de referência da UC,V0306____Condicao_na_Unidade_de_Consumo_Identifica_o_grau_de_parentesco_ou_a_natureza_da_subordinacao_existente_entre_o_morador_e_a_pessoa_de_referencia_da_sua_unidade_de_consumo_Sogro[a],categoria_renda_corrigida
0,110000016021,0,1,5,6,2,2,3,25,1321,7,55,3855.34000,4.11456,4,0,True,False,False,False,True,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,False,True,False,False,False,False,False,False,False,True,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,False,False,False,True,False,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,4
1,110000016071,4,1,12,8,3,2,4,23,2070,11,27,6253.24000,6.67368,4,1,True,False,False,False,True,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,False,False,False,True,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,False,False,False,False,True,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,4
2,110000016121,1,0,11,6,3,1,2,25,1946,8,23,4353.51000,4.64622,4,2,True,False,False,False,True,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,False,True,False,False,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,False,False,True,False,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,2
3,110000016131,1,0,10,7,1,2,1,23,1654,10,53,1367.63000,1.45958,1,3,True,False,False,False,True,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,False,False,False,True,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,False,False,False,True,True,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,1
4,110000584021,0,1,14,8,3,2,1,23,1769,14,30,3188.66000,3.40305,3,4,True,False,True,False,False,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,False,False,False,True,False,True,False,False,False,True,False,False,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,False,False,False,True,True,False,False,True,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20139,530044198021,2,1,16,10,3,3,4,27,2290,13,34,24739.80000,26.40320,6,20139,True,False,True,False,False,False,False,True,True,True,True,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,True,False,False,False,False,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,6
20140,530044198031,2,2,14,11,3,3,3,29,2683,11,27,35197.60000,37.56414,7,20140,True,False,False,False,False,True,False,True,True,True,True,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,True,False,False,False,False,True,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,7
20141,530044198091,1,1,15,12,2,3,2,28,1279,15,46,31051.45000,33.13922,7,20141,True,False,False,False,True,False,False,True,False,True,True,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,True,False,False,False,True,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,7
20142,530044198111,1,1,16,4,1,1,1,19,2041,16,25,1569.03000,1.67453,2,20142,True,False,False,False,True,False,False,True,True,True,True,False,False,True,False,False,False,False,False,False,False,True,False,False,False,True,False,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,True,False,True,False,False,False,False,False,False,True,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,2


In [34]:
df.to_parquet("output/data_8_classes_one_hot_encoded_income_fixed.parquet")