**Importando bibliotecas**

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

**Abrindo um arquivo CSV do drive**

In [2]:
base = pd.read_csv('../Bases/Criados/5_base_codificada.csv')

In [3]:
base

Unnamed: 0,V0001,V0026,V0031,B001,C006,C008,C009,C011,J001,J00101,...,Exposicao_quimica,Exposicao_ruido,Exposicao_lixo,Exposicao_minerio,Atividade_fisica_semanal,Inicio_tabagismo,Tempo_parou_fumar,Intensidade_fumo,Consumo_alcool,Faixa_imc
0,21,1,1,2.0,2.0,54.0,2,3.0,3.0,2.0,...,2,2,2,2,0,0,0,0,0,3
1,21,1,1,2.0,2.0,41.0,3,1.0,3.0,2.0,...,2,2,2,2,2,0,3,0,3,3
2,21,1,1,2.0,1.0,62.0,0,2.0,2.0,1.0,...,2,2,2,2,0,1,3,0,2,2
3,21,1,1,2.0,2.0,51.0,2,1.0,2.0,2.0,...,2,2,2,2,3,0,0,0,0,2
4,21,1,1,2.0,2.0,42.0,0,1.0,2.0,2.0,...,2,2,2,2,2,0,0,0,0,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20489,53,2,1,2.0,2.0,51.0,0,4.0,4.0,3.0,...,2,2,2,2,0,0,0,0,2,1
20490,53,2,1,2.0,1.0,44.0,3,4.0,3.0,2.0,...,1,2,2,2,0,0,0,0,0,1
20491,53,2,1,2.0,2.0,54.0,2,1.0,3.0,2.0,...,2,1,2,2,0,2,1,2,1,1
20492,53,2,1,3.0,1.0,44.0,2,2.0,2.0,2.0,...,2,1,1,2,0,3,1,2,3,2


**Verificando ausência na base de dados**

In [4]:
# índices das linhas que contém valores NaN
missing_indices = base[base.isnull().any(axis=1)].index

# imprime apenas as linhas com valoes ausentes
display(base.iloc[missing_indices])

Unnamed: 0,V0001,V0026,V0031,B001,C006,C008,C009,C011,J001,J00101,...,Exposicao_quimica,Exposicao_ruido,Exposicao_lixo,Exposicao_minerio,Atividade_fisica_semanal,Inicio_tabagismo,Tempo_parou_fumar,Intensidade_fumo,Consumo_alcool,Faixa_imc


**Verificar se existem amostras inconsistentes e redundantes**

In [5]:
Nome_das_Colunas = base.columns[:-1]

In [6]:
df_duplicates = base[base.duplicated(subset=Nome_das_Colunas,keep=False)]
# se houver valores redundantes ou inconsistentes, imprima
if len(df_duplicates)>0:
    print('\nAmostras redundantes ou inconsistentes:')
    display(df_duplicates)
else:
    print('Não existem valores duplicados')


Amostras redundantes ou inconsistentes:


Unnamed: 0,V0001,V0026,V0031,B001,C006,C008,C009,C011,J001,J00101,...,Exposicao_quimica,Exposicao_ruido,Exposicao_lixo,Exposicao_minerio,Atividade_fisica_semanal,Inicio_tabagismo,Tempo_parou_fumar,Intensidade_fumo,Consumo_alcool,Faixa_imc
3811,23,1,1,2.0,1.0,57.0,2,4.0,1.0,1.0,...,2,2,2,2,3,0,0,0,0,2
4008,23,1,1,2.0,1.0,57.0,2,4.0,1.0,1.0,...,2,2,2,2,3,0,0,0,0,2


Como podemos ver, existem algumas amostras redundantes (duplicadas) e outras inconsistentes (amostras iguais, mas com classes distintas).
Primeiro, serão removidas as amostras redundantes, mantendo na base apenas uma delas.

In [7]:
def delDuplicatas( df_dataset ):
    '''
    Para cada grupo de amostras duplicadas, mantém uma e apaga as demais
    '''

    # remove as amostras duplicadas, mantendo apenas a primeira ocorrencia
    df_dataset = df_dataset.drop_duplicates(keep = 'first')

    return df_dataset

base = delDuplicatas( base )

**Após remover as amostras redundantes, é preciso checar se há amostras inconsistentes.**

In [8]:
# para detectar inconsistências, a rotina abaixo obtém as amostras onde os valores
# dos atributos continuam duplicados. Neste caso, os atributos serão iguais, mas as classes serão distintas
df_duplicates = base[base.duplicated(subset=Nome_das_Colunas,keep=False)]

# se tiver valores inconsistentes, imprime
if len(df_duplicates)>0:
    print('\nAmostras inconsistentes:')
    display(df_duplicates)
else:
    print('Não existem mostras inconsistentes')


Não existem mostras inconsistentes


**Tendo amostras inconsistentes, será necessário apagar estas instâncias, já que não sabemos qual delas está correta**

In [9]:
def delInconsistencias(df_dataset):
    '''
    Remove todas as amostras inconsistentes da base de dados
    '''

    df_dataset = df_dataset.drop_duplicates(subset=Nome_das_Colunas,keep=False)

    return df_dataset

base = delInconsistencias(base)

# obtém apenas as amostras onde os valores dos atributos estão duplicados
df_duplicates = base[base.duplicated(subset=Nome_das_Colunas,keep=False)]

# se tiver valores redundantes ou inconsistentes, imprime
if len(df_duplicates)>0:
    display(df_duplicates)
else:
    print('Não existem amostras redundantes ou inconsistentes')


Não existem amostras redundantes ou inconsistentes
