# **Notebook para Tratamento de Valores Nulos**

**Introdução:**
Neste notebook, iremos remover, tratar e substituir valores nulos de nossa bade de dados. Os atributos utlizados foram selecionados criteriozamente utilizando como base o método CAPTO para selecionar os atributos mais relevantes para a classificação de pessoas que possam possuir depressão. Os dados utilizados serão provenientes da Pesquisa Nacional de Saúde (PNS) de 2019.

**Objetivos:**
O principal objetivo deste notebook é remover, tratar e substituir por completo dados nulos de nossa base, deixando a base preenchida por completo. 


## Bibliotecas Utilizadas
As principais bibliotecas utilizadas nesta etapa são:
- Sidetable: Auxilia na identificação rápida de valores faltantes e frequências de valores categóricos.
- Pandas Profiling: Faz uma análise exploratória automática dos dados, gerando insights sobre problemas nos dados.
- NumPy: Biblioteca fundamental para computação científica em Python.
- Pandas: Biblioteca popular para análise de dados.
- IPython Widgets: Permite interatividade.

In [1]:
import numpy as np
import pandas as pd 

import seaborn as sns
import matplotlib.pyplot as plt 

import sidetable 
from ydata_profiling import ProfileReport

from ipywidgets import interact, widgets 

from sklearn.preprocessing import scale, minmax_scale, power_transform

In [2]:
sns.set_theme(
    context = 'talk', 
    style='ticks',
    font_scale= 8,
    rc= {
        'figure.figsize': (12,8) 
    }
)

# Tratando Valores Nulos 

> Importando base de dados

In [3]:
df = pd.read_csv(r"C:\Users\maype\OneDrive\Área de Trabalho\projects\projeto-aprendizado-de-maquina\Data\base_tratada.csv")

In [4]:
df.head()

Unnamed: 0.1,Unnamed: 0,Sexo,Apoio_Familiar,Apoio_de_Amigos,Tipo_de_Trabalho,Trabalhador_Nao_Remunerado,Horas_Trabalhadas_Noite,Freq_Trabalho_Noite,Curso_Mais_Elevado,Diagnostico_Depressao,...,idade,trabalhou,horas_trabalhadas_total,doencas_cronicas,saneamento_basico,moradia_vulneravel,tempo_total_exercicio,frequencia_exercicio,doses_bebida_alcoolica,freq_bebida_alcoolica
0,0,2.0,3.0,0.0,6.0,,,,5.0,1.0,...,55.0,1.0,40.0,1,2,2,0.5,1.0,,2.0
1,1,2.0,1.0,1.0,3.0,,,,10.0,2.0,...,45.0,1.0,36.0,2,2,2,,,7.0,3.0
2,2,2.0,1.0,0.0,3.0,,,,4.0,2.0,...,58.0,1.0,6.0,2,2,2,1.0,3.0,,1.0
3,3,2.0,3.0,0.0,3.0,,,,10.0,2.0,...,41.0,1.0,16.0,2,2,2,2.0,7.0,,1.0
4,4,2.0,2.0,1.0,6.0,,,,7.0,2.0,...,52.0,1.0,48.0,1,2,2,,0.0,,1.0


> ### Informações sobre a base 

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40359 entries, 0 to 40358
Data columns (total 70 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Unnamed: 0                       40359 non-null  int64  
 1   Sexo                             40359 non-null  float64
 2   Apoio_Familiar                   40359 non-null  float64
 3   Apoio_de_Amigos                  40359 non-null  float64
 4   Tipo_de_Trabalho                 26285 non-null  float64
 5   Trabalhador_Nao_Remunerado       295 non-null    float64
 6   Horas_Trabalhadas_Noite          3145 non-null   float64
 7   Freq_Trabalho_Noite              3145 non-null   float64
 8   Curso_Mais_Elevado               36596 non-null  float64
 9   Diagnostico_Depressao            40359 non-null  float64
 10  A005010                          40359 non-null  float64
 11  Estado_de_Saude                  40359 non-null  float64
 12  Pratica_Exercicio 

> ### Identificando valores nulos 


In [6]:
# Valores absolutos
df.isna().sum()

Unnamed: 0                    0
Sexo                          0
Apoio_Familiar                0
Apoio_de_Amigos               0
Tipo_de_Trabalho          14074
                          ...  
moradia_vulneravel            0
tempo_total_exercicio     25925
frequencia_exercicio      25445
doses_bebida_alcoolica    29376
freq_bebida_alcoolica         0
Length: 70, dtype: int64

In [7]:
# Porcentagem destes valores 

# Calcular a porcentagem de valores nulos apenas nas colunas que têm valores nulos
porcentagem_nulos = (df.isna().sum() / df.shape[0])

# Filtrar apenas as colunas que têm valores nulos
porcentagem_nulos_filtrada = porcentagem_nulos[porcentagem_nulos > 0]

df_nulos=(
porcentagem_nulos_filtrada.to_frame("% Valores Nulos")
.sort_values("% Valores Nulos", ascending=False)
)


df_nulos.style.format('{:1.2%}', subset=['% Valores Nulos'])

Unnamed: 0,% Valores Nulos
Trabalhador_Nao_Remunerado,99.27%
Horas_Trabalhadas_Noite,92.21%
Freq_Trabalho_Noite,92.21%
Motivo_Impedimento_Atividades,88.86%
Orientacoes_Saude,88.16%
Motivo_Atendimento_Saude,77.26%
doses_bebida_alcoolica,72.79%
Exercicio_Mais_Frequente,64.24%
tempo_total_exercicio,64.24%
frequencia_exercicio,63.05%


## Removendo Colunas
> Iremos remover todas as colunas com quantidade de valores nulos maior que 70%.

In [8]:
df.drop(columns=['Trabalhador_Nao_Remunerado', 'Horas_Trabalhadas_Noite', 'Freq_Trabalho_Noite', 'Motivo_Impedimento_Atividades', 'Orientacoes_Saude', 'Motivo_Atendimento_Saude', 'doses_bebida_alcoolica'], inplace=True)


In [9]:
# Conferindo se as colunas foram removidas
df.columns

Index(['Unnamed: 0', 'Sexo', 'Apoio_Familiar', 'Apoio_de_Amigos',
       'Tipo_de_Trabalho', 'Curso_Mais_Elevado', 'Diagnostico_Depressao',
       'A005010', 'Estado_de_Saude', 'Pratica_Exercicio',
       'Exercicio_Mais_Frequente', 'Ultima_Consulta_Medica',
       'Procura_Atendimento_Saude', 'Problemas_Sono', 'Consumo_Arroz_Macarrao',
       'Consumo_Batata', 'Consumo_Feijao', 'Consumo_Carne', 'Consumo_Ovo',
       'Consumo_Verduras_1', 'Consumo_Verduras_2', 'Consumo_Verduras_3',
       'Consumo_Frutas_1', 'Consumo_Frutas_2', 'Consumo_Leite',
       'Consumo_Castanhas', 'Consumo_Refrigerante', 'Consumo_Suco_Caixinha',
       'Consumo_Bebida_Achocolatada', 'Consumo_Salgadinho_Biscoito',
       'Consumo_Biscoito_Doce', 'Consumo_Sobremesa', 'Consumo_Embutidos',
       'Consumo_Pao', 'Consumo_Molhos_Industrializados',
       'Consumo_Alimentos_Prontos', 'Freq_Consumo_Feijao',
       'Freq_Consumo_Verduras', 'Tipo_Verdura_Costuma_Comer',
       'Freq_Consumo_Carne_Vermelha', 'Freq_Consumo

## Prenchendo Valores
> Nesta etapa iremos utilizar da própria lógica do questionário da PNS para tentar preencher o máximo de valores nulos possiveis. 
> Nos atributos que ainda restarem valores nulos iremos utilizar *estatisticas descritivas* e modelos de *machine learning* para preencher os valores restantes em nossa base de dados. 


> Vamos preencher algumas colunas com "Não respondeu" de acordo com a logica do questionário

In [10]:
# Verificando Tipos de dados
df[[	
'Exercicio_Mais_Frequente',	
'tempo_total_exercicio',	
'frequencia_exercicio',	
'Freq_Comer_Frutas_Dia',	
'Tipo_Verdura_Costuma_Comer',	
'Tipo_de_Trabalho',	
'Tipo_Leite',	
'Curso_Mais_Elevado']].dtypes

Exercicio_Mais_Frequente      float64
tempo_total_exercicio         float64
frequencia_exercicio          float64
Freq_Comer_Frutas_Dia         float64
Tipo_Verdura_Costuma_Comer    float64
Tipo_de_Trabalho              float64
Tipo_Leite                    float64
Curso_Mais_Elevado            float64
dtype: object

In [11]:
# Vamos mudar o tipo de dados de "Tipo_de_Trabalho", "Curso_Mais_Elevado", "Exercicio_Mais_Frequente",
# "Tipo_Verdura_Costuma_Comer" e "Tipo_Leite" para categorico. 

colunas_para_converter = ['Tipo_de_Trabalho', 'Curso_Mais_Elevado', 'Exercicio_Mais_Frequente', 'Tipo_Verdura_Costuma_Comer', 'Tipo_Leite']
df[colunas_para_converter] = df[colunas_para_converter].astype('category')


In [12]:
# Verificando novamente 
valores_nulos = df.isnull().sum()

colunas_com_nulos = valores_nulos[valores_nulos > 0].index

tipos_dados_colunas_com_nulos = df[colunas_com_nulos].dtypes
print(tipos_dados_colunas_com_nulos)

Tipo_de_Trabalho              category
Curso_Mais_Elevado            category
Exercicio_Mais_Frequente      category
Tipo_Verdura_Costuma_Comer    category
Freq_Comer_Frutas_Dia          float64
Tipo_Leite                    category
tempo_total_exercicio          float64
frequencia_exercicio           float64
dtype: object


### Tipo de Trabalho 

In [13]:
df['Tipo_de_Trabalho']

0        6.0
1        3.0
2        3.0
3        3.0
4        6.0
        ... 
40354    6.0
40355    6.0
40356    3.0
40357    3.0
40358    6.0
Name: Tipo_de_Trabalho, Length: 40359, dtype: category
Categories (7, float64): [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0]

In [14]:
# Convertendo a coluna 'Tipo_de_Trabalho' para tipo de dados string
df['Tipo_de_Trabalho'] = df['Tipo_de_Trabalho'].astype('string')

# Aplicando a lógica
for index, row in df.iterrows():
    if row['trabalhou'] == 1 and pd.isna(row['Tipo_de_Trabalho']):
        df.at[index, 'Tipo_de_Trabalho'] = None
    elif row['trabalhou'] == 2 and pd.isna(row['Tipo_de_Trabalho']):
        df.at[index, 'Tipo_de_Trabalho'] = '0'

In [15]:
# Retornando variável para seu tipo original 
df['Tipo_de_Trabalho'] = df['Tipo_de_Trabalho'].astype('category')

In [16]:
df['Tipo_de_Trabalho'].isna().sum()


0

In [17]:
df['Tipo_de_Trabalho']

0        6.0
1        3.0
2        3.0
3        3.0
4        6.0
        ... 
40354    6.0
40355    6.0
40356    3.0
40357    3.0
40358    6.0
Name: Tipo_de_Trabalho, Length: 40359, dtype: category
Categories (8, string): [0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0]

# Exercicio_Mais_Frequente, tempo_total_exercicio, frequencia_exercicio

In [18]:
# Convertendo as colunas para tipo de dados string
df['Exercicio_Mais_Frequente'] = df['Exercicio_Mais_Frequente'].astype('string')

# Aplicando a lógica
for index, row in df.iterrows():
    if row['Pratica_Exercicio'] == 1 and pd.isna(row['Exercicio_Mais_Frequente']):
        df.at[index, 'Exercicio_Mais_Frequente'] = None
    elif row['Pratica_Exercicio'] == 2 and pd.isna(row['Exercicio_Mais_Frequente']):
        df.at[index, 'Exercicio_Mais_Frequente'] = '0'
    
    if row['Pratica_Exercicio'] == 1 and pd.isna(row['tempo_total_exercicio']):
        df.at[index, 'tempo_total_exercicio'] = None
    elif row['Pratica_Exercicio'] == 2 and pd.isna(row['tempo_total_exercicio']):
        df.at[index, 'tempo_total_exercicio'] = 0
    
    if row['Pratica_Exercicio'] == 1 and pd.isna(row['frequencia_exercicio']):
        df.at[index, 'frequencia_exercicio'] = None
    elif row['Pratica_Exercicio'] == 2 and pd.isna(row['frequencia_exercicio']):
        df.at[index, 'frequencia_exercicio'] = 0


In [19]:
df[['Exercicio_Mais_Frequente','tempo_total_exercicio', 'frequencia_exercicio' ]].isna().sum()

Exercicio_Mais_Frequente    480
tempo_total_exercicio       480
frequencia_exercicio          0
dtype: int64

In [20]:
# Retornando variável para seu tipo original 
df['Exercicio_Mais_Frequente'] = df['Exercicio_Mais_Frequente'].astype('category')

### Freq_Comer_Frutas_Dia

In [21]:
# Preenchendo as linhas onde 'Freq_Consumo_Frutas' é igual a 0
df.loc[df['Freq_Consumo_Frutas'] == 0, 'Freq_Comer_Frutas_Dia'] = 0

In [22]:
df['Freq_Comer_Frutas_Dia'].isna().sum()

17194

### Tipo_Verdura_Costuma_Comer

In [23]:
df['Tipo_Verdura_Costuma_Comer'] = df['Tipo_Verdura_Costuma_Comer'].astype('string')

# Preenchendo as linhas onde 'Freq_Consumo_Verduras' é igual a 0
df.loc[df['Freq_Consumo_Verduras'] == 0, 'Tipo_Verdura_Costuma_Comer'] = '0'

In [24]:
# Retornando variavel para seu tipo original 
df['Tipo_Verdura_Costuma_Comer'] = df['Tipo_Verdura_Costuma_Comer'].astype('category')

In [25]:
df['Tipo_Verdura_Costuma_Comer'].isna().sum()

15411

### Tipo_Leite

In [26]:
df['Tipo_Leite'] = df['Tipo_Leite'].astype('string')

# Preenchendo as linhas onde 'Freq_Consumo_Leite' é igual a 0
df.loc[df['Freq_Consumo_Leite'] == 0, 'Tipo_Leite'] = '0'

In [27]:
# Retornando variável para seu tipo original 
df['Tipo_Leite'] = df['Tipo_Leite'].astype('category')

### Conferindo quantidade de valores nulos 

In [28]:
# Porcentagem destes valores 

# Calcular a porcentagem de valores nulos apenas nas colunas que têm valores nulos
porcentagem_nulos = (df.isna().sum() / df.shape[0])

# Filtrar apenas as colunas que têm valores nulos
porcentagem_nulos_filtrada = porcentagem_nulos[porcentagem_nulos > 0]

df_nulos=(
porcentagem_nulos_filtrada.to_frame("% Valores Nulos")
.sort_values("% Valores Nulos", ascending=False)
)


df_nulos.style.format('{:1.2%}', subset=['% Valores Nulos'])

Unnamed: 0,% Valores Nulos
Freq_Comer_Frutas_Dia,42.60%
Tipo_Verdura_Costuma_Comer,38.18%
Curso_Mais_Elevado,9.32%
Exercicio_Mais_Frequente,1.19%
tempo_total_exercicio,1.19%


## **Preenchimento de Valores Ausentes usando KNN**

Neste código, foram utilizados os seguintes passos para preencher valores ausentes em colunas numéricas usando o algoritmo KNN:

1. **Seleção das colunas numéricas:** Foram selecionadas as colunas 'Freq_Comer_Frutas_Dia' e 'tempo_total_exercicio' do DataFrame para preenchimento.

2. **Criação do imputer KNN:** Foi criado um objeto KNNImputer com n_neighbors=5. Isso significa que o algoritmo considerará os 5 vizinhos mais próximos para calcular o valor de imputação.

3. **Preenchimento dos valores ausentes:** O método fit_transform do KNNImputer foi aplicado às colunas numéricas selecionadas do DataFrame. Isso ajusta o imputer aos dados e, em seguida, preenche os valores ausentes usando o algoritmo KNN.

Esse procedimento é útil para lidar com valores ausentes em conjuntos de dados numéricos, preenchendo-os de forma inteligente com base nas características dos dados existentes.

In [29]:
from sklearn.impute import KNNImputer
from sklearn.impute import SimpleImputer
from sklearn.metrics import classification_report
import pandas as pd

# Selecionar as colunas categóricas para preenchimento com moda
cols_categoricas = ['Exercicio_Mais_Frequente', 'Tipo_Verdura_Costuma_Comer', 'Curso_Mais_Elevado']

# Selecionar as colunas numéricas para preenchimento com KNN
cols_numericas = ['Freq_Comer_Frutas_Dia', 'tempo_total_exercicio']

# Preencher os valores ausentes com a moda para colunas categóricas
for col in cols_categoricas:
    moda = df[col].mode()[0]
    df[col].fillna(moda, inplace=True)

# Criar um imputer KNN para as colunas numéricas
knn_imputer = KNNImputer(n_neighbors=5)

# Preencher os valores ausentes com KNN para colunas numéricas
df[cols_numericas] = knn_imputer.fit_transform(df[cols_numericas])



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(moda, inplace=True)


In [30]:
from sklearn.metrics import accuracy_score, classification_report

# Calcular os valores verdadeiros (DataFrame original sem os valores ausentes)
df_true_values = df.dropna()

# Calcular os valores preenchidos (DataFrame após preenchimento dos valores ausentes)
df_filled_values = df.copy()

# Acurácia por coluna
acuracias_por_coluna = {}
for col in cols_numericas + cols_categoricas:
    report = classification_report(df_true_values[col], df_filled_values[col], output_dict=True)
    acuracias_por_coluna[col] = report['accuracy']

# Imprimir resultados
print("Acurácia por Coluna:")
for col, acuracia in acuracias_por_coluna.items():
    print(f"{col}: {acuracia}")


ValueError: continuous is not supported

In [None]:
from sklearn.metrics import accuracy_score, classification_report

# Calcular a acurácia e relatório de classificação para cada coluna categórica individualmente
accuracy_por_coluna = {}
classification_report_por_coluna = {}
for col in cols_categoricas:
    accuracy_por_coluna[col] = accuracy_score(df_true_values[col], df_filled_values[col])
    classification_report_por_coluna[col] = classification_report(df_true_values[col], df_filled_values[col], output_dict=True)

# Calcular a acurácia geral como a média das acurácias por coluna
accuracy_geral = sum(accuracy_por_coluna.values()) / len(accuracy_por_coluna)

# Imprimir a acurácia por coluna
print("\nAcurácia por Coluna para Colunas Categóricas:")
for col, accuracy in accuracy_por_coluna.items():
    print(f"{col}: {accuracy:.4f}")

# Imprimir a acurácia geral
print("\nAcurácia Geral para Colunas Categóricas:", accuracy_geral)

# Imprimir o relatório de classificação por coluna
print("\nRelatório de Classificação por Coluna para Colunas Categóricas:")
for col, report in classification_report_por_coluna.items():
    print(col)
    print(classification_report(df_true_values[col], df_filled_values[col]))
    print()



Acurácia por Coluna para Colunas Categóricas:
Exercicio_Mais_Frequente: 1.0000
Tipo_Verdura_Costuma_Comer: 1.0000
Curso_Mais_Elevado: 1.0000

Acurácia Geral para Colunas Categóricas: 1.0

Relatório de Classificação por Coluna para Colunas Categóricas:
Exercicio_Mais_Frequente
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     25925
         1.0       1.00      1.00      1.00      7213
        10.0       1.00      1.00      1.00       104
        11.0       1.00      1.00      1.00       738
        12.0       1.00      1.00      1.00      1234
        13.0       1.00      1.00      1.00         7
        14.0       1.00      1.00      1.00        64
        15.0       1.00      1.00      1.00        36
        16.0       1.00      1.00      1.00       241
        17.0       1.00      1.00      1.00       323
         2.0       1.00      1.00      1.00       337
         3.0       1.00      1.00      1.00       621
         4.0       

In [None]:
# Exportando a base de dados 
df.to_csv(r"C:\Users\maype\OneDrive\Área de Trabalho\projects\projeto-mineracao-de-dados\Data\base_tratada2.csv")

In [None]:
# Gerando Relatorio para Análises Gerais
profile = ProfileReport(df, title="Profiling Report")
profile.to_file(r"C:\Users\maype\OneDrive\Área de Trabalho\projects\projeto-mineracao-de-dados\Vizualizaçoes\EDA_sem_nulos_pns2019_depressao.html")