# **Notebook para Tratamento de Valores Faltantes**

**Introdução:**
Neste notebook, iremos remover, tratar e substituir valores nulos de nossa bade de dados. Os atributos utlizados foram selecionados criteriozamente utilizando como base o método CAPTO para selecionar os atributos mais relevantes para a classificação de pessoas que possam possuir depressão. Os dados utilizados serão provenientes da Pesquisa Nacional de Saúde (PNS) de 2019.

**Objetivos:**
O principal objetivo deste notebook é remover, tratar e substituir por completo dados nulos de nossa base, deixando a base preenchida por completo. 


## Bibliotecas Utilizadas
As principais bibliotecas utilizadas nesta etapa são:
- Sidetable: Auxilia na identificação rápida de valores faltantes e frequências de valores categóricos.
- Pandas Profiling: Faz uma análise exploratória automática dos dados, gerando insights sobre problemas nos dados.
- NumPy: Biblioteca fundamental para computação científica em Python.
- Pandas: Biblioteca popular para análise de dados.
- IPython Widgets: Permite interatividade.

In [5]:
import numpy as np
import pandas as pd 
import os
import seaborn as sns
import matplotlib.pyplot as plt 

# Tratando Valores Nulos 

> Importando base de dados

In [6]:
# Obtendo o diretório atual do script
diretorio_atual = os.path.dirname(os.path.abspath('__file__'))

# Construindo o caminho para o arquivo CSV usando o caminho relativo
#caminho = os.path.join(diretorio_atual,'..','..','..','..','Data', 'Bases Modificadas', 'base_consolidada.csv')
# Carregando o arquivo CSV
df = pd.read_csv(r"C:\Users\maype\OneDrive - sga.pucminas.br\Área de Trabalho\Faculdade\projects\A Machine Learning Approach to Characterizing Depression in Brazilian Adult\Data\Bases Modificadas\base_consolidada.csv")

In [7]:
df.head()

Unnamed: 0,Sexo,Apoio_Familiar,Apoio_de_Amigos,Tipo_de_Trabalho,Trabalhador_Nao_Remunerado,Horas_Trabalhadas_Noite,Freq_Trabalho_Noite,Curso_Mais_Elevado,Diagnostico_Depressao,Estado_de_Saude,...,Consumo de Sucos Industrializados,Consumo de Sucos Naturais,Consumo de Bebidas Lacteas,Consumo de Salgadinhos e Biscoitos Salgados,Consumo de Doces e Sobremesas Industrializadas,Consumo de Embutidos e Alimentos Processados,Consumo de Paes Industrializados,Consumo de Molhos Industrializados,Substituicao de Refeicoes por Lanches Rapidos,Consumo de Sal
0,2.0,3.0,0.0,6.0,,,,5.0,1.0,3.0,...,10.0,0.0,2.0,2.0,4.0,4.0,2.0,1.0,0.0,3.0
1,2.0,1.0,1.0,3.0,,,,10.0,2.0,1.0,...,2.0,7.0,1.0,2.0,4.0,3.0,2.0,2.0,0.0,4.0
2,2.0,1.0,0.0,3.0,,,,4.0,2.0,3.0,...,2.0,3.0,2.0,2.0,4.0,4.0,2.0,2.0,0.0,3.0
3,2.0,3.0,0.0,,,,,,2.0,2.0,...,6.0,4.0,2.0,2.0,5.0,4.0,2.0,2.0,0.0,3.0
4,2.0,3.0,0.0,3.0,,,,10.0,2.0,2.0,...,2.0,7.0,2.0,2.0,5.0,4.0,2.0,2.0,0.0,3.0


> ### Informações sobre a base 

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63782 entries, 0 to 63781
Data columns (total 51 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   Sexo                                            63782 non-null  float64
 1   Apoio_Familiar                                  63782 non-null  float64
 2   Apoio_de_Amigos                                 63782 non-null  float64
 3   Tipo_de_Trabalho                                45959 non-null  float64
 4   Trabalhador_Nao_Remunerado                      569 non-null    float64
 5   Horas_Trabalhadas_Noite                         6037 non-null   float64
 6   Freq_Trabalho_Noite                             6037 non-null   float64
 7   Curso_Mais_Elevado                              56532 non-null  float64
 8   Diagnostico_Depressao                           63782 non-null  float64
 9   Estado_de_Saude                        

> ### Identificando valores nulos 


In [9]:
# Valores absolutos
df.isna().sum()

Sexo                                                  0
Apoio_Familiar                                        0
Apoio_de_Amigos                                       0
Tipo_de_Trabalho                                  17823
Trabalhador_Nao_Remunerado                        63213
Horas_Trabalhadas_Noite                           57745
Freq_Trabalho_Noite                               57745
Curso_Mais_Elevado                                 7250
Diagnostico_Depressao                                 0
Estado_de_Saude                                       0
Pratica_Exercicio                                     0
Exercicio_Mais_Frequente                          37621
Motivo_Impedimento_Atividades                     58087
Ultima_Consulta_Medica                                0
Procura_Atendimento_Saude                             0
Motivo_Atendimento_Saude                          51570
Orientacoes_Saude                                 57517
Problemas_Sono                                  

In [12]:
# Porcentagem destes valores 

# Calcular a porcentagem de valores nulos apenas nas colunas que têm valores nulos
porcentagem_nulos = (df.isna().sum() / df.shape[0])

# Filtrar apenas as colunas que têm valores nulos
porcentagem_nulos_filtrada = porcentagem_nulos[porcentagem_nulos > 0]

df_nulos=(
porcentagem_nulos_filtrada.to_frame("% Valores Nulos")
.sort_values("% Valores Nulos", ascending=False)
)


df_nulos.style.format('{:1.2%}', subset=['% Valores Nulos'])

Unnamed: 0,% Valores Nulos
Trabalhador_Nao_Remunerado,99.11%
Motivo_Impedimento_Atividades,91.07%
Horas_Trabalhadas_Noite,90.53%
Freq_Trabalho_Noite,90.53%
Orientacoes_Saude,90.18%
Motivo_Atendimento_Saude,80.85%
doses_bebida_alcoolica,68.90%
Exercicio_Mais_Frequente,58.98%
tempo_total_exercicio,58.98%
frequencia_exercicio,57.47%


## Removendo Colunas
> Iremos remover todas as colunas com quantidade de valores nulos maior que 70%.

In [13]:
df.drop(columns=['Trabalhador_Nao_Remunerado', 'Horas_Trabalhadas_Noite', 'Freq_Trabalho_Noite', 'Motivo_Impedimento_Atividades', 'Orientacoes_Saude', 'Motivo_Atendimento_Saude', 'doses_bebida_alcoolica'], inplace=True)


In [14]:
# Conferindo se as colunas foram removidas
df.columns

Index(['Sexo', 'Apoio_Familiar', 'Apoio_de_Amigos', 'Tipo_de_Trabalho',
       'Curso_Mais_Elevado', 'Diagnostico_Depressao', 'Estado_de_Saude',
       'Pratica_Exercicio', 'Exercicio_Mais_Frequente',
       'Ultima_Consulta_Medica', 'Procura_Atendimento_Saude', 'Problemas_Sono',
       'peso_consolidado(KG)', 'altura_consolidada(CM)', 'IMC', 'renda_total',
       'idade', 'trabalhou', 'horas_trabalhadas_total', 'doencas_cronicas',
       'saneamento_basico', 'moradia_vulneravel', 'tempo_total_exercicio',
       'frequencia_exercicio', 'freq_bebida_alcoolica',
       'Consumo de Graos e Tuberculos', 'Consumo de Leguminosas',
       'Consumo de Carnes', 'Consumo de Ovos', 'Consumo de Verduras e Legumes',
       'Consumo de Frutas', 'Consumo de Laticinios', 'Consumo de Oleaginosas',
       'Consumo de Refrigerantes', 'Consumo de Sucos Industrializados',
       'Consumo de Sucos Naturais', 'Consumo de Bebidas Lacteas',
       'Consumo de Salgadinhos e Biscoitos Salgados',
       'Consumo 

## Garantindo que os dados etaram no formato correto 

In [15]:
# Converter as colunas para categóricas
df = df.astype('category')
df.dtypes

Sexo                                              category
Apoio_Familiar                                    category
Apoio_de_Amigos                                   category
Tipo_de_Trabalho                                  category
Curso_Mais_Elevado                                category
Diagnostico_Depressao                             category
Estado_de_Saude                                   category
Pratica_Exercicio                                 category
Exercicio_Mais_Frequente                          category
Ultima_Consulta_Medica                            category
Procura_Atendimento_Saude                         category
Problemas_Sono                                    category
peso_consolidado(KG)                              category
altura_consolidada(CM)                            category
IMC                                               category
renda_total                                       category
idade                                             catego

In [16]:
# Lista das colunas que devem ser numéricas
colunas_numericas = [
       'renda_total',
       'idade',
       'horas_trabalhadas_total',
       'tempo_total_exercicio'
  ].copy() 

# Converter as colunas para numéricas
df[colunas_numericas] = df[colunas_numericas].astype('float')

# Verificar os tipos de dados após a conversão
for coluna in colunas_numericas:
    print(df[coluna].dtypes)

float64
float64
float64
float64


## Prenchendo Valores



> Vamos preencher algumas colunas com "Não respondeu" de acordo com a logica do questionário

In [17]:
# Verificando Tipos de dados
df.dtypes

Sexo                                              category
Apoio_Familiar                                    category
Apoio_de_Amigos                                   category
Tipo_de_Trabalho                                  category
Curso_Mais_Elevado                                category
Diagnostico_Depressao                             category
Estado_de_Saude                                   category
Pratica_Exercicio                                 category
Exercicio_Mais_Frequente                          category
Ultima_Consulta_Medica                            category
Procura_Atendimento_Saude                         category
Problemas_Sono                                    category
peso_consolidado(KG)                              category
altura_consolidada(CM)                            category
IMC                                               category
renda_total                                        float64
idade                                              float

In [18]:
# Verificando novamente 
valores_nulos = df.isnull().sum()

colunas_com_nulos = valores_nulos[valores_nulos > 0].index

tipos_dados_colunas_com_nulos = df[colunas_com_nulos].dtypes
print(tipos_dados_colunas_com_nulos)

Tipo_de_Trabalho            category
Curso_Mais_Elevado          category
Exercicio_Mais_Frequente    category
tempo_total_exercicio        float64
frequencia_exercicio        category
dtype: object


### Tipo de Trabalho 

In [19]:
df['Tipo_de_Trabalho']

0        6.0
1        3.0
2        3.0
3        NaN
4        3.0
        ... 
63777    3.0
63778    3.0
63779    NaN
63780    6.0
63781    3.0
Name: Tipo_de_Trabalho, Length: 63782, dtype: category
Categories (7, float64): [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0]

In [20]:
# Convertendo a coluna 'Tipo_de_Trabalho' para tipo de dados string
df['Tipo_de_Trabalho'] = df['Tipo_de_Trabalho'].astype('string')

# Aplicando a lógica
for index, row in df.iterrows():
    if row['trabalhou'] == 1 and pd.isna(row['Tipo_de_Trabalho']):
        df.at[index, 'Tipo_de_Trabalho'] = None
    elif row['trabalhou'] == 2 and pd.isna(row['Tipo_de_Trabalho']):
        df.at[index, 'Tipo_de_Trabalho'] = '0'

In [21]:
# Retornando variável para seu tipo original 
df['Tipo_de_Trabalho'] = df['Tipo_de_Trabalho'].astype('category')

In [22]:
df['Tipo_de_Trabalho'].isna().sum()


np.int64(0)

In [23]:
df['Tipo_de_Trabalho']

0        6.0
1        3.0
2        3.0
3          0
4        3.0
        ... 
63777    3.0
63778    3.0
63779      0
63780    6.0
63781    3.0
Name: Tipo_de_Trabalho, Length: 63782, dtype: category
Categories (8, string): [0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0]

# Exercicio_Mais_Frequente, tempo_total_exercicio, frequencia_exercicio

In [24]:
# Convertendo as colunas para tipo de dados string
df['Exercicio_Mais_Frequente'] = df['Exercicio_Mais_Frequente'].astype('string')

# Aplicando a lógica
for index, row in df.iterrows():
    if row['Pratica_Exercicio'] == 1 and pd.isna(row['Exercicio_Mais_Frequente']):
        df.at[index, 'Exercicio_Mais_Frequente'] = None
    elif row['Pratica_Exercicio'] == 2 and pd.isna(row['Exercicio_Mais_Frequente']):
        df.at[index, 'Exercicio_Mais_Frequente'] = '0'
    
    if row['Pratica_Exercicio'] == 1 and pd.isna(row['tempo_total_exercicio']):
        df.at[index, 'tempo_total_exercicio'] = None
    elif row['Pratica_Exercicio'] == 2 and pd.isna(row['tempo_total_exercicio']):
        df.at[index, 'tempo_total_exercicio'] = 0
    
    if row['Pratica_Exercicio'] == 1 and pd.isna(row['frequencia_exercicio']):
        df.at[index, 'frequencia_exercicio'] = None
    elif row['Pratica_Exercicio'] == 2 and pd.isna(row['frequencia_exercicio']):
        df.at[index, 'frequencia_exercicio'] = 0


In [25]:
df[['Exercicio_Mais_Frequente','tempo_total_exercicio', 'frequencia_exercicio' ]].isna().sum()

Exercicio_Mais_Frequente    966
tempo_total_exercicio       966
frequencia_exercicio          0
dtype: int64

In [26]:
# Retornando variável para seu tipo original 
df['Exercicio_Mais_Frequente'] = df['Exercicio_Mais_Frequente'].astype('category')

### Conferindo quantidade de valores nulos 

In [27]:
# Porcentagem destes valores 

# Calcular a porcentagem de valores nulos apenas nas colunas que têm valores nulos
porcentagem_nulos = (df.isna().sum() / df.shape[0])

# Filtrar apenas as colunas que têm valores nulos
porcentagem_nulos_filtrada = porcentagem_nulos[porcentagem_nulos > 0]

df_nulos=(
porcentagem_nulos_filtrada.to_frame("% Valores Nulos")
.sort_values("% Valores Nulos", ascending=False)
)


df_nulos.style.format('{:1.2%}', subset=['% Valores Nulos'])

Unnamed: 0,% Valores Nulos
Curso_Mais_Elevado,11.37%
Exercicio_Mais_Frequente,1.51%
tempo_total_exercicio,1.51%


> Iremos remover as intancias dos atributos `Exercicio_Mais_Frequente` e `tempo_total_exercicio`

In [28]:
df =  df.dropna(subset=['Exercicio_Mais_Frequente'])

In [29]:
# Porcentagem destes valores 

# Calcular a porcentagem de valores nulos apenas nas colunas que têm valores nulos
porcentagem_nulos = (df.isna().sum() / df.shape[0])

# Filtrar apenas as colunas que têm valores nulos
porcentagem_nulos_filtrada = porcentagem_nulos[porcentagem_nulos > 0]

df_nulos=(
porcentagem_nulos_filtrada.to_frame("% Valores Nulos")
.sort_values("% Valores Nulos", ascending=False)
)


df_nulos.style.format('{:1.2%}', subset=['% Valores Nulos'])

Unnamed: 0,% Valores Nulos
Curso_Mais_Elevado,11.38%


In [30]:
df['Diagnostico_Depressao'].value_counts()

Diagnostico_Depressao
2.0    57114
1.0     5702
Name: count, dtype: int64

In [31]:
df.dropna(subset=['Curso_Mais_Elevado'], inplace=True)

In [32]:
df['Diagnostico_Depressao'].value_counts()

Diagnostico_Depressao
2.0    50603
1.0     5064
Name: count, dtype: int64

In [33]:
df.isna().sum()

Sexo                                              0
Apoio_Familiar                                    0
Apoio_de_Amigos                                   0
Tipo_de_Trabalho                                  0
Curso_Mais_Elevado                                0
Diagnostico_Depressao                             0
Estado_de_Saude                                   0
Pratica_Exercicio                                 0
Exercicio_Mais_Frequente                          0
Ultima_Consulta_Medica                            0
Procura_Atendimento_Saude                         0
Problemas_Sono                                    0
peso_consolidado(KG)                              0
altura_consolidada(CM)                            0
IMC                                               0
renda_total                                       0
idade                                             0
trabalhou                                         0
horas_trabalhadas_total                           0
doencas_cron

In [35]:
# Construindo o caminho para o arquivo CSV usando o caminho relativo
#caminho = os.path.join(diretorio_atual,'..','..','..','..' ,'Data\Bases Modificadas\base_sem_nulos.csv')

# Exportando o arquivo CSV
df.to_csv(r'C:\Users\maype\OneDrive - sga.pucminas.br\Área de Trabalho\Faculdade\projects\A Machine Learning Approach to Characterizing Depression in Brazilian Adult\Data\Bases Modificadas\base_sem_nulos.csv', index= False)