**Notebook de Preparação de Dados para Projeto de Identificação de Depressão**

Neste notebook iremos finalisar o pré-processamento dos dados e iniciar etapas para a modelagem de nossos dados 


## Bibliotecas Utilizadas
As principais bibliotecas utilizadas nesta etapa são:
- Sidetable: Auxilia na identificação rápida de valores faltantes e frequências de valores categóricos.
- Pandas Profiling: Faz uma análise exploratória automática dos dados, gerando insights sobre problemas nos dados.
- NumPy: Biblioteca fundamental para computação científica em Python.
- Pandas: Biblioteca popular para análise de dados.
- Seaborn / Matplotlib: Visualização de dados.
- Missingno: Facilita a plotagem de dados faltantes.
- IPython Widgets: Permite interatividade.

In [46]:
import numpy as np
import pandas as pd 

import seaborn as sns
import matplotlib.pyplot as plt 

import sidetable 
from ydata_profiling import ProfileReport

import missingno as msno 
from ipywidgets import interact, widgets 

from sklearn.preprocessing import scale, minmax_scale, power_transform

In [47]:
df = pd.read_csv(r"C:\Users\maype\OneDrive\Área de Trabalho\projects\projeto-aprendizado-de-maquina\Data\base_tratada2.csv")

In [48]:
df.head()

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Sexo,Apoio_Familiar,Apoio_de_Amigos,Tipo_de_Trabalho,Curso_Mais_Elevado,Diagnostico_Depressao,A005010,Estado_de_Saude,...,renda_total,idade,trabalhou,horas_trabalhadas_total,doencas_cronicas,saneamento_basico,moradia_vulneravel,tempo_total_exercicio,frequencia_exercicio,freq_bebida_alcoolica
0,0,0,2.0,3.0,0.0,6.0,5.0,1.0,1.0,3.0,...,101.0,55.0,1.0,40.0,1,2,2,0.5,1.0,2.0
1,1,1,2.0,1.0,1.0,3.0,10.0,2.0,1.0,1.0,...,1001.0,45.0,1.0,36.0,2,2,2,0.0,0.0,3.0
2,2,2,2.0,1.0,0.0,3.0,4.0,2.0,1.0,3.0,...,325.0,58.0,1.0,6.0,2,2,2,1.0,3.0,1.0
3,3,3,2.0,3.0,0.0,3.0,10.0,2.0,2.0,2.0,...,999.0,41.0,1.0,16.0,2,2,2,2.0,7.0,1.0
4,4,4,2.0,2.0,1.0,6.0,7.0,2.0,3.0,2.0,...,251.0,52.0,1.0,48.0,1,2,2,0.414973,0.0,1.0


In [49]:
df = df.drop(columns=['Unnamed: 0.1', 'Unnamed: 0'])

In [50]:
df.head()

Unnamed: 0,Sexo,Apoio_Familiar,Apoio_de_Amigos,Tipo_de_Trabalho,Curso_Mais_Elevado,Diagnostico_Depressao,A005010,Estado_de_Saude,Pratica_Exercicio,Exercicio_Mais_Frequente,...,renda_total,idade,trabalhou,horas_trabalhadas_total,doencas_cronicas,saneamento_basico,moradia_vulneravel,tempo_total_exercicio,frequencia_exercicio,freq_bebida_alcoolica
0,2.0,3.0,0.0,6.0,5.0,1.0,1.0,3.0,1.0,1.0,...,101.0,55.0,1.0,40.0,1,2,2,0.5,1.0,2.0
1,2.0,1.0,1.0,3.0,10.0,2.0,1.0,1.0,2.0,0.0,...,1001.0,45.0,1.0,36.0,2,2,2,0.0,0.0,3.0
2,2.0,1.0,0.0,3.0,4.0,2.0,1.0,3.0,1.0,1.0,...,325.0,58.0,1.0,6.0,2,2,2,1.0,3.0,1.0
3,2.0,3.0,0.0,3.0,10.0,2.0,2.0,2.0,1.0,5.0,...,999.0,41.0,1.0,16.0,2,2,2,2.0,7.0,1.0
4,2.0,2.0,1.0,6.0,7.0,2.0,3.0,2.0,1.0,0.0,...,251.0,52.0,1.0,48.0,1,2,2,0.414973,0.0,1.0


In [51]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40359 entries, 0 to 40358
Data columns (total 62 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Sexo                             40359 non-null  float64
 1   Apoio_Familiar                   40359 non-null  float64
 2   Apoio_de_Amigos                  40359 non-null  float64
 3   Tipo_de_Trabalho                 40359 non-null  float64
 4   Curso_Mais_Elevado               40359 non-null  float64
 5   Diagnostico_Depressao            40359 non-null  float64
 6   A005010                          40359 non-null  float64
 7   Estado_de_Saude                  40359 non-null  float64
 8   Pratica_Exercicio                40359 non-null  float64
 9   Exercicio_Mais_Frequente         40359 non-null  float64
 10  Ultima_Consulta_Medica           40359 non-null  float64
 11  Procura_Atendimento_Saude        40359 non-null  float64
 12  Problemas_Sono    

In [52]:
df.isna().sum()

Sexo                     0
Apoio_Familiar           0
Apoio_de_Amigos          0
Tipo_de_Trabalho         0
Curso_Mais_Elevado       0
                        ..
saneamento_basico        0
moradia_vulneravel       0
tempo_total_exercicio    0
frequencia_exercicio     0
freq_bebida_alcoolica    0
Length: 62, dtype: int64

In [53]:
df.columns

Index(['Sexo', 'Apoio_Familiar', 'Apoio_de_Amigos', 'Tipo_de_Trabalho',
       'Curso_Mais_Elevado', 'Diagnostico_Depressao', 'A005010',
       'Estado_de_Saude', 'Pratica_Exercicio', 'Exercicio_Mais_Frequente',
       'Ultima_Consulta_Medica', 'Procura_Atendimento_Saude', 'Problemas_Sono',
       'Consumo_Arroz_Macarrao', 'Consumo_Batata', 'Consumo_Feijao',
       'Consumo_Carne', 'Consumo_Ovo', 'Consumo_Verduras_1',
       'Consumo_Verduras_2', 'Consumo_Verduras_3', 'Consumo_Frutas_1',
       'Consumo_Frutas_2', 'Consumo_Leite', 'Consumo_Castanhas',
       'Consumo_Refrigerante', 'Consumo_Suco_Caixinha',
       'Consumo_Bebida_Achocolatada', 'Consumo_Salgadinho_Biscoito',
       'Consumo_Biscoito_Doce', 'Consumo_Sobremesa', 'Consumo_Embutidos',
       'Consumo_Pao', 'Consumo_Molhos_Industrializados',
       'Consumo_Alimentos_Prontos', 'Freq_Consumo_Feijao',
       'Freq_Consumo_Verduras', 'Tipo_Verdura_Costuma_Comer',
       'Freq_Consumo_Carne_Vermelha', 'Freq_Consumo_Frango',
    

In [54]:
df['Curso_Mais_Elevado'].values

array([ 5., 10.,  4., ..., 10., 10., 11.])

In [55]:
from imblearn.over_sampling import RandomOverSampler

# Criando o objeto de oversampling
oversampler = RandomOverSampler()

# Separar as features (X) e o target (y)
X = df.drop(columns=['Diagnostico_Depressao'])  
y = df['Diagnostico_Depressao']  

# Aplicar o oversampling
X_resampled, y_resampled = oversampler.fit_resample(X, y)


df_resampled = pd.DataFrame(X_resampled, columns=X.columns)
df_resampled['Diagnostico_Depressao'] = y_resampled  




In [56]:
contagem_classes = df_resampled['Diagnostico_Depressao'].value_counts()

print(contagem_classes)

Diagnostico_Depressao
1.0    35765
2.0    35765
Name: count, dtype: int64


In [57]:
df_resampled.to_csv(r"C:\Users\maype\OneDrive\Área de Trabalho\projects\projeto-aprendizado-de-maquina\Data\base_balanceada.csv")