# `Depression`

## 1 Setup
- Libraries
- Paths
- Dataframes

### 1.1 Imports

In [1]:
import pandas as pd
import numpy as np

### 1.2 File paths

In [2]:
PNS_DICTIONARY_PATH         = '/workspaces/depressao-ibge-pns/data/pns-dictionary.csv'
PNS_MULTI_INDEX_PATH        = '/workspaces/depressao-ibge-pns/data/pns-multi-index.csv'
PNS_COLUMN_WIDTHS_PATH      = '/workspaces/depressao-ibge-pns/data/pns-column-widths.txt'
PNS_2019_PATH               = '/workspaces/depressao-ibge-pns/data/pns-original/pns-2019.txt'
DEPRESSION_DICTIONARY_PATH  = '/workspaces/depressao-ibge-pns/data/depression-dictionary.csv'

### 1.3 Dataframes

In [3]:
PNS_DICTIONARY: pd.DataFrame      = pd.read_csv(PNS_DICTIONARY_PATH)

df_multi = pd.read_csv(PNS_MULTI_INDEX_PATH)
PNS_MULTI_INDEX: pd.MultiIndex = pd.MultiIndex.from_frame(df_multi)

with open(PNS_COLUMN_WIDTHS_PATH, "r") as file:
    PNS_COLUMN_WIDTHS: list[int] = [int(x) for x in file.read().split()]

DEPRESSION_DICTIONARY = pd.read_csv(DEPRESSION_DICTIONARY_PATH)


### 1.x Check setup

In [4]:
display(
    f"PNS Dictionary    {PNS_DICTIONARY.shape}",
    f"PNS Multi-index   {PNS_MULTI_INDEX.shape}",
    f"PNS Column widths {len(PNS_COLUMN_WIDTHS)}", 
    f"Depression Dictionary {DEPRESSION_DICTIONARY.shape}",
)

'PNS Dictionary    (5219, 12)'

'PNS Multi-index   (1088,)'

'PNS Column widths 1088'

'Depression Dictionary (444, 12)'

In [5]:
display(
    f"PNS Dictionary", PNS_DICTIONARY.tail(),
    f"PNS Multi-index", PNS_MULTI_INDEX[-5:],
    f"PNS Column widths", PNS_COLUMN_WIDTHS[len(PNS_COLUMN_WIDTHS)-5:],
    f"Depression Dictionary", DEPRESSION_DICTIONARY.tail(),
)

'PNS Dictionary'

Unnamed: 0,ModuloParteAnotacao,Posicao,Tamanho,Codigo,Numero,Descricao,Dtype,Tipo,Classe,Include,Felipe,Diego
5214,VARIÁVEIS DERIVADAS,,,VDR001,H30,Método contraceptivo mais eficaz que faz uso,,7.0,"Outro método moderno (camisinha feminina, pílu...",,,
5215,VARIÁVEIS DERIVADAS,,,VDR001,H30,Método contraceptivo mais eficaz que faz uso,,8.0,Tabelinha/ Billings,,,
5216,VARIÁVEIS DERIVADAS,,,VDR001,H30,Método contraceptivo mais eficaz que faz uso,,9.0,Outro método tradicional,,,
5217,VARIÁVEIS DERIVADAS,,,VDR001,H30,Método contraceptivo mais eficaz que faz uso,,,Não aplicável,,,
5218,VARIÁVEIS DERIVADAS,1541.0,8.0,VDDATA,H30,Data de geração do arquivo de microdados. Data...,,,,,,


'PNS Multi-index'

MultiIndex([('VDL001', ...),
            ('VDM001', ...),
            ('VDP001', ...),
            ('VDR001', ...),
            ('VDDATA', ...)],
           names=['Codigo', 'Descricao'])

'PNS Column widths'

[2, 1, 1, 1, 8]

'Depression Dictionary'

Unnamed: 0,ModuloParteAnotacao,Posicao,Tamanho,Codigo,Numero,Descricao,Dtype,Tipo,Classe,Include,Felipe,Diego
439,Módulo Y - Atividade sexual (Para pessoas de 1...,,,Y008,Y8,Qual é a sua orientação sexual?,,2,Bissexual,True,True,True
440,Módulo Y - Atividade sexual (Para pessoas de 1...,,,Y008,Y8,Qual é a sua orientação sexual?,,3,Homosexual,True,True,True
441,Módulo Y - Atividade sexual (Para pessoas de 1...,,,Y008,Y8,Qual é a sua orientação sexual?,,4,Outra orientação,True,True,True
442,Módulo Y - Atividade sexual (Para pessoas de 1...,,,Y008,Y8,Qual é a sua orientação sexual?,,5,Não sabe,True,True,True
443,Módulo Y - Atividade sexual (Para pessoas de 1...,,,Y008,Y8,Qual é a sua orientação sexual?,,6,Recusou-se a responder,True,True,True


## 2 Read the complete PNS data with `FWF`

In [6]:
PNS_2019: pd.DataFrame = pd.read_fwf(
    PNS_2019_PATH,
    header=None,
    dtype=str,
    widths=PNS_COLUMN_WIDTHS,
)

### 2.x Check `PNS_2019`

In [7]:
PNS_2019.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,1078,1079,1080,1081,1082,1083,1084,1085,1086,1087
0,11,1110011,110000016,1,1,2019,6,1,1,1,...,1.0,6.0,2098,350,2,,,,,20220504
1,11,1110011,110000016,1,1,2019,6,1,1,0,...,,,2098,350,2,,,,,20220504
2,11,1110011,110000016,1,1,2019,6,1,1,0,...,1.0,4.0,2098,350,2,,,,,20220504
3,11,1110011,110000016,1,1,2019,6,1,1,9,...,,,2098,350,2,,,,,20220504
4,11,1110011,110000016,1,1,2019,6,1,1,9,...,,,2098,350,2,,,,,20220504


## 3 Set the `multi-index`
> (Codigo, Descricao)

In [8]:
### Clone to preserve original
pns_2019 = PNS_2019.copy()

### set index to firts row
pns_2019.columns = pns_2019.iloc[0]

### set column name to multi-index
pns_2019.columns = PNS_MULTI_INDEX

### 3.x Check Multi-index

In [9]:
pns_2019.head(2)

Codigo,V0001,V0024,UPA_PNS,V0006_PNS,V0015,V0020,V0022,V0026,V0031,V0025A,...,VDE002,VDE014,VDF002,VDF003,VDF004,VDL001,VDM001,VDP001,VDR001,VDDATA
Descricao,Unidade da Federação,Estrato,UPA,Número de ordem do domicílio na PNS,Tipo da entrevista,Ano de referência,Total de moradores,Tipo de situação censitária,Tipo de área,Seleção do morador de 15 anos ou mais para responder o questionário individual,...,Condição de ocupação na semana de referência para pessoas de 14 anos ou mais de idade,Grupamentos de atividade do trabalho principal da semana de referência para pessoas de 14 anos ou mais de idade,"Rendimento domiciliar (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)","Rendimento domiciliar per capita(exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)","Faixa de rendimento domiciliar per capita (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)",Idade em meses das crianças nascidas no período de referência do Módulo L,Faixa de tempo gasto por dia no deslocamento casa-trabalho pelas pessoas ocupadas que se deslocavam para o trabalho,Tipo de cigarro industrializado comprado,Método contraceptivo mais eficaz que faz uso,"Data de geração do arquivo de microdados. Data ordenada na forma: ano (4 algarismos), mês (2) e dia (2) - AAAAMMDD"
0,11,1110011,110000016,1,1,2019,6,1,1,1,...,1.0,6.0,2098,350,2,,,,,20220504
1,11,1110011,110000016,1,1,2019,6,1,1,0,...,,,2098,350,2,,,,,20220504


In [10]:
pns_2019['V0001']

Descricao,Unidade da Federação
0,11
1,11
2,11
3,11
4,11
...,...
293721,53
293722,53
293723,53
293724,53


## 4 Column `selection`

In [11]:
# Unique attribute codes
depression_attributes = DEPRESSION_DICTIONARY.Codigo.unique()

# SELECT *
# FROM pns_2019
# WHERE attribute_code IN (depression_attributes)
depression = pns_2019.loc[:, pns_2019.columns.get_level_values(0).isin(depression_attributes)]

### 4.x Check

In [12]:
depression

Codigo,V0001,V0026,V0031,C006,C00703,C008,C009,C01001,C013,C017,...,V033,V034,V03501,V03502,V03503,V036,V037,V038,V039,Y008
Descricao,Unidade da Federação,Tipo de situação censitária,Tipo de área,Sexo,Ano de nascimento,Idade do morador na data de referência,Cor ou raça,Cônjuge ou companheiro(a) mora em nesse domicílio.,Cônjuge ou companheiro(a) mora em outro domicílio.,___já viveu com cônjuge ou companheiro (a) antes?,...,Onde isso ocorreu?,"Nos últimos doze meses, você deixou de realizar quaisquer de suas atividades habituais (trabalhar, realizar afazeres domésticos, ir à escola etc.) por causa desse ato","Esse(s) ato(s) sexual(is) forçado(s) gerou(aram) alguma consequência para sua saúde, tais como: Hematomas, cortes, fraturas, queimaduras ou outras lesões físicas ou ferimentos?","Esse(s) ato(s) sexual(is) forçado(s) gerou(aram) alguma consequência para sua saúde, tais como: Medo, tristeza, desânimo, dificuldade para dormir, ansiedade, depressão ou outras consequências psicológicas?","Esse(s) ato(s) sexual(is) forçado(s) gerou(aram) alguma consequência para sua saúde, tais como: Doença sexualmente transmissível ou gravidez indesejada?","Por causa desta (s) consequência (s), você procurou algum atendimento de saúde","Por causa desta (s) consequência (s), você recebeu algum atendimento de saúde",Onde foi realizado este atendimento de saúde,"Por causa desta (s) consequência (s), você precisou ser internado por 24 horas ou mais",Qual é a sua orientação sexual?
0,11,1,1,2,1963,055,1,1,,,...,,,,,,,,,,1
1,11,1,1,1,1950,069,4,1,,,...,,,,,,,,,,
2,11,1,1,1,1987,031,2,2,2,1,...,,,,,,,,,,
3,11,1,1,1,9999,009,2,,,,...,,,,,,,,,,
4,11,1,1,2,9999,006,4,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
293721,53,2,1,2,1970,049,2,1,,,...,,,,,,,,,,
293722,53,2,1,1,1935,084,4,1,,,...,,,,,,,,,,
293723,53,2,1,1,1997,021,1,2,2,2,...,,,,,,,,,,
293724,53,2,1,2,2006,013,4,2,2,2,...,,,,,,,,,,


## 5 Save depression

In [None]:
depression.to_csv(
    '/workspaces/depressao-ibge-pns/data/depression.csv',
    index=False,
    header=True,
)

: 

# [END] 
> Now the ../data/`depression`.csv is ready to be used by:
1. [**pre-processing**.ipynb](/workspaces/depressao-ibge-pns/src/4-pre-processing/pre-processing.ipynb)