# `Depression`

## 1 Setup
- Libraries
- Paths
- Dataframes

### 1.1 Imports

In [1]:
import pandas as pd
import numpy as np

### 1.2 File paths

In [2]:
pns_dictionary_path      = '/workspaces/depressao-ibge-pns/data/pns-dictionary.csv'
pns_multi_index_path     = '/workspaces/depressao-ibge-pns/data/pns-multi-index.csv'
pns_column_widths_path   = '/workspaces/depressao-ibge-pns/data/pns-column-widths.txt'
pns_2019_path            = '/workspaces/depressao-ibge-pns/data/pns-original/pns-2019.txt'

### 1.3 Dataframes

In [3]:
PNS_DICTIONARY: pd.DataFrame      = pd.read_csv(pns_dictionary_path)

df_multi = pd.read_csv(pns_multi_index_path)
PNS_MULTI_INDEX: pd.MultiIndex = pd.MultiIndex.from_frame(df_multi)

with open(pns_column_widths_path, "r") as file:
    PNS_COLUMN_WIDTHS: list[int] = [int(x) for x in file.read().split()]

### 1.x Check setup

In [4]:
display(
    f"PNS Dictionary    {PNS_DICTIONARY.shape}",
    f"PNS Multi-index   {PNS_MULTI_INDEX.shape}",
    f"PNS Column widths {len(PNS_COLUMN_WIDTHS)}", 
)

'PNS Dictionary    (5219, 10)'

'PNS Multi-index   (1088,)'

'PNS Column widths 1088'

In [5]:
display(
    f"PNS Dictionary", PNS_DICTIONARY.tail(),
    f"PNS Multi-index", PNS_MULTI_INDEX[-5:],
    f"PNS Column widths", PNS_COLUMN_WIDTHS[len(PNS_COLUMN_WIDTHS)-5:]
)

'PNS Dictionary'

Unnamed: 0,ModuloParteAnotacao,Posicao,Tamanho,Codigo,Numero,Descricao,Tipo,Classe,Felipe,Diego
5214,VARIÁVEIS DERIVADAS,,,VDR001,H30,Método contraceptivo mais eficaz que faz uso,7.0,"Outro método moderno (camisinha feminina, pílu...",,
5215,VARIÁVEIS DERIVADAS,,,VDR001,H30,Método contraceptivo mais eficaz que faz uso,8.0,Tabelinha/ Billings,,
5216,VARIÁVEIS DERIVADAS,,,VDR001,H30,Método contraceptivo mais eficaz que faz uso,9.0,Outro método tradicional,,
5217,VARIÁVEIS DERIVADAS,,,VDR001,H30,Método contraceptivo mais eficaz que faz uso,,Não aplicável,,
5218,VARIÁVEIS DERIVADAS,1541.0,8.0,VDDATA,H30,Data de geração do arquivo de microdados. Data...,,,,


'PNS Multi-index'

MultiIndex([('VDL001', ...),
            ('VDM001', ...),
            ('VDP001', ...),
            ('VDR001', ...),
            ('VDDATA', ...)],
           names=['Codigo', 'Descricao'])

'PNS Column widths'

[2, 1, 1, 1, 8]

## 2 Read the complete PNS data with `FWF`

In [6]:
PNS_2019: pd.DataFrame = pd.read_fwf(
    pns_2019_path,
    header=None,
    dtype=str,
    widths=PNS_COLUMN_WIDTHS,
)

### 2.x Check `PNS_2019`

In [7]:
PNS_2019.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,1078,1079,1080,1081,1082,1083,1084,1085,1086,1087
0,11,1110011,110000016,1,1,2019,6,1,1,1,...,1.0,6.0,2098,350,2,,,,,20220504
1,11,1110011,110000016,1,1,2019,6,1,1,0,...,,,2098,350,2,,,,,20220504
2,11,1110011,110000016,1,1,2019,6,1,1,0,...,1.0,4.0,2098,350,2,,,,,20220504
3,11,1110011,110000016,1,1,2019,6,1,1,9,...,,,2098,350,2,,,,,20220504
4,11,1110011,110000016,1,1,2019,6,1,1,9,...,,,2098,350,2,,,,,20220504


## 3 Set the `multi-index`
> (Codigo, Descricao)

In [8]:
### Clone to preserve original
pns_2019 = PNS_2019.copy()

### set index to firts row
pns_2019.columns = pns_2019.iloc[0]

### set column name to multi-index
pns_2019.columns = PNS_MULTI_INDEX

### 3.x Check Multi-index

In [9]:
pns_2019.head(2)

Codigo,V0001,V0024,UPA_PNS,V0006_PNS,V0015,V0020,V0022,V0026,V0031,V0025A,...,VDE002,VDE014,VDF002,VDF003,VDF004,VDL001,VDM001,VDP001,VDR001,VDDATA
Descricao,Unidade da Federação,Estrato,UPA,Número de ordem do domicílio na PNS,Tipo da entrevista,Ano de referência,Total de moradores,Tipo de situação censitária,Tipo de área,Seleção do morador de 15 anos ou mais para responder o questionário individual,...,Condição de ocupação na semana de referência para pessoas de 14 anos ou mais de idade,Grupamentos de atividade do trabalho principal da semana de referência para pessoas de 14 anos ou mais de idade,"Rendimento domiciliar (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)","Rendimento domiciliar per capita(exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)","Faixa de rendimento domiciliar per capita (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)",Idade em meses das crianças nascidas no período de referência do Módulo L,Faixa de tempo gasto por dia no deslocamento casa-trabalho pelas pessoas ocupadas que se deslocavam para o trabalho,Tipo de cigarro industrializado comprado,Método contraceptivo mais eficaz que faz uso,"Data de geração do arquivo de microdados. Data ordenada na forma: ano (4 algarismos), mês (2) e dia (2) - AAAAMMDD"
0,11,1110011,110000016,1,1,2019,6,1,1,1,...,1.0,6.0,2098,350,2,,,,,20220504
1,11,1110011,110000016,1,1,2019,6,1,1,0,...,,,2098,350,2,,,,,20220504


In [14]:
pns_2019['V0001']

Descricao,Unidade da Federação
0,11
1,11
2,11
3,11
4,11
...,...
293721,53
293722,53
293723,53
293724,53


## 4

## `TODO`: Implicit nulls
> Apparently, depression.dropna(how='all') won't drop everything we need, <br>
 because of useless classes such as "01 - can't remember" or "09 - don't know".

### 1.1 Filter the dictionary.Descricao if value in depression.column

In [11]:
depression.columns

#  TODO:
#  THERE ARE 3 COLUMNS ENDING WITH .1
    # 'Peso - Final (em kg)(3 inteiros e 1 casa decimal).1',
    # 'Que idade ___tinha quando começou a viver com seu(sua) primeiro(a)/único(a) marido (mulher) ou companheiro(a)?.1',
    # 'Quem fez isso com você.1'

NameError: name 'depression' is not defined

In [None]:
# Filter the dictionary to only include columns that are in the depression dataset
depression_dictionary = dictionary[dictionary.Descricao.isin(depression.columns)]

In [None]:
depression_dictionary.to_excel(
    '../data/depression_dictionary.xlsx',
    index=False,
)

In [None]:
depression_dictionary

Unnamed: 0,ModuloParteAnotacao,PosiçãoInicial,Tamanho,Codigo,Numero,Descricao,Tipo,Categoria
2,Parte 1 - Identificação e Controle,1.0,2.0,V0001,,Unidade da Federação,11,Rondônia
3,Parte 1 - Identificação e Controle,,,,,Unidade da Federação,12,Acre
4,Parte 1 - Identificação e Controle,,,,,Unidade da Federação,13,Amazonas
5,Parte 1 - Identificação e Controle,,,,,Unidade da Federação,14,Roraima
6,Parte 1 - Identificação e Controle,,,,,Unidade da Federação,15,Pará
...,...,...,...,...,...,...,...,...
4904,Módulo Y - Atividade sexual (Para pessoas de 1...,,,,,Qual é a sua orientação sexual?,3,Homosexual
4905,Módulo Y - Atividade sexual (Para pessoas de 1...,,,,,Qual é a sua orientação sexual?,4,Outra orientação
4906,Módulo Y - Atividade sexual (Para pessoas de 1...,,,,,Qual é a sua orientação sexual?,5,Não sabe
4907,Módulo Y - Atividade sexual (Para pessoas de 1...,,,,,Qual é a sua orientação sexual?,6,Recusou-se a responder


## `TODO` Drop columns without class descriptions
Codigo `V03501` is not correctly described in the dictionary-pns-2019-cleaned.csv file.

In [None]:
# V03501
pns_dictionary_path[pns_dictionary_path.Codigo == 'V03501']

Unnamed: 0,ModuloParteAnotacao,Posicao,Tamanho,Codigo,Numero,Descricao,Tipo,Classe,Felipe,Diego
4793,Módulo V - Violência (Para pessoas de 18 ano...,1275.0,1.0,V03501,V35,Esse(s) ato(s) sexual(is) forçado(s) gerou(ara...,1.0,,True,
4794,Módulo V - Violência (Para pessoas de 18 ano...,,,V03501,V35,Esse(s) ato(s) sexual(is) forçado(s) gerou(ara...,2.0,,True,
4795,Módulo V - Violência (Para pessoas de 18 ano...,,,V03501,V35,Esse(s) ato(s) sexual(is) forçado(s) gerou(ara...,,Não aplicável,False,False


In [None]:
# Original shape
print(pns_dictionary_path.shape)

# Drop Codigo 'V03501'
pns_dictionary_path = pns_dictionary_path[pns_dictionary_path.Codigo != 'V03501']

# Shape after dropping
print(pns_dictionary_path.shape)

(5219, 10)
(5216, 10)
