## 0. Environment
- Venv
- Data decompression
- Lib Imports

### 0.1 Install python libraries 
> Install pandas and openpyxl in a conda venv

SHELL
```shell
conda create --name pns_venv --yes
conda activate /workspaces/depressao-ibge-pns/depressao-ibge-pns/pns_venv
conda install pandas --yes
conda install openpyxl --yes
```

### 0.2 Decompress the pns-database and the dictionary
> The data is include in data/compressed-data.zip ~40MB<br>
> Decompresses it and will have two files summing up to ~500MB

SHELL
```shell
unzip data/compressed-data.zip -d data/ -x "__MACOSX/*"
```

### 0.3 Imports

In [2]:
# Libraries
import pandas as pd
import numpy as np

## 1. Setup
- File paths
- dictionary
- column_widths

### 1.1 File paths

In [3]:
pns_data_path = "../data/pns-2019.txt"
dictionary_path = "../data/pns-dictionary-clean.xlsx"

### 1.2 Dictionay

In [4]:
dictionary = pd.read_excel(dictionary_path, skiprows=2)
dictionary.head()

Unnamed: 0,ModuloParteAnotacao,PosiçãoInicial,Tamanho,Codigo,Numero,Descricao,Tipo,Categoria
0,,,,,,,,
1,Parte 1 - Identificação e Controle,,,,,,,
2,,1.0,2.0,V0001,,Unidade da Federação,11.0,Rondônia
3,,,,,,,12.0,Acre
4,,,,,,,13.0,Amazonas


In [5]:
dictionary.Descricao.head()

0                     NaN
1                     NaN
2    Unidade da Federação
3                     NaN
4                     NaN
Name: Descricao, dtype: object

### 1.3 Widths

In [6]:
column_widths = dictionary.Tamanho.dropna(axis=0).values.astype(int)
print(
    column_widths[:10],
    column_widths[1088-10:1088],
)

[2 7 9 4 2 4 2 1 1 1] [1 2 8 8 1 2 1 1 1 8]


## 2. Data Frame
- FWF
- Column descriptions

### 2.1 DF using FWF 

In [7]:
# FWF
df = pd.read_fwf(
    pns_data_path,
    header=None,
    dtype=str,
    widths=column_widths
)

In [8]:
df.shape 

(293726, 1088)

In [9]:
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,1078,1079,1080,1081,1082,1083,1084,1085,1086,1087
0,11,1110011,110000016,1,1,2019,6,1,1,1,...,1.0,6.0,2098,350,2,,,,,20220504
1,11,1110011,110000016,1,1,2019,6,1,1,0,...,,,2098,350,2,,,,,20220504
2,11,1110011,110000016,1,1,2019,6,1,1,0,...,1.0,4.0,2098,350,2,,,,,20220504
3,11,1110011,110000016,1,1,2019,6,1,1,9,...,,,2098,350,2,,,,,20220504
4,11,1110011,110000016,1,1,2019,6,1,1,9,...,,,2098,350,2,,,,,20220504


### 2.2 Name DF columns with descriptions from the dictionary

In [10]:
# Descriptions
descriptions = dictionary.Descricao.dropna(axis=0).str.strip()
display(descriptions.head())
display(descriptions.shape)

2                    Unidade da Federação
29                                Estrato
30                                    UPA
31    Número de ordem do domicílio na PNS
32                     Tipo da entrevista
Name: Descricao, dtype: object

(1088,)

In [11]:
df.columns = descriptions
df.head()

Descricao,Unidade da Federação,Estrato,UPA,Número de ordem do domicílio na PNS,Tipo da entrevista,Ano de referência,Total de moradores,Tipo de situação censitária,Tipo de área,Seleção do morador de 15 anos ou mais para responder o questionário individual,...,Condição de ocupação na semana de referência para pessoas de 14 anos ou mais de idade,Grupamentos de atividade do trabalho principal da semana de referência para pessoas de 14 anos ou mais de idade,"Rendimento domiciliar \n(exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)","Rendimento domiciliar per capita\n(exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)","Faixa de rendimento domiciliar per capita (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)",Idade em meses das crianças nascidas no período de referência do Módulo L,Faixa de tempo gasto por dia no deslocamento casa-trabalho pelas pessoas ocupadas que se deslocavam para o trabalho,Tipo de cigarro industrializado comprado,Método contraceptivo mais eficaz que faz uso,"Data de geração do arquivo de microdados. Data ordenada na forma: ano (4 algarismos), mês (2) e dia (2) - AAAAMMDD"
0,11,1110011,110000016,1,1,2019,6,1,1,1,...,1.0,6.0,2098,350,2,,,,,20220504
1,11,1110011,110000016,1,1,2019,6,1,1,0,...,,,2098,350,2,,,,,20220504
2,11,1110011,110000016,1,1,2019,6,1,1,0,...,1.0,4.0,2098,350,2,,,,,20220504
3,11,1110011,110000016,1,1,2019,6,1,1,9,...,,,2098,350,2,,,,,20220504
4,11,1110011,110000016,1,1,2019,6,1,1,9,...,,,2098,350,2,,,,,20220504


## 3. Attribute selection
- Read attribute selection file
- Remove escapes sequences
- `depression` data frame

### 3.1 Read attribute selection

In [12]:
# read data/attribute-selection.txt into a python str list
with open("../data/attribute-selection.txt", "r") as file:
    selected_attributes = [line.replace("\\n", "").strip() for line in file.readlines()]

# show me the duplicates
duplicates = [item for item, count in zip(selected_attributes, np.bincount([selected_attributes.index(i) for i in selected_attributes])) if count > 1]
display(pd.DataFrame(duplicates))

# Remove duplicates from selected_attributes
selected_attributes = list(dict.fromkeys(selected_attributes))
pd.DataFrame(selected_attributes)

Unnamed: 0,0
0,Com quantos familiares ou parentes ___ pode co...
1,Com quantos amigos próximos ___ pode contar em...
2,Cônjuge ou companheiro(a) mora em nesse domicí...
3,Idade do morador na data de referência


Unnamed: 0,0
0,"Nas duas últimas semanas, com que frequência o..."
1,Algum médico ou profissional de saúde mental (...
2,Algum médico já lhe receitou algum medicamento...
3,Nas duas últimas semanas o(a) senhor(a) usou a...
4,Que idade o(a) Sr(a) tinha quando começou a fu...
5,O(A) Sr(a) vai ao médico/serviço de saúde regu...
6,Qual o principal motivo do(a) Sr(a) não visita...
7,Por causa da depressão Faz psicoterapia
8,Por causa da depressão Toma medicamentos
9,Algum dos medicamentos para depressão foi obti...


### 3.2 remove escape \n instances from the df.columns

In [13]:
# search for columns that conain patter
pattern = "tabaco"
matching_columns = [col for col in df.columns if pattern in col]
print(f"Columns matching '{pattern}': {matching_columns}")

Columns matching 'tabaco': ['Atualmente, o(a) Sr(a) fuma algum produto do tabaco?', 'E no passado, o(a) Sr(a) fumou algum produto do tabaco diariamente?', 'E no passado, o(a) Sr(a) fumou algum produto do tabaco?', 'Que idade o(a) Sr(a) tinha quando começou a fumar produto de tabaco diariamente?', 'ATUALMENTE, o (a) Sr (a) masca fumo, usa rapé ou algum outro produto do tabaco que não faz fumaça?', 'O(a) Sr(a) usa aparelhos eletrônicos com nicotina líquida ou folha de tabaco picado (cigarro eletrônico, narguilé eletrônico, cigarro aquecido ou outro dispositivo eletrônico para fumar ou vaporizar)?']


In [14]:
# remove escaped sequences from the df.columns
df.columns = df.columns.str.replace(r"\n", "", regex=True).str.strip()

### 3.3 Depression V1

In [15]:
depression = df[selected_attributes]
display(depression.shape)
display(depression.head())

(293726, 55)

Descricao,"Nas duas últimas semanas, com que frequência o(a) Sr(a) se sentiu deprimido(a), “pra baixo” ou sem perspectiva?",Algum médico ou profissional de saúde mental (como psiquiatra ou psicólogo) já lhe deu o diagnóstico de depressão?,Algum médico já lhe receitou algum medicamento para depressão?,Nas duas últimas semanas o(a) senhor(a) usou algum medicamento para depressão?,Que idade o(a) Sr(a) tinha quando começou a fumar produto de tabaco diariamente?,O(A) Sr(a) vai ao médico/serviço de saúde regularmente por causa da depressão ou só quando tem algum problema?,Qual o principal motivo do(a) Sr(a) não visitar o médico/serviço de saúde regularmente por causa da depressão?,Por causa da depressão Faz psicoterapia,Por causa da depressão Toma medicamentos,Algum dos medicamentos para depressão foi obtido em serviço público de saúde?,...,Ano de nascimento,Idade do morador na data de referência,Unidade da Federação,Tipo de área,Tipo de situação censitária,Cor ou raça,Qual foi o curso mais elevado que ___frequentou,"Quem fez isso com você? (Se mais de uma pessoa, defina o pirncipal agressor)",Quem fez isso com você,Quem fez isso com você.1
0,2.0,1.0,1.0,3.0,15.0,2.0,1.0,2.0,1.0,1.0,...,1963,55,11,1,1,1,5.0,,,
1,,,,,,,,,,,...,1950,69,11,1,1,4,,,,
2,,,,,,,,,,,...,1987,31,11,1,1,2,10.0,,,
3,,,,,,,,,,,...,9999,9,11,1,1,2,,,,
4,,,,,,,,,,,...,9999,6,11,1,1,4,,,,


## 4. Remove null rows
- `depression_cleaned` data frame
- Save to .csv

### 4.3 Cleaned full null lines

In [None]:
depression_cleaned = depression.dropna(how='all')
print(
    "Original", df.shape, "\n"
    "Depression", depression_cleaned.shape
)

Original (293726, 1088) 
Depression (293726, 55)


### 4.2 Save to .csv

In [None]:
# Uncomment the following line to save
# output_path = "../data/depression_cleaned.csv"
# depression_cleaned.to_csv(output_path, index=False)