# Exploring the `pns-dictionary`
1. Setup
2. Read
3. Improve

## 1 Setup
- Lib Imports
- File paths

### 1.1 Libraries

In [1]:
# Libraries
import pandas as pd
import numpy as np

### 1.2 File paths

In [2]:
pns_dictionary_path = "/workspaces/depressao-ibge-pns/data/pns-original/dictionary-pns-2019-cleaned.csv"

## 2. Read the dictionary
'/workspaces/depressao-ibge-pns/data/pns-original/dictionary-pns-2019-cleaned.csv'

In [3]:
pns_dictionary = pd.read_csv(pns_dictionary_path, skiprows=2)
pns_dictionary.head()

Unnamed: 0,ModuloParteAnotacao,Posicao,Tamanho,Codigo,Numero,Descricao,Dtype,Tipo,Classe,Include,Felipe,Diego
0,Parte 1 - Identificação e Controle,,,,,,,,,,,
1,,1.0,2.0,V0001,,Unidade da Federação,category,11.0,Rondônia,True,True,True
2,,,,,,,,12.0,Acre,True,True,True
3,,,,,,,,13.0,Amazonas,True,True,True
4,,,,,,,,14.0,Roraima,True,True,True


## 3 Improve the dictionary
- remove \n sequences
- fill merged-cell NaN's
- save as `pns-dictionary.csv`

### 3.1 Remove escape sequences `\n`

In [4]:
pns_dictionary['Descricao'] = pns_dictionary['Descricao'].str.replace(r"\n", "", regex=True).str.strip()

### 3.2 Deal with merged cells `ffill`

In [5]:
# Excel merged cells become NaN in a dataframe

# Ffill in the 'Codigo', 'Numero', 'Descricao' columns only where 'ModuloParteAnotacao' is NaN
mask = pns_dictionary['ModuloParteAnotacao'].isna()
for column in ['Codigo', 'Numero', 'Descricao']:
    pns_dictionary.loc[mask, column] = pns_dictionary.loc[mask, column].fillna(method='ffill')

# 'ModuloParteAnotacao' column
for column in ['ModuloParteAnotacao']:
    pns_dictionary[column] = pns_dictionary[column].fillna(method='ffill')

  pns_dictionary.loc[mask, column] = pns_dictionary.loc[mask, column].fillna(method='ffill')
  pns_dictionary.loc[mask, column] = pns_dictionary.loc[mask, column].fillna(method='ffill')
  pns_dictionary.loc[mask, column] = pns_dictionary.loc[mask, column].fillna(method='ffill')
  pns_dictionary[column] = pns_dictionary[column].fillna(method='ffill')


### 3.3 Checks

In [6]:
# Check the first few rows to confirm changes
display(pns_dictionary.shape, pns_dictionary.head())

(5219, 12)

Unnamed: 0,ModuloParteAnotacao,Posicao,Tamanho,Codigo,Numero,Descricao,Dtype,Tipo,Classe,Include,Felipe,Diego
0,Parte 1 - Identificação e Controle,,,,,,,,,,,
1,Parte 1 - Identificação e Controle,1.0,2.0,V0001,,Unidade da Federação,category,11.0,Rondônia,True,True,True
2,Parte 1 - Identificação e Controle,,,V0001,,Unidade da Federação,,12.0,Acre,True,True,True
3,Parte 1 - Identificação e Controle,,,V0001,,Unidade da Federação,,13.0,Amazonas,True,True,True
4,Parte 1 - Identificação e Controle,,,V0001,,Unidade da Federação,,14.0,Roraima,True,True,True


In [7]:
# Check each of the rows where a new Part or Module starts
# These rows indicate a new section in the dictionary
mpa = pns_dictionary[
    pns_dictionary.Posicao.isna()
    & pns_dictionary.Tamanho.isna()
    & pns_dictionary.Classe.isna()
    & pns_dictionary.Tipo.isna()
]

display(mpa.shape, mpa)

(33, 12)

Unnamed: 0,ModuloParteAnotacao,Posicao,Tamanho,Codigo,Numero,Descricao,Dtype,Tipo,Classe,Include,Felipe,Diego
0,Parte 1 - Identificação e Controle,,,,,,,,,,,
58,Parte 2 - Domicílio,,,,,,,,,,,
59,Módulo A - Informações do Domicílio,,,,,,,,,,,
243,Módulo B - Visitas domiciliares de Equipe de S...,,,,,,,,,,,
269,Parte 3 - Questionário do Morador,,,,,,,,,,,
270,Módulo C - Características gerais dos moradores,,,,,,,,,,,
361,Módulo D - Características de educação dos mor...,,,,,,,,,,,
481,Módulo E - Características de trabalho das pes...,,,,,,,,,,,
731,Módulo F - Rendimentos de outras fontes,,,,,,,,,,,
760,Módulo G - Pessoas com deficiências (Para pess...,,,,,,,,,,,


In [8]:
# Check a random group of Descricao
pns_dictionary[pns_dictionary.Descricao == 'Sexo']

Unnamed: 0,ModuloParteAnotacao,Posicao,Tamanho,Codigo,Numero,Descricao,Dtype,Tipo,Classe,Include,Felipe,Diego
295,Módulo C - Características gerais dos moradores,108.0,1.0,C006,C6,Sexo,category,1.0,Homem,True,True,True
296,Módulo C - Características gerais dos moradores,,,C006,C6,Sexo,,2.0,Mulher,True,True,True
297,Módulo C - Características gerais dos moradores,,,C006,C6,Sexo,,,Não aplicável,False,False,False


In [9]:
# Check a random group of Descricao
pns_dictionary[pns_dictionary.Descricao == 'Ano de nascimento']

Unnamed: 0,ModuloParteAnotacao,Posicao,Tamanho,Codigo,Numero,Descricao,Dtype,Tipo,Classe,Include,Felipe,Diego
304,Módulo C - Características gerais dos moradores,113.0,4.0,C00703,C7,Ano de nascimento,Int16,ano atual - 130 a ano atual,Ano,True,True,True
305,Módulo C - Características gerais dos moradores,,,C00703,C7,Ano de nascimento,,9999,Não informado,False,False,False
306,Módulo C - Características gerais dos moradores,,,C00703,C7,Ano de nascimento,,,Não aplicável,False,False,False


### 3.4 Save it as csv

In [10]:
# Uncomment to save the improved dictionary as a CSV file
pns_dictionary.to_csv("/workspaces/depressao-ibge-pns/data/pns-dictionary.csv", index=False)

# [END] 
> Now the ../data/`pns-dictionary`.csv is ready to be used by:
1. [**fixed-widths**.ipynb](/workspaces/depressao-ibge-pns/src/2-fwf-and-attributes/fixed-widths.ipynb)
2. [**depression**.ipynb](/workspaces/depressao-ibge-pns/src/3-depression/depression.ipynb)