# Attributes: Codes and Description for `multi-index`

## 1 Setup
- Libraries
- Paths
- Dataframe

In [1]:
import pandas as pd
import numpy as np

In [2]:
pns_dictionary_path = '/workspaces/depressao-ibge-pns/data/pns-original/dictionary-pns-2019-cleaned.csv'

In [3]:
pns_dictionary = pd.read_csv(pns_dictionary_path, skiprows=2)

## 2 attribute codes
> The pns dictionary has 1088 codes for attribute columns in the dataset.

In [None]:
attribute_codes = pns_dictionary.Codigo.dropna(axis=0).str.strip()

display(
    f"Total of attribute codes: {len(attribute_codes.unique())}",
    pd.DataFrame(attribute_codes)
)

'Total of attribute codes: 1088'

Unnamed: 0,Codigo
1,V0001
28,V0024
29,UPA_PNS
30,V0006_PNS
31,V0015
...,...
5196,VDL001
5199,VDM001
5204,VDP001
5208,VDR001


## 3 Attribute descriptions
> Each columns has its own description.<br>
> Some have duplicate descriptions, hence we can't use descriptions as unique identifiers for columns.

In [5]:
attribute_descriptions = pns_dictionary.Descricao.dropna(axis=0).str.replace(r"\n", "", regex=True).str.strip()

display(
    f"Total of attribute descriptions: {len(attribute_descriptions.unique())}",
    pd.DataFrame(attribute_descriptions)
)

'Total of attribute descriptions: 1030'

Unnamed: 0,Descricao
1,Unidade da Federação
28,Estrato
29,UPA
30,Número de ordem do domicílio na PNS
31,Tipo da entrevista
...,...
5196,Idade em meses das crianças nascidas no períod...
5199,Faixa de tempo gasto por dia no deslocamento c...
5204,Tipo de cigarro industrializado comprado
5208,Método contraceptivo mais eficaz que faz uso


## 4 Save `multi-index`
> However we can still use these descriptions in a (Code, Description) multi-index tuple for the sake of interpretation.

In [6]:
# Dataframe
pns_multi_index = pd.DataFrame([attribute_codes, attribute_descriptions]).T
pns_multi_index

Unnamed: 0,Codigo,Descricao
1,V0001,Unidade da Federação
28,V0024,Estrato
29,UPA_PNS,UPA
30,V0006_PNS,Número de ordem do domicílio na PNS
31,V0015,Tipo da entrevista
...,...,...
5196,VDL001,Idade em meses das crianças nascidas no períod...
5199,VDM001,Faixa de tempo gasto por dia no deslocamento c...
5204,VDP001,Tipo de cigarro industrializado comprado
5208,VDR001,Método contraceptivo mais eficaz que faz uso


In [7]:
# Save to CSV
codes_descriptions_path = '/workspaces/depressao-ibge-pns/data/pns-multi-index.csv'
pns_multi_index.to_csv(codes_descriptions_path, index=False, header=['Codigo', 'Descricao'])

# [END] 
> Now the ../data/`pns-multi-index`.csv is ready to be used by:
1. [**depression**.ipynb](/workspaces/depressao-ibge-pns/src/3-depression/depression.ipynb)