## Diccionarios
Usaremos este notebook para crear los diccionarios necesarios para reemplazar valores de columnas.

In [1]:
import pandas as pd

pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", None)

In [2]:
df = pd.read_csv("../datos/brasil_completo.csv")

Para cada uno de los casos: el proceso será el siguiente:
1. Creamos un nuevo dataframe, para el que seleccionamos las dos columnas que contienen el código y el nombre de cada entidad.
2. Las agrupamos por su nombre.
3. Con groupby debemos usar un método numérico, así que contamos usando value_counts()
4. Usamos reset_index para que el código no sean los índices. 
5. Nos quedamos con las columnas código y nombre.

En la siguiente celda de código, crearemos un diccionario con el método zip, donde las keys son los códigos y los values serán los nombres.

In [9]:
# Órgano superior
df_org_superior = df[["codigo_organo_superior", "nombre_organo_superior"]].groupby("nombre_organo_superior").value_counts().reset_index()[["nombre_organo_superior", "codigo_organo_superior"]]

In [10]:
dicc_org_superior = dict(zip(df_org_superior["codigo_organo_superior"], df_org_superior["nombre_organo_superior"]))
dicc_org_superior

{63000.0: 'Advocacia-Geral da União',
 37000.0: 'Controladoria-Geral da União',
 22000.0: 'Ministério da Agricultura, Pecuária e Abastec',
 55000.0: 'Ministério da Cidadania',
 24000.0: 'Ministério da Ciência, Tecnologia, Inovações ',
 52000.0: 'Ministério da Defesa',
 25000.0: 'Ministério da Economia',
 26000.0: 'Ministério da Educação',
 39000.0: 'Ministério da Infraestrutura',
 30000.0: 'Ministério da Justiça e Segurança Pública',
 81000.0: 'Ministério da Mulher, Família e Direitos Huma',
 58000.0: 'Ministério da Pesca e Aquicultura',
 33000.0: 'Ministério da Previdência Social',
 36000.0: 'Ministério da Saúde',
 41000.0: 'Ministério das Comunicações',
 57000.0: 'Ministério das Mulheres, Igualdade Racial, da',
 35000.0: 'Ministério das Relações Exteriores',
 32000.0: 'Ministério de Minas e Energia',
 49000.0: 'Ministério do Desenvolvimento Agrário',
 53000.0: 'Ministério do Desenvolvimento Regional',
 51000.0: 'Ministério do Esporte',
 44000.0: 'Ministério do Meio Ambiente',
 38000.

In [13]:
# Órgano
df_organo = df[["codigo_organo", "nombre_organo"]].groupby("nombre_organo").value_counts().reset_index()[["nombre_organo", "codigo_organo"]]

In [14]:
dicc_organo = dict(zip(df_organo["codigo_organo"], df_organo["nombre_organo"]))
dicc_organo

{63000.0: 'Advocacia-Geral da União - Unidades com vínculo direto',
 20402.0: 'Agência Espacial Brasileira',
 62201.0: 'Agência Nacional de Aviação Civil',
 32210.0: 'Agência Nacional de Energia Elétrica',
 32396.0: 'Agência Nacional de Mineração',
 36213.0: 'Agência Nacional de Saúde Suplementar',
 68201.0: 'Agência Nacional de Transportes Aquaviários',
 39251.0: 'Agência Nacional de Transportes Aquaviários',
 39250.0: 'Agência Nacional de Transportes Terrestres',
 36212.0: 'Agência Nacional de Vigilância Sanitária',
 44205.0: 'Agência Nacional de Águas',
 20203.0: 'Agência Nacional do Cinema',
 32205.0: 'Agência Nacional do Petróleo, Gás Natural e Biocombustíveis',
 53205.0: 'Agência de Desenvolvimento da Amazônia',
 41231.0: 'Agêncial Nacional de Telecomunicações',
 52233.0: 'Amazônia Azul Tecnologia de Defesa S.A.',
 91214.0: 'Autoridade Pública Olímpica',
 25201.0: 'Banco Central do Brasil - Orçamento Fiscal e Seguridade Social',
 31280.0: 'Caixa de Construções de Casas para o Pes

In [15]:
# Unidad gestora
df_unidad = df[["codigo_unidad_gestora", "nombre_unidad_gestora"]].groupby("nombre_unidad_gestora").value_counts().reset_index()[["nombre_unidad_gestora", "codigo_unidad_gestora"]]


In [17]:
dicc_unidad = dict(zip(df_unidad["codigo_unidad_gestora"], df_unidad["nombre_unidad_gestora"]))
dicc_unidad

{323030.0: 'AG. NAC.DO PETROLEO GAS NAT.E BIOCOM',
 533001.0: 'AGENCIA DE DESENVOLVIMENTO DA AMAZONIA',
 203001.0: 'AGENCIA ESPACIAL BRASILEIRA/AEB',
 113214.0: 'AGENCIA NACIONAL DE AVIACAO CIVIL',
 122002.0: 'AGENCIA NACIONAL DE AVIACAO CIVIL - F. AEROV.',
 323028.0: 'AGENCIA NACIONAL DE ENERGIA ELETRICA',
 253003.0: 'AGENCIA NACIONAL DE SAUDE SUPLEMENTAR',
 413001.0: 'AGENCIA NACIONAL DE TELECOMUNICACOES-SEDE',
 682010.0: 'AGENCIA NACIONAL DE TRANSPORTES AQUAVIARIOS',
 393002.0: 'AGENCIA NACIONAL DE TRANSPORTES AQUAVIARIOS',
 393001.0: 'AGENCIA NACIONAL DE TRANSPORTES TERRESTRES',
 253002.0: 'AGENCIA NACIONAL DE VIGILANCIA SANITARIA',
 203003.0: 'AGENCIA NACIONAL DO CINEMA',
 913001.0: 'AUTORIDADE PUBLICA OLIMPICA',
 173057.0: 'BANCO CENTRAL DO BRASIL',
 123001.0: 'CAIXA FINANCIAMENTO IMOBILIARIO AERONAUTICA',
 154999.0: 'CAPES - DIFERENCA CAMBIAL',
 179083.0: 'CASA DA MOEDA DO BRASIL',
 153010.0: 'CENTRO FED.DE EDUC.TECNOL.CELSO S.DA FONSECA',
 153015.0: 'CENTRO FEDERAL DE EDUCACAO 

Los resultados de estos diccionarios los almacenamos en "../src/soporte_variables.py", para poder usarlos luego en nuestras funciones.