# Planejamento ETL

In [71]:
import pandas as pd
import os

## Extract

Pegando as informações do csv de microdados de cadastros dos ies de cada ano, de 2019 até 2023, e juntando em apenas um único arquivo csv. Durante a extração, pegamos informações apenas das colunas de interesse. 

In [72]:
# Definir as colunas necessárias
colunas_utilizadas = [
    "NU_ANO_CENSO", "NO_REGIAO_IES", "CO_REGIAO_IES", "NO_UF_IES", "SG_UF_IES",
    "CO_UF_IES", "NO_MUNICIPIO_IES", "CO_MUNICIPIO_IES", "IN_CAPITAL_IES",
    "TP_ORGANIZACAO_ACADEMICA", "TP_REDE", "TP_CATEGORIA_ADMINISTRATIVA", "CO_IES", "NO_IES",
    "SG_IES", "IN_ACESSO_PORTAL_CAPES", "IN_ACESSO_OUTRAS_BASES", "IN_ASSINA_OUTRA_BASE",
    "IN_REPOSITORIO_INSTITUCIONAL", "IN_BUSCA_INTEGRADA", "IN_SERVICO_INTERNET",
    "IN_CATALOGO_ONLINE", "QT_PERIODICO_ELETRONICO", "QT_LIVRO_ELETRONICO",
    "QT_DOC_EXE", "QT_DOC_EX_FEMI", "QT_DOC_EX_MASC", "QT_DOC_EX_SEM_GRAD",
    "QT_DOC_EX_GRAD", "QT_DOC_EX_ESP", "QT_DOC_EX_MEST", "QT_DOC_EX_DOUT",
    "QT_DOC_EX_0_29", "QT_DOC_EX_30_34", "QT_DOC_EX_35_39", "QT_DOC_EX_40_44",
    "QT_DOC_EX_45_49", "QT_DOC_EX_50_54", "QT_DOC_EX_55_59", "QT_DOC_EX_60_MAIS"
]

# Intervalo considerado (de 2002 até 2024)
init_year = 2019
final_year = 2023  # Inclusive

dataframes = []

for year in range(init_year, final_year + 1):
    file_path = f'dados/MICRODADOS_CADASTRO_IES_{year}.CSV'

    if os.path.exists(file_path):
        print(f"Lendo o arquivo: {file_path}")

        # Lê o arquivo sem especificar as colunas
        try:
            df = pd.read_csv(file_path, encoding="latin1", sep=';')

            # Adiciona colunas ausentes com valores vazios
            for coluna in colunas_utilizadas:
                if coluna not in df.columns:
                    df[coluna] = None  # Cria coluna vazia

            # Filtra apenas as colunas necessárias
            df = df[colunas_utilizadas]

            # Adiciona o DataFrame à lista
            dataframes.append(df)

        except Exception as e:
            print(f"Erro ao processar o arquivo {file_path}: {e}")
    else:
        print(f"Arquivo {file_path} não encontrado.")

# Combina todos os DataFrames em um único DataFrame
df_final = pd.concat(dataframes, ignore_index=True)

# Exportar o DataFrame final para um novo arquivo CSV
caminho_saida = "dados/MICRODADOS_CADASTRO_IES_2019_2023.csv"
df_final.to_csv(caminho_saida, index=False, encoding="utf-8")

print(f"Arquivo tratado salvo em: {caminho_saida}")


Lendo o arquivo: dados/MICRODADOS_CADASTRO_IES_2019.CSV
Lendo o arquivo: dados/MICRODADOS_CADASTRO_IES_2020.CSV
Lendo o arquivo: dados/MICRODADOS_CADASTRO_IES_2021.CSV
Lendo o arquivo: dados/MICRODADOS_CADASTRO_IES_2022.CSV
Lendo o arquivo: dados/MICRODADOS_CADASTRO_IES_2023.CSV
Arquivo tratado salvo em: dados/MICRODADOS_CADASTRO_IES_2019_2023.csv


Dados pegos da planilha do IBGE com PIB por uf e ano. Por ser uma tabela, e não um csv, com informações de 2002 até 2022, separamos cada ano em um array e cruzamos a informação para transformar ele em um um .csv com as colunas uf;ano;pib

In [73]:
data = {
    "uf": [
        "Rondônia", "Acre", "Amazonas", "Roraima", "Pará", "Amapá", "Tocantins",
        "Maranhão", "Piauí", "Ceará", "Rio Grande do Norte", "Paraíba", "Pernambuco",
        "Alagoas", "Sergipe", "Bahia", "Minas Gerais", "Espírito Santo", "Rio de Janeiro",
        "São Paulo", "Paraná", "Santa Catarina", "Rio Grande do Sul", "Mato Grosso do Sul",
        "Mato Grosso", "Goiás", "Distrito Federal"
    ],
    "2019": [
        47091, 15630, 108181, 14292, 178377, 17497, 39356, 97340, 52781, 163575,
        71337, 67986, 197853, 58964, 44689, 293241, 651873, 137346, 779928,
        2348338, 466377, 323264, 482464, 106943, 142122, 208672, 273614
    ],
    "2020": [
        51599, 16476, 116019, 16024, 215936, 18469, 43650, 106916, 56391, 166915,
        71577, 70292, 193307, 63202, 45410, 305321, 682786, 138446, 753824,
        2377639, 487931, 349275, 470942, 122628, 178650, 224126, 265847
    ],
    "2021": [
        58170, 21374, 131531, 18203, 262905, 20100, 51781, 124981, 64028, 194885,
        80181, 77470, 220814, 76266, 51861, 352618, 857593, 186337, 949301,
        2719751, 549973, 428571, 581284, 142204, 233390, 269628, 286944
    ],
    "2022": [
        66795, 23676, 145140, 21095, 236142, 23614, 58209, 139789, 72835, 213601,
        93819, 86094, 245828, 76066, 57372, 402647, 906731, 182549, 1153512,
        3130333, 614611, 466274, 593634, 166407, 255527, 318586, 328790
    ]
}

traducao_uf = {
    "Acre": "AC", "Alagoas": "AL", "Amapá": "AP", "Amazonas": "AM",
    "Bahia": "BA", "Ceará": "CE", "Distrito Federal": "DF", "Espírito Santo": "ES",
    "Goiás": "GO", "Maranhão": "MA", "Mato Grosso": "MT", "Mato Grosso Do Sul": "MS",
    "Minas Gerais": "MG", "Pará": "PA", "Paraíba": "PB", "Paraná": "PR",
    "Pernambuco": "PE", "Piauí": "PI", "Rio De Janeiro": "RJ", "Rio Grande Do Norte": "RN",
    "Rio Grande Do Sul": "RS", "Rondônia": "RO", "Roraima": "RR", "Santa Catarina": "SC",
    "São Paulo": "SP", "Sergipe": "SE", "Tocantins": "TO"
}


# Criando o DataFrame original
df = pd.DataFrame(data)

# Transformando o DataFrame em formato longo
df_long = df.melt(id_vars=["uf"], var_name="ano", value_name="pib")

df_long

df_long['uf'] = df_long['uf'].str.strip()  # Remove espaços extras
df_long['uf'] = df_long['uf'].str.title()  # Capitaliza os nomes (e.g., "bahia" -> "Bahia")

# Substituindo com .loc para evitar o SettingWithCopyWarning
df_long.loc[:, 'uf'] = df_long['uf'].replace(traducao_uf)

# Salvando como CSV
csv_path = "dados/pib_2019_2022.csv"
df_long.to_csv(csv_path, index=False, sep=';')

df_long


Unnamed: 0,uf,ano,pib
0,RO,2019,47091
1,AC,2019,15630
2,AM,2019,108181
3,RR,2019,14292
4,PA,2019,178377
...,...,...,...
103,RS,2022,593634
104,MS,2022,166407
105,MT,2022,255527
106,GO,2022,318586


Coletando as informações sobre quantidade populacional por UF dos anos de 2019 até 2021

In [74]:
# Caminho do arquivo CSV
arquivo_csv = "dados/dados_populacao.csv"

# Dicionário de tradução de estados para siglas
traducao_uf = {
    "Acre": "AC", "Alagoas": "AL", "Amapá": "AP", "Amazonas": "AM",
    "Bahia": "BA", "Ceará": "CE", "Distrito Federal": "DF", "Espírito Santo": "ES",
    "Goiás": "GO", "Maranhão": "MA", "Mato Grosso": "MT", "Mato Grosso Do Sul": "MS",
    "Minas Gerais": "MG", "Pará": "PA", "Paraíba": "PB", "Paraná": "PR",
    "Pernambuco": "PE", "Piauí": "PI", "Rio De Janeiro": "RJ", "Rio Grande Do Norte": "RN",
    "Rio Grande Do Sul": "RS", "Rondônia": "RO", "Roraima": "RR", "Santa Catarina": "SC",
    "São Paulo": "SP", "Sergipe": "SE", "Tocantins": "TO"
}

# Carregar o CSV
df = pd.read_csv(arquivo_csv, encoding='latin1')

# Selecionar apenas as colunas desejadas
colunas_desejadas = ['Unidade Territorial', 'Referência', 'Estimativa/Contagem da População']
df_filtrado = df[colunas_desejadas].copy()  # Usar .copy() para criar uma cópia explícita

# Renomear colunas
df_filtrado.rename(columns={
    "Unidade Territorial": "uf",
    "Referência": "ano",
    "Estimativa/Contagem da População": "qtd_populacao"
}, inplace=True)

# Limpar e padronizar os nomes das UFs
df_filtrado['uf'] = df_filtrado['uf'].str.strip()  # Remove espaços extras
df_filtrado['uf'] = df_filtrado['uf'].str.title()  # Capitaliza os nomes (e.g., "bahia" -> "Bahia")
df_filtrado['uf'] = df_filtrado['uf'].replace(traducao_uf)  # Substituir nomes pelas siglas

df_filtrado

Unnamed: 0,uf,ano,qtd_populacao
0,RO,2019,1777225
1,AC,2019,881935
2,AM,2019,4144597
3,RR,2019,605761
4,PA,2019,8602865
...,...,...,...
76,RS,2021,11466630
77,MS,2021,2839188
78,MT,2021,3567234
79,GO,2021,7206589


Como na fonte anterior só tinha os dados até 2021, buscamos pelo censo de 2022 em outra fonte

In [75]:
arquivo_csv = "dados/Censo 2022.csv" #Arquivo baixado do IBGE

traducao_uf = {
    "Acre": "AC", "Alagoas": "AL", "Amapá": "AP", "Amazonas": "AM",
    "Bahia": "BA", "Ceará": "CE", "Distrito Federal": "DF", "Espírito Santo": "ES",
    "Goiás": "GO", "Maranhão": "MA", "Mato Grosso": "MT", "Mato Grosso Do Sul": "MS",
    "Minas Gerais": "MG", "Pará": "PA", "Paraíba": "PB", "Paraná": "PR",
    "Pernambuco": "PE", "Piauí": "PI", "Rio De Janeiro": "RJ", "Rio Grande Do Norte": "RN",
    "Rio Grande Do Sul": "RS", "Rondônia": "RO", "Roraima": "RR", "Santa Catarina": "SC",
    "São Paulo": "SP", "Sergipe": "SE", "Tocantins": "TO"
}

# Criando o DataFrame original
df_pop_2022 = pd.read_csv(arquivo_csv, encoding='utf-8-sig', sep=';')

df_pop_2022['uf'] = df_pop_2022['uf'].str.strip()  # Remove espaços extras
df_pop_2022['uf'] = df_pop_2022['uf'].str.title()  # Capitaliza os nomes (e.g., "bahia" -> "Bahia")

# Substituindo com .loc para evitar o SettingWithCopyWarning
df_pop_2022.loc[:, 'uf'] = df_pop_2022['uf'].replace(traducao_uf)
df_pop_2022.rename(columns={"pessoas": "qtd_populacao"}, inplace=True)

df_pop_2022

Unnamed: 0,uf,ano,qtd_populacao
0,AC,2022,830018
1,AL,2022,3127683
2,AP,2022,733759
3,AM,2022,3941613
4,BA,2022,14141626
5,CE,2022,8794957
6,DF,2022,2817381
7,ES,2022,3833712
8,GO,2022,7056495
9,MA,2022,6776699


Juntando os dados populacionais dos dois dataframes anteriores do ano de 2019 até 2021 e do ano de 2022 para salvar em um único arquivo csv contendo as informações de 2019 até 2022

In [76]:
# Adicionar os novos valores ao final do DataFrame existente
df_resultante = pd.concat([df_filtrado, df_pop_2022], ignore_index=True)

# Salvar o DataFrame final em um novo arquivo CSV
df_resultante.to_csv("dados/populacao_2019_2022.csv", index=False)
df_resultante

Unnamed: 0,uf,ano,qtd_populacao
0,RO,2019,1777225
1,AC,2019,881935
2,AM,2019,4144597
3,RR,2019,605761
4,PA,2019,8602865
...,...,...,...
103,RR,2022,636707
104,SC,2022,7610361
105,SP,2022,44411238
106,SE,2022,2210004


Juntando em um único arquivo os dados do PIB e quantidade populacional de 2019 até 2022

In [77]:
# Carregar os csv do pib e quantidade populacional
arquivo_pib = "dados/pib_2019_2022.csv"
arquivo_populacao = "dados/populacao_2019_2022.csv"

df_pib = pd.read_csv(arquivo_pib,  sep=';')
df_populacao = pd.read_csv(arquivo_populacao, encoding='latin1')

#União dos dois DataFrames com base nas colunas "ano" e "uf"
df_final = pd.merge(df_pib, df_populacao, on=["ano", "uf"], how="inner")

df_final.to_csv("dados/pib_populacao_2019_2022.csv", index=False)

df_final


Unnamed: 0,uf,ano,pib,qtd_populacao
0,RO,2019,47091,1777225
1,AC,2019,15630,881935
2,AM,2019,108181,4144597
3,RR,2019,14292,605761
4,PA,2019,178377,8602865
...,...,...,...,...
103,RS,2022,593634,10882965
104,MS,2022,166407,2757013
105,MT,2022,255527,3658649
106,GO,2022,318586,7056495


## Transform

Mapeamento de que colunas serão renomeadas para que nome

In [78]:
#Mapeamento de que colunas serão renomeadas para que nome
renome_microdados = {"nu_ano_censo": "Ano do Censo", "tp_organizacao_academica": "Tipo de Organização Acadêmica", "tp_rede": "Tipo IES",
          "tp_categoria_administrativa": "Categoria Administrativa", "co_ies": "Código da IES", "no_ies": "Nome da IES", "sg_ies": "Sigla da IES",
          "no_regiao_ies": "Região", "co_regiao_ies": "Código da Região", "no_uf_ies": "Unidade da Federação", "sg_uf_ies": "Sigla da Unidade da Federação",
          "co_uf_ies": "Código da Unidade da Federação", "no_municipio_ies": "Município", "co_municipio_ies": "Código do Múnicipio",
          "in_capital_ies": "Está em Uma Capital", "in_acesso_portal_capes": "Tem Acesso ao Portal Capes",
          "in_assina_outra_base": "Assina outras bases de dados",
          "in_repositorio_institucional": "Possui base de dados online que reúne a produção científica da instituição",
          "in_busca_integrada": "Oferece ferramenta eletrônica para pesquisar simultaneamente em várias fontes de informação",
          "in_servico_internet": "As bibliotecas da IES oferecem serviços pela internet",
          "in_catalogo_online": "Possui Catálogo Online do Acervo das Bibliotecas", "qt_doc_exe": "Quantidade de Docentes",
          "qt_doc_ex_femi": "Quantidade de Docentes do Sexo Feminino", "qt_doc_ex_masc": "Quantidade de Docentes do Sexo Masculino",
          "qt_doc_ex_sem_grad": "Quantidade de Docentes Sem Curso de Graduação",
          "qt_doc_ex_grad": "Quantidade de Docentes Cujo Nível de Formação é Curso de Graduação",
          "qt_doc_ex_esp": "Quantidade de Docentes Cujo Nível de Formação é Especialização",
          "qt_doc_ex_mest": "Quantidade de Docentes Cujo Nível de Formação é Mestrado",
          "qt_doc_ex_dout": "Quantidade de Docentes Cujo Nível de Formação é Doutorado", "qt_doc_ex_0_29": "Quantidade de Docentes Com Até 29 Anos de Idade",
          "qt_doc_ex_30_39": "Quantidade de Docentes Entre 30 e 39 Anos de Idade", "qt_doc_ex_40_49": "Quantidade de Docentes Entre 40 e 49 Anos de Idade",
          "qt_doc_ex_50_59": "Quantidade de Docentes Entre 50 e 59 Anos de Idade","qt_doc_ex_60_mais": "Quantidade de Docentes Com Pelo Menos 60 Anos de Idade",
          "qt_periodico_eletronico": "Quantidade de periódicos eletrônicos", "qt_livro_eletronico": "Quantidade de livros eletrônicos"}

renome_pib_pop = {"pib": "PIB da Unidade da Federação", "qtd_populacao": "População da Unidade da Federação"}

#Mapeamento dos códigos que serão substituidos
mapa_codigo = {"Tipo de Organização Acadêmica":{1: "Universidade", 2: "Centro Universitário", 3: "Faculdade", 4: "Instituto Federal de Educação, Ciência e Tecnologia", 5: "Centro Federal de Educação Tecnológica"},
               "Tipo IES":{1.0: "Pública", 2.0: "Privada"},
               "Categoria Administrativa":{1: "Pública Federal", 2: "Pública Estadual", 3: "Pública Municipal", 4: "Privada com fins lucrativos", 5: "Privada sem fins lucrativos", 7: "Especial"},
               "Está em Uma Capital":{0: "Não está na capital", 1: "Está na capital"}, "Tem Acesso ao Portal Capes": {0: "Não", 1: "Sim"},
               "Assina outras bases de dados": {0: "Não", 1: "Sim"},
               "Possui base de dados online que reúne a produção científica da instituição": {0: "Não", 1: "Sim"},
               "Oferece ferramenta eletrônica para pesquisar simultaneamente em várias fontes de informação": {0: "Não", 1: "Sim"},
               "As bibliotecas da IES oferecem serviços pela internet": {0: "Não", 1: "Sim"},
               "Possui Catálogo Online do Acervo das Bibliotecas": {0: "Não", 1: "Sim"}
              }

Carregando os arquivos csv com informações dos ies e do pib e população

In [79]:
#Carregar os dois csv que foram gerados na etapa de extração (extract)
arquivo_microdados = "dados/MICRODADOS_CADASTRO_IES_2019_2023.csv"
arquivo_pib_pop = "dados/pib_populacao_2019_2022.csv"
microdados = pd.read_csv(arquivo_microdados, encoding='latin1')
pib_pop = pd.read_csv(arquivo_pib_pop, encoding='latin1')

#Consolidar faixas etárias com intervalo de 5 anos, para intervalos de 10 anos
microdados["QT_DOC_EX_30_39"] = microdados["QT_DOC_EX_30_34"] + microdados["QT_DOC_EX_35_39"]
microdados["QT_DOC_EX_40_49"] = microdados["QT_DOC_EX_40_44"] + microdados["QT_DOC_EX_45_49"]
microdados["QT_DOC_EX_50_59"] = microdados["QT_DOC_EX_50_54"] + microdados["QT_DOC_EX_55_59"]

#Remover as faixas etárias com intervalo de 5 anos
microdados.drop(["QT_DOC_EX_30_34", "QT_DOC_EX_35_39", "QT_DOC_EX_40_44", "QT_DOC_EX_45_49", "QT_DOC_EX_50_54", "QT_DOC_EX_55_59"], axis = 1, inplace=True)

#Renomear as colunas para nomes mais amigáveis
microdados.columns = microdados.columns.str.lower()
microdados.rename(columns=renome_microdados, inplace=True)
pib_pop.rename(columns=renome_pib_pop, inplace=True)

#Substituir os valores em código com nomes descritivos
microdados.replace(mapa_codigo, inplace=True)

#Substituir os valores NA (not a number), com uma explicação que o dado não está disponível naquele ano
microdados.fillna({"Tipo IES": "Dado não disponível para este ano."}, inplace=True)

#Ativar copy on write para evitar warnings do panda
pd.options.mode.copy_on_write = True

Criação da dimensão tempo

In [80]:
#Criar dimensão tempo, copiando a coluna de microdados que faz parte desta dimensão
DTempo = microdados[["Ano do Censo"]]
DTempo = DTempo.copy()

#Fazer deduplicação dos dados
DTempo.drop_duplicates(inplace=True)

#Criar chave substituta
DTempo["pk_tempo"] = range(1, len(DTempo) + 1)

#Salvar a dimensão como arquivo cvs
caminho_saida = "dados/ETL/DTempo.csv"
DTempo.to_csv(caminho_saida, index=False, encoding="utf-8")

DTempo


Unnamed: 0,Ano do Censo,pk_tempo
0,2019,1
2608,2020,2
5065,2021,3
7639,2022,4
10234,2023,5


Criação da dimensão tipo

In [81]:
#Criar dimensão tipo, copiando as colunas de microdados que fazem parte desta dimensão
DTipo = microdados[["Tipo de Organização Acadêmica", "Tipo IES", "Categoria Administrativa"]]

#Fazer deduplicação dos dados
DTipo.drop_duplicates(inplace=True)

#Criar chave substituta
DTipo["pk_tipo"] = range(1, len(DTipo) + 1)

#Salvar a dimensão como arquivo cvs
caminho_saida = "dados/ETL/DTipo.csv"
DTipo.to_csv(caminho_saida, index=False, encoding="utf-8")

print(f"Arquivo tratado salvo em: {caminho_saida}")

#faz um print da dimensão para servir de um check manual de que a dimensão foi gerada corretamente
DTipo

Arquivo tratado salvo em: dados/ETL/DTipo.csv


Unnamed: 0,Tipo de Organização Acadêmica,Tipo IES,Categoria Administrativa,pk_tipo
0,Universidade,Dado não disponível para este ano.,Pública Federal,1
8,Universidade,Dado não disponível para este ano.,Pública Estadual,2
9,Universidade,Dado não disponível para este ano.,Privada sem fins lucrativos,3
23,Faculdade,Dado não disponível para este ano.,Pública Federal,4
28,Faculdade,Dado não disponível para este ano.,Pública Estadual,5
41,Faculdade,Dado não disponível para este ano.,Pública Municipal,6
43,Centro Universitário,Dado não disponível para este ano.,Especial,7
47,Faculdade,Dado não disponível para este ano.,Especial,8
50,Universidade,Dado não disponível para este ano.,Pública Municipal,9
53,Centro Universitário,Dado não disponível para este ano.,Privada sem fins lucrativos,10


Criação da dimensão identificador

In [82]:
#Criar dimensão identificador, copiando as colunas de microdados que fazem parte desta dimensão
DIdentificador = microdados[["Código da IES", "Nome da IES", "Sigla da IES"]]

#Fazer deduplicação dos dados
DIdentificador.drop_duplicates(inplace=True)

#Criar chave substituta
DIdentificador["pk_identificador"] = range(1, len(DIdentificador) + 1)

#Salvar a dimensão como arquivo cvs
caminho_saida = "dados/ETL/DIdentificador.csv"
DIdentificador.to_csv(caminho_saida, index=False, encoding="utf-8")

print(f"Arquivo tratado salvo em: {caminho_saida}")

#faz um print da dimensão para servir de um check manual de que a dimensão foi gerada corretamente
DIdentificador

Arquivo tratado salvo em: dados/ETL/DIdentificador.csv


Unnamed: 0,Código da IES,Nome da IES,Sigla da IES,pk_identificador
0,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,1
1,2,UNIVERSIDADE DE BRASÃLIA,UNB,2
2,3,UNIVERSIDADE FEDERAL DE SERGIPE,UFS,3
3,4,UNIVERSIDADE FEDERAL DO AMAZONAS,UFAM,4
4,5,UNIVERSIDADE FEDERAL DO PIAUÃ,UFPI,5
...,...,...,...,...
12809,28988,Faculdade de Tecnologia de Votorantim,FATEC-VOT,4973
12810,29118,Universidade Federal do Norte do Tocantins,UFNT,4974
12811,29927,COL GIO TECNOL GICO DO ESTADO DE GOI S GOVERNA...,COTEC GOQ,4975
12812,29928,COL GIO TECNOL GICO DO ESTADO DE GOI S AGUINAL...,COTEC-ACN,4976


In [83]:
#Criar dimensão localização geográfica, copiando as colunas de microdados que fazem parte desta dimensão
DLocalização_Geográfica = microdados[["Região", "Código da Região", "Unidade da Federação", "Sigla da Unidade da Federação", "Código da Unidade da Federação", "Município", "Código do Múnicipio", "Está em Uma Capital"]]

#Fazer deduplicação dos dados
DLocalização_Geográfica.drop_duplicates(inplace=True)

#Criar chave substituta
DLocalização_Geográfica["pk_localização_geográfica"] = range(1, len(DLocalização_Geográfica) + 1)

#Salvar a dimensão como arquivo cvs
caminho_saida = "dados/ETL/DLocalização_Geográfica.csv"
DLocalização_Geográfica.to_csv(caminho_saida, index=False, encoding="utf-8")

print(f"Arquivo tratado salvo em: {caminho_saida}")

#faz um print da dimensão para servir de um check manual de que a dimensão foi gerada corretamente
DLocalização_Geográfica

Arquivo tratado salvo em: dados/ETL/DLocalização_Geográfica.csv


Unnamed: 0,Região,Código da Região,Unidade da Federação,Sigla da Unidade da Federação,Código da Unidade da Federação,Município,Código do Múnicipio,Está em Uma Capital,pk_localização_geográfica
0,Centro-Oeste,5,Mato Grosso,MT,51,CuiabÃ¡,5103403,Está na capital,1
1,Centro-Oeste,5,Distrito Federal,DF,53,BrasÃ­lia,5300108,Está na capital,2
2,Nordeste,2,Sergipe,SE,28,SÃ£o CristÃ³vÃ£o,2806701,Não está na capital,3
3,Norte,1,Amazonas,AM,13,Manaus,1302603,Está na capital,4
4,Nordeste,2,PiauÃ­,PI,22,Teresina,2211001,Está na capital,5
...,...,...,...,...,...,...,...,...,...
12766,Centro-Oeste,5,Goi s,GO,52,Cidade Ocidental,5205497,Não está na capital,1272
12770,Nordeste,2,Cear,CE,23,Parambu,2310308,Não está na capital,1273
12776,Nordeste,2,Bahia,BA,29,Amargosa,2901007,Não está na capital,1274
12793,Sul,4,Paran,PR,41,Bandeirantes,4102406,Não está na capital,1275


In [84]:
#Criar dimensão biblioteca, copiando as colunas de microdados que fazem parte desta dimensão
DBiblioteca = microdados[["Tem Acesso ao Portal Capes", "Assina outras bases de dados", "Possui base de dados online que reúne a produção científica da instituição", "Oferece ferramenta eletrônica para pesquisar simultaneamente em várias fontes de informação", "As bibliotecas da IES oferecem serviços pela internet", "Possui Catálogo Online do Acervo das Bibliotecas"]]

#Fazer deduplicação dos dados
DBiblioteca.drop_duplicates(inplace=True)

#Criar chave substituta
DBiblioteca["pk_biblioteca"] = range(1, len(DBiblioteca) + 1)

#Salvar a dimensão como arquivo cvs
caminho_saida = "dados/ETL/DBiblioteca.csv"
DBiblioteca.to_csv(caminho_saida, index=False, encoding="utf-8")

print(f"Arquivo tratado salvo em: {caminho_saida}")

#faz um print da dimensão para servir de um check manual de que a dimensão foi gerada corretamente
DBiblioteca

Arquivo tratado salvo em: dados/ETL/DBiblioteca.csv


Unnamed: 0,Tem Acesso ao Portal Capes,Assina outras bases de dados,Possui base de dados online que reúne a produção científica da instituição,Oferece ferramenta eletrônica para pesquisar simultaneamente em várias fontes de informação,As bibliotecas da IES oferecem serviços pela internet,Possui Catálogo Online do Acervo das Bibliotecas,pk_biblioteca
0,Sim,Sim,Sim,Não,Sim,Sim,1
1,Sim,Sim,Sim,Sim,Sim,Sim,2
4,Sim,Não,Sim,Não,Sim,Sim,3
7,Sim,Não,Sim,Sim,Sim,Sim,4
9,Sim,Sim,Não,Não,Sim,Sim,5
...,...,...,...,...,...,...,...
3539,Sim,Não,Sim,Não,Não,Sim,58
3643,Não,Não,Sim,Não,Não,Sim,59
4431,Sim,Sim,Não,Não,Não,Sim,60
5070,Sim,Sim,Sim,Não,Não,Sim,61


In [85]:
#Criar fato auxiliar pib_pop, copiando pib_pop
FAPIB_Pop = pib_pop

#Mergir o fato auxiliar com as dimensões tempo e localização geográfica, fazendo left merge no fato auxiliar.
FAPIB_Pop = FAPIB_Pop.merge(DTempo, how="left", left_on=["ano"], right_on=["Ano do Censo"])
FAPIB_Pop = FAPIB_Pop.merge(DLocalização_Geográfica, how="left", left_on=["uf"], right_on=["Sigla da Unidade da Federação"])

#Manter apenas as colunas relevantes ao fato auxiliar (chaves estrangeiras, pib, e população)
FAPIB_Pop = FAPIB_Pop[["pk_tempo", "pk_localização_geográfica", "PIB da Unidade da Federação", "População da Unidade da Federação"]]

#Fazer deduplicação dos dados
FAPIB_Pop.drop_duplicates(inplace=True)

#Salvar o fato auxiliar como arquivo cvs
caminho_saida = "dados/ETL/FAPIB_Pop.csv"
FAPIB_Pop.to_csv(caminho_saida, index=False, encoding="utf-8")

print(f"Arquivo tratado salvo em: {caminho_saida}")

#faz um print do fato para servir de um check manual de que o fato auxiliar foi gerado corretamente
FAPIB_Pop

Arquivo tratado salvo em: dados/ETL/FAPIB_Pop.csv


Unnamed: 0,pk_tempo,pk_localização_geográfica,PIB da Unidade da Federação,População da Unidade da Federação
0,1,117,47091,1777225
1,1,173,47091,1777225
2,1,203,47091,1777225
3,1,212,47091,1777225
4,1,300,47091,1777225
...,...,...,...,...
5099,4,1256,318586,7056495
5100,4,1265,318586,7056495
5101,4,1272,318586,7056495
5102,4,2,328790,2817381


In [86]:
#Criar fato Instituição de Ensino Superior, copiando microdados
FInstituição_de_Ensino_Superior = microdados

#Mergir o fato auxiliar com todas as dimensões, fazendo left merge no fato
FInstituição_de_Ensino_Superior = FInstituição_de_Ensino_Superior.merge(DTempo, how="left", on=["Ano do Censo"])
FInstituição_de_Ensino_Superior = FInstituição_de_Ensino_Superior.merge(DTipo, how="left", on=["Tipo de Organização Acadêmica", "Tipo IES", "Categoria Administrativa"])
FInstituição_de_Ensino_Superior = FInstituição_de_Ensino_Superior.merge(DIdentificador, how="left", on=["Código da IES", "Nome da IES", "Sigla da IES"])
FInstituição_de_Ensino_Superior = FInstituição_de_Ensino_Superior.merge(DLocalização_Geográfica, how="left", on=["Região", "Código da Região", "Unidade da Federação", "Sigla da Unidade da Federação", "Código da Unidade da Federação", "Município", "Código do Múnicipio", "Está em Uma Capital"])
FInstituição_de_Ensino_Superior = FInstituição_de_Ensino_Superior.merge(DBiblioteca, how="left", on=["Tem Acesso ao Portal Capes", "Assina outras bases de dados", "Possui base de dados online que reúne a produção científica da instituição", "Oferece ferramenta eletrônica para pesquisar simultaneamente em várias fontes de informação", "As bibliotecas da IES oferecem serviços pela internet", "Possui Catálogo Online do Acervo das Bibliotecas"])

#Manter apenas as colunas relevantes ao (chaves estrangeiras e métricas)
FInstituição_de_Ensino_Superior = FInstituição_de_Ensino_Superior[["pk_tempo", "pk_tipo", "pk_identificador", "pk_localização_geográfica", "pk_biblioteca", "Quantidade de Docentes", "Quantidade de Docentes do Sexo Feminino", "Quantidade de Docentes do Sexo Masculino", "Quantidade de Docentes Sem Curso de Graduação", "Quantidade de Docentes Cujo Nível de Formação é Curso de Graduação", "Quantidade de Docentes Cujo Nível de Formação é Especialização", "Quantidade de Docentes Cujo Nível de Formação é Mestrado", "Quantidade de Docentes Cujo Nível de Formação é Doutorado", "Quantidade de Docentes Com Até 29 Anos de Idade", "Quantidade de Docentes Entre 30 e 39 Anos de Idade", "Quantidade de Docentes Entre 40 e 49 Anos de Idade", "Quantidade de Docentes Entre 50 e 59 Anos de Idade", "Quantidade de Docentes Com Pelo Menos 60 Anos de Idade", "Quantidade de periódicos eletrônicos", "Quantidade de livros eletrônicos"]]

#Fazer deduplicação dos dados
FInstituição_de_Ensino_Superior = FInstituição_de_Ensino_Superior.drop_duplicates()

#Salvar o fato como arquivo cvs
caminho_saida = "dados/ETL/FInstituição_de_Ensino_Superior.csv"
FInstituição_de_Ensino_Superior.to_csv(caminho_saida, index=False, encoding="utf-8")

print(f"Arquivo tratado salvo em: {caminho_saida}")

#faz um print do fato para servir de um check manual de que o fato foi gerado corretamente
FInstituição_de_Ensino_Superior

Arquivo tratado salvo em: dados/ETL/FInstituição_de_Ensino_Superior.csv


Unnamed: 0,pk_tempo,pk_tipo,pk_identificador,pk_localização_geográfica,pk_biblioteca,Quantidade de Docentes,Quantidade de Docentes do Sexo Feminino,Quantidade de Docentes do Sexo Masculino,Quantidade de Docentes Sem Curso de Graduação,Quantidade de Docentes Cujo Nível de Formação é Curso de Graduação,Quantidade de Docentes Cujo Nível de Formação é Especialização,Quantidade de Docentes Cujo Nível de Formação é Mestrado,Quantidade de Docentes Cujo Nível de Formação é Doutorado,Quantidade de Docentes Com Até 29 Anos de Idade,Quantidade de Docentes Entre 30 e 39 Anos de Idade,Quantidade de Docentes Entre 40 e 49 Anos de Idade,Quantidade de Docentes Entre 50 e 59 Anos de Idade,Quantidade de Docentes Com Pelo Menos 60 Anos de Idade,Quantidade de periódicos eletrônicos,Quantidade de livros eletrônicos
0,1,1,1,1,1,2360,1170,1190,0,190,132,529,1509,182,868,676,393,241,0,0
1,1,1,2,2,2,2937,1355,1582,0,18,34,336,2549,80,725,919,779,434,51216,356305
2,1,1,3,3,2,1818,871,947,0,44,69,340,1365,101,583,609,374,151,49339,277917
3,1,1,4,4,1,1741,797,944,0,104,128,414,1095,120,494,526,419,182,48155,4136
4,1,1,5,5,3,1729,840,889,0,3,150,461,1115,90,610,496,307,226,128000,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12809,5,26,4973,1227,13,21,10,11,0,0,3,9,9,0,3,7,6,5,0,0
12810,5,21,4974,1074,1,310,155,155,0,5,18,48,239,7,90,121,64,28,0,10000
12811,5,26,4975,793,15,7,1,6,0,2,3,2,0,2,2,2,1,0,0,15692
12812,5,26,4976,1093,41,10,7,3,0,0,4,6,0,1,6,2,0,1,0,15902
