**Etapa 1 - Importação das bibliotecas necessárias**
Importamos as bibliotecas pandas para manipulação de dados e os para listar os arquivos.

In [1]:
import pandas as pd
import os

**Etapa 2 - Upload dos arquivos para o Google Colab**
Solicitamos o upload dos 17 arquivos .xlsx, seguindo o padrão de nomenclatura:

ICJ_2008.xlsx
ICJ_2009.xlsx
...
ICJ_2024.xlsx

In [2]:
from google.colab import files
uploaded = files.upload()

Saving ICJ_2008.xlsx to ICJ_2008.xlsx
Saving ICJ_2009.xlsx to ICJ_2009.xlsx
Saving ICJ_2010.xlsx to ICJ_2010.xlsx
Saving ICJ_2011.xlsx to ICJ_2011.xlsx
Saving ICJ_2012.xlsx to ICJ_2012.xlsx
Saving ICJ_2013.xlsx to ICJ_2013.xlsx
Saving ICJ_2014.xlsx to ICJ_2014.xlsx
Saving ICJ_2015.xlsx to ICJ_2015.xlsx
Saving ICJ_2016.xlsx to ICJ_2016.xlsx
Saving ICJ_2017.xlsx to ICJ_2017.xlsx
Saving ICJ_2018.xlsx to ICJ_2018.xlsx
Saving ICJ_2019.xlsx to ICJ_2019.xlsx
Saving ICJ_2020.xlsx to ICJ_2020.xlsx
Saving ICJ_2021.xlsx to ICJ_2021.xlsx
Saving ICJ_2022.xlsx to ICJ_2022.xlsx
Saving ICJ_2023.xlsx to ICJ_2023.xlsx
Saving ICJ_2024.xlsx to ICJ_2024.xlsx


Etapa 3 - Carregamento e tratamento dos arquivos
Criamos uma função que:

Lê o arquivo Excel.
Adiciona uma coluna com o respectivo ano (extraído do nome do arquivo).
Retorna o DataFrame tratado.
Iteramos sobre os anos de 2008 a 2024, carregando e empilhando os dados.

In [3]:
def carregar_arquivo_com_ano(nome_arquivo, ano):
    # Lê a planilha, pulando a primeira linha (vazia), e usando a segunda como cabeçalho
    df = pd.read_excel(nome_arquivo, header=1)
    df['Ano'] = ano
    return df

# Lista de anos
anos = list(range(2008, 2025))

# Lista para armazenar os DataFrames
dataframes = []

# Loop para carregar todos os arquivos
for ano in anos:
    nome_arquivo = f"ICJ_{ano}.xlsx"
    print(f"Lendo o arquivo: {nome_arquivo}")
    df_ano = carregar_arquivo_com_ano(nome_arquivo, ano)
    dataframes.append(df_ano)

# Concatenar todos os DataFrames em um único banco de dados
df_total = pd.concat(dataframes, ignore_index=True)

Lendo o arquivo: ICJ_2008.xlsx
Lendo o arquivo: ICJ_2009.xlsx
Lendo o arquivo: ICJ_2010.xlsx
Lendo o arquivo: ICJ_2011.xlsx
Lendo o arquivo: ICJ_2012.xlsx
Lendo o arquivo: ICJ_2013.xlsx
Lendo o arquivo: ICJ_2014.xlsx
Lendo o arquivo: ICJ_2015.xlsx
Lendo o arquivo: ICJ_2016.xlsx
Lendo o arquivo: ICJ_2017.xlsx
Lendo o arquivo: ICJ_2018.xlsx
Lendo o arquivo: ICJ_2019.xlsx
Lendo o arquivo: ICJ_2020.xlsx
Lendo o arquivo: ICJ_2021.xlsx
Lendo o arquivo: ICJ_2022.xlsx
Lendo o arquivo: ICJ_2023.xlsx
Lendo o arquivo: ICJ_2024.xlsx


**Etapa 4 - Verificações e validação do banco consolidado**
Visualizamos as primeiras linhas e informações do banco consolidado:

In [11]:
# Primeiras linhas do banco consolidado
df_total.head()

Unnamed: 0,#,01_Instituição,02_Programa,03_Modalidade,04_Cod Categoria Nível,05 _Área,06_Grande Área,07_Linha de Fomento,08_Sexo,09_Cor ou Raça,...,15_Cidade,16_Cod Município IBGE,17_Nacionalidade,18_Naturalidade,Valor (R$),Valor (US$),Benef. Modal / Ano,Bolsa / Ano,Auxílio / Ano,Ano
0,1.0,4C INNOVATION CONSULTING LTDA - ME,PROGRAMA RHAE - INOVACAO,Fixação de Recursos Humanos,G,Engenharia de Materiais e Metalúrgica,Engenharias,APOIO A PROJETOS DE PESQUISA,Masculino,Amarela,...,Joinville,4209102.0,Brasileira,Brasil,3250.0,657.79,1.0,0.08,0.0,2008
1,2.0,A.G.L. - Incorporadora Ltda,PROGRAMA RHAE - INOVACAO,Especialista Visitante,1,Engenharia Civil,Engenharias,APOIO A PROJETOS DE PESQUISA,Masculino,Branca,...,Curitiba,4106902.0,Brasileira,Brasil,65000.0,12339.99,1.0,0.84,0.0,2008
2,3.0,A.G.L. - Incorporadora Ltda,PROGRAMA RHAE - INOVACAO,Fixação de Recursos Humanos,F,Engenharia Civil,Engenharias,APOIO A PROJETOS DE PESQUISA,Masculino,Branca,...,Curitiba,4106902.0,Brasileira,Brasil,25740.0,4847.64,1.0,0.92,0.0,2008
3,4.0,A.G.L. - Incorporadora Ltda,PROGRAMA RHAE - INOVACAO,Fixação de Recursos Humanos,G,Engenharia Civil,Engenharias,APOIO A PROJETOS DE PESQUISA,Masculino,Branca,...,Curitiba,4106902.0,Brasileira,Brasil,21450.0,4039.69,1.0,0.55,0.0,2008
4,5.0,A.G.L. - Incorporadora Ltda,PROGRAMA RHAE - INOVACAO,Fixação de Recursos Humanos,H,Engenharia Civil,Engenharias,APOIO A PROJETOS DE PESQUISA,Masculino,Branca,...,Curitiba,4106902.0,Brasileira,Brasil,13650.0,2642.97,1.0,0.58,0.0,2008


In [4]:
# Estrutura do banco de dados
df_total.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 82489 entries, 0 to 82488
Data columns (total 25 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   #                       82489 non-null  float64
 1   01_Instituição          82489 non-null  object 
 2   02_Programa             82489 non-null  object 
 3   03_Modalidade           82489 non-null  object 
 4   04_Cod Categoria Nível  0 non-null      float64
 5   05 _Área                82489 non-null  object 
 6   06_Grande Área          82489 non-null  object 
 7   07_Linha de Fomento     82489 non-null  object 
 8   08_Sexo                 82489 non-null  object 
 9   09_Cor ou Raça          82489 non-null  object 
 10  10_Origem do Recurso    82489 non-null  object 
 11  11_País                 82489 non-null  object 
 12  12_Região               82489 non-null  object 
 13  13_Unidade Federação    82489 non-null  object 
 14  14_Sigla UF             82489 non-null

**Salvar arquivo unificado** no formato .csv

In [5]:
df_total.to_csv("Painel_ICJ_2008_2024.csv", index=False)

from google.colab import files
files.download("Painel_ICJ_2008_2024.csv")


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

**Salvar arquivo unificado** no formato .xlsx

In [9]:
df_total.to_excel("Painel_ICJ_2008_2024.xlsx", index=False)

from google.colab import files
files.download("Painel_ICJ_2008_2024.xlsx")


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>