<a href="https://colab.research.google.com/github/tiago15anjos/ICJ_Painel_Fomento_2008_2024/blob/main/Consolida%C3%A7%C3%A3o_Forma%C3%A7%C3%A3o_Professores_2010_2023.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📘 Consolidação dos Dados sobre Formação dos Professores no Brasil (2010-2023)
Autor: Tiago Ribeiro dos Anjos
Descrição: Este notebook consolida dados da Sinopse Estatística da Educação Básica (INEP),
          com foco na formação dos professores nos municípios brasileiros.
Etapas: Leitura das planilhas (aba "2.4"), seleção de colunas, padronização e unificação.

In [None]:
# Instalar bibliotecas necessárias
!pip install openpyxl

# Importar bibliotecas
import pandas as pd
import os

# Criar uma pasta local para armazenar os arquivos (se ainda não existir)
os.makedirs("dados_sinopse", exist_ok=True)

print("Ambiente pronto. Agora vamos subir os arquivos para a pasta 'dados_sinopse'.")


Ambiente pronto. Agora vamos subir os arquivos para a pasta 'dados_sinopse'.


**Etapa 3: Leitura e extração das colunas certas de cada arquivo.**

In [10]:
# Procurar arquivos diretamente na raiz do ambiente do Colab
arquivos = sorted([f for f in os.listdir() if f.endswith(".xlsx")])

# Verificar nomes dos arquivos encontrados
print("Arquivos encontrados:\n")
for f in arquivos:
    print(f)


# Colunas desejadas e nomes padronizados
colunas_excel = ['A', 'B', 'C', 'D', 'H', 'K', 'L', 'M']
nomes_colunas = ['UF', 'Município', 'Código do Município', 'Rede',
                 'Total de Professores', 'Com Especialização', 'Com Mestrado', 'Com Doutorado']

# Parâmetros atualizados
lista_df = []

for arquivo in arquivos:
    ano = ''.join(filter(str.isdigit, arquivo))[:4]
    try:
        df = pd.read_excel(arquivo, sheet_name="2.4", skiprows=10, engine="openpyxl")
        df["Ano"] = int(ano)
        lista_df.append(df)
        print(f"✅ {arquivo} processado com skiprows=10.")
    except Exception as e:
        print(f"❌ Erro ao processar {arquivo}: {e}")





Arquivos encontrados:

Sinopse_Estatistica_da_Educa‡ֶo_Basica_2010.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2011.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2012.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2013.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2014.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2015.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2016.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2017.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2018.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2019.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2020.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2021.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2022.xlsx
Sinopse_Estatistica_da_Educa‡ֶo_Basica_2023.xlsx
✅ Sinopse_Estatistica_da_Educa‡ֶo_Basica_2010.xlsx processado com skiprows=10.
✅ Sinopse_Estatistica_da_Educa‡ֶo_Basica_2011.xlsx processado com skiprows=10.
✅ Sinopse_Estatistica_da_Educa‡ֶo_Basica_2012.xlsx processado com skiprows=10.
✅ Sinopse_Estatistica_da_Educa‡ֶo_Basica_2013.xlsx pro

**Consolidação e visualização inicial dos dados**

In [11]:
# Consolidar todos os anos processados
df_consolidado = pd.concat(lista_df, ignore_index=True)

# Exibir as primeiras linhas
df_consolidado.head()


Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Ano
0,,,,,,,,,,,,,,2010
1,Brasil,,,,1999518.0,12536.0,610612.0,1376370.0,1296186.0,80184.0,467019.0,25725.0,3721.0,2010
2,Norte,,,,169738.0,1791.0,72991.0,94956.0,91137.0,3819.0,23285.0,1136.0,179.0,2010
3,Norte,Rondônia,,,16041.0,103.0,4170.0,11768.0,11486.0,282.0,4645.0,105.0,17.0,2010
4,Norte,Rondônia,Alta Floresta D'Oeste,1100015.0,329.0,14.0,112.0,203.0,201.0,2.0,91.0,1.0,0.0,2010


Quantidades e nomes das colunas

In [15]:
print("Quantidade de colunas:", df_consolidado_filtrado.shape[1])
print("\nNomes das colunas detectadas:\n")
print(df_consolidado_filtrado.columns.tolist())

Quantidade de colunas: 14

Nomes das colunas detectadas:

['Unnamed: 0', 'Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5', 'Unnamed: 6', 'Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9', 'Unnamed: 10', 'Unnamed: 11', 'Unnamed: 12', 'Ano']


Padronizar os nomes das colunas

In [17]:
df_consolidado_filtrado.columns = [
    "Região", "UF", "Município", "Código do Município",
    "Total de Professores", "Com Especialização", "Com Mestrado", "Com Doutorado",
    "Extra1", "Extra2", "Extra3", "Extra4", "Extra5", "Ano"
]


**filtre só as colunas que interessam**

In [18]:
colunas_finais = [
    "Região", "UF", "Município", "Código do Município",
    "Total de Professores", "Com Especialização", "Com Mestrado", "Com Doutorado", "Ano"
]
df_final = df_consolidado_filtrado[colunas_finais]
df_final.head()


Unnamed: 0,Região,UF,Município,Código do Município,Total de Professores,Com Especialização,Com Mestrado,Com Doutorado,Ano
1,Brasil,,,,1999518,12536.0,610612.0,1376370.0,2010
2,Norte,,,,169738,1791.0,72991.0,94956.0,2010
3,Norte,Rondônia,,,16041,103.0,4170.0,11768.0,2010
4,Norte,Rondônia,Alta Floresta D'Oeste,1100015.0,329,14.0,112.0,203.0,2010
5,Norte,Rondônia,Alto Alegre dos Parecis,1100379.0,115,5.0,46.0,64.0,2010


**Exportar dados**

In [19]:

# Exportar o DataFrame final para Excel
df_final.to_excel("formacao_professores_2010_2023.xlsx", index=False)
print("Arquivo Excel gerado com sucesso!")


Arquivo Excel gerado com sucesso!
