In [1]:
import pandas as pd

# Configuração para exibir todas as colunas no console (útil para análise)
pd.set_option('display.max_columns', None)

# Caminho do arquivo (ajuste conforme necessário)
input_file = '/content/MICRODADOS_ED_SUP_IES_2023.CSV'

# Leitura do arquivo com delimitador correto (;)
df = pd.read_csv(input_file, sep=';', encoding='latin-1', low_memory=False)

# Seleção de colunas relevantes adaptadas à estrutura real do CSV:
colunas_relevantes = [
    'SG_UF_IES',            # Sigla da Unidade Federativa
    'NO_UF_IES',            # Nome completo da UF
    'QT_DOC_EX_GRAD',       # Docentes com graduação
    'QT_DOC_EX_ESP',        # Docentes com especialização
    'QT_DOC_EX_MEST',       # Docentes com mestrado
    'QT_DOC_EX_DOUT',       # Docentes com doutorado
    'QT_DOC_EX_30_34',      # Faixa etária 30 a 34 (proxy para experiência)
    'QT_DOC_EX_35_39',      # Faixa etária 35 a 39
    'QT_DOC_EX_40_44',      # Faixa etária 40 a 44
    'QT_DOC_EX_45_49',      # Faixa etária 45 a 49
    'QT_DOC_EX_50_54',      # Faixa etária 50 a 54
    'QT_DOC_EX_55_59',      # Faixa etária 55 a 59
    'QT_DOC_EX_60_MAIS'     # Faixa etária 60 ou mais
]

# Verificar colunas presentes
colunas_presentes = [col for col in colunas_relevantes if col in df.columns]
if len(colunas_presentes) < len(colunas_relevantes):
    missing = [col for col in colunas_relevantes if col not in df.columns]
    print(f'Atenção: Colunas ausentes: {missing}')

# Filtrar e limpar dados: selecionar somente as colunas presentes,
# removendo registros duplicados e linhas com valores ausentes.
df_filtrado = df[colunas_presentes].copy()
df_limpo = df_filtrado.dropna().drop_duplicates()

# Agrupar dados por Unidade Federativa ('SG_UF_IES') para análise consolidada,
# somando os valores numéricos correspondentes.
df_agrupado = df_limpo.groupby('SG_UF_IES').agg({
    'QT_DOC_EX_GRAD': 'sum',
    'QT_DOC_EX_ESP': 'sum',
    'QT_DOC_EX_MEST': 'sum',
    'QT_DOC_EX_DOUT': 'sum',
    'QT_DOC_EX_30_34': 'sum',
    'QT_DOC_EX_35_39': 'sum',
    'QT_DOC_EX_40_44': 'sum',
    'QT_DOC_EX_45_49': 'sum',
    'QT_DOC_EX_50_54': 'sum',
    'QT_DOC_EX_55_59': 'sum',
    'QT_DOC_EX_60_MAIS': 'sum'
}).reset_index()

# Renomeando as colunas para nomes mais intuitivos e utilizáveis:
df_agrupado = df_agrupado.rename(columns={
    'SG_UF_IES': 'UF',
    'QT_DOC_EX_GRAD': 'Docentes_Graduacao',
    'QT_DOC_EX_ESP': 'Docentes_Especializacao',
    'QT_DOC_EX_MEST': 'Docentes_Mestrado',
    'QT_DOC_EX_DOUT': 'Docentes_Doutorado',
    'QT_DOC_EX_30_34': 'Docentes_Idade_30_34',
    'QT_DOC_EX_35_39': 'Docentes_Idade_35_39',
    'QT_DOC_EX_40_44': 'Docentes_Idade_40_44',
    'QT_DOC_EX_45_49': 'Docentes_Idade_45_49',
    'QT_DOC_EX_50_54': 'Docentes_Idade_50_54',
    'QT_DOC_EX_55_59': 'Docentes_Idade_55_59',
    'QT_DOC_EX_60_MAIS': 'Docentes_Idade_60_mais'
})

# Salvar o resultado em um novo arquivo CSV
output_file = 'microdados_agrupados_por_uf.csv'
df_agrupado.to_csv(output_file, index=False)

print(f'Arquivo processado salvo como {output_file}\n')
print("Visualização dos dados agrupados:")
print(df_agrupado.head())


Arquivo processado salvo como microdados_agrupados_por_uf.csv

Visualização dos dados agrupados:
   UF  Docentes_Graduacao  Docentes_Especializacao  Docentes_Mestrado  \
0  AC                  49                      383                442   
1  AL                  21                      779               1710   
2  AM                 100                     1013               2231   
3  AP                  14                      407                584   
4  BA                 254                     2963               6610   

   Docentes_Doutorado  Docentes_Idade_30_34  Docentes_Idade_35_39  \
0                 628                   183                   269   
1                2218                   560                   902   
2                2310                   648                   935   
3                 611                   240                   346   
4                9894                  2178                  3484   

   Docentes_Idade_40_44  Docentes_Idade_45_49  Do