<a href="https://colab.research.google.com/github/isabelammf/cnu-helper/blob/main/CNU.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd

### Leitura e tratamento do df_codigo

In [None]:
df_codigo = (
    pd.read_excel('/content/codigo.xlsx')
    .drop(columns=['PCD','PN','PQ','PI','TOTAL'])
    .rename(columns={
        'CÓD':'codigo',
        'CARGO':'cargo',
        'ESPECIALIDADE':'especialidade',
        'AC':'ac'
      })
)
display(df_codigo.head())

Unnamed: 0,codigo,cargo,especialidade,ac
0,B3-01-A,Especialista em Geologia e Geofísica do Petról...,Geologia e Geofísica,10
1,B3-02-A,Pesquisador,Hipersônica Experimental,3
2,B3-02-B,Pesquisador,Hipersônica Computacional,3
3,B3-02-C,Pesquisador,Sensoreamento Remoto,1
4,B3-02-D,Pesquisador,Computação Aplicada,3


### Leitura e tratamento do df_vagas

In [None]:
df_vagas = (
    pd.read_excel('/content/local.xlsx')
    .drop(columns=['Bloco Temático'])
    .rename(columns={
        'Órgão':'orgao',
        'Cargo':'cargo',
        'Especialidade':'especialidade',
        'Nº de Vagas':'vagas',
        'Localidade':'local'
      })
)
display(df_vagas.head())

Unnamed: 0,orgao,cargo,especialidade,vagas,local
0,Ministério da Saúde (MS),Analista de Gestão em Pesquisa e Investigação ...,Tecnologia da Informação,3,Belém (PA) ou Ananindeua (PA)
1,Ministério da Saúde (MS),Analista em Ciência e Tecnologia Classe A-I,Ciência de Dados,1,Rio de Janeiro - RJ
2,Instituto Brasileiro de Museus (IBRAM),Analista I,Tecnologia da Informação,3,Brasília - DF
3,Comando da Aeronáutica (C.AER) - Ministério da...,Pesquisador,Hipersônica Experimental,4,São José dos Campos - SP
4,Comando da Aeronáutica (C.AER) - Ministério da...,Pesquisador,Hipersônica Computacional,4,São José dos Campos - SP


### Filtragem por especialidades válidas

In [None]:
especialidades_validas = [
    'Computação Aplicada', 'Tecnologia da Informação', 'Sistemas e Redes', 'Geral',
    'Tecnologia da Informação II', 'Ciência de Dados', 'Computação',
    'Análise de Sistemas', 'Ciência de Dados e Inovação', 'Tecnologia da Informação I'
]

df_vagas = df_vagas[df_vagas['especialidade'].isin(especialidades_validas)].copy()
df_codigo_filtrado = df_codigo[df_codigo['especialidade'].isin(especialidades_validas)].copy()

### Organização por localidade

In [None]:
df_df = df_vagas[df_vagas['local'].str.contains('DF', na=False)].sort_values(by='vagas', ascending=False) # Filtra as linhas onde 'local' contém 'DF' e coloca em ordem decrescente por 'vagas'
df_outros = df_vagas[~df_vagas['local'].str.contains('DF', na=False)].sort_values(by='vagas', ascending=False) # Filtra as linhas onde 'local' não contém 'DF' e coloca em ordem decrescente por 'vagas'

# Concatena os dois dataframes, colocando df_df no topo
df_vagas = pd.concat([df_df, df_outros], ignore_index=True)

display(df_vagas)

Unnamed: 0,orgao,cargo,especialidade,vagas,local
0,Instituto Nacional de Tecnologia da Informação...,Tecnologista,Geral,27,Brasília - DF
1,Instituto Nacional do Seguro Social (INSS),Analista do Seguro Social,Tecnologia da Informação,19,Administração Central - DF
2,Instituto Nacional de Tecnologia da Informação...,Analista de Ciência e Tecnologia,Geral,8,Brasília - DF
3,Instituto Nacional de Tecnologia da Informação...,Pesquisador,Geral,5,Brasília - DF
4,Escola Nacional de Administração Pública (ENAP),Técnico em Assuntos Educacionais,Ciência de Dados e Inovação,5,Brasília - DF
5,Instituto Brasileiro de Museus (IBRAM),Analista I,Tecnologia da Informação,3,Brasília - DF
6,Comando do Exército (C.EX) - Ministério da Defesa,Tecnologista,Computação,10,Rio de Janeiro - RJ
7,Comando da Marinha (CM) - Ministério da Defesa,Tecnologista,Tecnologia da Informação II,9,Rio de Janeiro - RJ
8,Comando da Aeronáutica (C.AER) - Ministério da...,Pesquisador,Computação Aplicada,4,São José dos Campos - SP
9,Ministério da Saúde (MS),Analista de Gestão em Pesquisa e Investigação ...,Tecnologia da Informação,3,Belém (PA) ou Ananindeua (PA)


### Merge com df_codigo para adicionar coluna 'codigo'

In [None]:
df_vagas = pd.merge( # Fazendo merge (junção) entre df_vagas e df_codigo para adicionar a coluna 'codigo'
    df_vagas,
    df_codigo_filtrado[['especialidade', 'cargo', 'codigo']], # Seleciona do df_codigo apenas as colunas necessárias: 'especialidade', 'cargo' e 'codigo'
    on=['especialidade', 'cargo'], # A junção é feita com base nas colunas 'especialidade' e 'cargo' que existem em ambos os DataFrames
    how='left' # O parâmetro how='left' garante que todas as linhas de df_vagas serão mantidas,
) # mesmo que não haja correspondência no df_codigo (neste caso, 'codigo' virá como NaN)

display(df_vagas)

Unnamed: 0,orgao,cargo,especialidade,vagas,local,codigo
0,Instituto Nacional de Tecnologia da Informação...,Tecnologista,Geral,27,Brasília - DF,B3-07-C
1,Instituto Nacional do Seguro Social (INSS),Analista do Seguro Social,Tecnologia da Informação,19,Administração Central - DF,B3-08-A
2,Instituto Nacional de Tecnologia da Informação...,Analista de Ciência e Tecnologia,Geral,8,Brasília - DF,
3,Instituto Nacional de Tecnologia da Informação...,Pesquisador,Geral,5,Brasília - DF,B3-07-B
4,Escola Nacional de Administração Pública (ENAP),Técnico em Assuntos Educacionais,Ciência de Dados e Inovação,5,Brasília - DF,B3-05-A
5,Instituto Brasileiro de Museus (IBRAM),Analista I,Tecnologia da Informação,3,Brasília - DF,B3-10-A
6,Comando do Exército (C.EX) - Ministério da Defesa,Tecnologista,Computação,10,Rio de Janeiro - RJ,B3-04-E
7,Comando da Marinha (CM) - Ministério da Defesa,Tecnologista,Tecnologia da Informação II,9,Rio de Janeiro - RJ,B3-03-N
8,Comando da Aeronáutica (C.AER) - Ministério da...,Pesquisador,Computação Aplicada,4,São José dos Campos - SP,B3-02-D
9,Ministério da Saúde (MS),Analista de Gestão em Pesquisa e Investigação ...,Tecnologia da Informação,3,Belém (PA) ou Ananindeua (PA),


### Resolvendo os vazios

In [None]:
# 1. Cria a tabela de códigos concatenados por especialidade
codigos_por_especialidade = (
    df_codigo_filtrado[['especialidade', 'codigo']]
    .groupby('especialidade')['codigo']
    .agg(lambda x: ', '.join(sorted(set(x))))
    .reset_index()
    .rename(columns={'codigo': 'codigo_especialidade'}).copy()
)

# Merge codigos_por_especialidade into df_vagas (cria a coluna 'codigo_especialidade')
df_vagas = pd.merge(
    df_vagas,
    codigos_por_especialidade,
    on='especialidade',
    how='left'
)

# Preenche a coluna 'codigo' apenas onde ela está NaN, usando 'codigo_especialidade'
df_vagas['codigo'] = df_vagas['codigo'].fillna(df_vagas['codigo_especialidade'])

# Drop the temporary 'codigo_especialidade' column
df_vagas = df_vagas.drop(columns=['codigo_especialidade'])

# Exibe o resultado final com a coluna 'codigo' preenchida
display(df_vagas)

Unnamed: 0,orgao,cargo,especialidade,vagas,local,codigo
0,Instituto Nacional de Tecnologia da Informação...,Tecnologista,Geral,27,Brasília - DF,B3-07-C
1,Instituto Nacional do Seguro Social (INSS),Analista do Seguro Social,Tecnologia da Informação,19,Administração Central - DF,B3-08-A
2,Instituto Nacional de Tecnologia da Informação...,Analista de Ciência e Tecnologia,Geral,8,Brasília - DF,"B3-07-A, B3-07-B, B3-07-C"
3,Instituto Nacional de Tecnologia da Informação...,Pesquisador,Geral,5,Brasília - DF,B3-07-B
4,Escola Nacional de Administração Pública (ENAP),Técnico em Assuntos Educacionais,Ciência de Dados e Inovação,5,Brasília - DF,B3-05-A
5,Instituto Brasileiro de Museus (IBRAM),Analista I,Tecnologia da Informação,3,Brasília - DF,B3-10-A
6,Comando do Exército (C.EX) - Ministério da Defesa,Tecnologista,Computação,10,Rio de Janeiro - RJ,B3-04-E
7,Comando da Marinha (CM) - Ministério da Defesa,Tecnologista,Tecnologia da Informação II,9,Rio de Janeiro - RJ,B3-03-N
8,Comando da Aeronáutica (C.AER) - Ministério da...,Pesquisador,Computação Aplicada,4,São José dos Campos - SP,B3-02-D
9,Ministério da Saúde (MS),Analista de Gestão em Pesquisa e Investigação ...,Tecnologia da Informação,3,Belém (PA) ou Ananindeua (PA),"B3-02-N, B3-02-R, B3-06-A, B3-06-C, B3-06-F, B..."


### Resultado em Excel

In [None]:
df_vagas.to_excel('vagas_com_codigo.xlsx', index=False)