# Working with the new POSCOMP data (2022-2023)

## Import libraries

In [1]:
%run ../services/imports.py
%run ../services/visualization.py

In [2]:
dataset_2022 = pd.read_excel('../dados/raw/POSCOMP_2022.xlsx')
dataset_2023 = pd.read_excel('../dados/raw/POSCOMP_2023.xlsx')

In [3]:
dataset_2022.columns = dataset_2022.columns.str.lower()
dataset_2023.columns = dataset_2023.columns.str.lower()

In [4]:
dataset_2022.columns = [column.replace(" ", "_") for column in (dataset_2022.columns)]
dataset_2022.columns = [column.replace(",", "") for column in (dataset_2022.columns)]

In [5]:
dataset_2023.columns = [column.replace(" ", "_") for column in (dataset_2023.columns)]
dataset_2023.columns = [column.replace(",", "") for column in (dataset_2023.columns)]

In [6]:
dataset_2023

Unnamed: 0,sexo,cidade_candidato,estado_candidato,data_de_nascimento,cód._cargo,cargo,nec_esp,cód._especialidade,especialidade,presente_dia1,nota_matemática,nota_fundamentos_da_computação,nota_tecnologia_de_computadores,nota_total_to
0,Masculino,Campo Largo,PR,1998-05-13,1,Mestrado/Doutorado,N,46252.0,Inteligencia Computacional,S,14.0,19.0,8.0,41.0
1,Masculino,Campo Largo,PR,1998-05-13,1,Mestrado/Doutorado,N,46253.0,Redes e Sistemas Distribuidos,S,14.0,19.0,8.0,41.0
2,Masculino,Campo Largo,PR,1998-05-13,1,Mestrado/Doutorado,N,46254.0,Tecnologia da Informacao,S,14.0,19.0,8.0,41.0
3,Masculino,Campo Largo,PR,1998-05-13,1,Mestrado/Doutorado,N,45768.0,"Algoritimos, Otimizacao Combinatoria, e Teoria...",S,14.0,19.0,8.0,41.0
4,Masculino,Campo Largo,PR,1998-05-13,1,Mestrado/Doutorado,N,45765.0,Seguranca de Dados e Criptografia,S,14.0,19.0,8.0,41.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3876,Feminino,cusco,OU,1995-06-07,1,Mestrado/Doutorado,N,45606.0,INTELIGENCIA COMPUTACIONAL,S,13.0,9.0,3.0,25.0
3877,Feminino,cusco,OU,1995-06-07,1,Mestrado/Doutorado,N,45910.0,Computacao Visual e Inteligencia Artificial,S,13.0,9.0,3.0,25.0
3878,Feminino,cusco,OU,1995-06-07,1,Mestrado/Doutorado,N,45908.0,eScience,S,13.0,9.0,3.0,25.0
3879,Feminino,cusco,OU,1995-06-07,1,Mestrado/Doutorado,N,46311.0,Sistemas de computacao,S,13.0,9.0,3.0,25.0


In [7]:
dataset_2022.drop(columns=['cód._cargo', 'cidade_local_prova','local_da_prova'], inplace=True)
dataset_2023.drop(columns=['cód._cargo', 'cidade_candidato', 'cód._especialidade'], inplace=True)

In [8]:
dataset_2022 = dataset_2022.applymap(lambda x: x.lower() if isinstance(x, str) else x)
dataset_2023 = dataset_2023.applymap(lambda x: x.lower() if isinstance(x, str) else x)

In [9]:
def process_dataframe(df, column_to_drop):
    """
    Processa o DataFrame separando uma coluna específica e removendo duplicatas.

    Parâmetros:
    df (DataFrame): O DataFrame original.
    column_to_drop (str): O nome da coluna a ser separada e removida.

    Retorna:
    df_x (DataFrame): DataFrame contendo apenas a coluna separada.
    df_y (DataFrame): DataFrame sem a coluna separada, com duplicatas removidas e índice adicionado.
    """
    df_x = df[[column_to_drop]].copy()
    df_y = df.drop(column_to_drop, axis=1).drop_duplicates().reset_index(drop=True)
    df_x['index_col'] = df_x.index
    df_y['index_col'] = df_y.index
    
    return df_x, df_y

# Exemplo de uso:
# jean_x, jean_y = process_dataframe(jean, 'especialidade')


In [10]:
df_x, df_y = process_dataframe(dataset_2022, 'especialidade')
dataframe_complete_2022 = df_y.merge(df_x,
                                  how='inner',
                                  left_on=['index_col'],
                                  right_on=['index_col'])
dataframe_complete_2022

Unnamed: 0,sexo,estado,necessidades_especiais,data_de_nascimento,cargo,presente_dia1,nota_álgebra_linear,nota_análise_combinatória,nota_calculo_diferencial_e_integral,nota_geometria_analítica,...,nota_compiladores,nota_computação_gráfica,nota_engenharia_de_software,nota_inteligência_artificial,nota_processamento_de_imagens,nota_redes_de_computadores,nota_sistemas_distribuídos,nota_total_to,index_col,especialidade
0,masculino,ce,n,1995-09-03,mestrado/doutorado,s,1.0,0.0,2.0,1.0,...,1.0,0.0,0.0,1.0,2.0,0.0,2.0,27.0,0,computacao visual e inteligencia artificial
1,masculino,sp,n,1998-07-21,mestrado/doutorado,s,1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,2.0,1.0,1.0,17.0,1,"arquitetura de computadores, compiladores e de..."
2,feminino,pa,n,1996-07-24,mestrado/doutorado,n,,,,,...,,,,,,,,,2,teoria da computacao
3,masculino,sp,n,1982-02-25,mestrado/doutorado,s,0.0,1.0,1.0,1.0,...,0.0,0.0,0.0,1.0,2.0,1.0,1.0,20.0,3,ciencia computacional
4,masculino,rs,n,1983-10-09,mestrado/doutorado,n,,,,,...,,,,,,,,,4,visao computacional
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
531,masculino,ma,n,1998-06-12,mestrado/doutorado,s,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,2.0,1.0,1.0,2.0,16.0,531,"logica, inteligencia artificial e metodos formais"
532,feminino,pr,n,1989-04-17,autoavaliação,s,1.0,0.0,0.0,0.0,...,1.0,0.0,0.0,2.0,1.0,1.0,0.0,19.0,532,aprendizado de maquina
533,masculino,rj,n,2000-07-03,mestrado/doutorado,s,1.0,1.0,0.0,1.0,...,1.0,0.0,0.0,1.0,1.0,1.0,2.0,26.0,533,"algoritimos, otimizacao combinatoria, e teoria..."
534,masculino,sp,n,1990-01-25,mestrado/doutorado,s,3.0,2.0,1.0,1.0,...,2.0,1.0,0.0,1.0,2.0,2.0,2.0,32.0,534,linguagens de programacao


In [11]:
df_x, df_y = process_dataframe(dataset_2023, 'especialidade')
dataframe_complete_2023 = df_y.merge(df_x,
                                  how='inner',
                                  left_on=['index_col'],
                                  right_on=['index_col'])
dataframe_complete_2023

Unnamed: 0,sexo,estado_candidato,data_de_nascimento,cargo,nec_esp,presente_dia1,nota_matemática,nota_fundamentos_da_computação,nota_tecnologia_de_computadores,nota_total_to,index_col,especialidade
0,masculino,pr,1998-05-13,mestrado/doutorado,n,s,14.0,19.0,8.0,41.0,0,inteligencia computacional
1,masculino,ba,1984-07-29,mestrado/doutorado,n,s,15.0,19.0,12.0,46.0,1,redes e sistemas distribuidos
2,masculino,mg,1993-02-03,mestrado/doutorado,n,s,20.0,24.0,11.0,55.0,2,tecnologia da informacao
3,masculino,sp,1998-02-13,mestrado/doutorado,n,s,14.0,11.0,6.0,31.0,3,"algoritimos, otimizacao combinatoria, e teoria..."
4,masculino,rj,1992-11-16,mestrado/doutorado,n,n,,,,,4,seguranca de dados e criptografia
...,...,...,...,...,...,...,...,...,...,...,...,...
756,masculino,sp,1996-10-31,mestrado/doutorado,n,n,,,,,756,gerencia de projetos de desenvolvimento de sof...
757,masculino,mg,1998-08-06,mestrado/doutorado,n,s,14.0,17.0,10.0,41.0,757,modelagem de dados
758,masculino,sp,1997-10-17,mestrado/doutorado,n,s,13.0,22.0,7.0,42.0,758,inteligencia de sistemas
759,masculino,rs,1995-03-20,mestrado/doutorado,n,s,11.0,17.0,9.0,37.0,759,gestao e desenvolvimento de sistemas


In [12]:
df.rename(columns=lambda x: x.replace('nota_', ''), inplace=True)

In [13]:
# desired_columns = list(dataset_2022.columns)
# desired_columns.remove("especialidade")
# desired_columns

In [14]:
# # Assuming dataset_2022 is your DataFrame with 60 columns and "especialidade" column
# # Create a list to store individual DataFrames
# dfs = []

# # Group by all columns except "especialidade" and iterate over groups
# for _, group in dataset_2022.groupby(list(dataset_2022.columns.difference(['especialidade']))):
#     # Get unique values of "especialidade" for each group
#     especialidades = group['especialidade'].unique()
    
#     # Create a separate DataFrame for each unique "especialidade" value
#     for especialidade in especialidades:
#         # Filter rows based on "especialidade" value
#         filtered_group = group[group['especialidade'] == especialidade].drop(columns=['especialidade'])
        
#         # Append the filtered DataFrame to the list
#         dfs.append(filtered_group)

# # Displaying the first few rows of each separate DataFrame
# for i, df_individual in enumerate(dfs):
#     print(f"DataFrame {i+1}:")
#     print(df_individual.head())
#     print()


In [15]:
# students = []

# for i, row in dataset_2022_dupli_present.iterrows():
#     for column in list(dataset_2022.columns):
#         parts = []
#         if column != "especialidade":
#             if dataset_2022.dtypes[column] == "object":
#                 part = f"({column} == '{row[column]}')"
#             else:
#                 part = f"({column} == {row[column]})"
#             print(part)
#             parts.append(part)

#     query = " & ".join(parts)
#     print(query)
                
#     current_df = dataset_2022.query(query)
#     display(current_df)
#     break
#     # students.append(current_df)

# # students[0]