# **Pré-processamento**

## Importação das Bibliotecas

In [30]:
import pandas as pd
from utils.save_dataframe import save_dataframe
from utils.show_unique_values import show_unique_values
from utils.variables import PROCESSED_DATA_PATH

## Carregamento dos Dados

Carregamos os dados selecionados.

In [31]:
df = pd.read_csv(PROCESSED_DATA_PATH / "df_selected.csv")
df.head()

Unnamed: 0,idade,sexo,estado,presença,cargo,especialidade,algoritmos_e_estruturas_de_dados,analise_combinatoria,analise_de_algoritmos,arquitetura_e_organizacao_de_computadores,...,redes_de_computadores,sistemas_distribuidos,sistemas_operacionais,teoria_dos_grafos,tecnicas_de_programacao,algebra_linear,ano,matematica,fund_computacao,tec_computacao
0,1989-11-29,masculino,ce,s,mestrado/doutorado,teoria da computação,1.0,1.0,1.0,1.0,...,1.0,2.0,2.0,3.0,3.0,2.0,2016,14.0,21.0,10.0
1,1995-02-23,masculino,rs,s,mestrado/doutorado,metodologias e técnicas de computação,3.0,2.0,2.0,1.0,...,2.0,3.0,2.0,3.0,3.0,3.0,2016,16.0,22.0,12.0
2,1991-12-13,masculino,sp,s,mestrado/doutorado,engenharia de software,1.0,0.0,2.0,1.0,...,1.0,2.0,2.0,2.0,3.0,1.0,2016,4.0,16.0,8.0
3,1986-09-29,masculino,pa,s,mestrado/doutorado,sistemas de informação,2.0,0.0,1.0,0.0,...,2.0,1.0,0.0,2.0,3.0,1.0,2016,4.0,13.0,7.0
4,1997-12-26,feminino,am,s,mestrado/doutorado,computação gráfica,2.0,1.0,1.0,0.0,...,1.0,3.0,2.0,2.0,3.0,2.0,2016,6.0,15.0,11.0


## Limpeza dos Dados

Visualizamos os valores únicos de cada coluna do `DataFrame` para buscar dados errôneos ou ausentes.

In [32]:
show_unique_values(df)

idade: ['1989-11-29' '1995-02-23' '1991-12-13' ... '2001-10-07' '1995-10-31'
 '2000-07-03']
sexo: ['masculino' 'feminino']
estado: ['ce' 'rs' 'sp' 'pa' 'am' 'ms' 'pb' 'go' 'rn' 'pr' 'mg' 'se' 'pe' 'es'
 'rj' 'mt' 'al' 'sc' 'ma' 'pi' 'ba' 'df' 'to' 'ap' 'ro' 'ac' 'rr']
presença: ['s']
cargo: ['mestrado/doutorado' 'autoavaliação']
especialidade: ['teoria da computação' 'metodologias e técnicas de computação'
 'engenharia de software' 'sistemas de informação' 'computação gráfica'
 'inteligência artificial' 'informática na educação'
 'arquitetura de computadores' 'visão computacional'
 'redes de computadores' 'sistemas de computação' 'banco de dados'
 'interação humano-computador' 'computação aplicada'
 'modelagem computacional' 'aplicações computacionais'
 'processamento paralelo e distribuído' 'sistemas inteligentes'
 'bioinformática' 'Demais áreas' 'computação visual' 'ciência de dados'
 'sistemas embarcados' 'otimização' 'aprendizado de máquina'
 'linguagens de programação' 'robótica' 

Percebemos que não há valores errôneos mas há alguns valores ausentes nas colunas dos assuntos, então verificamos qual é a natureza do(s) registro(s) em que esses valores aparecem.

In [33]:
df[df[:].isna().any(axis=1)]

Unnamed: 0,idade,sexo,estado,presença,cargo,especialidade,algoritmos_e_estruturas_de_dados,analise_combinatoria,analise_de_algoritmos,arquitetura_e_organizacao_de_computadores,...,redes_de_computadores,sistemas_distribuidos,sistemas_operacionais,teoria_dos_grafos,tecnicas_de_programacao,algebra_linear,ano,matematica,fund_computacao,tec_computacao
11245,1999-08-30,feminino,ce,s,mestrado/doutorado,redes de computadores,,,,,...,,,,,,,2022,0.0,0.0,0.0


Como é apenas um registro, simplesmente removemos ele do `DataFrame`. 

In [34]:
df = df.drop(11245)

Visualizamos os valores únicos de cada coluna do `DataFrame` novamente para confirmar a remoção dos valores ausentes.

In [35]:
show_unique_values(df)

idade: ['1989-11-29' '1995-02-23' '1991-12-13' ... '2001-10-07' '1995-10-31'
 '2000-07-03']
sexo: ['masculino' 'feminino']
estado: ['ce' 'rs' 'sp' 'pa' 'am' 'ms' 'pb' 'go' 'rn' 'pr' 'mg' 'se' 'pe' 'es'
 'rj' 'mt' 'al' 'sc' 'ma' 'pi' 'ba' 'df' 'to' 'ap' 'ro' 'ac' 'rr']
presença: ['s']
cargo: ['mestrado/doutorado' 'autoavaliação']
especialidade: ['teoria da computação' 'metodologias e técnicas de computação'
 'engenharia de software' 'sistemas de informação' 'computação gráfica'
 'inteligência artificial' 'informática na educação'
 'arquitetura de computadores' 'visão computacional'
 'redes de computadores' 'sistemas de computação' 'banco de dados'
 'interação humano-computador' 'computação aplicada'
 'modelagem computacional' 'aplicações computacionais'
 'processamento paralelo e distribuído' 'sistemas inteligentes'
 'bioinformática' 'Demais áreas' 'computação visual' 'ciência de dados'
 'sistemas embarcados' 'otimização' 'aprendizado de máquina'
 'linguagens de programação' 'robótica' 

Verificamos se há registros duplicados no `DataFrame`.

In [36]:
df.duplicated().sum()

np.int64(0)

Como não há registros duplicados, nenhum tratamento precisa ser realizado.

## Agrupamento das Especialidades

Para realizar o agrupamento das especialidades em linhas de pesquisa verificamos quais especialidades estão presentes nos dados.

In [37]:
df["especialidade"].unique().tolist()

['teoria da computação',
 'metodologias e técnicas de computação',
 'engenharia de software',
 'sistemas de informação',
 'computação gráfica',
 'inteligência artificial',
 'informática na educação',
 'arquitetura de computadores',
 'visão computacional',
 'redes de computadores',
 'sistemas de computação',
 'banco de dados',
 'interação humano-computador',
 'computação aplicada',
 'modelagem computacional',
 'aplicações computacionais',
 'processamento paralelo e distribuído',
 'sistemas inteligentes',
 'bioinformática',
 'Demais áreas',
 'computação visual',
 'ciência de dados',
 'sistemas embarcados',
 'otimização',
 'aprendizado de máquina',
 'linguagens de programação',
 'robótica',
 'tecnologia da informação',
 'sistemas e tecnologias da computação']

- Para a linha de pesquisa **Inteligência Computacional e Ciência de Dados** foram escolhidas especialidades que tenham relação direta com modelagem de sistemas inteligentes que resolvem problemas complexos e busca de conhecimento em bases de dados.
- Para a linha de pesquisa **Sistemas de Computação** foram escolhidas especialidades que possuiam relação direta tanto com a criação de hardware quanto com a de software.
- Para a linha de pesquisa **Engenharia de Software** foram escolhidas especialidades que tenham relação direta com conceitos, métodos e técnicas de desenvolvimento, assim como ferramentas e arquiteturas usadas para a criação de softwares.
- Para a linha de pesquisa **Educação em Computação e Sociedade** foi escolhida apenas a especialidade **Informática na Educação** por ser a única que tem relação direta com a linha de pesquisa.
- Para a linha de pesquisa **Outras** foram escolhidas aquelas que não se relacionavam diretamente com nenhuma das demais linhas de pesquisa. 

Criamos a função `specialty_to_research` para fazer esse agrupamento de especialidade para linha de pesquisa.

In [38]:
def specialty_to_reasearch(specialty: str) -> str | None:
    inteligencia_computacional = [
        "inteligência artificial",
        "aprendizado de máquina",
        "ciência de dados",
        "bioinformática",
        "computação visual",
        "sistemas inteligentes",
        "visão computacional",
        "otimização",
        "modelagem computacional",
    ]

    sistemas_computacao = [
        "arquitetura de computadores",
        "redes de computadores",
        "sistemas de computação",
        "processamento paralelo e distribuído",
        "sistemas embarcados",
        "robótica",
        "sistemas e tecnologias da computação",
    ]

    engenharia_software = [
        "engenharia de software",
        "banco de dados",
        "linguagens de programação",
        "tecnologia da informação",
        "interação humano-computador",
        "metodologias e técnicas de computação",
        "sistemas de informação",
    ]

    educacao_computacao = ["informática na educação"]

    outras = [
        "Demais áreas",
        "computação gráfica",
        "teoria da computação",
        "aplicações computacionais",
        "computação aplicada",
    ]

    if specialty in inteligencia_computacional:
        return "Inteligência Artificial e Ciência de Dados"
    if specialty in sistemas_computacao:
        return "Sistemas de Computação"
    if specialty in engenharia_software:
        return "Engenharia de Software e Interação"
    if specialty in educacao_computacao:
        return "Educação em Computação e Sociedade"
    if specialty in outras:
        return "Outras"

    return None

Criamos a coluna `area` baseando-se nos valores da coluna de `especialidade` usando a função `specialty_to_research`.

In [39]:
df["linha_de_pesquisa"] = df["especialidade"].apply(specialty_to_reasearch)
df.head()

Unnamed: 0,idade,sexo,estado,presença,cargo,especialidade,algoritmos_e_estruturas_de_dados,analise_combinatoria,analise_de_algoritmos,arquitetura_e_organizacao_de_computadores,...,sistemas_distribuidos,sistemas_operacionais,teoria_dos_grafos,tecnicas_de_programacao,algebra_linear,ano,matematica,fund_computacao,tec_computacao,linha_de_pesquisa
0,1989-11-29,masculino,ce,s,mestrado/doutorado,teoria da computação,1.0,1.0,1.0,1.0,...,2.0,2.0,3.0,3.0,2.0,2016,14.0,21.0,10.0,Outras
1,1995-02-23,masculino,rs,s,mestrado/doutorado,metodologias e técnicas de computação,3.0,2.0,2.0,1.0,...,3.0,2.0,3.0,3.0,3.0,2016,16.0,22.0,12.0,Engenharia de Software e Interação
2,1991-12-13,masculino,sp,s,mestrado/doutorado,engenharia de software,1.0,0.0,2.0,1.0,...,2.0,2.0,2.0,3.0,1.0,2016,4.0,16.0,8.0,Engenharia de Software e Interação
3,1986-09-29,masculino,pa,s,mestrado/doutorado,sistemas de informação,2.0,0.0,1.0,0.0,...,1.0,0.0,2.0,3.0,1.0,2016,4.0,13.0,7.0,Engenharia de Software e Interação
4,1997-12-26,feminino,am,s,mestrado/doutorado,computação gráfica,2.0,1.0,1.0,0.0,...,3.0,2.0,2.0,3.0,2.0,2016,6.0,15.0,11.0,Outras


Visualizamos os valores únicos da coluna `area` para verificar se estão corretos.

In [40]:
df["linha_de_pesquisa"].unique()

array(['Outras', 'Engenharia de Software e Interação',
       'Inteligência Artificial e Ciência de Dados',
       'Educação em Computação e Sociedade', 'Sistemas de Computação'],
      dtype=object)

## Seleção dos Atributos para Classificação

Selecionamos apenas as colunas `matematica`, `fund_computacao` e `tec_computacao` para realizar a classificação nas linhas de pesquisa pois elas representam o número de acertos de cada pessoa em cada campo da prova, tendo assim uma medida de avaliação objetiva e direta para a classificação.

In [41]:
df_classification_attributes = df[["matematica", "fund_computacao", "tec_computacao", "linha_de_pesquisa"]]
df_classification_attributes.head()

Unnamed: 0,matematica,fund_computacao,tec_computacao,linha_de_pesquisa
0,14.0,21.0,10.0,Outras
1,16.0,22.0,12.0,Engenharia de Software e Interação
2,4.0,16.0,8.0,Engenharia de Software e Interação
3,4.0,13.0,7.0,Engenharia de Software e Interação
4,6.0,15.0,11.0,Outras


## Verificação de Outliers

In [42]:
def show_outliers(df: pd.DataFrame, column: str) -> None:
    q1 = df[column].quantile(0.25)
    q3 = df[column].quantile(0.75)
    iqr = q3 - q1

    outliers = df[(df[column] < q1 - 1.5 * iqr) | (df[column] > q3 + 1.5 * iqr)]
    print(f"{column}: {outliers[column].unique()}")

In [43]:
columns = ["matematica", "fund_computacao", "tec_computacao"]

for column in columns:
    show_outliers(df_classification_attributes, column)

matematica: [19. 17. 18. 20.]
fund_computacao: [27. 28.  0.]
tec_computacao: [17. 18.]


## Persistência dos Dados

Usamos a função `save_dataframe` para salvar os dados pré-processados.

In [44]:
save_dataframe(df_classification_attributes, "df_preprocessed")