# Tratamento das especialidades

<p>Neste notebook é realizado o tratamento das especialidades que os candidatos escolhem no momento da inscrição. Está escolha é a intenção que o candidato tem para desenvolver a pesquisa durante o mestrado e doutorado.</p>

<p>O Objetivo é mesclar as especialidades que possui a mesma linha de pesquisa. Por exemplo, inteligência artificial e inteligência computacional podemos junta-las para apenas inteligência artificial, pois elas tem o mesmo objetivo de pesquisa. Da mesma forma, engenharia de software e qualidade de software, são especialidades em que possui a mesma especialidade, a qual é engenharia de software.</p>

<p>Então, será aplicada este procedimento porque há varios programas de pós-graduação no Brasil e logo tem várias tipos de especialiades em que cada programa determina para seus estudos e pesquisas.</p>

### Importar as bibliotecas


In [1]:
%run ../services/imports.py
%run ../services/visualization.py

%run ../services/function.py
%run ../services/classifier_evaluation.py

In [2]:
data_poscomp_esp = pd.read_csv("../dados/processed/df_poscomp2016-2022.csv", encoding='utf_8')

## Tratamento da especilidade dos candidatos

In [3]:
# Aqui é removida os candidatos que realizaram apenas a prova para autoavaliação.
data_poscomp_esp = data_poscomp_esp.query("especialidade.notnull()")

In [4]:
data_poscomp_esp['presença'].value_counts()

presença
s    11558
n     2670
Name: count, dtype: int64

In [5]:
# Neste código é removido os participantes que se inscreveram, mas não realizaram a prova,
# ou seja, os que faltaram no dia da aplicação da prova.
data_poscomp_esp = data_poscomp_esp[data_poscomp_esp["presença"] != "n"]

In [6]:
data_poscomp_esp['presença'].value_counts()

presença
s    11558
Name: count, dtype: int64

In [7]:
# import re


# # definir uma expressão regular para encontrar os caracteres '?'
# def substituir_caracteres(df, caractere):
#     regex = r"\b{}\b".format(re.escape(caractere))

#     # substituir os caracteres '?' por um caractere vazio em todas as linhas da coluna 'Texto'
#     df["especialidade"] = df["especialidade"].apply(lambda x: re.sub(regex, "", x))

#     return df

In [8]:
import re
import pandas as pd

# definir uma expressão regular para encontrar os caracteres '?'
def substituir_caracteres(df, caractere):
    regex = r"\b{}\b".format(re.escape(caractere))

    # fazer o split e pegar a primeira posição [0] em todas as linhas da coluna 'especialidade'
    df["especialidade"] = df["especialidade"].apply(lambda x: x.split(caractere)[0] if caractere in x else x)

    return df


In [9]:
# # Exemplo de uso:
# caractere = '?'
# df_modificado = substituir_caracteres(df, caractere)
# print(df_modificado)

In [10]:
def substituir_palavras(df, palavras_a_substituir, palavra_substituta):
    # Unir todas as palavras em um único padrão de regex
    padrao = r"\b(" + "|".join(map(re.escape, palavras_a_substituir)) + r")\b"
    
    # Substituir a string inteira se qualquer uma das palavras for encontrada
    df["especialidade"] = df["especialidade"].apply(lambda x: palavra_substituta if re.search(padrao, x) else x)

    # Retorna o novo DataFrame com as palavras substituídas
    return df

In [11]:
# data_poscomp_esp = substituir_caracteres(data_poscomp_esp, "?")
data_poscomp_esp = substituir_caracteres(data_poscomp_esp, "\\")
data_poscomp_esp = substituir_caracteres(data_poscomp_esp, " \ ")
data_poscomp_esp = substituir_caracteres(data_poscomp_esp, "/")

# # Remover caracteres "\\"
# data_poscomp_esp["especialidade"] = data_poscomp_esp["especialidade"].str.replace(
#     r"\\", ""
# )

# data_poscomp_esp["especialidade"] = data_poscomp_esp["especialidade"].str.replace(
#     r" à", ""
# )
# data_poscomp_esp["especialidade"] = data_poscomp_esp["especialidade"].str.replace(
#     r".", ""
# )
# data_poscomp_esp["especialidade"] = data_poscomp_esp["especialidade"].str.replace(
#     r":", ""
# )
# data_poscomp_esp["especialidade"] = data_poscomp_esp["especialidade"].str.replace(
#     r",", ""
# )
# data_poscomp_esp["especialidade"] = data_poscomp_esp["especialidade"].str.replace(
#     "\xa0", ""
# )

#### Junção das especialidades

In [12]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
'inteligência artificial',
 'inteligência computacional',
 'inteligência artificial e banco de dados',
 'inteligência computacional e processamento gráfico',
 'inteligência aplicada',
 'inteligência e modelagem computacional',
 'inteligência do negócio','inteligencia computacional', 'inteligencia artificial',
    ],
    "inteligência artificial",
)

In [96]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
 'engenharia de software',
 'engenharia de software técnicas de reúso testes e qualidade',
 'engenharia de software banco de dados e informática e educação',
 'engenharia de software e banco de dados',
 'engenharia de software e sistemas de informação',
 'engenharia de software e linguagens de programação',
 'engenharia de software e usabilidade',
 'engenharia de software banco de dados e interação humano computador',
 'engenharia de software e redes de computadores',
 'engenharia de software e sistemas de computação',
 'engenharia de software experimental',
 'engenharia de software gerenciamento de informações e interfaces homem-computador',
 'engenharia de software e linguagens de programac',
 'engenharia de software e sistemas computacionais',
 'engenharia de software e sistemas de informação ',
 'engenharia de software e linguagens de programacão',
 'engenharia de software e sistemas de informacao ',
 'engenharia de software gerenciamento de informacoes e interfaces homem-computador',
 'engenharia de software e linguagens de programacao',
        'engenharia  de software',
        'engenharia de sistemas e informação',
 'engenharia de sistemas web',
 'engenharia de sistema e computação',
 'engenharia de sistema e computacao'
    ],
    'engenharia de software',
)

In [49]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        'sistema de computação', 'sistema de computacao',
        'sistemas de computação', 'sistemas de computação ', 'sistemas de computacao',
        'sistemas complexos, de partículas e teoria de controle',
 'sistemas computacionais',
 'sistemas computacionais complexos',
 'sistemas computacionais embarcados',
 'sistemas complexos adaptativos'
    ],
    "sistemas de computação",
)

In [15]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "sistemas de informação",
        "sistemas de informação e computação",
        "sistemas de informação para a web",
        "sistemas de informação e banco de dados",
        "sistemas de informação e processamento gráfico",
        "sistemas de informações multimídia",
        "sistemas de informação geográfica e geoprocessamento",
        "sistema de informação",
        "modelagem e gerência de sistemas de informação",
        "gerência de desenvolvimento de sistemas de informação",
        "desenvolvimento de sistemas de informação",
        "alinhamento estratégico de tecnologias e sistemas de informação",
        "gestão estratégica de ti",
        "gestão de riscos",
        "gestão do conhecimento",
        "gestão de sistemas complexos",
        "sistemas de gestão empresarial",
        "gestão da informação",
        "gestão de processos de negócios",
    ],
    "sistemas de informação",
)

In [16]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "computação aplicada",
        "computação aplicada a biociências",
        "computação aplicadasistemas de computação",
        "computação aplicadasistemas de informação",
        "computação aplicadainteligência computacional",
        "computação científica e aplicada",
    ],
    "computação aplicada",
)

In [17]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "redes de computadores",
        "redes de computadores e sistemas distribuídos",
        "redes de computadores e telecomunicações",
        "redes de computadores e comunicação de dados",
        "redes de computadores e sistemas distribuidos",
        "redes de computadores  e sistemas embarcados",
        "redes de comunicação e sistemas distribuídos",
        "redes de computadores e de telecomunicações",
        "redes de computadores e sistemas embarcados",
        "redes de comunicação",
        "redes de comunicações",
        "gerenciamento de redes de computadores",
        "redes e sistemas distribuídos",
        "redes de sensores sem fio",
        "gerência de redes",
        "gerenciamento de redes",
        "segurança em redes",
        "engenharia de tráfego em redes ópticas",
        "segurança de redes",
        "redes e sistemas distribuídos",
        "projeto de redes e segurança de dados",
        "sistemas distribuídos e redes de computadores",
        "sistemas distribuídos e  visão computacional",
        "sistemas distribuídos e programação concorrente",
        "sistemas distribuídos e programação concorrente/sistemas embarcados",
        "sistemas distribuídos e computação de alto desempenho",
        "sistemas distribuídos e programação concorrente / sistemas embarcados",
        "sistemas distribuídos/sistemas embarcados",
        "sistemas distribuídos / sistemas embarcados",
        "computação distribuida",
        "computação distribuída",
        "desenvolvimento de software distribuído",
        "técnicas de modelagem de sistemas distribuídos",
        "segurança e sistemas distribuídos",
        "middleware e objetos distribuídos",
        "algoritmos distribuídos",
        "distribuição e redes",
        "aplicações distribuídas",
        "sistemas distribuídos",
        "redes de computadores/sistemas embarcados",
        "redes e sistemas distribuidos",
        "redes móveis",
        "redes de computadores / sistemas embarcados",
        "redes de computadores evoluídos e robóticos",
        "projeto e teste de circuitos digitais",
        "projeto de sistemas e circuitos",
        "internet e web das coisas",
        "desenvolvimento de plataformas para iot (internet das coisas)",
        "serviços internet escaláveis e eficientes",
        "computação em nuvem",
        "cloud computing",
        "sistemas web e multimídia interativos",
        "hipertexto e multimídia",
        "multimídia e processamento digital de sinais",
        "hipermídia e multimídia",
        "computação ubíqua e pervasiva",
        "computação móvel e ubíqua",
    ],
    "redes de computadores",
)

In [18]:
data_poscomp_esp = data_poscomp_esp.replace(
    to_replace={
        "redes": "redes de computadores",
        "desenvolvimento de plataformas para iot (internet das coisas)": "redes de computadores",
    },
    inplace=False,
)

In [19]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "sistemas embarcados e engenharia de software",
        "sistemas embarcados",
        "sistemas embarcados evoluídos e robóticos",
        "sistemas embarcados e sistemas digitais",
        "sistemas embarcados e robótica",
        "sistemas digitais e embarcados",
        "velha-sistemas embarcados",
    ],
    "sistemas embarcados",
)

In [20]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "sistemas inteligentes",
        "sistemas inteligentes e lógica",
        "sistemas integrados e distribuidos",
        "sistemas interativos e de informação",
        "sistemas integrados e distribuídos",
        "sistemas integrados de hardware e software",
        "computação inteligente",
        "teste e confiabilidade de sistemas inteligentes",
        "computação inteligente aplicada a mercados financeiros",
        "computação pervasiva sistemas inteligentes",
        "agentes inteligentes e representacao do conhecimento",
        "aprendizado de máquina e sistemas inteligentes",
        "sistemas inteligentes aplicada a mercados financeiros",
    ],
    "sistemas inteligentes",
)

In [21]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "banco de dados",
        "banco de dados e engenharia de software",
        "banco de dados na web e distribuídos",
        "banco de dados e recuperação de informação",
        "banco de dados e imagens",
        "banco de dados/computação gráfica imagens e visualização",
        "banco de dados e web",
        "banco de dados / computação gráfica imagens e visualização",
        "bancos de dados",
        "bancos de dados e imagens",
        "banco de dados e imagens",
        "web e banco de dados",
        "novos algoritmos e arquiteturas para banco de dados espaciais distribuídos",
        "projeto de banco de dados",
        "modelagem conceitual e banco de dados",
        "gerenciamento de dados e informações",
        "gerência de dados distribuidos web clusters e grids",
        "gerência de dados da web",
        "gerência de dados e aplicações",
        "métodos baseados em dados",
        "inferência em dados complexos",
        "gerenciamento de dados semi-estruturados",
    ],
    "banco de dados",
)

In [22]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "computação visual e inteligente",
        "computação visual",
        "computação visual e sistemas inteligentes",
        "computação visual e inteligência artificial",
    ],
    "computação visual",
)

In [77]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "aprendizado de máquina e mineração de dados",
        "aprendizado de máquina",
        "aprendizado de máquina e processamento de línguas naturais",
        "aprendizado de maquina e interação",
        "aprendizagem de máquina",
        "aprendizagem de máquina e mineração",
        "aprendizagem de maquina e mineracao",
        "aprendizagem de máquina e sistemas inteligentes",
        "aprendizagem de máquina e mineracão",
        "descoberta do conhecimento e aprendizado de máquina",
        "mineração de dados",
        "mineração análise e visualização de dados",
        "mineração de dados e descoberta de conhecimento",
        "mineiração de dados",
        "aprendizado de máquina e mineração",
        "aprendizagem e otimização",
        "aprendizado automático de modelos",
        "aprendizado de máquina e descoberta de conhecimento",
        "aprendizado de máquina e mineracão",
        "reconhecimento de padrões",
        "reconhecimento de padrões e processamento de sinais",
        "reconhecimento de padroes e processamento de sinais",
        "aprendizado de máquina e processamento de sinais",
        "visualização de informações",
        "visualização da informação",
        "aprendizado de máquina e sistemas inteligentes",
        'aprendizado de máquina',
 'aprendizagem de ma?quina e minerac?a?o',
 'aprendizado de maquina',
 'aprendizado de maquina e interacao',
 'aprendizado automatico de modelos'
    ],
    "aprendizado de máquina",
)

In [24]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "ciência de dados",
        "ciência de dados e engenharia de software",
        "ciência dos dados",
        "data science",
        "análise de padrões em dados",
        "análise de padrões",
        "análise de redes sociais",
        "análise de dados descoberta de conhecimento e recuperação de informação",
        "análise de dados",
    ],
    "ciência de dados",
)

In [61]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "arquitetura de computadores e compiladores",
        "arquitetura de sistemas computacionais",
        "arquitetura e projeto de sistemas computacionais",
        "arquitetura de computadores e sistemas distribuídos",
        "arquitetura de computadores e sistemas digitais",
        "arquiteturas e algoritmos para máquinas paralelas e distribuídas",
        "arquitetura de computadores compiladores e design de hardware",
        "arquiteturas e redes de computadores",
        "arquitetura de sistemas de computação",
        "arquitetura e sistemas de computação",
        "arquitetura de computadores e redes de computadores",
        "arquitetura de computadores e sistemas distribuidos",
        'arquitetura de computadores, compiladores e design de hardware',
        'projeto integrado de hardware e software',
 'projeto de sistemas eletrônicos e computacionais',
 'projeto de sistemas eletronicos e computacionais'
    ],
    "arquitetura de computadores",
)

In [81]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "otimização e inteligência artificial",
        "otimização",
        "otimização e raciocínio automático",
        "otimização e automação de sistemas",
        "otimização combinatória",
        "mecânica dos fluidos computacional",
        "mecânica dos fluidos computacional/otimização/modelos estocásticos",
        "mecânica dos fluidos computacional / otimização / modelos estocásticos",
        "otimização/otimização/modelos estocásticos",
        "otimização / otimização / modelos estocásticos",
        "algoritmos e grafos",
        "algoritmos otimização e teoria da computação",
        "algoritmos e otimização",
        "algoritmos grafos e combinatória",
        "algoritmos otimização e complexidade computacional",
        "métodos computacionais de otimização (interdepartamental)",
        "métodos numéricos e otimização",
        "heurísticas e meta-heurísticas otimização (programação linear não linear e inteira)",
        "sistemas de otimização",
        "métodos computacionais de otimização",
        "computacao evolucionaria aprendizagem e otimizacao",
        "técnicas heurísticas e metaheurísticas para otimização",
        "algoritimos otimização e teoria da computação",
        "computacão evolucionária aprendizagem e otimizacão",
        "otimização (interdepartamental)",
        "heurísticas e meta-heurísticas otimização (programação linear não linear e inteira)",
        "combinatória e teoria da computação",
        "algoritmos e combinatória",
        "grafos e combinatória",
        "outrasalgoritmos e combinatória",
        "matemática discreta e combinatória",
        'otimizacao'
    ],
    "otimização",
)

In [27]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "teoria da computação",
        "teoria e algoritmos em grafos",
        "teoria lógica e métodos formais",
        "teoria aplicada computação",
        "teoria dos grafos e combinatória",
        "teoria dos grafos",
        "teoria da computaçãoanálise de algoritmos e complexidade de computação_x000d_otimização",
        "linguagens formais e autômatos",
        "algoritmos e complexidade computacional",
    ],
    "teoria da computação",
)

In [28]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "metodologia e técnicas da computação",
        "metodologia e técnicas de computação",
        "metodologia da computação",
        "metodologias e técnicas de computação",
        "metodologia e técnicas de programação",
        "metodologia e tecnicas de computação",
        "metodologia e técnicas da computaçãoengenharia de software",
        "metodologia e técnicas da computaçãolinguagens de programação",
        "metodologia e técnicas da computaçãobanco de dadosengenharia de dados e conhecimento",
        "metodologia e técnicas da computaçãocomputação gráfica processamento de imagens e visão computacional",
        "metodologia e técnicas da computaçãobanco de dados",
        "metodologia e técnicas da computaçãoengenharia de softwarefábrica de software",
        "fundamentos e métodos de computação",
        "fundamentos da computação",
        "fundamentos de computação",
        "fundamentos matemáticos da computação",
        "fundamentos matemáticos da computacão",
    ],
    "metodologias e técnicas de computação",
)

In [29]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "computação gráfica imagens e visualização",
        "computação gráfica",
        "computação gráfica processamento de imagens e interação",
        "computação gráfica processamento de imagens realidade virtual e interação humano computador",
        "computação gráfica e processamento de imagens",
    ],
    "computação gráfica",
)

In [89]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "tecnologias aplicadas educação e saúde",
        "informática na educação",
        "informática educação e sociedade",
        "educação em engenharia de software",
        "informática e educação",
        "inovações tecnológicas para apoiar a educação",
        "tecnologias educacionais e assistivas",
        "elaboração de software educativo e objetos de aprendizagem",
        "tecnologias educacionais",
        "métodos e recursos para o ensino de ciências e tecnologia",
        'tecnologias aplicadas à educação e à saúde',
 'informática na educação',
 'informática, educação e sociedade',
 'tecnologias aplicadas à educação e saúde'
    ],
    "informática na educação",
)

In [31]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "bioinformática",
        "bioinformática estrutural",
        "biometria",
        "bioinformática e computação bioinspirada",
        "bioinformática e biologia computacional",
        "biologia matemática e computacional",
        "biologia computacional",
    ],
    "bioinformática",
)

In [32]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "robótica móvel",
        "robótica",
        "robótica cooperativa",
        "robótica e automação inteligentes",
        "robótica coletiva",
        "robótica visão computacional e processamento gráfico",
        "automação e robótica",
    ],
    "robótica",
)

In [33]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "modelagem computacional",
        "modelagem computacional do sistema solo-planta-animal",
        "modelagem e simulação de sistemas",
        "modelagem de negócios",
        "modelagem matemático computacional e simulação",
        "modelagem e métodos computacionais",
        "modelagem e simulação",
        "modelagem conceitual",
        "modelagem e arquitetura",
        "modelagem de dados",
        "modelos e arquiteturas para sistemas inteligentes",
        "modelos computacionais e cognitivos",
    ],
    "modelagem computacional",
)

In [58]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "linguagens de programação e banco de dados",
        "linguagens de programação",
        "linguagem de programação e métodos formais",
        "linguagens e ambientes de programação",
        "linguagens de programação e sistemas de tipos",
        "linguagens de programação e métodos formais",
        "algoritimos experimentais",
        "algoritmos experimentais",
        'algoritmos', 'algoritmos, grafos e combinatoria', 'algoritmos e otimizacao',
        'algoritimos, otimizacao combinatoria, e teoria da computacao'
    ],
    "linguagens de programação",
)

In [85]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "visão computacional",
        "visão computacional reconhecimento de padrões e computação forense",
        "visão e robótica",
        "visão computacional e robótica",
        "visão computacional realidade virtual e aumentada",
        "processamento de imagens",
        "processamento de imagens e visão computacional",
        "processamento de imagens e sinais algoritmos e arquiteturas",
        "processamento de imagens e sinais",
        "processamento gráfico",
        "processamento gráfico interação e computação aplicada",
        "processamento gráfico e inteligência artificial",
        "processamento gráfico aplicado",
        "processamento grafico",
        "visão computacional aprendizado de máquina e computação forense",
        "visão computacional interação e computação aplicada",
        "visão computacional e visão computacional",
        "visão computacional e inteligência artificial",
        "visão computacional e sinais algoritmos e arquiteturas",
        "visão computacional aplicado",
        "visão computacional e sinais",
        "visao computacional realidade virtual e aumentada",
        "visão computacional linguagens de programação e arquiteturas",
 'visualização d',
 'visa?o computacional, realidade virtual e aumentada',
 'visao computacional',
 'visao computacional, realidade virtual e aumentada'
    ],
    "visão computacional",
)

In [36]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "tecnologias computacionais para agricultura e pecuária",
        "agropecuária de precisão",
        "desenvolvimento e aplicação de tecnologias computacionais em sistemas agrícolas e de pecuária",
        "aplicações da computação",
    ],
    "aplicações computacionais",
)

In [37]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "computação paralela e distribuída",
        "sistemas paralelos e distribuídos",
        "algoritmos paralelos e distribuídos",
    ],
    "processamento paralelo e distribuído",
)

In [38]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "tecnologia da informação para grandes coorporações",
        "gestão da tecnologia da informação",
    ],
    "tecnologia da informação",
)

In [39]:
data_poscomp_esp = substituir_palavras(
    data_poscomp_esp,
    [
        "interfaces humano-computador",
        "interação humano-computador",
        "realidade virtual e interação humano computador",
        "interface humano-computador",
        "design de artefatos digitais",
    ],
    "interação humano-computador",
)

In [105]:
f = data_poscomp_esp[data_poscomp_esp["especialidade"].str.startswith("engenharia de ")]
# print(f["especialidade"].sort_values().value_counts())
list(f['especialidade'].unique())

['engenharia de software',
 'engenharia de computadores',
 'engenharia de trafego e qualidade de serviço']

In [106]:
especialidades = data_poscomp_esp["especialidade"].value_counts()
especialidades = pd.DataFrame(especialidades)
especialidades.head(60)

Unnamed: 0_level_0,count
especialidade,Unnamed: 1_level_1
inteligência artificial,2031
engenharia de software,1808
sistemas de computação,1047
redes de computadores,883
sistemas de informação,617
computação aplicada,513
banco de dados,480
otimização,333
aprendizado de máquina,326
metodologias e técnicas de computação,265


In [None]:
df = data_poscomp_esp.copy()

contagem_valores = df["especialidade"].value_counts()

# Identifica valores que ocorrem menos de 100 vezes
valores_a_renomear = contagem_valores[contagem_valores <= 109].index

# Define o novo valor (categoria) para as áreas com contagem menor que 100
novo_valor = "Demais áreas"

# Renomeia as áreas com contagem menor que 100 para 'Outras Áreas'
df.loc[df["especialidade"].isin(valores_a_renomear), "especialidade"] = novo_valor

# Agora, as áreas com contagem menor que 100 foram renomeadas para 'Outras Áreas'
df.especialidade.value_counts()

In [None]:
linhas_inteligenciaArtificial = [
    "inteligência artificial",
    "otimização",
    "aprendizado de máquina",
    "visão computacional",
    "sistemas inteligentes",
    "computação visual",
    "ciência de dados",
]

linhas_redesComputadores = [
    "redes de computadores",
    "sistemas embarcados",
    "processamento paralelo e distribuído",
]

linhas_engenhariaSoftware = [
    "engenharia de software",
    "metodologias e técnicas de computação",
    "modelagem computacional",
]

linhas_sistemaComputacao = [
    "sistemas de computação",
    "sistemas de informação",
    "arquitetura de computadores",
    "tecnologia da informação",
]

linhas_outros = [
    "banco de dados",
    "computação aplicada",
    "informática na educação",
    "computação gráfica",
    "aplicações computacionais",
    "Demais áreas",
]

In [None]:
# Defina as condições e os valores correspondentes para a nova coluna
condicoes = [
    df["especialidade"].isin(linhas_inteligenciaArtificial),
    df["especialidade"].isin(linhas_sistemaComputacao),
    df["especialidade"].isin(linhas_engenhariaSoftware),
    df["especialidade"].isin(linhas_redesComputadores),
    df["especialidade"].isin(linhas_outros),
]

valores = [
    "inteligência artificial",
    "sistemas de computação",
    "engenharia de software",
    "redes de computadores",
    "Outros",
]  # Valores correspondentes às condições

# Use a função numpy.select para criar a nova coluna
df["linhas_pesquisas"] = np.select(condicoes, valores, default="Demais areas")

# Exiba o DataFrame resultante
df["linhas_pesquisas"].value_counts()

In [None]:
areas_computation = ['inteligência artificial',
                     'sistemas de computação'
                    ]

areas_information = ['redes de computadores',
                     'engenharia de software',
                     'Outros'
                    ]

In [None]:
# Defina as condições e os valores correspondentes para a nova coluna
condicoes = [
    df['linhas_pesquisas'].isin(areas_computation),
    df['linhas_pesquisas'].isin(areas_information),
]

valores = ['computacao', 'informatica']  # Valores correspondentes às condições

# Use a função numpy.select para criar a nova coluna
df['area_concentration'] = np.select(condicoes, valores, default='Outro')

# Exiba o DataFrame resultante
df['area_concentration'].value_counts()

In [None]:
from wordcloud import WordCloud 

In [None]:
text = df['especialidade'].value_counts()[:80]
text = text.to_dict()

stopwords = set(['o', 'a', 'e', 'é', 'de', 'da', 'do', 'para', ' e'])

wordcloud2 = WordCloud(background_color="white",
                       random_state=42, 
                       min_word_length=3,
                        width=1000, height=500,
                        stopwords=stopwords
                       ).generate_from_frequencies(text)
# WordCloud.generate_from_frequencies

plt.imshow(wordcloud2, interpolation="bilinear")
plt.axis("off")
# plt.margins(x=0, y=0)
plt.savefig('../imagens/nuvem_palavras.pdf', format='pdf', dpi = 300, bbox_inches='tight')
plt.show()

In [None]:
# contagem_areas = data_poscomp.groupby(['ESTADO', 'ESPECIALIDADE']).size().reset_index(name='CONTAGEM')
# contagem_areas = contagem_areas.sort_values(['ESTADO', 'CONTAGEM'], ascending=[True, False])
# areas_mais_frequentes = contagem_areas.groupby('ESTADO').first().reset_index()
# print(areas_mais_frequentes)

In [None]:
df.to_csv('db_poscomp.csv', index=False)

In [None]:
# Supondo que 'data_poscomp_esp' seja o seu DataFrame
qtd = df.groupby(['especialidade', 'estado']).size().reset_index(name='counts')

In [None]:
# Encontre a especialidade predominante para cada estado
idx = qtd.groupby(['estado'])['counts'].transform(max) == qtd['counts']
result_df = qtd[idx]

In [None]:
visualizacao.barplot_view(result_df.sort_values(['counts'], ascending=False), 
                          x='estado', y='counts', hue='especialidade', figsize=(16,6), dodge=False,
                         save_path='../imagens/especialidades_estados.pdf', title_legend='Linhas de Pesquisas', ylabel="Quantidades",
                         xlabel="Estados")

In [None]:
# Supondo que 'data_poscomp_esp' seja o seu DataFrame
qtd_sexo = df.groupby(['especialidade', 'sexo']).size().reset_index(name='counts')

In [None]:
masculino = qtd_sexo[qtd_sexo['sexo'] == 'M']
# Reorder this data frame
masculino = masculino.sort_values(['counts'], ascending=False).reset_index(drop=True)[:10]
visualizacao.barplot_view(masculino.sort_values(['counts'], ascending=False), 
                          y='especialidade', x='counts', figsize=(15,12),
                         save_path='../imagens/especialidades_masculino.pdf', ylabel="Especialidades",
                         xlabel="Quantidades", show_legend=False, fontsize=30)

In [None]:
feminino = qtd_sexo[qtd_sexo['sexo'] == 'F']
feminino = feminino.sort_values(['counts'], ascending=False).reset_index(drop=True)[:9]
visualizacao.barplot_view(feminino.sort_values(['counts'], ascending=False), 
                          y='especialidade', x='counts', figsize=(15,12),
                         save_path='../imagens/especialidades_feminina.pdf', ylabel="Especialidades",
                         xlabel="Quantidades", show_legend=False, fontsize=30)

In [None]:
# Encontre a especialidade predominante para cada estado
idx_sexo = qtd_sexo.groupby(['sexo'])['counts'].transform(max) == qtd_sexo['counts']
result_df_sexo = qtd_sexo[idx_sexo]

In [None]:
result_df_sexo