## Disclaimer:

### O notebook em questão possui como objetivo a vizualisação e exploração de dados dos estudantes da Universidade Federal de Lavras (UFLA). Os dados em questão estão disponíveis para consulta pública [aqui](https://dados.gov.br/dados/conjuntos-dados/estudantes-da-graduacao). A ferramenta utilizada para manipulação dos dados foi o `PySpark`.

In [None]:
# Criação da sessão Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("data_exploration").getOrCreate()
import warnings
warnings.filterwarnings('ignore')

### SETUP

In [None]:
# IMPORTS
import pyspark.pandas as ps
from pyspark.sql import functions as F

### DATA VIEW

In [None]:
# Carregando os dados como um objeto PySpark
data = spark.read.csv('alunos_2024.csv', header=True, inferSchema=True)
type(data)

In [None]:
# Tabela com os dados
data.show()

In [None]:
# Schema dos dados
data.printSchema()

In [None]:
# Para plotar os gráficos no notebook
%matplotlib inline

In [None]:
# Para melhor manipulação trasnforma o objeto em SparkPandas
view_1 = ps.DataFrame(data.groupBy('semestre_letivo_referencia', 'situacao_descricao')
                      .count()
                      .orderBy('semestre_letivo_referencia'))

view_1_pivot = view_1.pivot(index='semestre_letivo_referencia', 
                            columns='situacao_descricao', 
                            values='count')
view_1_pivot.plot(kind='bar')

In [None]:
# Para melhor manipulação trasnforma o objeto em SparkPandas
view_2 = ps.DataFrame(data.groupBy('semestre_letivo_referencia', 'situacao_estudante')
                      .count()
                      .orderBy('semestre_letivo_referencia'))

view_2_pivot = view_2.pivot(index='semestre_letivo_referencia', 
                            columns='situacao_estudante', 
                            values='count')
view_2_pivot.plot(kind='bar')

In [None]:
view_2 = data.groupBy('situacao_estudante').count()
total = view_2.groupBy().agg(F.sum('count').alias('total')).collect()[0]['total']
view_2 = view_2.withColumn('percent', (F.col('count') / total) * 100)

view_2 = ps.DataFrame(view_2)
view_2 = view_2.set_index('situacao_estudante')
view_2.plot(kind='pie',y='percent')

In [None]:
# Para melhor manipulação trasnforma o objeto em SparkPandas
view_3 = ps.DataFrame(data.groupBy('semestre_letivo_referencia', 'curso')
                      .count()
                      .orderBy('semestre_letivo_referencia'))

view_3_pivot = view_3.pivot(index='semestre_letivo_referencia', 
                            columns='curso', 
                            values='count')
view_3_pivot.plot(kind='bar')

In [None]:
# Para melhor manipulação trasnforma o objeto em SparkPandas
view_4 = ps.DataFrame(data.groupBy('curso', 'curso_turno')
                      .count()
                      .orderBy('curso'))

view_4_pivot = view_4.pivot(index='curso', 
                            columns='curso_turno', 
                            values='count')
view_4_pivot.plot(kind='barh')

In [None]:
# Para melhor manipulação trasnforma o objeto em SparkPandas
view_5 = ps.DataFrame(data.groupBy('semestre_letivo_referencia', 'curso_turno')
                      .count()
                      .orderBy('semestre_letivo_referencia'))

view_5_pivot = view_5.pivot(index='semestre_letivo_referencia', 
                            columns='curso_turno', 
                            values='count')
view_5_pivot.plot(kind='bar')

# TODO: FILTRAR OS DADOS DE ENTRADA PARA OS FORMATOS E CAMPOS DE INTERESSE

Verificar dados nulos ou faltantes.

Identificar e tratar outliers.

Padronizar formatos de data.

Codificar variáveis categóricas.

Corrigir inconsistências e erros de digitação.

Normalizar ou padronizar variáveis numéricas.

Remover colunas irrelevantes ou redundantes.

Eliminar dados duplicados.

Dividir colunas que contêm múltiplas informações.

Assegurar a consistência lógica dos dados.

Analisar a distribuição de valores únicos em colunas categóricas.

Agrupar categorias similares para simplificação.

Converter colunas de texto em categorias.

Agregar dados para criar métricas resumidas.

# TODO: ADICIONAR DADOS SINTÉTICOS

Desempenho Acadêmico e Áreas de Estudo: Correlacionar as notas e desempenho acadêmico com as áreas de estudo (como cursos ou especializações) para identificar alunos com alto desempenho em campos específicos que são demandados pelas empresas.

Habilidades Técnicas e Interesses Profissionais: Analisar a relação entre as habilidades técnicas (por exemplo, linguagens de programação, ferramentas de design, etc.) que os alunos possuem e seus interesses profissionais para encontrar correspondências com as necessidades das empresas.

Participação em Atividades Extracurriculares e Iniciativa: Investigar se a participação em clubes, sociedades estudantis e projetos extracurriculares está correlacionada com a proatividade e iniciativa, qualidades muitas vezes procuradas para posições de estágio.

Projetos de Curso e Experiência Prática: Correlacionar os tipos de projetos realizados durante o curso (como projetos de final de curso, estágios curriculares, pesquisas, etc.) com as áreas de interesse das empresas para recomendar alunos com experiência prática relevante.

Idiomas e Mercados Internacionais: Para empresas com operações internacionais, pode ser útil correlacionar a proficiência em idiomas com os mercados onde a empresa opera para recomendar alunos que possam se comunicar efetivamente em diferentes regiões.

Soft Skills e Cultura da Empresa: Analisar soft skills reportadas ou avaliadas (como trabalho em equipe, comunicação, liderança) e correlacioná-las com a cultura e valores das empresas parceiras para garantir uma boa integração cultural.

Disponibilidade e Locais de Estágio: Correlacionar a disponibilidade dos alunos (horários, período do estágio) e sua localização geográfica com as oportunidades de estágio disponíveis para recomendar alunos que se encaixam logisticamente nas necessidades das empresas.

Feedback de Estágios Anteriores: Se houver dados disponíveis, analisar o feedback de supervisores de estágios anteriores para identificar alunos que tiveram bom desempenho em ambientes profissionais.

In [None]:
# Encerra a sessão spark
spark.stop()