### Análises e Gráficos de informações pessoais de Discentes

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [3]:
discentes_info = pd.read_csv('../../data/processed/discentes_info.csv')

In [4]:
discentes_info

Unnamed: 0,sexo,raca,municipio,curso,ano_ingresso
0,M,Branco,NATAL,SISTEMAS DE INFORMAÇÃO,2009
1,M,Não Informado,CAICÓ,SISTEMAS DE INFORMAÇÃO,2009
2,M,Não Informado,CAICÓ,SISTEMAS DE INFORMAÇÃO,2009
3,M,Branco,CAICÓ,SISTEMAS DE INFORMAÇÃO,2009
4,M,Branco,CAICÓ,SISTEMAS DE INFORMAÇÃO,2009
...,...,...,...,...,...
847,M,Pardo,CAICÓ,SISTEMAS DE INFORMAÇÃO,2025
848,M,Branco,CAICÓ,SISTEMAS DE INFORMAÇÃO,2025
849,M,Branco,NATAL,SISTEMAS DE INFORMAÇÃO,2025
850,M,Pardo,NATAL,SISTEMAS DE INFORMAÇÃO,2025


In [None]:
# Função para criar gráfico de pizza
def grafico_pizza(df_counts, coluna_cat, coluna_count, titulo, cores=None, explode_val=0.01, figsize=(7,7)):
    if cores is None:
        import matplotlib.cm as cm
        cores = cm.Pastel1.colors
    
    explode = [explode_val] * len(df_counts)

    def format_label(pct, allvals):
        total = sum(allvals)
        valor_absoluto = int(round(pct * total / 100.0))
        return f"{pct:.1f}%\n({valor_absoluto})"
    
    plt.figure(figsize=figsize)
    plt.pie(
        df_counts[coluna_count],
        labels=df_counts[coluna_cat],
        autopct=lambda pct: format_label(pct, df_counts[coluna_count]),
        startangle=90,
        colors=cores[:len(df_counts)],
        explode=explode,
        wedgeprops={'edgecolor': 'white'}
    )
    plt.title(titulo, fontsize=14)
    plt.axis('equal')
    plt.tight_layout()
    plt.show()

In [None]:
# Visualizando a distribuição de discentes por sexo
df_sexos = discentes_info['sexo'].value_counts().reset_index()
df_sexos

In [None]:
# Gerando o gráfico de pizza
grafico_pizza(df_sexos, 'sexo', 'count', 'Distribuição por Sexo dos Discentes')

In [None]:
# Visualizando a distribuição de discentes por raça
df_raca = discentes_info['raca'].value_counts().reset_index()
df_raca

In [None]:
# Gerando o gráfico de barras
plt.figure(figsize=(8, 5))
plt.bar(df_raca['raca'], df_raca['count'], color='darkblue')

plt.title('Distribuição dos Discentes por Raça', fontsize=14)
plt.xlabel('Raça')
plt.ylabel('Quantidade de Discentes')

for i, valor in enumerate(df_raca['count']):
    plt.text(i, valor + 3, str(valor), ha='center')

plt.tight_layout()
plt.show()

In [None]:
# Visualizando a distribuição de discentes por município
df_municipios = discentes_info['municipio'].value_counts().reset_index().head(5)
df_municipios

In [None]:
# Gerando o gráfico de pizza
grafico_pizza(df_municipios, 'municipio', 'count', 'Top 5 Municípios dos Discentes')

In [None]:
# Visualizando a distribuição de discentes por ano de ingresso
df_ano_ingresso = discentes_info['ano_ingresso'].value_counts().reset_index().sort_values(by='ano_ingresso')
df_ano_ingresso

In [None]:
# Gerando o gráfico de linha
plt.figure(figsize=(10, 6))
plt.plot(df_ano_ingresso['ano_ingresso'], df_ano_ingresso['count'], marker='o', linestyle='-', color='mediumblue')

plt.title('Quantidade de Discentes por Ano de Ingresso', fontsize=16)
plt.xlabel('Ano de Ingresso')
plt.ylabel('Quantidade de Discentes')
plt.grid(True, linestyle='--', alpha=0.6)

plt.ylim(35, 60)

anos = np.arange(df_ano_ingresso['ano_ingresso'].min(), df_ano_ingresso['ano_ingresso'].max() + 1, 1)
plt.xticks(anos, rotation=45)

for x, y in zip(df_ano_ingresso['ano_ingresso'], df_ano_ingresso['count']):
    plt.text(x, y + 1.5, str(y), ha='center')

plt.tight_layout()
plt.show()