## Setup inicial

In [74]:
import pandas as pd
import matplotlib.pyplot as plt

In [75]:
anos = ['2020', '2021', '2022', '2023']
dfs = []

for ano in anos:
    df = pd.read_csv(f'./dados_anuario/{ano}.csv')  
    df['Ano'] = ano
    dfs.append(df)

combined_df = pd.concat(dfs)

In [76]:
df_a = combined_df[combined_df['Tipo de Unidade'] == 'A - Ensino e Pesquisa']
df_a_graduacao = df[
    (df['Tipo de Unidade'] == 'A - Ensino e Pesquisa') &
    (df['Categoria'] == 'Graduação')
]

correcao_racas = {
    'Pard': 'Pardos',
    'Pret': 'Pretos',
    'Bran': 'Brancos',
    'Amar': 'Amarelos',
    'Indig': 'Indígenas',
    'N/I': 'Não Informado'
}
race_colors = {
    'Brancos': '#4e79a7',
    'Pardos': '#f28e2b',
    'Pretos': '#e15759',
    'Amarelos': '#76b7b2',
    'Indígenas': '#59a14f',
    'Não Informado': '#bab0ac'
}

## Evolução étnica (2020-presente)

In [77]:
def plot_stacked_with_labels(data, title, filename):
    plt.figure(figsize=(12, 8))
    bottom = None
    races_ordered = ['Brancos', 'Pardos', 'Pretos', 'Amarelos', 'Indígenas', 'Não Informado']
    
    for race in races_ordered:
        if race in data.columns:
            bars = plt.bar(
                data.index,
                data[race],
                bottom=bottom,
                label=race,
                color=race_colors[race],
                edgecolor='white'
            )
            
            for year_idx, year in enumerate(data.index):
                height = data.loc[year, race]
                if height > 3:
                    plt.text(
                        year_idx,
                        (bottom.iloc[year_idx] if bottom is not None else 0) + height/2,
                        f'{height:.2f}%',
                        ha='center',
                        va='center',
                        color='white' if race in ['Pretos', 'Pardos'] else 'black',
                        fontsize=9,
                        fontweight='bold'
                    )
            
            bottom = data[race] if bottom is None else bottom + data[race]
    
    plt.title(title, fontsize=16, pad=20)
    plt.xlabel('Ano')
    plt.ylabel('Proporção (%)')
    plt.ylim(0, 100)
    plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
    plt.grid(axis='y', alpha=0.3)
    plt.tight_layout()
    plt.savefig(f"./graficos/{filename}", bbox_inches='tight', dpi=300)
    plt.close()

In [78]:
for exclude_ni in [False, True]:
    df_filtered = df_a if not exclude_ni else df_a[df_a['racacor'] != 'N/I']
    race_year = df_filtered.groupby(['Ano', 'racacor'])['Total'].sum().unstack()
    race_year = race_year.rename(columns=correcao_racas)
    race_year_pct = race_year.div(race_year.sum(axis=1), axis=0) * 100
    
    plot_stacked_with_labels(
        race_year_pct,
        f'Evolução da Composição Racial{" (excluindo não informados)" if exclude_ni else ""}',
        f'Evolucao_Racial_Geral_{"sem_ni" if exclude_ni else "com_ni"}.png'
    )

In [79]:
education_levels = ['Graduação', 'Pós-Graduação', 'Pós-Doutorando']

for level in education_levels:
    for exclude_ni in [False, True]:
        level_df = df_a[df_a['Categoria'] == level]
        level_df = level_df if not exclude_ni else level_df[level_df['racacor'] != 'N/I']
        
        race_year_level = level_df.groupby(['Ano', 'racacor'])['Total'].sum().unstack()
        race_year_level = race_year_level.rename(columns=correcao_racas)
        race_year_level_pct = race_year_level.div(race_year_level.sum(axis=1), axis=0) * 100
        
        plot_stacked_with_labels(
            race_year_level_pct,
            f'Composição Racial dos alunos de {level} da USP{" (excluindo não informados)" if exclude_ni else ""}',
            f'Evolucao_Racial_{level}_{"sem_ni" if exclude_ni else "com_ni"}.png'
        )

## Composição por Unidade

In [None]:
for unit in df_a_graduacao['Unidade'].unique():
    unit_data = df_a_graduacao[df_a_graduacao['Unidade'] == unit]
    
    if unit_data['Total'].sum() == 0:
        continue
    
    for include_ni in [True, False]:
        plt.figure(figsize=(10, 8))
        
        if not include_ni:
            unit_data_filtered = unit_data[unit_data['racacor'] != 'N/I']
        else:
            unit_data_filtered = unit_data
        
        race_dist = unit_data_filtered.groupby('racacor')['Total'].sum()
        race_dist = race_dist.rename(index=correcao_racas)
        
        race_dist.plot.pie(
            colors=[race_colors[r] for r in race_dist.index],
            autopct='%1.1f%%',
            startangle=90,
            wedgeprops={'linewidth': 1, 'edgecolor': 'white'},
            textprops={'fontsize': 10}
        )
        
        title = f'Distribuição Racial - {unit}\nGraduação'
        if not include_ni:
            title += ' (sem Não Informado)'
        
        plt.title(title, fontsize=14, pad=20)
        plt.ylabel('')
        plt.legend(bbox_to_anchor=(1.3, 0.8), loc='center right')
        
        plt.tight_layout()
        plt.savefig(
            f'./graficos/Graduação_{unit}_{"com_ni" if include_ni else "sem_ni"}.png',
            bbox_inches='tight',
            dpi=300
        )
        plt.close()