## Tratamento dos dados

### 1 - Importando os dados

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import plotly.express as px
import plotly.subplots as psub
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
pd.set_option('display.max_rows', None)

df = pd.read_csv('./PEDE_PASSOS_DATASET_FIAP.csv', delimiter=';')
df.head()

Unnamed: 0,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,FASE_TURMA_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,...,IPP_2022,REC_AVA_1_2022,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022
0,Escola Pública,ALUNO-1,11.0,2.0,2H,Não,7.883752,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,,,,,,,,,,
1,,ALUNO-2,,,,,,,,,...,5.625,Mantido na Fase + Bolsa,Mantido na Fase atual,,,Sim,Não,7.916665,5.0,Fase 2 (5º e 6º ano)
2,Escola Pública,ALUNO-3,12.0,2.0,3H,Não,7.856389666666666,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,,,,,,,,,,
3,Escola Pública,ALUNO-4,10.0,2.0,1D,Não,5.076252,D,Quartzo,Ponto a melhorar em 2021: Melhorar a sua entre...,...,6.25,Promovido de Fase,Mantido na Fase atual,Promovido de Fase,,Não,Não,8.055553,5.0,Fase 3 (7º e 8º ano)
4,Escola Pública,ALUNO-5,10.0,1.0,2M,Não,8.077085,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,6.458333,Mantido na Fase atual,Promovido de Fase,Mantido na Fase atual,,Não,Não,7.833337,5.0,Fase 3 (7º e 8º ano)


### 2 - Separando os datasets por ano

In [2]:
# Separando as colunas do dataframe por ano
df_2020 = df[['NOME'] + [col for col in df.columns if '2020' in col]]
df_2021 = df[['NOME'] + [col for col in df.columns if '2021' in col]]
df_2022 = df[['NOME'] + [col for col in df.columns if '2022' in col]]

# Removendo as linhas que têm somente valor na coluna "NOME" e o restante NaN
df_2020.dropna(how='all', subset=df_2020.columns.difference(['NOME']), inplace=True)
df_2021.dropna(how='all', subset=df_2021.columns.difference(['NOME']), inplace=True)
df_2022.dropna(how='all', subset=df_2022.columns.difference(['NOME']), inplace=True)

# Removendo a linha do aluno ALUNO-1259 no dataset de 2020 por conter dados inconsistentes
df_2020 = df_2020[df_2020['NOME'] != 'ALUNO-1259']

### 3 - Tratando os dados de cada dataset

#### 2020

In [3]:
# Contando os valores NaN em cada coluna dos datasets
df_2020.isna().sum()

NOME                              0
INSTITUICAO_ENSINO_ALUNO_2020     0
IDADE_ALUNO_2020                  0
ANOS_PM_2020                      0
FASE_TURMA_2020                   0
PONTO_VIRADA_2020                26
INDE_2020                         0
INDE_CONCEITO_2020                0
PEDRA_2020                        0
DESTAQUE_IEG_2020                 0
DESTAQUE_IDA_2020                 0
DESTAQUE_IPV_2020                24
IAA_2020                          0
IEG_2020                          0
IPS_2020                          0
IDA_2020                          0
IPP_2020                          0
IPV_2020                          0
IAN_2020                          0
dtype: int64

In [4]:
# Para a coluna PONTO_VIRADA_2020, substituir NaN por "Não"
df_2020['PONTO_VIRADA_2020'].fillna("Não", inplace=True)

# Para a coluna DESTAQUE_IPV_2020, substituir NaN por ""
df_2020['DESTAQUE_IPV_2020'].fillna("Sem Destaque", inplace=True)

In [5]:
# Dataset 2020: Tipagem adequada para cada coluna
df_2020 = df_2020.astype({
    'IDADE_ALUNO_2020': 'int64',
    'ANOS_PM_2020': 'int64',
    'INDE_2020': 'float64',
    'IAA_2020': 'float64',
    'IEG_2020': 'float64',
    'IPS_2020': 'float64',
    'IDA_2020': 'float64',
    'IPP_2020': 'float64',
    'IPV_2020': 'float64',
    'IAN_2020': 'float64'
})

df_2020.dtypes

NOME                              object
INSTITUICAO_ENSINO_ALUNO_2020     object
IDADE_ALUNO_2020                   int64
ANOS_PM_2020                       int64
FASE_TURMA_2020                   object
PONTO_VIRADA_2020                 object
INDE_2020                        float64
INDE_CONCEITO_2020                object
PEDRA_2020                        object
DESTAQUE_IEG_2020                 object
DESTAQUE_IDA_2020                 object
DESTAQUE_IPV_2020                 object
IAA_2020                         float64
IEG_2020                         float64
IPS_2020                         float64
IDA_2020                         float64
IPP_2020                         float64
IPV_2020                         float64
IAN_2020                         float64
dtype: object

#### 2021

In [6]:
# Contando os valores NaN em cada coluna dos datasets
df_2021.isna().sum()

NOME                             0
FASE_2021                        0
TURMA_2021                       0
INSTITUICAO_ENSINO_ALUNO_2021    0
SINALIZADOR_INGRESSANTE_2021     0
PEDRA_2021                       0
INDE_2021                        0
IAA_2021                         0
IEG_2021                         0
IPS_2021                         0
IDA_2021                         0
IPP_2021                         0
REC_EQUIPE_1_2021                0
REC_EQUIPE_2_2021                0
REC_EQUIPE_3_2021                0
REC_EQUIPE_4_2021                0
PONTO_VIRADA_2021                0
IPV_2021                         0
IAN_2021                         0
NIVEL_IDEAL_2021                 0
DEFASAGEM_2021                   0
dtype: int64

In [7]:
df_2021['PEDRA_2021'].replace('#NULO!', '', inplace=True)
df_2021['INDE_2021'].replace('#NULO!', 0, inplace=True)
df_2021['PONTO_VIRADA_2021'].replace('#NULO!', 'Não', inplace=True)

In [8]:
df_2021 = df_2021.astype({
'FASE_2021':'int64',
'TURMA_2021':'object',
'INSTITUICAO_ENSINO_ALUNO_2021':'object',
'SINALIZADOR_INGRESSANTE_2021':'object',
'PEDRA_2021':'object',
'INDE_2021':'float64',
'IAA_2021':'float64',
'IEG_2021':'float64',
'IPS_2021':'float64',
'IDA_2021':'float64',
'IPP_2021':'float64',
'REC_EQUIPE_1_2021':'object',
'REC_EQUIPE_2_2021':'object',
'REC_EQUIPE_3_2021':'object',
'REC_EQUIPE_4_2021':'object',
'PONTO_VIRADA_2021':'object',
'IPV_2021':'float64',
'IAN_2021':'float64',
'NIVEL_IDEAL_2021':'object',
'DEFASAGEM_2021':'int64',
})

df_2021.dtypes

NOME                              object
FASE_2021                          int64
TURMA_2021                        object
INSTITUICAO_ENSINO_ALUNO_2021     object
SINALIZADOR_INGRESSANTE_2021      object
PEDRA_2021                        object
INDE_2021                        float64
IAA_2021                         float64
IEG_2021                         float64
IPS_2021                         float64
IDA_2021                         float64
IPP_2021                         float64
REC_EQUIPE_1_2021                 object
REC_EQUIPE_2_2021                 object
REC_EQUIPE_3_2021                 object
REC_EQUIPE_4_2021                 object
PONTO_VIRADA_2021                 object
IPV_2021                         float64
IAN_2021                         float64
NIVEL_IDEAL_2021                  object
DEFASAGEM_2021                     int64
dtype: object

#### 2022

In [9]:
# Contando os valores NaN em cada coluna dos datasets
df_2022.isna().sum()

NOME                     0
FASE_2022                0
TURMA_2022               0
ANO_INGRESSO_2022        0
BOLSISTA_2022            0
INDE_2022                0
CG_2022                  0
CF_2022                  0
CT_2022                  0
PEDRA_2022               0
DESTAQUE_IEG_2022        0
DESTAQUE_IDA_2022        0
DESTAQUE_IPV_2022        0
IAA_2022                 0
IEG_2022                 0
IPS_2022                 0
IDA_2022                 0
NOTA_PORT_2022           2
NOTA_MAT_2022            2
NOTA_ING_2022          577
QTD_AVAL_2022            0
IPP_2022                 0
REC_AVA_1_2022           0
REC_AVA_2_2022           0
REC_AVA_3_2022         236
REC_AVA_4_2022         577
INDICADO_BOLSA_2022      0
PONTO_VIRADA_2022        0
IPV_2022                 0
IAN_2022                 0
NIVEL_IDEAL_2022         0
dtype: int64

In [10]:
# Substituindo NaN por 0 nas colunas de notas
df_2022['NOTA_PORT_2022'].fillna(0, inplace=True)
df_2022['NOTA_MAT_2022'].fillna(0, inplace=True)
df_2022['NOTA_ING_2022'].fillna(0, inplace=True)

# Substituindo NaN nas colunas de recuperação
df_2022['REC_AVA_3_2022'].fillna('Sem Ava', inplace=True)
df_2022['REC_AVA_4_2022'].fillna('Sem Ava', inplace=True)

In [11]:
df_2022_final = df_2022.astype({
    'FASE_2022': 'int64',
    'ANO_INGRESSO_2022': 'int64',
    'INDE_2022': 'float64',
    'CG_2022': 'float64',
    'CF_2022': 'float64',
    'CT_2022': 'float64',
    'IAA_2022': 'float64',
    'IEG_2022': 'float64',
    'IPS_2022': 'float64',
    'IDA_2022': 'float64',
    'NOTA_PORT_2022': 'float64',
    'NOTA_MAT_2022': 'float64',
    'NOTA_ING_2022': 'float64',
    'QTD_AVAL_2022': 'int64',
    'IPP_2022': 'float64',
    'IPV_2022': 'float64',
    'IAN_2022': 'float64'
})

df_2022.dtypes

NOME                    object
FASE_2022              float64
TURMA_2022              object
ANO_INGRESSO_2022      float64
BOLSISTA_2022           object
INDE_2022              float64
CG_2022                float64
CF_2022                float64
CT_2022                float64
PEDRA_2022              object
DESTAQUE_IEG_2022       object
DESTAQUE_IDA_2022       object
DESTAQUE_IPV_2022       object
IAA_2022               float64
IEG_2022               float64
IPS_2022               float64
IDA_2022               float64
NOTA_PORT_2022         float64
NOTA_MAT_2022          float64
NOTA_ING_2022          float64
QTD_AVAL_2022          float64
IPP_2022               float64
REC_AVA_1_2022          object
REC_AVA_2_2022          object
REC_AVA_3_2022          object
REC_AVA_4_2022          object
INDICADO_BOLSA_2022     object
PONTO_VIRADA_2022       object
IPV_2022               float64
IAN_2022               float64
NIVEL_IDEAL_2022        object
dtype: object

### 4 - Normalizando os nomes das colunas dos datasets

In [12]:
# Removendo o sufixo do ano das colunas em cada dataset
def rename_columns(df, year):
    return df.rename(columns=lambda x: x.replace(f'_{year}', ''))

df_2020 = rename_columns(df_2020, '2020')
df_2021 = rename_columns(df_2021, '2021')
df_2022 = rename_columns(df_2022, '2022')

df_2020.columns, df_2021.columns, df_2022.columns

(Index(['NOME', 'INSTITUICAO_ENSINO_ALUNO', 'IDADE_ALUNO', 'ANOS_PM',
        'FASE_TURMA', 'PONTO_VIRADA', 'INDE', 'INDE_CONCEITO', 'PEDRA',
        'DESTAQUE_IEG', 'DESTAQUE_IDA', 'DESTAQUE_IPV', 'IAA', 'IEG', 'IPS',
        'IDA', 'IPP', 'IPV', 'IAN'],
       dtype='object'),
 Index(['NOME', 'FASE', 'TURMA', 'INSTITUICAO_ENSINO_ALUNO',
        'SINALIZADOR_INGRESSANTE', 'PEDRA', 'INDE', 'IAA', 'IEG', 'IPS', 'IDA',
        'IPP', 'REC_EQUIPE_1', 'REC_EQUIPE_2', 'REC_EQUIPE_3', 'REC_EQUIPE_4',
        'PONTO_VIRADA', 'IPV', 'IAN', 'NIVEL_IDEAL', 'DEFASAGEM'],
       dtype='object'),
 Index(['NOME', 'FASE', 'TURMA', 'ANO_INGRESSO', 'BOLSISTA', 'INDE', 'CG', 'CF',
        'CT', 'PEDRA', 'DESTAQUE_IEG', 'DESTAQUE_IDA', 'DESTAQUE_IPV', 'IAA',
        'IEG', 'IPS', 'IDA', 'NOTA_PORT', 'NOTA_MAT', 'NOTA_ING', 'QTD_AVAL',
        'IPP', 'REC_AVA_1', 'REC_AVA_2', 'REC_AVA_3', 'REC_AVA_4',
        'INDICADO_BOLSA', 'PONTO_VIRADA', 'IPV', 'IAN', 'NIVEL_IDEAL'],
       dtype='object'))

### 5 - Normalizando os datasets para encontrar o que pode ser analizado em conjunto

#### 2020

In [13]:
# Encontrando as colunas comuns após a renomeação
common_columns = set(df_2020.columns).intersection(df_2021.columns).intersection(df_2022.columns)
common_columns

{'IAA',
 'IAN',
 'IDA',
 'IEG',
 'INDE',
 'IPP',
 'IPS',
 'IPV',
 'NOME',
 'PEDRA',
 'PONTO_VIRADA'}

In [14]:
# Colunas exclusivas para 2020
unique_columns_2020 = set(df_2020.columns) - common_columns
unique_columns_2020

{'ANOS_PM',
 'DESTAQUE_IDA',
 'DESTAQUE_IEG',
 'DESTAQUE_IPV',
 'FASE_TURMA',
 'IDADE_ALUNO',
 'INDE_CONCEITO',
 'INSTITUICAO_ENSINO_ALUNO'}

In [15]:
# normalizando FASE_TURMA de 2020 para ficar igual a 2021 e 2022
df_2020['FASE'] = df_2020['FASE_TURMA'].str[0]
df_2020['TURMA'] = df_2020['FASE_TURMA'].str[1]
df_2020.drop(columns=['FASE_TURMA'], inplace=True)
df_2020['FASE'] = df_2020['FASE'].astype('int64')

# Criando a nova coluna SINALIZADOR_INGRESSANTE com base na condição ANOS_PM
df_2020['SINALIZADOR_INGRESSANTE'] = df_2020['ANOS_PM'].apply(lambda x: 'Veterano' if x > 0 else 'Ingressante')
df_2020.drop(columns=['ANOS_PM'], inplace=True)

# Alterando os valores na coluna INSTITUICAO_ENSINO_ALUNO
df_2020['INSTITUICAO_ENSINO_ALUNO'] = df_2020['INSTITUICAO_ENSINO_ALUNO'].apply(
    lambda x: 'Escola Pública' if x == 'Escola Pública' else 'Escola Particular'
)

# Criando a nova coluna BOLSA com base na INSTITUICAO_ENSINO_ALUNO
df_2020['BOLSA'] = df_2020['INSTITUICAO_ENSINO_ALUNO'].apply(
    lambda x: 'Sim' if x == 'Escola Particular' else 'Não'
)

# dropar as colunas que não tem mais utilidade
df_2020.drop(columns=['DESTAQUE_IEG', 'INDE_CONCEITO', 'DESTAQUE_IDA', 'DESTAQUE_IPV','IDADE_ALUNO'], inplace=True)

#### 2021

In [16]:
common_columns = set(df_2020.columns).intersection(df_2021.columns).intersection(df_2022.columns)
common_columns

{'FASE',
 'IAA',
 'IAN',
 'IDA',
 'IEG',
 'INDE',
 'IPP',
 'IPS',
 'IPV',
 'NOME',
 'PEDRA',
 'PONTO_VIRADA',
 'TURMA'}

In [17]:
unique_columns_2021 = set(df_2021.columns) - common_columns
unique_columns_2021

{'DEFASAGEM',
 'INSTITUICAO_ENSINO_ALUNO',
 'NIVEL_IDEAL',
 'REC_EQUIPE_1',
 'REC_EQUIPE_2',
 'REC_EQUIPE_3',
 'REC_EQUIPE_4',
 'SINALIZADOR_INGRESSANTE'}

In [18]:
# Alterando os valores na coluna INSTITUICAO_ENSINO_ALUNO
df_2021['INSTITUICAO_ENSINO_ALUNO'] = df_2021['INSTITUICAO_ENSINO_ALUNO'].apply(
    lambda x: 'Escola Pública' if x == 'Escola Pública' else 'Escola Particular'
)

# Criando a nova coluna BOLSA com base na INSTITUICAO_ENSINO_ALUNO
df_2021['BOLSA'] = df_2021['INSTITUICAO_ENSINO_ALUNO'].apply(
    lambda x: 'Sim' if x == 'Escola Particular' else 'Não'
)

df_2021.drop(columns=['REC_EQUIPE_1', 'REC_EQUIPE_2', 'REC_EQUIPE_3', 'REC_EQUIPE_4', 'NIVEL_IDEAL', 'DEFASAGEM'], inplace=True)

#### 2022

In [19]:
common_columns = set(df_2020.columns).intersection(df_2021.columns).intersection(df_2022.columns)
common_columns

{'FASE',
 'IAA',
 'IAN',
 'IDA',
 'IEG',
 'INDE',
 'IPP',
 'IPS',
 'IPV',
 'NOME',
 'PEDRA',
 'PONTO_VIRADA',
 'TURMA'}

In [20]:
# Colunas exclusivas para 2022
unique_columns_2022 = set(df_2022.columns) - common_columns
unique_columns_2022

{'ANO_INGRESSO',
 'BOLSISTA',
 'CF',
 'CG',
 'CT',
 'DESTAQUE_IDA',
 'DESTAQUE_IEG',
 'DESTAQUE_IPV',
 'INDICADO_BOLSA',
 'NIVEL_IDEAL',
 'NOTA_ING',
 'NOTA_MAT',
 'NOTA_PORT',
 'QTD_AVAL',
 'REC_AVA_1',
 'REC_AVA_2',
 'REC_AVA_3',
 'REC_AVA_4'}

In [21]:
# Criando a nova coluna SINALIZADOR_INGRESSANTE com base na condição ANO_INGRESSO
df_2022['SINALIZADOR_INGRESSANTE'] = df_2022['ANO_INGRESSO'].apply(lambda x: 'Veterano' if x < 2022 else 'Ingressante')
df_2022.drop(columns=['ANO_INGRESSO'], inplace=True)

# Criando a nova coluna INSTITUICAO_ENSINO_ALUNO com base na BOLSISTA
df_2022['INSTITUICAO_ENSINO_ALUNO'] = df_2022['BOLSISTA'].apply(
    lambda x: 'Escola Particular' if x == 'Sim' else 'Escola Pública'
)

# renomear a coluna BOLSISTA para BOLSA
df_2022.rename(columns={'BOLSISTA': 'BOLSA'}, inplace=True)

#dropar as colunas que não tem mais utilidade
df_2022.drop(columns=['NOTA_PORT', 'NOTA_MAT', 'NOTA_ING', 'QTD_AVAL', 'REC_AVA_1', 'REC_AVA_2', 'REC_AVA_3', 
                      'REC_AVA_4', 'INDICADO_BOLSA', 'NIVEL_IDEAL','CF', 'CG', 'CT', 'DESTAQUE_IDA', 'DESTAQUE_IEG', 'DESTAQUE_IPV'], inplace=True)

### 6 - Conferindo a Normalização

In [22]:
common_columns = set(df_2020.columns).intersection(df_2021.columns).intersection(df_2022.columns)
common_columns

{'BOLSA',
 'FASE',
 'IAA',
 'IAN',
 'IDA',
 'IEG',
 'INDE',
 'INSTITUICAO_ENSINO_ALUNO',
 'IPP',
 'IPS',
 'IPV',
 'NOME',
 'PEDRA',
 'PONTO_VIRADA',
 'SINALIZADOR_INGRESSANTE',
 'TURMA'}

In [23]:
unique_columns_2020 = set(df_2020.columns) - common_columns
unique_columns_2021 = set(df_2021.columns) - common_columns
unique_columns_2022 = set(df_2022.columns) - common_columns

unique_columns_2020, unique_columns_2021, unique_columns_2022

(set(), set(), set())

## Analisando os Dados

In [24]:
# Contando o total de alunos por ano
total_alunos_2020 = df_2020['NOME'].nunique()
total_alunos_2021 = df_2021['NOME'].nunique()
total_alunos_2022 = df_2022['NOME'].nunique()

# Organizando os dados
anos = ['2020', '2021', '2022']
total_alunos = [total_alunos_2020, total_alunos_2021, total_alunos_2022]

# Calculando a variação percentual
variacao_percentual = [0]  # Não há variação em 2020, pois é o primeiro ano
variacao_percentual.append(((total_alunos_2021 - total_alunos_2020) / total_alunos_2020) * 100)
variacao_percentual.append(((total_alunos_2022 - total_alunos_2021) / total_alunos_2021) * 100)

# Criando o gráfico em Plotly
fig = go.Figure()

# Adicionando barras para o total de alunos
fig.add_trace(go.Bar(
    x=anos,
    y=total_alunos,
    text=[f'{v:.2f}%' for v in variacao_percentual],
    textposition='inside',
    name='Total de Alunos',
    marker_color='lightgreen'
))

# Configurando o layout do gráfico
fig.update_layout(
    title='Total de Alunos por Ano com Variação Percentual',
    xaxis_title='Ano',
    yaxis_title='Total de Alunos',
    showlegend=False
)

# Exibindo o gráfico
fig.show()


### Análise do Total de Alunos por Ano com Variação Percentual

O gráfico acima demonstra o total de alunos matriculados ao longo dos anos de 2020, 2021 e 2022, destacando também a variação percentual de um ano para o outro.

- **2020**: O ano de 2020 serve como base para a análise, com um total de 727 alunos matriculados. Não há variação percentual neste ano, pois ele é o ponto de partida.
  
- **2021**: Em 2021, observa-se uma diminuição no número total de alunos foi 686, caindo aproximadamente 5,64% em relação ao ano anterior. Esta queda pode ser indicativa de fatores como evasão escolar ou menores taxas de ingresso de novos alunos.
  
- **2022**: O ano de 2022 apresenta um aumento significativo no número de alunos, com uma variação positiva de 25,66% em comparação ao ano de 2021. Este aumento pode sugerir um sucesso nas estratégias de retenção e captação de novos alunos implementadas após a queda observada em 2021 ou simplesmente um aumento substancial na verba da ONG possibilitando o ingresso de novos alunos.

In [25]:
import plotly.graph_objects as go

# Contagem de ingressantes e veteranos por ano
ingressantes_2020 = df_2020[df_2020['SINALIZADOR_INGRESSANTE'] == 'Ingressante'].shape[0]
veteranos_2020 = df_2020[df_2020['SINALIZADOR_INGRESSANTE'] == 'Veterano'].shape[0]

ingressantes_2021 = df_2021[df_2021['SINALIZADOR_INGRESSANTE'] == 'Ingressante'].shape[0]
veteranos_2021 = df_2021[df_2021['SINALIZADOR_INGRESSANTE'] == 'Veterano'].shape[0]

ingressantes_2022 = df_2022[df_2022['SINALIZADOR_INGRESSANTE'] == 'Ingressante'].shape[0]
veteranos_2022 = df_2022[df_2022['SINALIZADOR_INGRESSANTE'] == 'Veterano'].shape[0]

# Dados para o gráfico
anos = ['2020', '2021', '2022']
ingressantes = [ingressantes_2020, ingressantes_2021, ingressantes_2022]
veteranos = [veteranos_2020, veteranos_2021, veteranos_2022]

# Criando o gráfico de barras empilhadas
fig = go.Figure(data=[
    go.Bar(name='Ingressantes', x=anos, y=ingressantes, marker_color='lightskyblue', text=ingressantes, textposition='inside'),
    go.Bar(name='Veteranos', x=anos, y=veteranos, marker_color='lightcoral', text=veteranos, textposition='inside')
])

# Customizando o layout
fig.update_layout(
    barmode='stack',
    title='Distribuição de Ingressantes e Veteranos por Ano',
    xaxis_title='Ano',
    yaxis_title='Número de Alunos',
    legend_title='Categoria'
)

# Exibindo o gráfico
fig.show()


### Análise da Distribuição de Ingressantes e Veteranos por Ano

O gráfico acima ilustra a distribuição de alunos ingressantes e veteranos ao longo dos anos de 2020, 2021 e 2022.

- **2020**: No ano de 2020, o número total de alunos foi composto por 134 ingressantes e 593 veteranos. Isso reflete um cenário onde a maioria dos alunos já estava matriculada em anos anteriores, com uma proporção relativamente pequena de novos ingressos.
  
- **2021**: Em 2021, houve um aumento no número de ingressantes, subindo para 249 alunos. No entanto, o número de veteranos caiu para 437, o que sugere que houve uma evasão de alunos que já estavam matriculados, ou possivelmente uma redução na retenção desses alunos.
  
- **2022**: No ano de 2022, tanto o número de ingressantes quanto o de veteranos aumentou, com 398 novos alunos ingressando e 464 veteranos continuando seus estudos. Esse aumento em ambas as categorias sugere uma recuperação no número de matrículas.

### Conclusão:
O gráfico revela uma dinâmica interessante entre ingressantes e veteranos ao longo dos três anos. A queda no número de veteranos em 2021 é um ponto de atenção, mas o aumento em 2022 indica uma possível recuperação. O crescimento constante de ingressantes ao longo dos anos também sugere uma atração contínua de novos alunos para o programa.

In [26]:
# Identificar os alunos que desistiram entre os anos

# Primeiro, vamos criar sets dos alunos de cada ano
alunos_2020 = set(df_2020['NOME'])
alunos_2021 = set(df_2021['NOME'])
alunos_2022 = set(df_2022['NOME'])

# Alunos que estavam em 2020 e sumiram em 2021 ou 2022
desistentes_2020 = alunos_2020 - (alunos_2021 | alunos_2022)

# Alunos que estavam em 2021 e sumiram em 2022
desistentes_2021 = alunos_2021 - alunos_2022

# Total de desistentes por ano
total_desistentes_2020 = len(desistentes_2020)
total_desistentes_2021 = len(desistentes_2021)

ingressantes_2020 = df_2020[df_2020['SINALIZADOR_INGRESSANTE'] == 'Ingressante'].shape[0]
ingressantes_2021 = df_2021[df_2021['SINALIZADOR_INGRESSANTE'] == 'Ingressante'].shape[0]

total_desistentes_2020, total_desistentes_2021, ingressantes_2020, ingressantes_2021

(257, 229, 134, 249)

In [27]:
# Dados
anos = ['2020', '2021']
ingressantes = [ingressantes_2020, ingressantes_2021]
evadidos = [total_desistentes_2020, total_desistentes_2021]

# Criando o gráfico de linhas
fig = go.Figure()

# Linha para ingressantes com os valores em cima das linhas
fig.add_trace(go.Scatter(
    x=anos,
    y=ingressantes,
    mode='lines+markers+text',
    name='Ingressantes',
    line=dict(color='green', width=4),
    text=ingressantes,
    textposition='top center'
))

# Linha para evadidos com os valores em cima das linhas
fig.add_trace(go.Scatter(
    x=anos,
    y=evadidos,
    mode='lines+markers+text',
    name='Evadidos',
    line=dict(color='red', width=4),
    text=evadidos,
    textposition='top center'
))

# Configurando o layout do gráfico
fig.update_layout(
    title='Ingressantes vs Evadidos por Ano',
    xaxis_title='Ano',
    yaxis_title='Número de Alunos',
    showlegend=True
)

# Exibindo o gráfico
fig.show()

### Análise de Ingressantes vs Evasão por Ano

O gráfico acima compara o número de alunos ingressantes com o número de alunos que evadiram ao longo dos anos de 2020 e 2021.

- **2020**: No ano de 2020, houve 134 alunos ingressantes, enquanto 257 alunos evadiram. Este cenário mostra uma preocupação, uma vez que o número de evasões foi significativamente maior que o número de ingressos, indicando uma possível dificuldade em reter alunos ou desafios enfrentados durante esse ano específico.
  
- **2021**: Em 2021, houve uma inversão positiva na tendência. O número de ingressantes aumentou para 249, enquanto o número de alunos que evadiram caiu para 229. Embora a evasão ainda seja um problema, a diferença entre ingressantes e evadidos diminuiu, sugerindo uma melhoria nos esforços de retenção ou nas condições que afetaram a continuidade dos estudos.

### Conclusão:
Este gráfico evidencia uma evolução favorável de 2020 para 2021, com uma redução na evasão e um aumento significativo no número de novos ingressos. Esses dados podem indicar que as estratégias adotadas após 2020 foram eficazes para atrair e reter mais alunos, embora a evasão ainda precise de atenção contínua.

In [28]:
# Contando o número de alunos de escolas públicas e particulares para cada ano
publicos_2020 = df_2020[df_2020['INSTITUICAO_ENSINO_ALUNO'] == 'Escola Pública']['NOME'].nunique()
particulares_2020 = df_2020[df_2020['INSTITUICAO_ENSINO_ALUNO'] == 'Escola Particular']['NOME'].nunique()

publicos_2021 = df_2021[df_2021['INSTITUICAO_ENSINO_ALUNO'] == 'Escola Pública']['NOME'].nunique()
particulares_2021 = df_2021[df_2021['INSTITUICAO_ENSINO_ALUNO'] == 'Escola Particular']['NOME'].nunique()

publicos_2022 = df_2022[df_2022['INSTITUICAO_ENSINO_ALUNO'] == 'Escola Pública']['NOME'].nunique()
particulares_2022 = df_2022[df_2022['INSTITUICAO_ENSINO_ALUNO'] == 'Escola Particular']['NOME'].nunique()

# Organizando os dados
categorias = ['Escola Pública', 'Escola Particular']
valores_2020 = [publicos_2020, particulares_2020]
valores_2021 = [publicos_2021, particulares_2021]
valores_2022 = [publicos_2022, particulares_2022]

# Criando o subplot para 3 gráficos de pizza
fig = psub.make_subplots(rows=1, cols=3, specs=[[{'type':'domain'}, {'type':'domain'}, {'type':'domain'}]],
                         subplot_titles=['2020', '2021', '2022'])

# Adicionando o gráfico de pizza para 2020
fig.add_trace(go.Pie(labels=categorias, values=valores_2020, name='2020'), 1, 1)

# Adicionando o gráfico de pizza para 2021
fig.add_trace(go.Pie(labels=categorias, values=valores_2021, name='2021'), 1, 2)

# Adicionando o gráfico de pizza para 2022
fig.add_trace(go.Pie(labels=categorias, values=valores_2022, name='2022'), 1, 3)

# Configurando o layout do gráfico
fig.update_layout(
    title_text='Distribuição de Alunos em Escolas Públicas vs Particulares (2020-2022)',
)

# Exibindo o gráfico
fig.show()


### Distribuição de Alunos em Escolas Públicas vs Particulares (2020-2022)

O gráfico acima apresenta a distribuição percentual de alunos oriundos de escolas públicas e particulares nos anos de 2020, 2021 e 2022. Cada gráfico de pizza ilustra a proporção de alunos de cada tipo de escola em relação ao total de alunos matriculados no respectivo ano.

- **2020**: Em 2020, a grande maioria dos alunos (82,3%) eram de escolas públicas, enquanto 17,7% eram de escolas particulares.

- **2021**: No ano de 2021, a participação de alunos de escolas particulares aumentou ligeiramente para 18,8%, enquanto a de escolas públicas caiu para 81,2%. Embora a mudança seja pequena, indica um possível aumento no na oferta de bolsas.

- **2022**: Em 2022, observou-se um aumento mais acentuado na proporção de alunos vindos de escolas públicas, que passou a representar 87,5% do total, enquanto a participação de alunos de escolas particulares diminuiu para 12,5%.

In [29]:
# Identificando alunos que não tinham bolsa em 2020 e ganharam em 2021
sem_bolsa_2020 = df_2020[df_2020['BOLSA'] == 'Não']['NOME']
com_bolsa_2021 = df_2021[(df_2021['BOLSA'] == 'Sim') & (df_2021['NOME'].isin(sem_bolsa_2020))]

alunos_ganharam_bolsa_2021 = com_bolsa_2021['NOME'].nunique()

# Identificando alunos que não tinham bolsa em 2021 e ganharam em 2022
sem_bolsa_2021 = df_2021[df_2021['BOLSA'] == 'Não']['NOME']
com_bolsa_2022 = df_2022[(df_2022['BOLSA'] == 'Sim') & (df_2022['NOME'].isin(sem_bolsa_2021))]

alunos_ganharam_bolsa_2022 = com_bolsa_2022['NOME'].nunique()

# Exibindo os resultados
print(f"Alunos que ganharam bolsa de 2020 para 2021: {alunos_ganharam_bolsa_2021}")
print(f"Alunos que ganharam bolsa de 2021 para 2022: {alunos_ganharam_bolsa_2022}")

Alunos que ganharam bolsa de 2020 para 2021: 46
Alunos que ganharam bolsa de 2021 para 2022: 14


In [30]:
# Criando um DataFrame com os dados
data = {
    'Ano': ['2021', '2022'],
    'Alunos que Ganharam Bolsa': [alunos_ganharam_bolsa_2021, alunos_ganharam_bolsa_2022]
}

df_bolsa= pd.DataFrame(data)

# Criando o gráfico de colunas agrupadas
fig = px.bar(df_bolsa, x='Ano', y='Alunos que Ganharam Bolsa', 
             text='Alunos que Ganharam Bolsa', 
             title='Número de Alunos que Ganharam Bolsa de Um Ano para o Outro',
             labels={'Alunos que Ganharam Bolsa': 'Quantidade de Alunos'})

# Customizando o layout
fig.update_traces(textposition='inside')
fig.update_layout(showlegend=False)

# Exibindo o gráfico
fig.show()

### Análise do Número de Alunos que Ganharam Bolsa de Um Ano para o Outro

O gráfico acima ilustra o número de alunos que obtiveram uma bolsa de estudos nos anos de 2021 e 2022, após não terem bolsa no ano anterior.

- **2021**: Em 2021, 46 alunos ganharam bolsa de estudos. Esse número pode refletir um esforço institucional para oferecer suporte financeiro a um número maior de alunos, especialmente considerando os desafios que muitos enfrentaram devido às circunstâncias externas, como a pandemia.
  
- **2022**: Em 2022, o número de alunos que ganhou bolsa caiu para 14. Essa redução significativa pode indicar uma mudança na política de distribuição de bolsas, um possível esgotamento de recursos, ou uma menor necessidade de novas bolsas devido ao fato de que muitos alunos já haviam sido contemplados no ano anterior.

### Conclusão:
O gráfico sugere que houve uma resposta robusta em 2021 para atender às necessidades dos alunos, seguida por uma diminuição em 2022, possivelmente devido a uma estabilização das condições ou ajustes nas políticas de concessão de bolsas. A queda acentuada no número de novas bolsas em 2022 pode ser um ponto de atenção.

In [31]:
# Contando a quantidade de alunos por fase para cada ano
fase_por_ano_2020 = df_2020.groupby('FASE')['NOME'].count().reset_index()
fase_por_ano_2020['Ano'] = 2020

fase_por_ano_2021 = df_2021.groupby('FASE')['NOME'].count().reset_index()
fase_por_ano_2021['Ano'] = 2021

fase_por_ano_2022 = df_2022.groupby('FASE')['NOME'].count().reset_index()
fase_por_ano_2022['Ano'] = 2022

# Concatenando os resultados em um único DataFrame
fase_por_ano = pd.concat([fase_por_ano_2020, fase_por_ano_2021, fase_por_ano_2022])

fase_por_ano.columns = ['Fase', 'Quantidade de Alunos', 'Ano']

# Criando o gráfico de barras empilhadas
fig = px.bar(fase_por_ano, x='Ano', y='Quantidade de Alunos', color='Fase',
             text='Quantidade de Alunos', 
             title='Distribuição de Alunos por Fase e Ano',
             labels={'Quantidade de Alunos': 'Quantidade', 'Ano': 'Ano', 'Fase': 'Fase'})

# Customizando o layout
fig.update_traces(textposition='inside', textfont_size=12)
fig.update_layout(barmode='stack')


# Exibindo o gráfico
fig.show()


### Distribuição de Alunos por Fase e Ano

O gráfico acima mostra a distribuição dos alunos ao longo das diferentes fases do curso nos anos de 2020, 2021 e 2022. Cada cor no gráfico representa uma fase específica, e as barras empilhadas mostram a quantidade de alunos em cada fase para cada ano.

- **2020**: Em 2020, a distribuição de alunos mostra uma maior concentração nas fases intermediárias (3ª e 4ª fase), com 155 e 122 alunos respectivamente. As fases iniciais (1ª e 2ª fase) e finais (7ª e 8ª fase) apresentam um menor número de alunos, o que é comum em muitos cursos devido à evasão ou ao fato de que nem todos os alunos avançam ao mesmo ritmo.

- **2021**: O ano de 2021 segue uma distribuição semelhante à de 2020, mas com uma leve diminuição no número total de alunos. A 4ª e 3ª fases continuam a ter a maior quantidade de alunos, sugerindo que muitos alunos progridem para essas fases, mas pode haver desafios em avançar para as fases finais.

- **2022**: Em 2022, observamos uma mudança na distribuição, com uma redução geral no número de alunos nas fases intermediárias (especialmente na 4ª fase). Por outro lado, o número de alunos nas fases iniciais e finais mostra uma leve recuperação. Isso pode indicar uma renovação do corpo discente com a entrada de novos alunos e a progressão de alunos que estavam nas fases intermediárias em anos anteriores.

### Conclusão:
A análise da distribuição de alunos por fase ao longo dos três anos revela um padrão de concentração nas fases intermediárias, que diminui gradualmente à medida que os alunos progridem para as fases finais. A recuperação nas fases iniciais em 2022 sugere uma renovação da base de alunos, o que é um bom indicativo de novas matrículas. No entanto, a queda nas fases intermediárias sugere que há espaço para melhorar a retenção dos alunos ao longo do curso.

In [32]:
# Contando o número de alunos que atingiram o ponto de virada em cada ano
ponto_virada_2020 = df_2020[df_2020['PONTO_VIRADA'] == 'Sim']['NOME'].nunique()
ponto_virada_2021 = df_2021[df_2021['PONTO_VIRADA'] == 'Sim']['NOME'].nunique()
ponto_virada_2022 = df_2022[df_2022['PONTO_VIRADA'] == 'Sim']['NOME'].nunique()

# Contando o total de alunos em cada ano
total_alunos_2020 = df_2020['NOME'].nunique()
total_alunos_2021 = df_2021['NOME'].nunique()
total_alunos_2022 = df_2022['NOME'].nunique()

# Calculando a porcentagem de alunos que atingiram o ponto de virada
percentual_virada_2020 = (ponto_virada_2020 / total_alunos_2020) * 100
percentual_virada_2021 = (ponto_virada_2021 / total_alunos_2021) * 100
percentual_virada_2022 = (ponto_virada_2022 / total_alunos_2022) * 100

# Exibindo os resultados
print(f"2020: {ponto_virada_2020} alunos atingiram o ponto de virada ({percentual_virada_2020:.2f}% do total)")
print(f"2021: {ponto_virada_2021} alunos atingiram o ponto de virada ({percentual_virada_2021:.2f}% do total)")
print(f"2022: {ponto_virada_2022} alunos atingiram o ponto de virada ({percentual_virada_2022:.2f}% do total)")

2020: 94 alunos atingiram o ponto de virada (12.93% do total)
2021: 108 alunos atingiram o ponto de virada (15.74% do total)
2022: 113 alunos atingiram o ponto de virada (13.11% do total)


In [33]:
# Dados para o gráfico
anos = ['2020', '2021', '2022']
ponto_virada = [ponto_virada_2020, ponto_virada_2021, ponto_virada_2022]
percentual_virada = [percentual_virada_2020, percentual_virada_2021, percentual_virada_2022]

# Criando o gráfico com duplo eixo Y
fig = go.Figure()

# Adicionando a linha para o número de alunos que atingiram o ponto de virada
fig.add_trace(go.Scatter(
    x=anos,
    y=ponto_virada,
    mode='lines+markers',
    name='Número de Alunos',
    line=dict(color='blue', width=4)
))

# Adicionando a linha para o percentual de alunos que atingiram o ponto de virada
fig.add_trace(go.Scatter(
    x=anos,
    y=percentual_virada,
    mode='lines+markers+text',
    name='Percentual',
    line=dict(color='red', width=4, dash='dash'),
    yaxis='y2',
    text=[f'{p:.2f}%' for p in percentual_virada],
    textposition='top center'
))

# Configurando o layout com duplo eixo Y
fig.update_layout(
    title='Alunos que Atingiram o Ponto de Virada por Ano',
    xaxis_title='Ano',
    yaxis=dict(
        title='Quantidade de Alunos',
        titlefont=dict(color='blue'),
        tickfont=dict(color='blue')
    ),
    yaxis2=dict(
        title='Percentual',
        titlefont=dict(color='red'),
        tickfont=dict(color='red'),
        overlaying='y',
        side='right'
    ),
    legend=dict(x=0.1, y=0.9)
)

# Exibindo o gráfico
fig.show()

### Análise de Alunos que Atingiram o Ponto de Virada por Ano

O gráfico acima apresenta a evolução do número de alunos que atingiram o ponto de virada ao longo dos anos de 2020, 2021 e 2022. O ponto de virada é um indicador significativo de progresso no desempenho acadêmico, marcando uma mudança positiva na trajetória educacional do aluno. O gráfico também mostra o percentual desses alunos em relação ao total de alunos matriculados em cada ano.

- **2020**: No ano de 2020, 94 alunos atingiram o ponto de virada, representando 12,93% do total de alunos. Este percentual sugere que uma parcela considerável dos alunos conseguiu superar desafios acadêmicos significativos.

- **2021**: Em 2021, o número de alunos que atingiram o ponto de virada aumentou para 108, correspondendo a 15,74% do total. Esse aumento tanto no número absoluto quanto no percentual indica que mais alunos estavam progredindo academicamente de maneira significativa.

- **2022**: O ano de 2022 mostra uma continuidade no aumento do número de alunos que atingiram o ponto de virada, chegando a 113. No entanto, o percentual relativo caiu para 13,11%, o que pode ser explicado pelo crescimento do número total de alunos matriculados, diluindo a representatividade do grupo que atingiu esse ponto.

### Conclusão:
A análise sugere uma tendência positiva de crescimento no número absoluto de alunos que atingem o ponto de virada, o que é um sinal encorajador para o desenvolvimento acadêmico. No entanto, a variação no percentual ao longo dos anos aponta para a importância de contextualizar esses avanços dentro do crescimento do corpo discente total. Isso pode indicar que, embora mais alunos estejam progredindo, a proporção de sucesso relativo pode estar diminuindo, o que requer uma análise mais aprofundada das causas.

In [34]:
# Contando a quantidade de alunos por pedra para cada ano
pedra_por_ano_2020 = df_2020.groupby('PEDRA')['NOME'].count().reset_index()
pedra_por_ano_2020['Ano'] = 2020

pedra_por_ano_2021 = df_2021.groupby('PEDRA')['NOME'].count().reset_index()
pedra_por_ano_2021['Ano'] = 2021

pedra_por_ano_2022 = df_2022.groupby('PEDRA')['NOME'].count().reset_index()
pedra_por_ano_2022['Ano'] = 2022

# Adicionando a coluna de porcentagem para cada ano
pedra_por_ano_2020['Percentual'] = (pedra_por_ano_2020['NOME'] / pedra_por_ano_2020['NOME'].sum()) * 100
pedra_por_ano_2021['Percentual'] = (pedra_por_ano_2021['NOME'] / pedra_por_ano_2021['NOME'].sum()) * 100
pedra_por_ano_2022['Percentual'] = (pedra_por_ano_2022['NOME'] / pedra_por_ano_2022['NOME'].sum()) * 100

# Concatenando os resultados em um único DataFrame
pedra_por_ano = pd.concat([pedra_por_ano_2020, pedra_por_ano_2021, pedra_por_ano_2022])

# Ajustando os nomes das colunas
pedra_por_ano.columns = ['Pedra', 'Quantidade de Alunos', 'Ano', 'Percentual']

# Arredondando o percentual para 2 casas decimais
pedra_por_ano['Percentual'] = pedra_por_ano['Percentual'].round(2)

# Criando um dicionário para associar as pedras ao intervalo de valores
valor_pedra = {
    'Quartzo': 1,
    'Ágata': 2,
    'Ametista': 3,
    'Topázio': 4
}

# Adicionando a coluna de ordem com base no intervalo de valores
pedra_por_ano['Ordem'] = pedra_por_ano['Pedra'].map(valor_pedra)

# Ordenando o DataFrame com base na coluna 'Ordem'
pedra_por_ano = pedra_por_ano.sort_values(by='Ordem')

# Criando o gráfico de barras empilhadas com percentuais e ordenado
fig = px.bar(pedra_por_ano, x='Ano', y='Percentual', color='Pedra',
             text=pedra_por_ano['Percentual'].apply(lambda x: f'{x:.2f}%'), 
             title='Distribuição Percentual de Alunos por Pedra e Ano (Ordenado)',
             labels={'Percentual': 'Percentual (%)', 'Ano': 'Ano', 'Pedra': 'Tipo de Pedra'})

# Customizando o layout
fig.update_traces(textposition='inside', textfont_size=12)
fig.update_layout(barmode='stack')

# Exibindo o gráfico
fig.show()


### Distribuição Percentual de Alunos por Tipo de Pedra e Ano (Ordenado)

O gráfico acima exibe a distribuição percentual dos alunos classificados por tipos de pedra ao longo dos anos de 2020, 2021 e 2022. Os tipos de pedra foram ordenados de acordo com um critério de valor crescente, indo do Quartzo ao Topázio.

- **2020**: Em 2020, a distribuição mostra que a maioria dos alunos foi classificada como Ametista (46,22%), seguida por Ágata (23,52%) e Quartzo (17,61%). Topázio teve a menor representação, com 12,65%. Essa distribuição sugere uma predominância de alunos no grupo intermediário de valor (Ametista), com menos alunos nas categorias de maior e menor valor.

- **2021**: No ano de 2021, a distribuição permanece relativamente estável, mas com um ligeiro aumento na proporção de alunos em Ágata (25,95%) e uma redução em Quartzo (16,03%). Ametista continua sendo a categoria mais representativa, embora com uma leve queda para 43,00%. Topázio mantém uma proporção similar a 2020, com 14,72%.

- **2022**: Em 2022, observa-se uma leve mudança na distribuição, com Ametista ainda predominando, mas com uma leve diminuição para 40,37%. Ágata permanece estável, enquanto a representação de Topázio aumenta ligeiramente para 15,08%. Quartzo também apresenta um pequeno crescimento em relação ao ano anterior, atingindo 15,55%.

### Conclusão:
O gráfico revela uma distribuição relativamente consistente ao longo dos três anos, com Ametista sendo a categoria dominante, o que pode sugerir uma concentração de alunos com características de valor intermediário. As pequenas flutuações em Ágata, Quartzo e Topázio indicam mudanças sutis na composição dos alunos, possivelmente refletindo variações no desempenho ou nas condições de ingresso.

In [35]:
# Selecionando as colunas dos índices
indices = ['IAA', 'IEG', 'IPS', 'IDA', 'IPP', 'IPV', 'IAN', 'INDE']

# Calculando a média e o desvio padrão dos índices para cada ano
descritiva_2020 = df_2020[indices].describe().T[['mean', 'std']]
descritiva_2021 = df_2021[indices].describe().T[['mean', 'std']]
descritiva_2022 = df_2022[indices].describe().T[['mean', 'std']]

# Exibindo as análises descritivas
print("Análise Descritiva 2020:")
print(descritiva_2020)

print("\nAnálise Descritiva 2021:")
print(descritiva_2021)

print("\nAnálise Descritiva 2022:")
print(descritiva_2022)


Análise Descritiva 2020:
          mean       std
IAA   8.368882  1.727980
IEG   7.681155  2.382122
IPS   6.737448  1.374011
IDA   6.322260  2.960073
IPP   7.067859  1.988054
IPV   7.242243  1.775110
IAN   7.431224  2.556944
INDE  7.296111  1.199925

Análise Descritiva 2021:
          mean       std
IAA   8.153499  2.193629
IEG   6.822595  2.458627
IPS   6.843586  1.457148
IDA   5.425948  2.141566
IPP   7.576385  1.072318
IPV   7.407580  1.627080
IAN   6.902332  2.484979
INDE  6.867934  1.402345

Análise Descritiva 2022:
          mean       std
IAA   8.263065  2.080264
IEG   7.880728  1.649023
IPS   6.901102  1.070202
IDA   6.070688  2.059346
IPP   6.299364  1.135510
IPV   7.247953  1.098548
IAN   6.421114  2.387816
INDE  7.028338  1.029912


In [36]:
# Criando os dados para cada ano
radar_data_2020 = df_2020[indices].mean().reset_index()
radar_data_2020.columns = ['Indicador', 'Média']

radar_data_2021 = df_2021[indices].mean().reset_index()
radar_data_2021.columns = ['Indicador', 'Média']

radar_data_2022 = df_2022[indices].mean().reset_index()
radar_data_2022.columns = ['Indicador', 'Média']

# Criando subplots sem títulos individuais para cada gráfico
fig = psub.make_subplots(rows=1, cols=3, 
                         specs=[[{'type': 'polar'}, {'type': 'polar'}, {'type': 'polar'}]])

# Adicionando o gráfico de radar para 2020
fig.add_trace(go.Scatterpolar(r=radar_data_2020['Média'], theta=radar_data_2020['Indicador'], 
                              fill='toself', name='2020'), row=1, col=1)

# Adicionando o gráfico de radar para 2021
fig.add_trace(go.Scatterpolar(r=radar_data_2021['Média'], theta=radar_data_2021['Indicador'], 
                              fill='toself', name='2021'), row=1, col=2)

# Adicionando o gráfico de radar para 2022
fig.add_trace(go.Scatterpolar(r=radar_data_2022['Média'], theta=radar_data_2022['Indicador'], 
                              fill='toself', name='2022'), row=1, col=3)

# Configurando o layout do gráfico sem títulos individuais de subplots
fig.update_layout(title_text='Perfil Médio dos Índices por Ano',
                  polar=dict(radialaxis=dict(visible=True)),
                  showlegend=True)

# Exibindo o gráfico
fig.show()


### Perfil Médio dos Índices por Ano

O gráfico de radar acima apresenta o perfil médio de vários índices acadêmicos ao longo dos anos de 2020, 2021 e 2022. Cada gráfico representa um ano específico e permite comparar a evolução dos indicadores ao longo do tempo.

- **2020**: Em 2020, observamos que os índices de Autoavaliação (IAA), Engajamento (IEG) e Psicossocial (IPS) se destacam, indicando um bom desempenho nesses aspectos. O Índice de Ponto de Virada (IPV) e o Índice de Adequação ao Nível (IAN) apresentam os valores mais baixos, sugerindo áreas que podem requerer mais atenção ou suporte aos alunos.

- **2021**: Em 2021, os índices de Engajamento (IEG) e Psicossocial (IPS) permanecem relativamente estáveis, mas nota-se uma ligeira melhora no Índice de Autoavaliação (IAA) e no Índice de Adequação ao Nível (IAN). No entanto, o Índice de Ponto de Virada (IPV) ainda apresenta valores baixos, indicando uma persistência nos desafios identificados no ano anterior.

- **2022**: Em 2022, há uma melhora generalizada em todos os índices, com destaque para os aumentos no Índice de Engajamento (IEG) e no Índice de Aprendizagem (IDA). O Índice de Autoavaliação (IAA) e o Índice Psicopedagógico (IPP) também apresentam melhorias, refletindo um avanço no desempenho acadêmico médio dos alunos ao longo do tempo.

### Conclusão:
O perfil médio dos índices ao longo dos anos mostra uma tendência de melhoria contínua, com avanços notáveis em áreas como Engajamento e Aprendizagem. No entanto, o Índice de Ponto de Virada (IPV) continua sendo um ponto de atenção, pois permanece consistentemente baixo em comparação com outros índices. Este indicador pode necessitar de intervenções específicas para apoiar os alunos que estão tendo dificuldades em alcançar pontos críticos de progresso acadêmico.

In [37]:
# Selecionando as colunas dos índices
indices = ['IAA', 'IEG', 'IPS', 'IDA', 'IPP', 'IPV', 'IAN', 'INDE']

# Calculando as médias dos índices para cada ano
medias_2020 = df_2020[indices].mean().reset_index()
medias_2020.columns = ['Indicador', 'Média 2020']

medias_2021 = df_2021[indices].mean().reset_index()
medias_2021.columns = ['Indicador', 'Média 2021']

medias_2022 = df_2022[indices].mean().reset_index()
medias_2022.columns = ['Indicador', 'Média 2022']

# Juntando as médias em um único DataFrame
medias_anos = pd.merge(medias_2020, medias_2021, on='Indicador')
medias_anos = pd.merge(medias_anos, medias_2022, on='Indicador')

# Transformando o DataFrame para o formato longo, necessário para o gráfico de linhas
medias_long = pd.melt(medias_anos, id_vars=['Indicador'], 
                      value_vars=['Média 2020', 'Média 2021', 'Média 2022'],
                      var_name='Ano', value_name='Média')

# Criando o gráfico de linhas para comparar os índices ao longo dos anos
fig = px.line(medias_long, x='Indicador', y='Média', color='Ano', 
              markers=True, title='Comparação dos Índices ao Longo dos Anos')

# Exibindo o gráfico
fig.show()


### Comparação dos Índices ao Longo dos Anos

O gráfico acima apresenta a comparação das médias de diferentes índices acadêmicos ao longo dos anos de 2020, 2021 e 2022. Cada linha representa a evolução de um ano específico, permitindo observar as variações no desempenho dos alunos em cada um dos indicadores.

- **Indicador de Autoavaliação (IAA)**: O IAA mantém-se relativamente estável ao longo dos três anos, com uma ligeira queda em 2021, mas recuperando em 2022. Isso sugere que os alunos mantiveram um bom nível de autoconhecimento e avaliação ao longo do período.

- **Indicador de Engajamento (IEG)**: O IEG mostra um comportamento semelhante ao IAA, com uma queda em 2021, mas uma recuperação significativa em 2022. Este índice reflete o nível de envolvimento dos alunos com suas atividades acadêmicas.

- **Indicador Psicossocial (IPS)**: O IPS apresenta uma tendência de declínio ao longo dos anos, com a queda mais acentuada ocorrendo em 2021. A recuperação em 2022 é leve, o que indica que as condições sociais e emocionais dos alunos podem ter sido desafiadas, possivelmente refletindo os impactos da pandemia.

- **Indicador de Aprendizagem (IDA)**: O IDA, que avalia o progresso de aprendizagem dos alunos, mostra uma queda significativa em 2021, mas recupera-se em 2022. A queda pode ter sido causada por dificuldades específicas no ano de 2021, mas a recuperação é um sinal positivo de retomada do ritmo de aprendizagem.

- **Indicador Psicopedagógico (IPP)**: O IPP segue um padrão de estabilidade semelhante ao IAA, com pequenas flutuações, sugerindo consistência nas abordagens psicopedagógicas ao longo dos anos.

- **Indicador de Ponto de Virada (IPV)**: O IPV, que reflete momentos críticos de avanço no desempenho acadêmico, mostra um comportamento estável, mas em um nível relativamente baixo, o que pode indicar que menos alunos estão conseguindo superar barreiras críticas.

- **Indicador de Adequação ao Nível (IAN)**: O IAN tem uma tendência de queda, especialmente em 2022, o que pode indicar que os alunos estão encontrando mais dificuldades para se manterem adequados ao nível esperado de desempenho.

- **Índice de Desenvolvimento Educacional (INDE)**: O INDE, que combina vários dos indicadores mencionados, mostra uma tendência geral de estabilidade, com pequenas flutuações, o que reflete a média do desempenho geral dos alunos ao longo do tempo.

### Conclusão:
O gráfico revela que, embora haja uma recuperação geral em 2022 após as quedas observadas em 2021, alguns indicadores como o IPS e o IAN ainda demonstram desafios. A recuperação em 2022 pode ser um reflexo de esforços direcionados para melhorar o apoio acadêmico e emocional dos alunos, mas as áreas de queda indicam que ainda há espaço para intervenções adicionais.

In [38]:
# Calculando a média do INDE para cada ano
media_inde_2020 = df_2020['INDE'].mean()
media_inde_2021 = df_2021['INDE'].mean()
media_inde_2022 = df_2022['INDE'].mean()

# Exibindo as médias do INDE para cada ano
print(f"Média do INDE em 2020: {media_inde_2020:.2f}")
print(f"Média do INDE em 2021: {media_inde_2021:.2f}")
print(f"Média do INDE em 2022: {media_inde_2022:.2f}")

# Verificando a evolução do INDE
evolucao_2020_2021 = (media_inde_2021 - media_inde_2020) / media_inde_2020 * 100
evolucao_2021_2022 = (media_inde_2022 - media_inde_2021) / media_inde_2021 * 100

print(f"Evolução do INDE de 2020 para 2021: {evolucao_2020_2021:.2f}%")
print(f"Evolução do INDE de 2021 para 2022: {evolucao_2021_2022:.2f}%")


Média do INDE em 2020: 7.30
Média do INDE em 2021: 6.87
Média do INDE em 2022: 7.03
Evolução do INDE de 2020 para 2021: -5.87%
Evolução do INDE de 2021 para 2022: 2.34%


In [39]:
# Criando um DataFrame para facilitar a plotagem
data = {
    'Ano': ['2020', '2021', '2022'],
    'Média INDE': [media_inde_2020, media_inde_2021, media_inde_2022]
}

df_media_inde = pd.DataFrame(data)

# Criando o gráfico de linha para mostrar a evolução do INDE
fig = px.line(df_media_inde, x='Ano', y='Média INDE', 
              title='Evolução do INDE ao Longo dos Anos',
              markers=True)

# Exibindo o gráfico
fig.show()


### Evolução do INDE ao Longo dos Anos

O gráfico acima apresenta a evolução do Índice de Desenvolvimento Educacional (INDE) ao longo dos anos de 2020, 2021 e 2022. O INDE é uma métrica que reflete a média ponderada de diversos indicadores de desempenho acadêmico e psicossocial, fornecendo uma visão geral do desenvolvimento educacional dos alunos.

- **2020**: No ano de 2020, o INDE médio foi de aproximadamente 7,3. Este valor reflete um desempenho relativamente alto dos alunos naquele ano, sugerindo que, apesar dos desafios, os alunos mantiveram um bom nível de desenvolvimento educacional.

- **2021**: Em 2021, o INDE apresentou uma queda significativa, atingindo um valor médio de 6,9. Essa diminuição pode ser atribuída a uma série de fatores, como os desafios impostos pela pandemia, que afetaram o aprendizado e o bem-estar dos alunos. A queda no INDE indica que os alunos enfrentaram dificuldades em manter o mesmo nível de desempenho observado no ano anterior.

- **2022**: Em 2022, o INDE mostrou sinais de recuperação, subindo para uma média de 7,0. Embora ainda abaixo do nível de 2020, este aumento sugere que os esforços para melhorar o suporte educacional e o bem-estar dos alunos começaram a dar frutos, ajudando a recuperar parte do terreno perdido no ano anterior.

### Conclusão:
A evolução do INDE ao longo dos anos indica um período de dificuldades em 2021, seguido por uma recuperação em 2022. A queda significativa em 2021 destaca a importância de continuar a fornecer suporte adequado aos alunos para manter e melhorar o desenvolvimento educacional. O aumento em 2022 é um sinal positivo, mas ainda há espaço para continuar a recuperação e alcançar os níveis observados em 2020.