## Libraries

In [2]:
from pathlib import Path

import pandas as pd

from plotly.subplots import make_subplots
import plotly.graph_objects as go
import plotly.express as px

## Get Data

In [3]:
path = Path('../data/raw/PEDE_PASSOS_DATASET_FIAP.csv')

In [4]:
data = pd.read_csv(path, sep=';')

In [5]:
data.head()

Unnamed: 0,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,FASE_TURMA_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,...,IPP_2022,REC_AVA_1_2022,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022
0,Escola Pública,ALUNO-1,11.0,2.0,2H,Não,7.883752,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,,,,,,,,,,
1,,ALUNO-2,,,,,,,,,...,5.625,Mantido na Fase + Bolsa,Mantido na Fase atual,,,Sim,Não,7.916665,5.0,Fase 2 (5º e 6º ano)
2,Escola Pública,ALUNO-3,12.0,2.0,3H,Não,7.856389666666666,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,,,,,,,,,,
3,Escola Pública,ALUNO-4,10.0,2.0,1D,Não,5.076252,D,Quartzo,Ponto a melhorar em 2021: Melhorar a sua entre...,...,6.25,Promovido de Fase,Mantido na Fase atual,Promovido de Fase,,Não,Não,8.055553,5.0,Fase 3 (7º e 8º ano)
4,Escola Pública,ALUNO-5,10.0,1.0,2M,Não,8.077085,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,6.458333,Mantido na Fase atual,Promovido de Fase,Mantido na Fase atual,,Não,Não,7.833337,5.0,Fase 3 (7º e 8º ano)


In [6]:
data.columns

Index(['INSTITUICAO_ENSINO_ALUNO_2020', 'NOME', 'IDADE_ALUNO_2020',
       'ANOS_PM_2020', 'FASE_TURMA_2020', 'PONTO_VIRADA_2020', 'INDE_2020',
       'INDE_CONCEITO_2020', 'PEDRA_2020', 'DESTAQUE_IEG_2020',
       'DESTAQUE_IDA_2020', 'DESTAQUE_IPV_2020', 'IAA_2020', 'IEG_2020',
       'IPS_2020', 'IDA_2020', 'IPP_2020', 'IPV_2020', 'IAN_2020', 'FASE_2021',
       'TURMA_2021', 'INSTITUICAO_ENSINO_ALUNO_2021',
       'SINALIZADOR_INGRESSANTE_2021', 'PEDRA_2021', 'INDE_2021', 'IAA_2021',
       'IEG_2021', 'IPS_2021', 'IDA_2021', 'IPP_2021', 'REC_EQUIPE_1_2021',
       'REC_EQUIPE_2_2021', 'REC_EQUIPE_3_2021', 'REC_EQUIPE_4_2021',
       'PONTO_VIRADA_2021', 'IPV_2021', 'IAN_2021', 'NIVEL_IDEAL_2021',
       'DEFASAGEM_2021', 'FASE_2022', 'TURMA_2022', 'ANO_INGRESSO_2022',
       'BOLSISTA_2022', 'INDE_2022', 'CG_2022', 'CF_2022', 'CT_2022',
       'PEDRA_2022', 'DESTAQUE_IEG_2022', 'DESTAQUE_IDA_2022',
       'DESTAQUE_IPV_2022', 'IAA_2022', 'IEG_2022', 'IPS_2022', 'IDA_2022',
       

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 69 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   INSTITUICAO_ENSINO_ALUNO_2020  728 non-null    object 
 1   NOME                           1349 non-null   object 
 2   IDADE_ALUNO_2020               728 non-null    object 
 3   ANOS_PM_2020                   728 non-null    object 
 4   FASE_TURMA_2020                728 non-null    object 
 5   PONTO_VIRADA_2020              702 non-null    object 
 6   INDE_2020                      728 non-null    object 
 7   INDE_CONCEITO_2020             728 non-null    object 
 8   PEDRA_2020                     728 non-null    object 
 9   DESTAQUE_IEG_2020              728 non-null    object 
 10  DESTAQUE_IDA_2020              728 non-null    object 
 11  DESTAQUE_IPV_2020              703 non-null    object 
 12  IAA_2020                       728 non-null    o

In [8]:
long_data = pd.melt(data, id_vars=['NOME', 'IDADE_ALUNO_2020'], var_name='VARIAVEL', value_name='VALOR')

In [9]:
long_data.head()

Unnamed: 0,NOME,IDADE_ALUNO_2020,VARIAVEL,VALOR
0,ALUNO-1,11.0,INSTITUICAO_ENSINO_ALUNO_2020,Escola Pública
1,ALUNO-2,,INSTITUICAO_ENSINO_ALUNO_2020,
2,ALUNO-3,12.0,INSTITUICAO_ENSINO_ALUNO_2020,Escola Pública
3,ALUNO-4,10.0,INSTITUICAO_ENSINO_ALUNO_2020,Escola Pública
4,ALUNO-5,10.0,INSTITUICAO_ENSINO_ALUNO_2020,Escola Pública


In [10]:
long_data[['VARIAVEL', 'ANO']] = long_data['VARIAVEL'].str.rsplit('_', n=1, expand=True)

In [11]:
long_data.head()

Unnamed: 0,NOME,IDADE_ALUNO_2020,VARIAVEL,VALOR,ANO
0,ALUNO-1,11.0,INSTITUICAO_ENSINO_ALUNO,Escola Pública,2020
1,ALUNO-2,,INSTITUICAO_ENSINO_ALUNO,,2020
2,ALUNO-3,12.0,INSTITUICAO_ENSINO_ALUNO,Escola Pública,2020
3,ALUNO-4,10.0,INSTITUICAO_ENSINO_ALUNO,Escola Pública,2020
4,ALUNO-5,10.0,INSTITUICAO_ENSINO_ALUNO,Escola Pública,2020


In [12]:
long_data['VARIAVEL'].unique()

array(['INSTITUICAO_ENSINO_ALUNO', 'ANOS_PM', 'FASE_TURMA',
       'PONTO_VIRADA', 'INDE', 'INDE_CONCEITO', 'PEDRA', 'DESTAQUE_IEG',
       'DESTAQUE_IDA', 'DESTAQUE_IPV', 'IAA', 'IEG', 'IPS', 'IDA', 'IPP',
       'IPV', 'IAN', 'FASE', 'TURMA', 'SINALIZADOR_INGRESSANTE',
       'REC_EQUIPE_1', 'REC_EQUIPE_2', 'REC_EQUIPE_3', 'REC_EQUIPE_4',
       'NIVEL_IDEAL', 'DEFASAGEM', 'ANO_INGRESSO', 'BOLSISTA', 'CG', 'CF',
       'CT', 'NOTA_PORT', 'NOTA_MAT', 'NOTA_ING', 'QTD_AVAL', 'REC_AVA_1',
       'REC_AVA_2', 'REC_AVA_3', 'REC_AVA_4', 'INDICADO_BOLSA'],
      dtype=object)

In [13]:
fig = make_subplots(rows=1, cols=3, subplot_titles=('Pedra 2020', 'Pedra 2021', 'Pedra 2022'), shared_yaxes=True)

In [14]:
pedras = ['Ametista', 'Quartzo', 'Topázio', 'Ágata']
pedra = long_data[long_data['VALOR'].isin(pedras)]

In [15]:
anos = ['2020', '2021', '2022']

for i, ano in enumerate(anos, start=1):
    data_ano = pedra[pedra['ANO']==ano]

    if data_ano.empty:
        print(f"Nenhum dado válido encontrado para o ano {ano}")
        continue

    valores = data_ano['VALOR'].value_counts()
    total = valores.sum()

    fig.add_trace(
        go.Bar(x=valores.index, y=valores.values, name=f'Ano {ano}',
               text=[f"{v} ({v / total:.1%})" for v in valores.values], textposition='auto'),
               row=1, col=i
    )

fig.update_layout(
    title="Classificação de PEDRA por Ano",
    height=400,
    width=1200,
    showlegend=False
)

fig.show()

In [16]:
# Lista de valores válidos
valores_validos = ['Ametista', 'Quartzo', 'Topázio', 'Ágata']

# Filtrar os dados para apenas valores válidos

anos = ['2020', '2021', '2022']

for ano in anos:
    # Filtrar por ano
    data_ano = pedra[pedra['ANO'] == ano]
    
    if data_ano.empty:
        print(f"Nenhum dado válido encontrado para o ano {ano}")
        continue
    
    # Contar valores
    valores = data_ano['VALOR'].value_counts()
    total = valores.sum()  # Total de ocorrências para calcular o percentual
    
    # Preparar os dados para o gráfico
    df_plot = valores.reset_index()
    df_plot.columns = ['Valor', 'Quantidade']
    df_plot['Percentual'] = df_plot['Quantidade'] / total * 100
    
    # Criar o gráfico com px
    fig = px.bar(
        df_plot,
        x='Valor',
        y='Quantidade',
        text=df_plot.apply(lambda row: f"{row['Quantidade']} ({row['Percentual']:.1f}%)", axis=1),
        title=f"Classificação de PEDRA - Ano {ano}",
        labels={'Quantidade': 'Quantidade'},
        template='plotly_white'
    )
    
    # Ajustar o layout
    fig.update_traces(textposition='outside')  # Mostrar rótulos fora das barras
    fig.update_layout(
        height=400,
        width=600,
        yaxis=dict(range=[0, 400]),  # Padronizar o eixo Y
    )
    
    # Mostrar o gráfico
    fig.show()

    fig.write_html(f'../reports/figures/pedra_{ano}.html')

In [17]:
contagem_com_inde = long_data[(long_data['VARIAVEL'] == 'INDE') & (long_data['VALOR'].notna())].groupby('ANO')['NOME'].nunique()
print(contagem_com_inde)

ANO
2020    728
2021    686
2022    862
Name: NOME, dtype: int64


In [30]:
fig = px.bar(contagem_com_inde, x=contagem_com_inde.index, y=contagem_com_inde.values, text=contagem_com_inde.values, title='Quantidade de alunos com INDE por ano', template='plotly_white')

fig.update_traces(textposition='outside')  # Mostrar rótulos fora das barras
fig.update_layout(
    height=400,
    width=600,
    yaxis_title=None,
    yaxis=dict(range=[0, 999])
)

fig.show()
fig.write_html('../reports/figures/alunos_por_ano.html')

In [29]:
status_aluno_2020 = long_data[(long_data['ANO']=='2020') & (long_data['VARIAVEL']=='FASE_TURMA')]
status_aluno_2020.head()
status_aluno_2020.loc[status_aluno_2020['VARIAVEL'] == 'FASE_TURMA', 'VALOR'] = status_aluno_2020['VALOR'].str[0]
status_aluno_2020['VARIAVEL'] = status_aluno_2020['VARIAVEL'].replace('FASE_TURMA', 'FASE')
status_aluno_2020.head()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,NOME,IDADE_ALUNO_2020,VARIAVEL,VALOR,ANO
2698,ALUNO-1,11.0,FASE,2.0,2020
2699,ALUNO-2,,FASE,,2020
2700,ALUNO-3,12.0,FASE,3.0,2020
2701,ALUNO-4,10.0,FASE,1.0,2020
2702,ALUNO-5,10.0,FASE,2.0,2020


In [42]:
# Contar a quantidade de alunos por FASE
contagem_fase = status_aluno_2020['VALOR'].value_counts().reset_index()
contagem_fase.columns = ['FASE', 'Quantidade']

# Criar o gráfico de barras
fig = px.bar(
    contagem_fase,
    x='FASE',
    y='Quantidade',
    text='Quantidade',
    title='Contagem de Alunos por FASE em 2020',
    labels={'Quantidade': 'Quantidade de Alunos'},
    template='plotly_white'
)

# Ajustar o layout
fig.update_traces(textposition='outside')
fig.update_layout(
    height=400,
    width=600,
    yaxis=dict(range=[0, contagem_fase['Quantidade'].max() + 50])
)

# Mostrar o gráfico
fig.show()