In [None]:
"""
    *** DATASET REPORT ***
    
    Vamos obter informações sobre o rendimento de alunos de um curso em algumas
    disciplinas ao longo dos anos.

    O primeiro arquivo (dataset_report.csv), refere-se ao aproveitamento de estudantes 
    na disciplina ALGORITMOS 1 entre os anos de 2011 e 2022.

    A primeira coluna (matricula) é composta por números inteiros, onde 
    cada número representa um indivíduo. Assim, repetições nessa coluna indicam 
    que o estudante fez mais de uma vez a mesma matéria.

    Atenção: 
    R-nota indica REPROVAÇÃO POR NOTA
    R-freq REPROVAÇÃO POR FALTA 
    
    Se houver outro 'status' para representar reprovação, este dever ser 
    trocado para o rótulo adequado (R-nota ou R-freq). 
    
    Frequências < 75 causam reprovação por falta; 
    Médias abaixo de 50 causam reprovação por nota.

    Analise o dataset do referido arquivo para responder as seguintes perguntas:

    1.  Qual é a média de nota dos aprovados (no período total e por ano)?
    2.  Qual é a média de nota dos reprovados por nota (período total e ano)?
    3.  Qual é a frequência dos reprovados por nota (período total e por ano)?
    4.  Qual a porcentagem de evasões (total e anual)?
    5.  Como os anos de pandemia impactaram no rendimento dos estudantes em 
        relação aos anos anteriores, considerando o rendimento dos aprovados, a taxa 
        de cancelamento e as reprovações? Considere como anos de pandemia 
        os anos de 2020 e 2021.
    6.  Compare a volta às aulas híbrida (2022 período 1) com os anos de 
        pandemia e os anos anteriores.
    7.  Compare a volta às aulas presencial (2022 período 2) com a volta 
        híbrida do item anterior.
"""

In [3]:
import pandas

# carrega o dataframe
dataframe = pandas.read_csv('dataset.csv')

In [9]:
# remove matriculas em andamento (com ano 2022 e período 2) para que não altere as estatísticas
dataframe = dataframe[(dataframe['ano'] != 2022) | (dataframe['periodo'] != 2)]


In [12]:
print('1.  Qual é a média de nota dos aprovados (no período total e por ano)?')

# remove os aprovados do tipo EQUIVALENCIA para não alterar as estatísticas (esses registros estão com nota 0)
aprovados = dataframe[(dataframe['status'] == 'Aprovado') & (dataframe['tipo'] != 'EQUIVALENCIA')]
media_aprovados_total = aprovados['nota'].mean()

print(f"Média de nota dos aprovados (total): {media_aprovados_total:.2f}")

media_aprovados_ano = aprovados.groupby('ano')['nota'].mean()

print(f"Média de nota dos aprovados por ano:")
print(media_aprovados_ano)

1.  Qual é a média de nota dos aprovados (no período total e por ano)?
Média de nota dos aprovados (total): 77.58
Média de nota dos aprovados por ano:
ano
2011    50.000000
2013    72.714286
2014    70.666667
2015    68.576923
2016    72.093023
2017    78.106061
2018    76.406250
2019    74.741176
2020    84.466667
2021    83.882353
2022    77.818182
Name: nota, dtype: float64


In [13]:
print('2.  Qual é a média de nota dos reprovados por nota (período total e ano)?')

reprovados_nota = dataframe[dataframe['status'] == 'R-nota']
media_reprovados_nota_total = reprovados_nota['nota'].mean()

print(f"Média de nota dos reprovados por nota (total): {media_reprovados_nota_total:.2f}")

media_reprovados_nota_ano = reprovados_nota.groupby('ano')['nota'].mean()

print(f"Média de nota dos reprovados por nota por ano:")
print(media_reprovados_nota_ano)


2.  Qual é a média de nota dos reprovados por nota (período total e ano)?
Média de nota dos reprovados por nota (total): 22.04
Média de nota dos reprovados por nota por ano:
ano
2012    24.000000
2013    30.000000
2014    25.000000
2015    19.833333
2016    15.400000
2017    25.904762
2018    23.136364
2019    23.321429
2020    25.875000
2021    19.589744
2022    19.777778
Name: nota, dtype: float64


In [17]:
# total de alunos que reprovaram por nota em relação ao total de alunos que reprovaram (período total e por ano)
print('3.  Qual é a frequência dos reprovados por nota (período total e por ano)?')

# Create a group of students who failed
failed_students = dataframe[dataframe['status'].isin(['R-nota', 'R-freq'])]

# Total Period
total_failed_students = len(failed_students)
total_students = len(dataframe['matricula'].unique())
percentage_failed_by_grade_total = (len(dataframe[dataframe['status'] == 'R-nota']) / total_failed_students) * 100

print(f"Porcentagem de alunos reprovados por nota (em relação aos que reprovaram - total): {percentage_failed_by_grade_total:.2f}%")

# By Year
failed_students_by_year = failed_students.groupby('ano')
percentage_failed_by_grade_year = failed_students_by_year['status'].apply(lambda x: len(x[x == 'R-nota']) / len(x)) * 100

print(f"Porcentagem de alunos reprovados por nota (em relação aos que reprovaram - por ano):")
print(percentage_failed_by_grade_year)




3.  Qual é a frequência dos reprovados por nota (período total e por ano)?
Porcentagem de alunos reprovados por nota (em relação aos que reprovaram - total): 76.78%
Porcentagem de alunos reprovados por nota (em relação aos que reprovaram - por ano):
ano
2012     50.000000
2013    100.000000
2014     20.000000
2015     85.714286
2016     83.333333
2017     91.304348
2018     81.481481
2019     80.000000
2020     66.666667
2021     70.909091
2022     79.411765
Name: status, dtype: float64


In [18]:
print('4.   Qual a porcentagem de evasões (total e anual)?')

# Identify students who enrolled but did not appear in any subsequent periods
potential_dropouts = dataframe.groupby('matricula')['periodo'].nunique() == 1

# Filter the DataFrame to only include potential dropouts
dropouts = dataframe[potential_dropouts]

# Total Period Dropout Rate
total_dropouts = len(dropouts)
total_students = len(dataframe['matricula'].unique())
percentage_dropout_total = (total_dropouts / total_students) * 100

print(f"Porcentagem de evasão (total): {percentage_dropout_total:.2f}%")

# Annual Dropout Rate
dropout_by_year = dropouts.groupby('ano')['matricula'].nunique()
percentage_dropout_year = dropout_by_year / dataframe.groupby('ano')['matricula'].nunique() * 100

print(f"Porcentagem de evasão (anual):")
print(percentage_dropout_year.apply(lambda x: f"{x:.2f}%"))


4.   Qual a porcentagem de evasões (total e anual)?


  dropouts = dataframe[potential_dropouts]


IndexingError: Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match).