#### 0. Importando Biblioteca(s)

In [25]:
# pip install pandas (no cmd)
import pandas as pd

#### 1. Criar lista com notas e definir médias

##### 1.1 Apresentando criação da lista simples

In [26]:
lista_notas = [10, 8.5, 5, 5]
lista_notas

[10, 8.5, 5, 5]

##### 1.2 Calculando média com for-loop (maneira mais tradicional)

In [27]:
soma = 0
for notas in lista_notas:
    soma += notas

print(f"A média é {soma/len(lista_notas)}")

A média é 7.125


#### 2. Usando estrutura de dados Series do Pandas 

##### 2.1 Series
##### é um objeto unidimensional como um array, que contém uma sequência de valores do mesmo tipo

In [28]:
notas = pd.Series([10, 8.5, 5, 5])
notas

0    10.0
1     8.5
2     5.0
3     5.0
dtype: float64

##### 2.2 Definindo index

##### Um Series também possui uma sequência de labels chamada index, que identifica cada elemento da série. Por padrão o index é um inteiro incremental de 0 à n-1, mas pode ser definido na sua criação. Por exemplo, adicionando o nome dos aluno relacionado a cada nota:

In [29]:
notas = pd.Series([10, 8.5, 5, 5], index=["john", "paul", "george", "ringo"])
notas

john      10.0
paul       8.5
george     5.0
ringo      5.0
dtype: float64

##### 2.3 Usando comando único (sem necessidade de for) para manipular multiplos dados

In [30]:
# comando para tirar média com os floats informados na lista 'notas'
notas.mean()

np.float64(7.125)

##### 2.4 Aplicando filtros

In [31]:
# retorna apenas notas maiores iguais a 7
notas[notas >= 7]

john    10.0
paul     8.5
dtype: float64

In [32]:
# retorna apenas notas do index 'paul'
notas["paul"]

np.float64(8.5)

#### 3. Usando estrutura de dados DataFrame do pandas

##### 3.1 DataFrames
##### representa dados como uma tabela retangular, com colunas e linhas que posuem nomes (index). Colunas diferentes podem ser de tipos diferentes (ex: string, int, float), mas para uma coluna específica todos os seus valores terão o mesmo tipo. Podemos pensar no DataFrame como um dicionário de Series.

In [33]:
notas_df = pd.DataFrame({
    "aluno": ["john", "paul", "george", "ringo"],
    "nota1": [10, 8.5, 5, 5],
    "nota2": [9, 10, 1, 4],
    "nota3": [8, 10, 3, 3.6]
})
notas_df

Unnamed: 0,aluno,nota1,nota2,nota3
0,john,10.0,9,8.0
1,paul,8.5,10,10.0
2,george,5.0,1,3.0
3,ringo,5.0,4,3.6


##### 3.2 Adicionando nova coluna (media) e aplicando função (mean) para definir valor dessa coluna

In [34]:
# O parâmetro axis=columns indica que vamos calcular a média para colunas e não para linhas
notas_df["media"] = notas_df[["nota1", "nota2", "nota3"]].mean(axis="columns")  #especificando direção do cálculo (colunas)
#nova coluna        #filtrando apenas essas colunas para o calculo (para não pegar nome)
notas_df

Unnamed: 0,aluno,nota1,nota2,nota3,media
0,john,10.0,9,8.0,9.0
1,paul,8.5,10,10.0,9.5
2,george,5.0,1,3.0,3.0
3,ringo,5.0,4,3.6,4.2


##### 3.3 Função apply (para aplicar uma função)

In [40]:
def calcula_resultado(media):
    return 'APROVADO' if media >= 5 else 'REPROVADO'
 

notas_df["resultado"] = notas_df["media"].apply(calcula_resultado)
notas_df

Unnamed: 0,aluno,nota1,nota2,nota3,media,resultado
0,john,10.0,9,8.0,9.0,APROVADO
1,paul,8.5,10,10.0,9.5,APROVADO
2,george,5.0,1,3.0,3.0,REPROVADO
3,ringo,5.0,4,3.6,4.2,REPROVADO


##### 3.4 Filtros 

In [36]:
# retornando apenas aqueles com APROVADO na coluna resultado
notas_df[notas_df["resultado"] == "APROVADO"]

Unnamed: 0,aluno,nota1,nota2,nota3,media,resultado
0,john,10.0,9,8.0,9.0,APROVADO
1,paul,8.5,10,10.0,9.5,APROVADO


##### Se quisermos calcular a média das notas dos alunos aprovados e dos reprovados? Uma primeira opção é aplicando filtros para cada grupo e em seguida calculando a média:

In [37]:
# filtrando apenas valores numéricos das colunas cujo resultado é aprovado
notas_df[notas_df["resultado"] == "APROVADO"].mean(numeric_only=True)
# ou seja, tirando media entre colunas numericas das linhas cujo aluno são john e paul

nota1    9.25
nota2    9.50
nota3    9.00
media    9.25
dtype: float64

In [38]:
# filtrando apenas valores numéricos das colunas cujo resultado é reprovado
notas_df[notas_df["resultado"] == "REPROVADO"].mean(numeric_only=True)
# ou seja, tirando media entre colunas numericas das linhas cujo aluno são george e ringo

nota1    5.0
nota2    2.5
nota3    3.3
media    3.6
dtype: float64

##### 3.5 Group by

In [43]:
# agrupando aprovados e reprovados, e mostrando medias de cada grupo (tanto media de nota quanto da propria media)
notas_df.groupby(["resultado"]).mean(numeric_only=True)

Unnamed: 0_level_0,nota1,nota2,nota3,media
resultado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
APROVADO,9.25,9.5,9.0,9.25
REPROVADO,5.0,2.5,3.3,3.6


##### 3.6 Ordenação

In [44]:
# ordenando (crescente) com base na média
notas_df.sort_values(by="media")

Unnamed: 0,aluno,nota1,nota2,nota3,media,resultado
2,george,5.0,1,3.0,3.0,REPROVADO
3,ringo,5.0,4,3.6,4.2,REPROVADO
0,john,10.0,9,8.0,9.0,APROVADO
1,paul,8.5,10,10.0,9.5,APROVADO


In [46]:
# ordenando de forma decrescente (para obter o aluno de maior media) e printando dados do indice 0 dessa lista (de maior media)
notas_df.sort_values(by="media", ascending=False).iloc[0]

aluno            paul
nota1             8.5
nota2              10
nota3            10.0
media             9.5
resultado    APROVADO
Name: 1, dtype: object