# Introdução à biblioteca Pandas

Pandas é uma biblioteca Python muito usada para manipulação e análise de dados. Nós iremos usar essa biblioteca nas atividades da disciplina.

Para instalar a biblioteca Pandas voc o comando `pip install pandas`. Em seguida, carregue a biblioteca com o comando abaixo:

In [1]:
import pandas as pd

Suponha que você tem uma lista de notas de uma unidade de uma disciplina:

In [10]:
notas_lst = [10, 8.5, 5, 5]
notas_lst

[10, 8.5, 5, 5]

Uma forma tradicional de calcular a média das notas é através de um `for-loop`:

In [11]:
soma = 0
for nota in notas_lst:
    soma += nota

print(f"A média é {soma/len(notas_lst)}")

A média é 7.125


Nós vamos ver que à medida que precisamos manipular dados e calcular estatísticas em agrupamentos, o uso de `loops` se torna muito complexo. Veremos que a biblioteca Pandas apresenta muitas facilidades para manipulação e análise de dados através de suas estruturas de dados e funções aplicadas nos dados.

## Estruturas de dados Pandas

O Pandas tem duas estruturas de dados principais: _Series_ e _DataFrame_.

### Series

Uma _Series_ é um objeto unidimensional como um array, que contém uma sequência de valores do mesmo tipo.
Abaixo temos um exemplo da criação de _Series_ recebendo uma lista de notas como entrada:

In [6]:
notas = pd.Series([10, 8.5, 5, 5])
notas

0    10.0
1     8.5
2     5.0
3     5.0
dtype: float64

Um _Series_ também possui uma sequência de _labels_ chamada _index_, que identifica cada elemento da série. Por padrão o _index_ é um inteiro incremental de 0 à n-1, mas pode ser definido na sua criação. Por exemplo, adicionando o nome dos aluno relacionado a cada nota:

In [8]:
notas = pd.Series([10, 8.5, 5, 5], index=["john", "paul", "george", "ringo"])
notas

john      10.0
paul       8.5
george     5.0
ringo      5.0
dtype: float64

O Pandas pode aplicar funções em todos os dados de um série sem a necessidade de `loops`, como no exemplo abaixo que calcula a média:

In [12]:
notas.mean()

7.125

Também podemos aplicar filtros, extraindo por exemplo apenas as notas acima da média:

In [13]:
notas[notas >= 7]

john    10.0
paul     8.5
dtype: float64

Ou pegar a nota com um _index_ específico:

In [15]:
notas["paul"]

8.5

### DataFrame

Um _DataFrame_ representa dados como uma tabela retangular, com colunas e linhas que posuem nomes (_index_). Colunas diferentes podem ser de tipos diferentes (ex: string, int, float), mas para uma coluna específica todos os seus valores terão o mesmo tipo. Podemos pensar no _DataFrame_ como um dicionário de _Series_.

Uma das formas de criar um _DataFrame_ é passando um dicionário de listas de mesmo tamanho, como no exemplo abaixo:

In [43]:
notas_df = pd.DataFrame({
    "aluno": ["john", "paul", "george", "ringo"],
    "nota1": [10, 8.5, 5, 5],
    "nota2": [9, 10, 1, 4],
    "nota3": [8, 10, 3, 3.6]
})
notas_df

Unnamed: 0,aluno,nota1,nota2,nota3
0,john,10.0,9,8.0
1,paul,8.5,10,10.0
2,george,5.0,1,3.0
3,ringo,5.0,4,3.6


Para adicionar uma nova coluna com a média de cada aluno na disciplina, podemos aplicar a função [`mean`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mean.html) nas colunas de notas do _DataFrame_. O parâmetro `axis=columns` indica que vamos calcular a média para colunas e não para linhas.

In [45]:
notas_df["media"] = notas_df[["nota1", "nota2", "nota3"]].mean(axis="columns")
notas_df

Unnamed: 0,aluno,nota1,nota2,nota3,media
0,john,10.0,9,8.0,9.0
1,paul,8.5,10,10.0,9.5
2,george,5.0,1,3.0,3.0
3,ringo,5.0,4,3.6,4.2


E se quisermos adicionar uma nova coluna que indica se um aluno foi aprovado (`nota >= 5`) ou reprovado? Podemos criar uma função que faça esse cálculo e usar a função [`apply`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html) de um _DataFrame_ para aplicar para cada linha:

In [46]:
def calcula_resultado(media):
    return 'APROVADO' if media >= 5 else 'REPROVADO'
 

notas_df["resultado"] = notas_df["media"].apply(calcula_resultado)
notas_df

Unnamed: 0,aluno,nota1,nota2,nota3,media,resultado
0,john,10.0,9,8.0,9.0,APROVADO
1,paul,8.5,10,10.0,9.5,APROVADO
2,george,5.0,1,3.0,3.0,REPROVADO
3,ringo,5.0,4,3.6,4.2,REPROVADO


Podemos filtrar linhas tabela de acordo com alguma condição. Por exemplo, filtrando apenas os aprovados:

In [48]:
notas_df[notas_df["resultado"] == "APROVADO"]

Unnamed: 0,aluno,nota1,nota2,nota3,media,resultado
0,john,10.0,9,8.0,9.0,APROVADO
1,paul,8.5,10,10.0,9.5,APROVADO


Se quisermos calcular a média das notas dos alunos aprovados e dos reprovados? Uma primeira opção é aplicando filtros para cada grupo e em seguida calculando a média:

In [51]:
notas_df[notas_df["resultado"] == "APROVADO"].mean(numeric_only=True)

nota1    9.25
nota2    9.50
nota3    9.00
media    9.25
dtype: float64

In [52]:
notas_df[notas_df["resultado"] == "REPROVADO"].mean(numeric_only=True)

nota1    5.0
nota2    2.5
nota3    3.3
media    3.6
dtype: float64

Nesse exemplo só temos dois grupos, então é relativamente fácil filtrar e aplicar a função em seguida. Quando temos muitos grupos, uma forma mais adequada é aplicando a função `groupby` para aplicar funções para os grupos definidos pelos valores de colunas da tabela. Exemplos:

In [53]:
notas_df.groupby(["resultado"]).mean()

Unnamed: 0_level_0,nota1,nota2,nota3,media
resultado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
APROVADO,9.25,9.5,9.0,9.25
REPROVADO,5.0,2.5,3.3,3.6


E

# Referências

- [Python for Data Analysis - 5  Getting Started with pandas](https://wesmckinney.com/book/pandas-basics.html)