# Exemplo Pandas

Vamos usar um exemplo de análise para demonstrar mais funções da biblioteca Pandas de Python.

## Carregamento de dados

O primeiro passo será carregar os dados de um arquivo _CSV_. Vamos carregar o arquivo que possui as notas das 4 unidades da disciplina Sistemas Operacionais no período 2017.1. O parâmetro `index_col="id"` indica que a coluna `id` que consta no arquivo será o identificar das linhas do _DataFrame_.

In [5]:
import pandas as pd

so_20171 = pd.read_csv("../dados/notas_so_20171.csv", index_col="id")
so_20171

Unnamed: 0_level_0,nota_1,nota_2,nota_3,nota_4
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,8.3,8.0,9.3,8.0
2,7.0,7.7,4.6,8.7
3,7.8,3.2,7.7,5.1
4,7.3,9.3,9.8,4.8
5,5.8,9.8,10.0,6.8
6,9.6,9.8,10.0,9.0
7,9.0,8.5,8.5,8.0
8,4.0,7.5,5.3,2.0
9,10.0,9.9,9.6,9.1
10,8.3,8.7,8.0,6.7


Podemos usar o comando `info()` para obter informações sobre os tipos das colunas e a presença de dados nulos:

In [7]:
so_20171.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21 entries, 1 to 21
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   nota_1  21 non-null     float64
 1   nota_2  21 non-null     float64
 2   nota_3  21 non-null     float64
 3   nota_4  21 non-null     float64
dtypes: float64(4)
memory usage: 840.0 bytes


Outra função útil é a `describe()`, que calcula estatísticas básicas para as colunas de um _DataFrame_:

In [8]:
so_20171.describe()

Unnamed: 0,nota_1,nota_2,nota_3,nota_4
count,21.0,21.0,21.0,21.0
mean,7.595238,8.438095,7.771429,6.742857
std,2.408003,2.020266,2.242129,2.510492
min,0.0,2.5,1.0,0.0
25%,7.0,8.0,7.0,5.1
50%,8.3,9.0,8.1,7.2
75%,9.3,9.8,9.6,8.7
max,10.0,10.0,10.0,9.8


In [None]:
Já vimos que para calcular a média das notas de cada unidade podemos fazer:

In [10]:
so_20171.mean(numeric_only=True)

nota_1    7.595238
nota_2    8.438095
nota_3    7.771429
nota_4    6.742857
dtype: float64

Suponha que queremos calcular a média das notas de cada uma das 4 unidades para todas as turmas de SO nos últimos 10 períodos. Para fazer do modo acima, precisaríamos de pelo menos 10 linhas de código, uma para cada turma. Isso não parece muito interessante. O jeito mais eficiente de fazer isso é juntando todos os dados em uma única tabela.

Vamos fazer um exemplo carregando os dados de mais um período:

In [13]:
so_20172 = pd.read_csv("../dados/notas_so_20172.csv", index_col="id")
so_20172

Unnamed: 0_level_0,nota_1,nota_2,nota_3,nota_4
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,9.8,9.7,9.5,7.0
2,9.2,9.8,7.0,7.2
3,9.1,8.0,9.5,8.0
4,5.6,7.8,8.5,6.5
5,6.3,8.0,6.3,5.5
6,6.6,6.7,7.2,3.8
7,9.3,9.0,9.2,8.5
8,9.0,10.0,8.7,8.1
9,7.8,8.5,9.0,7.5
10,7.5,8.0,9.0,5.3


## Adicionando novas colunas

Note que a sua estrutura é semelhante à do _DataFrame_ anterior. Desta forma, podemos juntá-los em um único data frame. Antes disso, temos que adicionar uma nova coluna que identifique o período que as notas se referem:

In [16]:
so_20171["periodo"] = "2017.1"
so_20171.head()

Unnamed: 0_level_0,nota_1,nota_2,nota_3,nota_4,periodo
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,8.3,8.0,9.3,8.0,2017.1
2,7.0,7.7,4.6,8.7,2017.1
3,7.8,3.2,7.7,5.1,2017.1
4,7.3,9.3,9.8,4.8,2017.1
5,5.8,9.8,10.0,6.8,2017.1


In [15]:
so_20172["periodo"] = "2017.2"
so_20172.head()

Unnamed: 0_level_0,nota_1,nota_2,nota_3,nota_4,periodo
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,9.8,9.7,9.5,7.0,2017.2
2,9.2,9.8,7.0,7.2,2017.2
3,9.1,8.0,9.5,8.0,2017.2
4,5.6,7.8,8.5,6.5,2017.2
5,6.3,8.0,6.3,5.5,2017.2


O comando `head()` mostra apenas as primeiras 5 linhas da tabela. 

Como os dois _DataFrames_  possuem a mesma estrutura, podemos juntá-los com a função [`concat`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html):

In [50]:
so = pd.concat([so_20171, so_20172])
so

Unnamed: 0_level_0,nota_1,nota_2,nota_3,nota_4,periodo
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,8.3,8.0,9.3,8.0,2017.1
2,7.0,7.7,4.6,8.7,2017.1
3,7.8,3.2,7.7,5.1,2017.1
4,7.3,9.3,9.8,4.8,2017.1
5,5.8,9.8,10.0,6.8,2017.1
6,9.6,9.8,10.0,9.0,2017.1
7,9.0,8.5,8.5,8.0,2017.1
8,4.0,7.5,5.3,2.0,2017.1
9,10.0,9.9,9.6,9.1,2017.1
10,8.3,8.7,8.0,6.7,2017.1


E se quisermos saber as médias de cada período específico, usando a tabela com todas as notas? Vamos mostrar duas formas de fazer isso.

## Filtrando dados

Podemos filtrar os dados de cada período e em seguida calcular a média da unidade 1:


In [21]:
so[so["periodo"] == "2017.1"]["nota_1"].mean()

7.595238095238097

In [22]:
so[so["periodo"] == "2017.2"]["nota_1"].mean()

7.457692307692308

Da mesma forma, podemos ver a fração de alunos com nota acima da média na unidade 1:

In [42]:
len(so[(so["periodo"] == "2017.1") & (so["nota_1"] >= 7)].index) / len(so[(so["periodo"] == "2017.1")].index)

0.7619047619047619

In [43]:
 len(so[(so["periodo"] == "2017.2") & (so["nota_1"] >= 7)].index) / len(so[(so["periodo"] == "2017.2")].index)


0.7307692307692307

Existe uma forma mais adequada para fazer esse tipo de cálculo agrupado por categoria.

## Agrupando por coluna e sumarizando dados

A função `groupby` agrupa os dados de acordo com categorias definidas pelas colunas e aplica funções para cada grupo. A função `summarise` aplica uma função para cada grupo de dados, gerando novas colunas no data frame.

Vamos usar como exemplo o cálculo da média para cada unidade, agrupado por período:

In [51]:
so_media = so.groupby(["periodo"]).mean()
so_media

Unnamed: 0_level_0,nota_1,nota_2,nota_3,nota_4
periodo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017.1,7.595238,8.438095,7.771429,6.742857
2017.2,7.457692,7.876923,6.996154,5.892308


Como fazemos então para calcular a fração de aprovados na unidade 1 para cada período?

In [53]:
def prop_aprovados(df, col="nota_1", nota_aprovacao=7):
    return len(df[df["nota_1"] >= nota_aprovacao].index) / len(df.index)
    
so.groupby(["periodo"]).apply(prop_aprovados)

periodo
2017.1    0.761905
2017.2    0.730769
dtype: float64