# Exemplo Pandas

Vamos usar um exemplo de análise para demonstrar mais funções da biblioteca Pandas de Python.

## Carregamento de dados

O primeiro passo será carregar os dados que estão armazenados em um arquivo CSV. O arquivo que possui as notas das 4 unidades da disciplina Sistemas Operacionais no período 2017.1. O parâmetro `index_col="id"` indica que a coluna `id` que consta no arquivo será o identificar das linhas do _DataFrame_.

In [184]:
import numpy as np
import pandas as pd

so_20171 = pd.read_csv("../dados/notas_so_20171.csv")
so_20171

Unnamed: 0,id,nota_1,nota_2,nota_3,nota_4
0,1,8.3,8.0,9.3,8.0
1,2,7.0,7.7,4.6,8.7
2,3,7.8,3.2,7.7,5.1
3,4,7.3,9.3,9.8,4.8
4,5,5.8,9.8,10.0,6.8
5,6,9.6,9.8,10.0,9.0
6,7,9.0,8.5,8.5,8.0
7,8,4.0,7.5,5.3,2.0
8,9,10.0,9.9,9.6,9.1
9,10,8.3,8.7,8.0,6.7


Podemos usar o comando `info()` para obter informações sobre os tipos das colunas e a presença de dados nulos:

In [185]:
so_20171.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      21 non-null     int64  
 1   nota_1  21 non-null     float64
 2   nota_2  21 non-null     float64
 3   nota_3  21 non-null     float64
 4   nota_4  21 non-null     float64
dtypes: float64(4), int64(1)
memory usage: 968.0 bytes


Outra função útil é a `describe()`, que calcula estatísticas básicas para as colunas de um _DataFrame_:

In [186]:
so_20171.describe()

Unnamed: 0,id,nota_1,nota_2,nota_3,nota_4
count,21.0,21.0,21.0,21.0,21.0
mean,11.0,7.595238,8.438095,7.771429,6.742857
std,6.204837,2.408003,2.020266,2.242129,2.510492
min,1.0,0.0,2.5,1.0,0.0
25%,6.0,7.0,8.0,7.0,5.1
50%,11.0,8.3,9.0,8.1,7.2
75%,16.0,9.3,9.8,9.6,8.7
max,21.0,10.0,10.0,10.0,9.8


Já vimos que para calcular a média das notas de cada unidade podemos fazer:

In [187]:
so_20171.mean(numeric_only=True)

id        11.000000
nota_1     7.595238
nota_2     8.438095
nota_3     7.771429
nota_4     6.742857
dtype: float64

Suponha que queremos calcular a média das notas de cada uma das 4 unidades para todas as turmas de SO nos últimos 10 períodos. Para fazer do modo acima, precisaríamos de pelo menos 10 linhas de código, uma para cada turma. Isso não parece muito interessante. O jeito mais eficiente de fazer isso é juntar todos os dados em uma única tabela e aplicar funções em grupos de dados.

Vamos fazer um exemplo carregando os dados de mais um período (2017.2):

In [188]:
so_20172 = pd.read_csv("../dados/notas_so_20172.csv")
so_20172

Unnamed: 0,id,nota_1,nota_2,nota_3,nota_4
0,1,9.8,9.7,9.5,7.0
1,2,9.2,9.8,7.0,7.2
2,3,9.1,8.0,9.5,8.0
3,4,5.6,7.8,8.5,6.5
4,5,6.3,8.0,6.3,5.5
5,6,6.6,6.7,7.2,3.8
6,7,9.3,9.0,9.2,8.5
7,8,9.0,10.0,8.7,8.1
8,9,7.8,8.5,9.0,7.5
9,10,7.5,8.0,9.0,5.3


## Concatenando DataFrames

Note que a sua estrutura é semelhante à do _DataFrame_ anterior. Desta forma, podemos juntá-los em um único data frame. Antes disso, temos que adicionar uma nova coluna que identifique o período que as notas se referem:

In [189]:
so_20171["periodo"] = "2017.1"
so_20171.head()

Unnamed: 0,id,nota_1,nota_2,nota_3,nota_4,periodo
0,1,8.3,8.0,9.3,8.0,2017.1
1,2,7.0,7.7,4.6,8.7,2017.1
2,3,7.8,3.2,7.7,5.1,2017.1
3,4,7.3,9.3,9.8,4.8,2017.1
4,5,5.8,9.8,10.0,6.8,2017.1


In [190]:
so_20172["periodo"] = "2017.2"
so_20172.head()

Unnamed: 0,id,nota_1,nota_2,nota_3,nota_4,periodo
0,1,9.8,9.7,9.5,7.0,2017.2
1,2,9.2,9.8,7.0,7.2,2017.2
2,3,9.1,8.0,9.5,8.0,2017.2
3,4,5.6,7.8,8.5,6.5,2017.2
4,5,6.3,8.0,6.3,5.5,2017.2


O comando `head()` mostra apenas as primeiras linhas da tabela. 

Como os dois _DataFrames_  possuem as mesmas colunas, podemos juntá-los com a função [`concat`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html):

In [191]:
so = pd.concat([so_20171, so_20172])
so

Unnamed: 0,id,nota_1,nota_2,nota_3,nota_4,periodo
0,1,8.3,8.0,9.3,8.0,2017.1
1,2,7.0,7.7,4.6,8.7,2017.1
2,3,7.8,3.2,7.7,5.1,2017.1
3,4,7.3,9.3,9.8,4.8,2017.1
4,5,5.8,9.8,10.0,6.8,2017.1
5,6,9.6,9.8,10.0,9.0,2017.1
6,7,9.0,8.5,8.5,8.0,2017.1
7,8,4.0,7.5,5.3,2.0,2017.1
8,9,10.0,9.9,9.6,9.1,2017.1
9,10,8.3,8.7,8.0,6.7,2017.1


E se quisermos saber as médias de cada período específico, usando a tabela com todas as notas? Vamos mostrar duas formas de fazer isso.

## Filtrando dados

Podemos filtrar os dados de cada período e em seguida calcular a média da unidade 1:


In [192]:
so[so["periodo"] == "2017.1"]["nota_1"].mean()

7.595238095238097

In [193]:
so[so["periodo"] == "2017.2"]["nota_1"].mean()

7.457692307692308

Da mesma forma, podemos ver a fração de alunos com nota acima da média na unidade 1:

In [194]:
len(so[(so["periodo"] == "2017.1") & (so["nota_1"] >= 7)].index) / len(so[(so["periodo"] == "2017.1")].index)

0.7619047619047619

In [195]:
 len(so[(so["periodo"] == "2017.2") & (so["nota_1"] >= 7)].index) / len(so[(so["periodo"] == "2017.2")].index)


0.7307692307692307

Existe uma forma mais adequada para fazer esse tipo de cálculo agrupado por categoria.

## Agrupando por coluna e sumarizando dados

A função `groupby` agrupa os dados de acordo com categorias definidas pelas colunas e aplica funções para cada grupo. A função `summarise` aplica uma função para cada grupo de dados, gerando novas colunas no data frame.

Vamos usar como exemplo o cálculo da média para cada unidade, agrupado por período:

In [196]:
so_media = so.groupby(["periodo"]).mean()
so_media

Unnamed: 0_level_0,id,nota_1,nota_2,nota_3,nota_4
periodo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017.1,11.0,7.595238,8.438095,7.771429,6.742857
2017.2,13.5,7.457692,7.876923,6.996154,5.892308


Como fazemos então para calcular a fração de aprovados na unidade 1 para cada período?

In [197]:
def prop_aprovados(df, col="nota_1", nota_aprovacao=7):
    return len(df[df["nota_1"] >= nota_aprovacao].index) / len(df.index)
    
so.groupby(["periodo"]).apply(prop_aprovados)

periodo
2017.1    0.761905
2017.2    0.730769
dtype: float64

Ainda temos um incoveniente: ainda precisamos fazer cálculos especificando cada unidade que pretendemos observar. Além disso, se em algum dos períodos tivermos disciplinas com uma quantidade diferente de unidades (3 ao invés de 4) teríamos problemas com a estrutura atual. Vamos ver a seguir como organizar os dados de uma forma ainda mais adequada.

## Organizando dados (tidy data)

Vamos carregar os dados de outras duas disciplinas, Sistemas Distribuídos e Avaliação de Desempenho, aproveitando para adicionar o nome da disciplina e o período no data frame:

In [198]:
ads_20171 = pd.read_csv("../dados/notas_ads_20171.csv")
ads_20171["disciplina"] = "Avaliação de Desempenho de Sistemas"
ads_20171["periodo"] = "2017.1"
ads_20171.head()

Unnamed: 0,id,nota_1,nota_2,nota_3,disciplina,periodo
0,1,9.8,7.0,5.0,Avaliação de Desempenho de Sistemas,2017.1
1,2,8.8,9.7,3.5,Avaliação de Desempenho de Sistemas,2017.1
2,3,9.5,7.0,8.0,Avaliação de Desempenho de Sistemas,2017.1
3,4,7.0,9.8,9.8,Avaliação de Desempenho de Sistemas,2017.1
4,5,3.5,8.8,9.0,Avaliação de Desempenho de Sistemas,2017.1


In [199]:
sd_20172 = pd.read_csv("../dados/notas_sd_20172.csv")
sd_20172["disciplina"] = "Sistemas Distribuidos"
sd_20172["periodo"] = "2017.2"
sd_20172.head()

Unnamed: 0,id,nota_1,nota_2,nota_3,disciplina,periodo
0,1,6.8,8.0,9.5,Sistemas Distribuidos,2017.2
1,2,4.2,3.0,9.5,Sistemas Distribuidos,2017.2
2,3,0.0,0.0,0.0,Sistemas Distribuidos,2017.2
3,4,8.0,7.5,9.5,Sistemas Distribuidos,2017.2
4,5,7.0,7.5,10.0,Sistemas Distribuidos,2017.2


Podemos juntar as notas de todas as disciplinas para facilitar o processamento. Mas temos um problema: as disciplinas de SO têm notas de 4 unidades, enquanto as de ADS e SD só têm 3 unidades. Além disso, ter uma coluna na tabela para cada unidade nos força a ter que especificar para qual unidade queremos calcular estatísticas. E se uma disciplina tiver 10 unidades (mini-testes, por exemplo), temos que ter 10 cálculos para calcular as médias de cada unidade?


Ai que entra o [*tidy data*](http://r4ds.had.co.nz/tidy-data.html), que é uma forma de organizar os dados que facilita muito a análise usando as ferramentas de análise de dados. 

Existem 3 regras para uma tabela ser *tidy*:

- Cada variável deve ter sua própria coluna.
- Cada observação deve ter sua própria linha.
- Cada valor deve ter sua própria célula.

A figura abaixo mostra essas regras visualmente:

![](figs/tidy_data.png)

Como transformar então nossas tabelas de notas no formato *tidy*? Um dos problems atuais é que a variável *nota* está espalhada em várias colunas: *nota_1*, *nota_2*, *nota_3*, ...
Temos outra variável implícita que está misturada com a variável nota que é a variável *unidade*, que pode indicar a qual unidade uma prova se refere. Desta forma, a tabela no formato tidy poderia ter uma coluna para a variável *unidade* e ter apenas uma coluna para a variável *nota*.

Vamos usar o Pandas para transformar os dados no formato *tidy*, usando funções de _reshaping e pivot tables_ (leia [este tutorial do Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html) para entender mais).

Primeiro para as notas de Sistemas Operacionais, vamos adicionar uma coluna com o nome da disciplina e transformar as colunas `nota_1`, `nota_2`, `nota_3` e `nota_4` em duas colunas: `unidade` e `nota`. Ou seja, um aluno da turma ao invés de ter as 4 notas em apenas uma linha, ele terá as notas distribuídas em 4 linhas, uma para cada unidade. Para isto, vamos usar a função do Pandas `wide_to_long`:

In [200]:
so["disciplina"] = "Sistemas Operacionais"
so_tidy = pd.wide_to_long(so, stubnames='nota', i=['id', 'periodo', 'disciplina'],
                          j='unidade', sep="_")
so_tidy

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,nota
id,periodo,disciplina,unidade,Unnamed: 4_level_1
1,2017.1,Sistemas Operacionais,1,8.3
1,2017.1,Sistemas Operacionais,2,8.0
1,2017.1,Sistemas Operacionais,3,9.3
1,2017.1,Sistemas Operacionais,4,8.0
2,2017.1,Sistemas Operacionais,1,7.0
...,...,...,...,...
25,2017.2,Sistemas Operacionais,4,7.4
26,2017.2,Sistemas Operacionais,1,8.9
26,2017.2,Sistemas Operacionais,2,6.7
26,2017.2,Sistemas Operacionais,3,5.5


O parâmetro `stubname='nota'` indica que ele vai transformar as colunas que começam com a palavra "nota". O parâmetro `i=['id', 'periodo', 'disciplina']` indica as colunas que identificarão unicamente cada linha de observação (serão os índices). E o parâmetro `j='unidade'` indica o nome da nova coluna que será criada, onde os valores serão os números encontrados nas colunas `nota_X`, considerando que `sep="_"` e os nomes das colunas têm o formato `nota_unidade`.

Fazendo isso agora para as outras disciplinas e concatenando tudo em um único DataFrame. Vamos também renomear o index `id` para `id_aluno` para melhor compreensão dos dados. O parâmetro `inplace=True` faz com que o DataFrame `notas` seja alterado ao invés de retornar um novo DataFrame com a alteração realizada.

In [201]:
ads_tidy = pd.wide_to_long(ads_20171, stubnames='nota', i=['id', 'periodo', 'disciplina'], j='unidade', sep="_")
sd_tidy = pd.wide_to_long(sd_20172, stubnames='nota', i=['id', 'periodo', 'disciplina'], j='unidade', sep="_")

notas = pd.concat([so_tidy, ads_tidy, sd_tidy])
notas.index.set_names({'id': 'id_aluno'}, inplace=True)
        
notas

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,nota
id_aluno,periodo,disciplina,unidade,Unnamed: 4_level_1
1,2017.1,Sistemas Operacionais,1,8.3
1,2017.1,Sistemas Operacionais,2,8.0
1,2017.1,Sistemas Operacionais,3,9.3
1,2017.1,Sistemas Operacionais,4,8.0
2,2017.1,Sistemas Operacionais,1,7.0
...,...,...,...,...
23,2017.2,Sistemas Distribuidos,2,9.7
23,2017.2,Sistemas Distribuidos,3,10.0
24,2017.2,Sistemas Distribuidos,1,9.8
24,2017.2,Sistemas Distribuidos,2,8.0


Como calcular agora a nota média para cada disciplina, período e unidade? Ficou bem mais fácil.

### Média da turma por unidade

In [202]:
notas.groupby(["disciplina", "periodo", "unidade"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,nota
disciplina,periodo,unidade,Unnamed: 3_level_1
Avaliação de Desempenho de Sistemas,2017.1,1,7.939286
Avaliação de Desempenho de Sistemas,2017.1,2,8.382143
Avaliação de Desempenho de Sistemas,2017.1,3,7.425
Sistemas Distribuidos,2017.2,1,7.441667
Sistemas Distribuidos,2017.2,2,6.729167
Sistemas Distribuidos,2017.2,3,8.895833
Sistemas Operacionais,2017.1,1,7.595238
Sistemas Operacionais,2017.1,2,8.438095
Sistemas Operacionais,2017.1,3,7.771429
Sistemas Operacionais,2017.1,4,6.742857


### Média de cada aluno em cada turma

In [203]:
media_alunos = notas.groupby(["disciplina", "periodo", "id_aluno"]).mean()
media_alunos

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,nota
disciplina,periodo,id_aluno,Unnamed: 3_level_1
Avaliação de Desempenho de Sistemas,2017.1,1,7.266667
Avaliação de Desempenho de Sistemas,2017.1,2,7.333333
Avaliação de Desempenho de Sistemas,2017.1,3,8.166667
Avaliação de Desempenho de Sistemas,2017.1,4,8.866667
Avaliação de Desempenho de Sistemas,2017.1,5,7.100000
...,...,...,...
Sistemas Operacionais,2017.2,22,1.250000
Sistemas Operacionais,2017.2,23,7.375000
Sistemas Operacionais,2017.2,24,8.400000
Sistemas Operacionais,2017.2,25,7.375000


### Média geral de cada turma

In [204]:
media_turma = media_alunos.groupby(["disciplina", "periodo"]).mean()
media_turma

Unnamed: 0_level_0,Unnamed: 1_level_0,nota
disciplina,periodo,Unnamed: 2_level_1
Avaliação de Desempenho de Sistemas,2017.1,7.915476
Sistemas Distribuidos,2017.2,7.688889
Sistemas Operacionais,2017.1,7.636905
Sistemas Operacionais,2017.2,7.055769


### Outras estatísticas?

E se eu quiser calcular outras estatísticas como a quantidade de alunos, nota mínima, mediana, média e máxima? Podemos usar a função [`agg`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.agg.html) para aplicar várias funções de agregação nos dados.

In [205]:
def prop_aprovados(medias, min_media_aprovacao=5):
    return medias[medias >= min_media_aprovacao].count() / medias.count()

(
    media_alunos
    .groupby(["disciplina", "periodo"])
    .agg(['count', 'min', 'median', 'mean', 'max', prop_aprovados])
)

Unnamed: 0_level_0,Unnamed: 1_level_0,nota,nota,nota,nota,nota,nota
Unnamed: 0_level_1,Unnamed: 1_level_1,count,min,median,mean,max,prop_aprovados
disciplina,periodo,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Avaliação de Desempenho de Sistemas,2017.1,28,0.0,8.266667,7.915476,10.0,0.892857
Sistemas Distribuidos,2017.2,24,0.0,8.25,7.688889,10.0,0.916667
Sistemas Operacionais,2017.1,21,0.875,8.1,7.636905,9.65,0.904762
Sistemas Operacionais,2017.2,26,1.25,7.375,7.055769,9.0,0.923077


Você também pode aplicar uma função própria, por exemplo a que calcula a proporção de alunos aprovados em cada disciplina, que conta as linhas apenas de alunos com nota maior ou igual à 5 e divide pela quantidade total de alunos dentro do grupo:

In [206]:
def prop_aprovados(medias, min_media_aprovacao=5):
    return medias[medias >= min_media_aprovacao].count() / medias.count()

(
    media_alunos
    .groupby(["disciplina", "periodo"])
    .agg([prop_aprovados])
"APROVADO" if media_alunos["nota"] >= 5 else "REPROVADO")

SyntaxError: invalid syntax (2677895194.py, line 8)

### Adicionando nova coluna aplicando função por linha

Vamos adicionar uma coluna na tabela indicando se o aluno foi aprovado por média ou não. Para isso, vamos criar a nova função e aplicá-la para cada linha do dataframe com a função [`apply`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html): 

In [None]:
def calcula_resultado(media):
    return 'APROVADO' if media >= 5 else 'REPROVADO'

media_alunos["resultado"] = media_alunos["nota"].apply(calcula_resultado)
media_alunos

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,nota,resultado
disciplina,periodo,id_aluno,Unnamed: 3_level_1,Unnamed: 4_level_1
Avaliação de Desempenho de Sistemas,2017.1,1,7.266667,APROVADO
Avaliação de Desempenho de Sistemas,2017.1,2,7.333333,APROVADO
Avaliação de Desempenho de Sistemas,2017.1,3,8.166667,APROVADO
Avaliação de Desempenho de Sistemas,2017.1,4,8.866667,APROVADO
Avaliação de Desempenho de Sistemas,2017.1,5,7.100000,APROVADO
...,...,...,...,...
Sistemas Operacionais,2017.2,22,1.250000,REPROVADO
Sistemas Operacionais,2017.2,23,7.375000,APROVADO
Sistemas Operacionais,2017.2,24,8.400000,APROVADO
Sistemas Operacionais,2017.2,25,7.375000,APROVADO


### Ordenando as médias dos alunos da maior para a menor

A função [`sort_values`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html) ordena o dataframe com base nos valores de uma ou mais colunas. O parâmetro `ascending=False` é usado para indicar que a ordenação não será feita na ordem padrão ascendente (ou seja, será na ordem descendente do maior para o menor valor).

In [None]:
media_alunos.sort_values('nota', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,nota,resultado
disciplina,periodo,id_aluno,Unnamed: 3_level_1,Unnamed: 4_level_1
Avaliação de Desempenho de Sistemas,2017.1,9,10.000000,APROVADO
Avaliação de Desempenho de Sistemas,2017.1,10,10.000000,APROVADO
Avaliação de Desempenho de Sistemas,2017.1,23,10.000000,APROVADO
Sistemas Distribuidos,2017.2,12,10.000000,APROVADO
Sistemas Distribuidos,2017.2,9,9.933333,APROVADO
...,...,...,...,...
Sistemas Operacionais,2017.2,22,1.250000,REPROVADO
Sistemas Operacionais,2017.1,20,0.875000,REPROVADO
Sistemas Distribuidos,2017.2,8,0.666667,REPROVADO
Sistemas Distribuidos,2017.2,3,0.000000,REPROVADO


### Como pegar as 3 maiores notas de cada turma?

Pega o dataframe com a média dos alunos, ordena pela média em ordem decrescente, agrupa por turma (disciplina e período) e pega as 3 primeiras linhas de cada grupo.

In [None]:
(
    media_alunos
    .sort_values('nota', ascending=False)
    .groupby(['disciplina', 'periodo'])
    .head(3)
)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,nota
disciplina,periodo,id_aluno,Unnamed: 3_level_1
Avaliação de Desempenho de Sistemas,2017.1,9,10.0
Avaliação de Desempenho de Sistemas,2017.1,10,10.0
Avaliação de Desempenho de Sistemas,2017.1,23,10.0
Sistemas Distribuidos,2017.2,12,10.0
Sistemas Distribuidos,2017.2,9,9.933333
Sistemas Distribuidos,2017.2,23,9.9
Sistemas Operacionais,2017.1,9,9.65
Sistemas Operacionais,2017.1,6,9.6
Sistemas Operacionais,2017.1,11,9.575
Sistemas Operacionais,2017.2,1,9.0


Note que organizamos a sequência de comandos com uma função por linha. Essa forma fica mais legível quando se tem muitos comandos seguidos. Como cada função retorna um dataframe, dá para encadear chamadas de funções dessa forma no Pandas. Para funcionar com um comando por linha é preciso colocar a sequência de funções entre parênteses.

## Slicing

Outra utilidade do Pandas é pegar apenas "fatias" (_slices_) dos dados, seja filtrando linhas ou colunas. O pandas oferece a função `.loc` para fazer o slicing a partir dos índices e a função `.iloc` para filtrar com base no número da linha.

Por exemplo, para pegar apenas as linhas que tem "Sistemas Operacionais" como primeiro índice (disciplina), podemos usar:

In [None]:
media_alunos.loc["Sistemas Distribuidos"]

Unnamed: 0_level_0,Unnamed: 1_level_0,nota
periodo,id_aluno,Unnamed: 2_level_1
2017.2,1,8.1
2017.2,2,5.566667
2017.2,3,0.0
2017.2,4,8.333333
2017.2,5,8.166667
2017.2,6,9.533333
2017.2,7,8.433333
2017.2,8,0.666667
2017.2,9,9.933333
2017.2,10,6.266667


E se quisermos pegar apenas as linhas 5 a 10 do DataFrame podemos usar:

In [None]:
media_alunos.iloc[5:10]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,nota
disciplina,periodo,id_aluno,Unnamed: 3_level_1
Avaliação de Desempenho de Sistemas,2017.1,6,8.2
Avaliação de Desempenho de Sistemas,2017.1,7,9.933333
Avaliação de Desempenho de Sistemas,2017.1,8,3.766667
Avaliação de Desempenho de Sistemas,2017.1,9,10.0
Avaliação de Desempenho de Sistemas,2017.1,10,10.0


Podemos também fazer um slice de linha e coluna ao mesmo tempo. Por exemplo, para filtrar as linhas com índices de 0 a 4 e a coluna `nota_3`, podemos fazer:

In [None]:
so.loc[0:4, "nota_3"]

0     9.3
1     4.6
2     7.7
3     9.8
4    10.0
Name: nota_3, dtype: float64

Ou para pegar o valor que está na linha 10 e coluna 3 (lembrando que Python indexa a partir do 0):

In [None]:
so.iloc[10, 3]

8.5

## Saída de dados

Também podemos exportar um dataframe pra um arquivo. Por exemplo, para exportar a tabela de média dos alunos para um arquivo podemos rodar:

In [None]:
media_alunos.to_csv("../dados/notas_medias_alunos.csv")