#Bases de Dados (parte 2)

```
(*) Adaptado de material preparado pela Profa. Cristiane Sato
```

Neste notebook veremos outras funcionalidades importantes com Bases de Dados.

Para executarmos as instruções, vamos importar o _pandas_ e abrir o arquivo de filmes.

In [None]:
import pandas as pd
filmes = pd.read_csv("https://drive.google.com/u/3/uc?id=1nBYJkh4MTzgB0-zR-HXUGYGiEkc4dK6u&export=download", sep=";")
filmes

Unnamed: 0,Titulo,Ano,Duracao,Nota
0,Star Wars,1977,121,87
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
3,Os Vingadores,2012,143,84
4,Star Trek,2009,127,80
5,X-men,2000,104,74
6,Os Guardiões da Galáxia,2014,121,82
7,A Origem,2010,148,88
8,The Matrix,1999,136,87
9,O Exterminador do Futuro,1984,107,81


## Ordenação da Base de Dados

Os dados ficam armazenados no arquivo na ordem em que são inseridos (gravados).

Muita vezes, precisamos visualizar esses dados em outras ordens. 

Considere, por exemplo, que desejamos ver os filmes em ordem de Título.



### Ordenação por um único atributo

In [None]:
filmes.sort_values(by="Titulo")

Unnamed: 0,Titulo,Ano,Duracao,Nota
7,A Origem,2010,148,88
1,Harry Potter e a Pedra Filosofal,2001,152,75
9,O Exterminador do Futuro,1984,107,81
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
6,Os Guardiões da Galáxia,2014,121,82
3,Os Vingadores,2012,143,84
4,Star Trek,2009,127,80
0,Star Wars,1977,121,87
8,The Matrix,1999,136,87
5,X-men,2000,104,74


Note que a função sort_values ordenou os dados por `Título`. 
Quer dizer, mostrou os dados ordenados por `Título`.
De fato, a tabela original continua na mesma ordem (de armazenamento dos dados).

Execute a célula abaixo e comprove!

In [None]:
filmes

Unnamed: 0,Titulo,Ano,Duracao,Nota
0,Star Wars,1977,121,87
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
3,Os Vingadores,2012,143,84
4,Star Trek,2009,127,80
5,X-men,2000,104,74
6,Os Guardiões da Galáxia,2014,121,82
7,A Origem,2010,148,88
8,The Matrix,1999,136,87
9,O Exterminador do Futuro,1984,107,81


Assim, o `sort_values` é uma função de visualização.
É possível ordenar a tabela por qualquer atributo. Também é possível ordenar na ordem inversa (decrescente). Vejamos.

In [None]:
filmes.sort_values(by="Titulo", ascending=False)

Unnamed: 0,Titulo,Ano,Duracao,Nota
5,X-men,2000,104,74
8,The Matrix,1999,136,87
0,Star Wars,1977,121,87
4,Star Trek,2009,127,80
3,Os Vingadores,2012,143,84
6,Os Guardiões da Galáxia,2014,121,82
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
9,O Exterminador do Futuro,1984,107,81
1,Harry Potter e a Pedra Filosofal,2001,152,75
7,A Origem,2010,148,88


O parâmetro `ascending=False` fez com que os dados fossem exibidos na ordem decrescente (descending).

#### Exercício

Escreva uma instrução para listar os dados em ordem crescente de ano.

In [None]:
# Sua resposta
filmes.sort_values(by= "Ano")

Unnamed: 0,Titulo,Ano,Duracao,Nota
0,Star Wars,1977,121,87
9,O Exterminador do Futuro,1984,107,81
8,The Matrix,1999,136,87
5,X-men,2000,104,74
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
4,Star Trek,2009,127,80
7,A Origem,2010,148,88
3,Os Vingadores,2012,143,84
6,Os Guardiões da Galáxia,2014,121,82


#### Exercício

Agora, escreva uma instrução para listar os dados em ordem decrescente de ano.

In [None]:
# Sua resposta
filmes.sort_values(by= "Ano", ascending= False)

Unnamed: 0,Titulo,Ano,Duracao,Nota
6,Os Guardiões da Galáxia,2014,121,82
3,Os Vingadores,2012,143,84
7,A Origem,2010,148,88
4,Star Trek,2009,127,80
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
5,X-men,2000,104,74
8,The Matrix,1999,136,87
9,O Exterminador do Futuro,1984,107,81
0,Star Wars,1977,121,87


### Ordenação por mais de um atributo

É possível ordenar a tabela por mais de um atributo.

A instrução a seguir ordena os dados por `Ano` e `Título`. Ou seja, se houver mais de um filme do mesmo `Ano`, eles serão exibidos em ordem de `Título` dentro do mesmo `Ano`.

In [None]:
filmes.sort_values(by=["Ano","Titulo"])

Unnamed: 0,Titulo,Ano,Duracao,Nota
0,Star Wars,1977,121,87
9,O Exterminador do Futuro,1984,107,81
8,The Matrix,1999,136,87
5,X-men,2000,104,74
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
4,Star Trek,2009,127,80
7,A Origem,2010,148,88
3,Os Vingadores,2012,143,84
6,Os Guardiões da Galáxia,2014,121,82


Veja acima que o `Ano` de 2001 possui dois filmes. Eles foram exibidos em ordem de `Título`.

Vamos agora exbir os dados por `Nota` (decrescente) e `Ano` (Crescente). 
Ou seja, se mais de um filme tiver a mesma `Nota`, eles serão exibidos em ordem crescente de `Ano`.

In [None]:
filmes.sort_values(by=["Nota","Ano"],ascending=[False, True])

Unnamed: 0,Titulo,Ano,Duracao,Nota
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
7,A Origem,2010,148,88
0,Star Wars,1977,121,87
8,The Matrix,1999,136,87
3,Os Vingadores,2012,143,84
6,Os Guardiões da Galáxia,2014,121,82
9,O Exterminador do Futuro,1984,107,81
4,Star Trek,2009,127,80
1,Harry Potter e a Pedra Filosofal,2001,152,75
5,X-men,2000,104,74


Note que tanto a `Nota=88` quanto a `Nota=87 `foram obtidas por mais de um filme. Estes estão ordenados por `Ano`.

O parâmetro ascending [False, True] possibilitou ordens distintas para cada atributo. O primeiro descrescente (_False_) e o segundo em ordem crescente (_True_)

### Guardando a Ordenação em Memória

Como dissermos anteriormente o `sort_values` apenas mostra os dados ordenados mas não modifica o dataframe em memória.

Mas existe uma maneira de fazer isso, por meio do parâmetro `inplace=True`.

Vejamos!



In [None]:
filmes.sort_values(by="Titulo", inplace=True)
filmes

Unnamed: 0,Titulo,Ano,Duracao,Nota
7,A Origem,2010,148,88
1,Harry Potter e a Pedra Filosofal,2001,152,75
9,O Exterminador do Futuro,1984,107,81
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
6,Os Guardiões da Galáxia,2014,121,82
3,Os Vingadores,2012,143,84
4,Star Trek,2009,127,80
0,Star Wars,1977,121,87
8,The Matrix,1999,136,87
5,X-men,2000,104,74


Note que agora, os dados mudaram de ordem. Se mandarmos exibir novamente o dataframe filmes, os dados continuam ordenados por título.


In [None]:
filmes

Unnamed: 0,Titulo,Ano,Duracao,Nota
7,A Origem,2010,148,88
1,Harry Potter e a Pedra Filosofal,2001,152,75
9,O Exterminador do Futuro,1984,107,81
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
6,Os Guardiões da Galáxia,2014,121,82
3,Os Vingadores,2012,143,84
4,Star Trek,2009,127,80
0,Star Wars,1977,121,87
8,The Matrix,1999,136,87
5,X-men,2000,104,74


Outra forma de guarda os dados ordenados, sem usar o `inplace=True` é gerando uma cópia ordenada com uma instrução como esta abaixo.


In [None]:
filmesAno = filmes.sort_values(by="Ano")
filmesAno

Unnamed: 0,Titulo,Ano,Duracao,Nota
0,Star Wars,1977,121,87
9,O Exterminador do Futuro,1984,107,81
8,The Matrix,1999,136,87
5,X-men,2000,104,74
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
4,Star Trek,2009,127,80
7,A Origem,2010,148,88
3,Os Vingadores,2012,143,84
6,Os Guardiões da Galáxia,2014,121,82


O segundo caso é computacionalmente mais "oneroso", pois gera uma cópia dos dados, ou seja, duplica os dados. Agora tempos dois dataframes com os mesmos dados em memória. Um ordenado por `Ano` (filmesAno) e o outro na ordem de Título (filmes).

Isto (dados duplicados) pode não ser um problema para tabelas pequenas, com poucas linhas e poucas colunas. Portanto, use apenas se for necessário e houver recursos computacionais disponíveis.


## Estatísticas do Dataframe

A biblioteca _pandas_ possui funções estatísticas prontas que nos permitem ter uma fotografia dos dados armazenados.

Vejamos algumas!

`mean `: retorna a média dos valores de cada atributo numérico.

In [None]:
filmes.mean()

Ano        2000.7
Duracao     133.7
Nota         82.6
dtype: float64

Podemos obter a média de um único atributo conforme abaixo.

In [None]:
filmes["Duracao"].mean()

133.7

`max` : retorna o maior valor de cada atributo númerico.

In [None]:
filmes.max()

Titulo     X-men
Ano         2014
Duracao      178
Nota          88
dtype: object

Também podemos obter o maior valor de um único atributo numérico conforme abaixo.

In [None]:
filmes["Nota"].max()

88

A função `min` retorna o menor valor de atributos numéricos.
Experimente! 

###Exercício 01

Escreva uma instrução para retornar o menor valor dos atributos numéricos.

In [None]:
# sua resposta
filmes.min()

Titulo     A Origem
Ano            1977
Duracao         104
Nota             74
dtype: object

### Exercício 02
Escreva uma instrução para retornar o menor valor do atributo `Nota`.

In [None]:
# sua resposta
filmes["Nota"].min()

74

Outras funções disponíveis que podem ser úteis são:
* count() - retorna a contagem de valores em cada atributo.
* sum() - retorna a soma de valores numéricos em cada atributo.

In [None]:
filmes.count()

Titulo     10
Ano        10
Duracao    10
Nota       10
dtype: int64

In [None]:
filmes.sum()

Titulo     A OrigemHarry Potter e a Pedra FilosofalO Exte...
Ano                                                    20007
Duracao                                                 1337
Nota                                                     826
dtype: object

## Agrupamentos de Dados

Suponha que você precisa saber quantos filmes existem na base de dados, por `Ano`(de lançamento).

Sabemos que a função `count()` nos retorna a quantidade geral. Mas como saber a quantidade por `Ano`?



Este problema envolve o **agrupamento de dados**, ou seja, precisamos agrupar os dados por `Ano` e então "mandar" contar (`count()`).

Veja a instrução a seguir.

### Contar

In [None]:
filmes.groupby("Ano").count()

Unnamed: 0_level_0,Titulo,Duracao,Nota
Ano,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1977,1,1,1
1984,1,1,1
1999,1,1,1
2000,1,1,1
2001,2,2,2
2009,1,1,1
2010,1,1,1
2012,1,1,1
2014,1,1,1


Note que o `groupby("Ano")` foi usado para agrupar por Ano e depois usamos o `count()`.

Mas o resultado não foi bem o que esperávamos. Basta exibir a contagem de um atributo e não de todos.

A instrução a seguir resolve o problema, indicando apenas um atributo para contar. 

Usamos o próprio `Ano`, mas poderíamos usar qualquer outro atributo.

In [None]:
# Agrupando por Ano e contando pelo atributo Ano
filmes.groupby("Ano")["Ano"].count()

Ano
1977    1
1984    1
1999    1
2000    1
2001    2
2009    1
2010    1
2012    1
2014    1
Name: Ano, dtype: int64

In [None]:
# Agrupando por Ano e contando pelo atributo Nota
filmes.groupby("Ano")["Nota"].count()

Ano
1977    1
1984    1
1999    1
2000    1
2001    2
2009    1
2010    1
2012    1
2014    1
Name: Nota, dtype: int64

E se invertermos a instrução acima, trocando o `Ano` por `Nota` e vice-versa?

In [None]:
# Agrupando por Nota e contando pelo atributo Ano
filmes.groupby("Nota")["Ano"].count()

Nota
74    1
75    1
80    1
81    1
82    1
84    1
87    2
88    2
Name: Ano, dtype: int64

Note que o resultado agora foi a quantidade de filmes que receberam cada nota.
Poderíamos contar por qualquer atributo, inclusive pelo `Título`.

In [None]:
# Agrupando por Nota e contando pelo atributo Título
filmes.groupby("Nota")["Titulo"].count()

Nota
74    1
75    1
80    1
81    1
82    1
84    1
87    2
88    2
Name: Titulo, dtype: int64

Note que a ordem de exibição é sempre pelo campo de agrupamento. Isto ocorre, porque para agrupar, ocorre um processo interno de ORDENAÇÃO dos dados (pelo atributo do agrupamento.

#### Agrupamento em Ordem Inversa
Mas e se quisermos exibir os dados em ordem decrescente de Nota?

O primeiro passo é "guardar" o resultado do agrupamento em uma variável. Vide abaixo.

In [None]:
dNotas = filmes.groupby("Nota")["Nota"].count()
print(dNotas)

Nota
74    1
75    1
80    1
81    1
82    1
84    1
87    2
88    2
Name: Nota, dtype: int64


Em seguida podemos usar a função de ordenação sort

In [None]:
dNotas.sort_values(ascending=False)

Nota
88    2
87    2
84    1
82    1
81    1
80    1
75    1
74    1
Name: Nota, dtype: int64

Além de contar (`count`), podemos usar outras funções como: `sum, mean, max, min`.


### Somar

A instrução abaixo exibe a soma da `duração` dos filmes (Por `Ano`)

In [None]:
filmes.groupby("Ano")["Duracao"].sum()

Ano
1977    121
1984    107
1999    136
2000    104
2001    330
2009    127
2010    148
2012    143
2014    121
Name: Duracao, dtype: int64

### Média
Agora vejamos a média da `duração` dos filmes (por `Ano`).

Como apenas o `Ano` de 2001, tem mais de 1 filme, note que para os outros anos, soma e média são iguais.

In [None]:
filmes.groupby("Ano")["Duracao"].mean()

Ano
1977    121
1984    107
1999    136
2000    104
2001    165
2009    127
2010    148
2012    143
2014    121
Name: Duracao, dtype: int64

### Exercício 01

Mostre a menor duração para cada Nota.

In [None]:
# sua resposta
filmes.groupby("Nota")["Duracao"].min()

Nota
74    104
75    152
80    127
81    107
82    121
84    143
87    121
88    148
Name: Duracao, dtype: int64

### Exercício 02

Para todos os filmes do mesmo ano, mostre a nota do filme melhor avaliado (maior nota).

In [None]:
# sua resposta
filmes.groupby("Ano")["Nota"].max()

Ano
1977    87
1984    81
1999    87
2000    74
2001    88
2009    80
2010    88
2012    84
2014    82
Name: Nota, dtype: int64

## Extra

O python possui também a função `value_counts` que é similar ao `count()`. A principal diferença é que não há um "agrupamento explícito".

In [None]:
filmes.Nota.value_counts()

88    2
87    2
75    1
74    1
84    1
82    1
81    1
80    1
Name: Nota, dtype: int64

In [None]:
# sua resposta
