---
<img src="https://ead.ufes.br/pluginfile.php/188418/course/summary/Banner%20IA%20e%20CD.png" style="float: right;">

# Laboratório 1: Matrizes, Series e DataFrames


Bem-vindo ao Laboratório 1!  Objetivo desta aula é familiarizar com  as ferramentas discutidas na Aula 03 - Análise Exploratória de dados.

Não se apegue aqui com os detalhes da linguagem, você verá Python na próxima disciplina.

**Não use loops `for` em nenhuma pergunta deste laboratório.** Se você não sabe o que é um loop `for`, não se preocupe: Isso será ensinado na próxima disciplina. Mas se você sabe o que eles são e está se perguntando por que não é correto usá-los, é porque os loops em Python são lentos e os loops em arrays e DataFrames geralmente devem ser evitados, já que temos funções nativas de bibliotecas como `numpy` que são muito mais rápidas.

**Objetivos**

Aprender como carregar dados de um arquivo CSV, manipulação de arrays e matrizes usando o `Numpy` ver na prática dados tabulares como matrizes, que com a biblioteca `pandas` são tratadas como dataframes.


**Resultados Esperados**
1. Compreender o que é uma matriz
1. Conhecer as principais bibliotecas
1. Ver as principais funcionalidades da biblioteca `NumPy`
1. Compreender o que é um `Serie` e um `Dataframe` do `Pandas`



Mais exemplos de manipulação de dataframes em https://notes.dsc10.com/02-data_sets/querying.html#examples



### Dica: atalhos de teclado

Existem vários atalhos de teclado integrados aos Notebooks projetados para ajudar você a economizar tempo. Para vê-los, pressione a tecla H do teclado (desde que você não esteja editando ativamente uma célula).

Atalhos particularmente úteis:

| Ação | Atalho de teclado |
| --- | --- |
| Executar célula + pular para a próxima célula | CTRL +  ENTER |
| Executar tudo | CTRL + F9 |
| Executar tudo abaixo da célula selecionado | CTRL + F10 |
| Criar nova célula acima/abaixo | A/B |
| Excluir célula | CTRL + M + D |

In [90]:
import numpy as np
import pandas as pd

Além disso, iremos baixar alguns dados que usaremos ao longo desse notebook. Não se preocupe em entender a célula a seguir, mas basicamente o que estamos fazendo é:

1. Usaremos `wget` que é um comando para baixarmos coisas da internet.
2. Usaremos `unzip` para "dezipar" o arquivo `data.zip`, contendo uma pasta com os nossos dados.
3. Removeremos `data.zip` com o comando `rm` para não ficarmos com arquivos desnecessários.

> Para executarmos comandos de terminal no Jupyter Notebook, iniciamos as linhas com `!`.

Você pode ver os arquivos que foram baixados no símbolo diretório (na esquerda) diretório data. Se tudo funcionou corretamente,  a estrutura estará assim:

-  data
 - imdb.csv
 - more_restaurantes_bills.csv
 - world_population.csv
 - world_population_2022.csv




In [164]:
!wget http://www.inf.ufes.br/~vinicius.mota/Intro-IA-CD/01-dataframes/data.zip -P ./
!unzip data.zip
!rm data.zip

--2024-09-08 14:57:16--  http://www.inf.ufes.br/~vinicius.mota/Intro-IA-CD/01-dataframes/data.zip
Resolving www.inf.ufes.br (www.inf.ufes.br)... 200.137.66.17
Connecting to www.inf.ufes.br (www.inf.ufes.br)|200.137.66.17|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 207630 (203K) [application/zip]
Saving to: ‘./data.zip’


2024-09-08 14:57:18 (390 KB/s) - ‘./data.zip’ saved [207630/207630]

Archive:  data.zip
replace data/imdb.csv? [y]es, [n]o, [A]ll, [N]one, [r]ename: 

# 1. Matrizes

Os computadores são mais úteis quando você pode usar uma pequena quantidade de código para *fazer a mesma ação* para *muitas coisas diferentes*.

Por exemplo, no tempo que você leva para calcular a gorjeta de 18% na conta de um restaurante, um laptop pode calcular gorjetas de 18% para cada conta de restaurante paga por cada ser humano na Terra naquele dia. (Isto é, se você for muito rápido em fazer contas de cabeça!)

**Matrizes** são como colocamos muitos valores em um só lugar para que possamos operar neles como um grupo. Por exemplo, se `bilhoes_de_numeros` for uma matriz de números, a expressão

```python
0.18 * bilhoes_de_numeros
```

fornece uma nova matriz de números que é o resultado da multiplicação de cada número em `bilhoes_de_numeros` por 0,18 (18%). As matrizes não estão limitadas a números; também podemos colocar todas as palavras de um livro em uma série de strings.

Concretamente, uma matriz é uma **coleção de valores do mesmo tipo**, como uma coluna em uma planilha (pense no Planilhas Google ou no Microsoft Excel).

<img src="http://www.inf.ufes.br/~vinicius.mota/Intro-IA-CD/01-dataframes/sheet_array.png" width=600>

## 1.1. Fazendo matrizes
Você mesmo pode digitar os dados que vão em um array, mas normalmente não é assim que criaremos arrays. Normalmente, criamos arrays carregando-os de uma fonte externa, como um arquivo de dados.

Porém, primeiro vamos aprender como fazer isso da maneira mais difícil. Para começar, podemos fazer uma **lista** de números colocando-os entre colchetes e separando-os por vírgulas:

In [165]:
minha_lista = [14, -2.26, 0.15]
minha_lista

[14, -2.26, 0.15]

Assim como `int`, `float` e `str`, a `list` é um tipo de dados fornecido pelo Python. As listas são muito flexíveis e fáceis de trabalhar, mas são *lentas* 🐢.

Como cientistas de dados, frequentemente trabalharemos com milhões ou até bilhões de números. Para isso, precisamos de algo mais rápido que uma `lista`. Em vez de listas, usaremos *arrays*.

Arrays são fornecidos por um pacote chamado [NumPy](http://www.numpy.org/) (pronuncia-se "NUM-pai"). O pacote é chamado `numpy`, mas é padrão abreviá-lo para `np`. Você pode fazer isso com:

```python
import numpy as np
```

Cientistas de dados, bem como engenheiros e cientistas de todos os tipos, usam `numpy` com frequência, e você verá bastante disso se for especialista em ciência de dados.

In [166]:
import numpy as np

Agora, para criar um array, chame a função `np.array` com uma lista de números. Execute esta célula para ver um exemplo:

In [167]:
np.array([14, -2.26, 0.15])

array([14.  , -2.26,  0.15])

Observe que você precisa dos colchetes aqui. Se você tentasse executar o código a seguir, o Python acharia ruim porque você o esqueceu:

```python
np.array(14, -2.26, 0.15)
```


Os próprios arrays também são valores, assim como números e strings. Isso significa que você pode atribuir nomes a eles ou usá-los como argumentos para funções.

**Questão 1.1.1.** Faça um array contendo os números 2, 4 e 6, nessa ordem. Nomeie-o como `numeros_pares`.

In [168]:
numeros_pares = [2,4,6]
numeros_pares

[2, 4, 6]

**Questão 1.1.2.** Faça um array contendo as cinco strings `"Hello"`, `","`, `" "`, `"world"` e `"!"`. (O terceiro é um espaço único entre aspas.) Nomeie-o como `componentes_hello_world`.

*Nota:* Se você imprimir `componentes_hello_world`, você notará algumas informações extras além de seu conteúdo: `dtype='<U5'`. Essa é apenas a maneira extremamente estranha do NumPy de dizer que as coisas no array são strings. Caso você esteja interessado, o `U` significa que esta string está codificada em [unicode](https://en.wikipedia.org/wiki/Unicode), e o `<5` significa que todas as strings no array têm 5 caracteres ou menos.

In [169]:
componentes_hello_world = ["Hello", ",", " ", "world","!"]
componentes_hello_world

['Hello', ',', ' ', 'world', '!']

Muitas vezes, em ciência de dados, queremos trabalhar com muitos números espaçados uniformemente dentro de algum intervalo. NumPy fornece uma função especial para isso chamada `arange`.
 A expressão `np.arange(comeco, fim, espaco)`

 produz um array com todos os números começando em `comeco`, contando de  `espaco` em `espaco`, parando **antes** de `fim` ser alcançado.

Por exemplo, o valor de `np.arange(1, 8, 2)` é uma matriz com os elementos `1, 3, 5 e 7` - começa em 1 e vai contando de 2 em 2, terminando até chegar no último valor menor que 8. Em outros palavras, ele cria o mesmo array que `np.array([1, 3, 5, 7])`.

`np.arange(4, 9, 1)` é um array com os elementos `4, 5, 6, 7 e 8`, não contendo o 9 porque `np.arange` para *antes* do valor de parada ser atingido.

**Pergunta 1.1.3.** Use `np.arange` para criar um array com todos os múltiplos de 99 de 0 até (**e incluindo**) 9999. (Portanto, seus elementos são 0, 99, 198, 297, etc.)

In [170]:
multiplos_de_99 = np.arange(0,10000,99)
multiplos_de_99

array([   0,   99,  198,  297,  396,  495,  594,  693,  792,  891,  990,
       1089, 1188, 1287, 1386, 1485, 1584, 1683, 1782, 1881, 1980, 2079,
       2178, 2277, 2376, 2475, 2574, 2673, 2772, 2871, 2970, 3069, 3168,
       3267, 3366, 3465, 3564, 3663, 3762, 3861, 3960, 4059, 4158, 4257,
       4356, 4455, 4554, 4653, 4752, 4851, 4950, 5049, 5148, 5247, 5346,
       5445, 5544, 5643, 5742, 5841, 5940, 6039, 6138, 6237, 6336, 6435,
       6534, 6633, 6732, 6831, 6930, 7029, 7128, 7227, 7326, 7425, 7524,
       7623, 7722, 7821, 7920, 8019, 8118, 8217, 8316, 8415, 8514, 8613,
       8712, 8811, 8910, 9009, 9108, 9207, 9306, 9405, 9504, 9603, 9702,
       9801, 9900, 9999])

In [171]:
#@title solução
multiplos_de_99 = np.arange(0, 10000, 99)
multiplos_de_99

array([   0,   99,  198,  297,  396,  495,  594,  693,  792,  891,  990,
       1089, 1188, 1287, 1386, 1485, 1584, 1683, 1782, 1881, 1980, 2079,
       2178, 2277, 2376, 2475, 2574, 2673, 2772, 2871, 2970, 3069, 3168,
       3267, 3366, 3465, 3564, 3663, 3762, 3861, 3960, 4059, 4158, 4257,
       4356, 4455, 4554, 4653, 4752, 4851, 4950, 5049, 5148, 5247, 5346,
       5445, 5544, 5643, 5742, 5841, 5940, 6039, 6138, 6237, 6336, 6435,
       6534, 6633, 6732, 6831, 6930, 7029, 7128, 7227, 7326, 7425, 7524,
       7623, 7722, 7821, 7920, 8019, 8118, 8217, 8316, 8415, 8514, 8613,
       8712, 8811, 8910, 9009, 9108, 9207, 9306, 9405, 9504, 9603, 9702,
       9801, 9900, 9999])

## 1.2. Trabalhando com elementos únicos de arrays ("indexação")
Vamos trabalhar com um conjunto de dados mais interessante. A próxima célula cria uma matriz chamada `populacao` que inclui populações mundiais estimadas em cada ano de **1950** a **2022**. (As estimativas vêm da seguinte [base de dados internacional](https://www.census.gov/data-tools/demo/idb/#/country?COUNTRY_YEAR=2022&COUNTRY_YR_ANIM=2022), mantida pelo US Census Bureau.)

Em vez de digitar os dados manualmente, nós os carregamos de um arquivo em seu computador chamado `world_population_2022.csv`.

`CSV` ou Comma  separated values são arquivos tabulares onde cada linha representa uma amostra e cada coluna um atributo da amostra (similar a um arquivo de planilha excel).

In [172]:
# Não se preocupe sobre o que está acontecendo nessa célula por enquanto
populacao = pd.read_csv("data/world_population_2022.csv").get("Population").values
populacao

array([2557619597, 2594942227, 2636777090, 2682060684, 2730237675,
       2782111389, 2835315327, 2891368627, 2948159570, 3000742521,
       3043031253, 3084053711, 3140239653, 3210037409, 3281477826,
       3350773176, 3421097064, 3490825940, 3562887008, 3637819236,
       3713457589, 3791172327, 3867519813, 3943132388, 4017779234,
       4089387557, 4159536915, 4230430893, 4301282222, 4374940345,
       4445975606, 4527418598, 4610620221, 4694937687, 4777055423,
       4862317393, 4949951891, 5040273543, 5131575729, 5222662682,
       5315511894, 5403253915, 5490481497, 5568231516, 5650178207,
       5733211108, 5815333785, 5895837672, 5975189305, 6053955779,
       6132455985, 6211328357, 6290282107, 6369186797, 6448262425,
       6527056809, 6607396274, 6689442159, 6773319540, 6857160919,
       6939761510, 7022084781, 7105001721, 7188528811, 7271598780,
       7353476064, 7435151387, 7516769535, 7597066210, 7676686052,
       7756873419, 7831718605, 7905336896])

Veja como obtemos o primeiro elemento de `populacao`, que é a população mundial no primeiro ano do conjunto de dados, 1950.

In [173]:
populacao[0]

2557619597

Observe que usamos colchetes aqui. Os colchetes sinalizam que estamos *acessando* um elemento do array. Colchetes em Python são como subscritos em matemática (igual $x_1$, $x_2$, ...).

O valor dessa expressão é o número 2557619597 (cerca de 2,5 bilhões), porque é a primeira coisa na matriz `populacao`.

Observe que escrevemos `populacao[0]`, não `populacao[1]`, para obter o primeiro elemento. Esta é uma convenção estranha na ciência da computação. 0 é chamado de *índice* do primeiro item. Seguindo essa lógica, então 3, por exemplo, é o índice do 4º item.

Aqui estão mais alguns exemplos. Nos exemplos, demos nomes às coisas que obtemos de `populacao`. Leia e execute cada célula.

In [174]:
# O terceiro elemento do array é a população em 1952.
populacao_1952 = populacao[2]
populacao_1952

2636777090

In [175]:
# O décimo terceiro elemento do array é a população em 1962 (que é 1950 + 12).
populacao_1962 = populacao[12]
populacao_1962

3140239653

In [176]:
# O 73º elemento do array é a população em 2022.
populacao_2022 = populacao[72]
populacao_2022

7905336896

In [177]:
# O array possui apenas 73 elementos, então isso não funciona.
#populacao_2023 = populacao[73]
#populacao_2023

# 🚨 Depois de executar esta célula, coloque um # antes de cada linha acima
# para garantir que ela não seja executada novamente.

**Questão 1.2.1.** Defina `populacao_1998` para a população mundial em 1998, obtendo o elemento apropriado de `populacao`.

In [178]:
populacao_1998 = populacao[48]
populacao_1998

5975189305

In [179]:
#@title Solução
# 1998 - 1950  = 48
populacao_1998 = populacao[48]
populacao_1998

5975189305

# 2. DataFrames

## 2.1. Introdução

Para uma coleção de coisas no mundo, um array é útil para descrever um único atributo de cada coisa. As tabelas ampliam essa ideia descrevendo vários atributos para cada elemento de uma coleção.

Na célula abaixo temos dois arrays. O primeiro contém a população mundial em cada ano (conforme estimado pelo US Census Bureau), e o segundo contém os próprios anos (em ordem, de modo que os primeiros elementos na população e as matrizes de anos correspondam).

In [180]:
anos = np.arange(1950, 2022+1)
quantidade_populacional = pd.read_csv("data/world_population_2022.csv").get("Population").values

print("Coluna de população:", quantidade_populacional)
print("Coluna dos anos:", anos)

Coluna de população: [2557619597 2594942227 2636777090 2682060684 2730237675 2782111389
 2835315327 2891368627 2948159570 3000742521 3043031253 3084053711
 3140239653 3210037409 3281477826 3350773176 3421097064 3490825940
 3562887008 3637819236 3713457589 3791172327 3867519813 3943132388
 4017779234 4089387557 4159536915 4230430893 4301282222 4374940345
 4445975606 4527418598 4610620221 4694937687 4777055423 4862317393
 4949951891 5040273543 5131575729 5222662682 5315511894 5403253915
 5490481497 5568231516 5650178207 5733211108 5815333785 5895837672
 5975189305 6053955779 6132455985 6211328357 6290282107 6369186797
 6448262425 6527056809 6607396274 6689442159 6773319540 6857160919
 6939761510 7022084781 7105001721 7188528811 7271598780 7353476064
 7435151387 7516769535 7597066210 7676686052 7756873419 7831718605
 7905336896]
Coluna dos anos: [1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963
 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977
 19

Suponha que queiramos responder a esta pergunta:

> Quando é que a população mundial ultrapassou os 7 mil milhões?

Você poderia tecnicamente responder a essa pergunta apenas olhando para as matrizes, mas é um pouco complicado, pois seria necessário contar a posição onde a população ultrapassou pela primeira vez os 7 bilhões e, em seguida, encontrar o elemento correspondente na matriz de anos. Em casos como estes, pode ser mais fácil colocar os dados em uma tabela.

Assim como `numpy` fornece arrays, um pacote popular chamado `pandas` fornece **DataFrames**, que é o nome em `pandas` para **tabelas**. `pandas` é *a* ferramenta para fazer ciência de dados em Python.

Você pode importar `pandas` usando o seguinte código:

In [181]:
import pandas as pd

A célula abaixo:

- cria um DataFrame vazio usando a expressão `pd.DataFrame()`,
- atribui duas colunas ao DataFrame chamando `assign`,
- atribui o DataFrame resultante ao nome `populacao_df` e, finalmente
- exibe `populacao_df` para que possamos ver o DataFrame que criamos.

`"Populacao"` e `"Ano"` são rótulos de coluna que escolhemos. Poderíamos ter escolhido qualquer coisa, mas é uma boa ideia escolher nomes que sejam descritivos e não muito longos.

In [182]:
populacao_df = pd.DataFrame().assign(
    Populacao=quantidade_populacional,
    Ano=anos
)

populacao_df

Unnamed: 0,Populacao,Ano
0,2557619597,1950
1,2594942227,1951
2,2636777090,1952
3,2682060684,1953
4,2730237675,1954
...,...,...
68,7597066210,2018
69,7676686052,2019
70,7756873419,2020
71,7831718605,2021


Agora os dados estão todos juntos em um único DataFrame! É muito mais fácil analisar esses dados. Se você precisa saber qual era a população em 2011, por exemplo, você pode saber com um simples olhar. Revisitaremos este DataFrame mais tarde.

**Questão 2.1.1.** Na célula abaixo, criamos 2 arrays. Usando as etapas acima, atribua `top_10_filmes` a um DataFrame que possui duas colunas chamadas `Avaliacao` e `Nome`, que contêm `top_10_avaliacoes` e `top_10_nomes` respectivamente.

In [183]:
top_10_avaliacoes = np.array([9.2, 9.2, 9., 8.9, 8.9, 8.9, 8.9, 8.9, 8.9, 8.8])
top_10_nomes = np.array([
        'The Shawshank Redemption (1994)',
        'The Godfather (1972)',
        'The Godfather: Part II (1974)',
        'Pulp Fiction (1994)',
        "Schindler's List (1993)",
        'The Lord of the Rings: The Return of the King (2003)',
        '12 Angry Men (1957)',
        'The Dark Knight (2008)',
        'Il buono, il brutto, il cattivo (1966)',
        'The Lord of the Rings: The Fellowship of the Ring (2001)'
])

In [184]:
top_10_filmes = pd.DataFrame().assign(Nome=top_10_nomes, Avaliacao=top_10_avaliacoes )
top_10_filmes

Unnamed: 0,Nome,Avaliacao
0,The Shawshank Redemption (1994),9.2
1,The Godfather (1972),9.2
2,The Godfather: Part II (1974),9.0
3,Pulp Fiction (1994),8.9
4,Schindler's List (1993),8.9
5,The Lord of the Rings: The Return of the King ...,8.9
6,12 Angry Men (1957),8.9
7,The Dark Knight (2008),8.9
8,"Il buono, il brutto, il cattivo (1966)",8.9
9,The Lord of the Rings: The Fellowship of the R...,8.8


In [185]:
#@title Solução
top_10_filmes = pd.DataFrame().assign(
    Nome=top_10_nomes,
    Avaliacao=top_10_avaliacoes
)
top_10_filmes

Unnamed: 0,Nome,Avaliacao
0,The Shawshank Redemption (1994),9.2
1,The Godfather (1972),9.2
2,The Godfather: Part II (1974),9.0
3,Pulp Fiction (1994),8.9
4,Schindler's List (1993),8.9
5,The Lord of the Rings: The Return of the King ...,8.9
6,12 Angry Men (1957),8.9
7,The Dark Knight (2008),8.9
8,"Il buono, il brutto, il cattivo (1966)",8.9
9,The Lord of the Rings: The Fellowship of the R...,8.8


Suponha que você queira adicionar suas próprias classificações a este DataFrame. A célula abaixo contém sua avaliação de cada filme:

In [186]:
minhas_avaliacoes = [8, 2, 1, 9, 7, 10, 6, 4, 3, 5]

**Pergunta 2.1.2** Você também pode usar o método `assign` para adicionar uma coluna a um DataFrame já existente. Crie um novo DataFrame chamado `com_minhas_avaliacoes` adicionando uma coluna chamada `MinhaAvaliacao` ao DataFrame em `top_10_filmes`.

In [187]:
com_minhas_avaliacoes = top_10_filmes.assign(MinhaAvaliacao =minhas_avaliacoes )
com_minhas_avaliacoes

Unnamed: 0,Nome,Avaliacao,MinhaAvaliacao
0,The Shawshank Redemption (1994),9.2,8
1,The Godfather (1972),9.2,2
2,The Godfather: Part II (1974),9.0,1
3,Pulp Fiction (1994),8.9,9
4,Schindler's List (1993),8.9,7
5,The Lord of the Rings: The Return of the King ...,8.9,10
6,12 Angry Men (1957),8.9,6
7,The Dark Knight (2008),8.9,4
8,"Il buono, il brutto, il cattivo (1966)",8.9,3
9,The Lord of the Rings: The Fellowship of the R...,8.8,5


In [188]:
#@title Solução
com_minhas_avaliacoes = top_10_filmes.assign(MinhaAvaliacao=minhas_avaliacoes)
com_minhas_avaliacoes

Unnamed: 0,Nome,Avaliacao,MinhaAvaliacao
0,The Shawshank Redemption (1994),9.2,8
1,The Godfather (1972),9.2,2
2,The Godfather: Part II (1974),9.0,1
3,Pulp Fiction (1994),8.9,9
4,Schindler's List (1993),8.9,7
5,The Lord of the Rings: The Return of the King ...,8.9,10
6,12 Angry Men (1957),8.9,6
7,The Dark Knight (2008),8.9,4
8,"Il buono, il brutto, il cattivo (1966)",8.9,3
9,The Lord of the Rings: The Fellowship of the R...,8.8,5


## 2.2. Índices

Você deve ter notado que o DataFrame de populações contém o que parece ser uma coluna extra e sem rótulo à esquerda com os números de 0 a 65. **Isto não é uma coluna, é o que chamamos de *índice***. O índice contém os rótulos das linhas. Enquanto as colunas deste DataFrame são rotuladas como `"Populacao"` e `"Ano"`, as linhas são rotuladas como 0, 1, ..., 65.

Por padrão, `pandas` não sabe como rotular as linhas, então apenas as numera (começando com 0). É claro que, neste caso, faz mais sentido usar o ano como rótulo da linha. Podemos fazer isso dizendo ao `pandas` para definir a coluna `"Ano"` como índice:

In [189]:
populacao_por_ano = populacao_df.set_index('Ano')
populacao_por_ano

Unnamed: 0_level_0,Populacao
Ano,Unnamed: 1_level_1
1950,2557619597
1951,2594942227
1952,2636777090
1953,2682060684
1954,2730237675
...,...
2018,7597066210
2019,7676686052
2020,7756873419
2021,7831718605


Como veremos, isso faz mais do que deixar o DataFrame mais bonito – é muito útil também.

**Pergunta 2.2.1** Crie um novo DataFrame chamado `top_10_filmes_por_nome` pegando o DataFrame que você criou acima, `top_10_filmes`, e definindo o índice como a coluna `Nome`.

In [190]:
top_10_filmes_por_nome = top_10_filmes.set_index('Nome')
top_10_filmes_por_nome

Unnamed: 0_level_0,Avaliacao
Nome,Unnamed: 1_level_1
The Shawshank Redemption (1994),9.2
The Godfather (1972),9.2
The Godfather: Part II (1974),9.0
Pulp Fiction (1994),8.9
Schindler's List (1993),8.9
The Lord of the Rings: The Return of the King (2003),8.9
12 Angry Men (1957),8.9
The Dark Knight (2008),8.9
"Il buono, il brutto, il cattivo (1966)",8.9
The Lord of the Rings: The Fellowship of the Ring (2001),8.8


In [191]:
#@title Solução
top_10_filmes_por_nome = top_10_filmes.set_index('Nome')
top_10_filmes_por_nome

Unnamed: 0_level_0,Avaliacao
Nome,Unnamed: 1_level_1
The Shawshank Redemption (1994),9.2
The Godfather (1972),9.2
The Godfather: Part II (1974),9.0
Pulp Fiction (1994),8.9
Schindler's List (1993),8.9
The Lord of the Rings: The Return of the King (2003),8.9
12 Angry Men (1957),8.9
The Dark Knight (2008),8.9
"Il buono, il brutto, il cattivo (1966)",8.9
The Lord of the Rings: The Fellowship of the Ring (2001),8.8


Você pode obter um array de nomes de linhas usando `.index`. Por exemplo, o array de nomes de linhas do DataFrame `populacao_por_ano` é:

In [192]:
populacao_por_ano.index

Index([1950, 1951, 1952, 1953, 1954, 1955, 1956, 1957, 1958, 1959, 1960, 1961,
       1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969, 1970, 1971, 1972, 1973,
       1974, 1975, 1976, 1977, 1978, 1979, 1980, 1981, 1982, 1983, 1984, 1985,
       1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997,
       1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009,
       2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021,
       2022],
      dtype='int64', name='Ano')

## 2.3 Lendo um DataFrame de um arquivo
Na maioria dos casos, não teremos o trabalho de digitar todos os dados manualmente. Em vez disso, podemos usar funções fornecidas por `pandas` para ler dados de arquivos externos.

A função `pd.read_csv()` pega um argumento, um caminho para um arquivo de dados (uma string) e retorna um DataFrame. Existem muitos formatos de arquivos de dados, mas CSV (*comma separated values*, ou "valores separados por vírgula") é o mais comum.

**dataframe** O arquivo `data/imdb.csv` contém informações sobre os 250 filmes mais bem avaliados no IMDb. Carregue-o como um DataFrame chamado `imdb`.

In [193]:
imdb =pd.read_csv('data/imdb.csv')
imdb

Unnamed: 0,Votes,Rating,Title,Year,Decade
0,88355,8.4,M,1931,1930
1,132823,8.3,Singin' in the Rain,1952,1950
2,74178,8.3,All About Eve,1950,1950
3,635139,8.6,Léon,1994,1990
4,145514,8.2,The Elephant Man,1980,1980
...,...,...,...,...,...
245,1078416,8.7,Forrest Gump,1994,1990
246,31003,8.1,Le salaire de la peur,1953,1950
247,167076,8.2,3 Idiots,2009,2000
248,91689,8.1,Network,1976,1970


Observe os `...` no meio do DataFrame. Isso significa que muitas linhas foram omitidas. Este DataFrame é grande o suficiente para que apenas algumas de suas linhas sejam exibidas, mas as outras ainda estão lá. São 250 filmes no total.

De onde veio o `imdb.csv`? Se você entrar no diretório `data/`, deverá ver um arquivo chamado `imdb.csv`.

Abra o arquivo `imdb.csv` nessa pasta e observe o formato. O que você percebe? A terminação do nome do arquivo `.csv` indica que este arquivo está no formato [CSV (comma-separated value)](http://edoceo.com/utilitas/csv-file-format).

**Pergunta 2.3.2.** Este é um conjunto de dados de filmes, portanto faz sentido usar o título do filme como rótulo da linha. Crie um novo DataFrame chamado `imdb_por_nome` que usa o título do filme como índice.

In [194]:
imdb_por_nome = imdb.set_index('Title')
imdb_por_nome

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,88355,8.4,1931,1930
Singin' in the Rain,132823,8.3,1952,1950
All About Eve,74178,8.3,1950,1950
Léon,635139,8.6,1994,1990
The Elephant Man,145514,8.2,1980,1980
...,...,...,...,...
Forrest Gump,1078416,8.7,1994,1990
Le salaire de la peur,31003,8.1,1953,1950
3 Idiots,167076,8.2,2009,2000
Network,91689,8.1,1976,1970


In [195]:
#@title Solução
imdb_por_nome = imdb.set_index('Title')
imdb_por_nome

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,88355,8.4,1931,1930
Singin' in the Rain,132823,8.3,1952,1950
All About Eve,74178,8.3,1950,1950
Léon,635139,8.6,1994,1990
The Elephant Man,145514,8.2,1980,1980
...,...,...,...,...
Forrest Gump,1078416,8.7,1994,1990
Le salaire de la peur,31003,8.1,1953,1950
3 Idiots,167076,8.2,2009,2000
Network,91689,8.1,1976,1970


## 2.4. Series



Suponha que estejamos interessados ​​principalmente nas classificações de filmes. Para extrair apenas esta coluna do DataFrame, usamos o método `.get`:

In [196]:
avaliacoes = imdb_por_nome.get('Rating')
avaliacoes

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
M,8.4
Singin' in the Rain,8.3
All About Eve,8.3
Léon,8.6
The Elephant Man,8.2
...,...
Forrest Gump,8.7
Le salaire de la peur,8.1
3 Idiots,8.2
Network,8.1


Observe como não apenas as classificações do filme foram retornadas, mas também o nome do filme! Isto ocorre precisamente porque definimos o título do filme como o índice! Por exemplo, se tivéssemos solicitado a coluna `"Rating"` do DataFrame original, `imdb`, veríamos:

In [197]:
imdb.get('Rating')

Unnamed: 0,Rating
0,8.4
1,8.3
2,8.3
3,8.6
4,8.2
...,...
245,8.7
246,8.1
247,8.2
248,8.1


Esta é uma forma pela qual os índices são muito úteis – eles fornecem rótulos significativos para os dados.

À primeira vista, pode parecer que pedir uma coluna usando `.get` retorna um DataFrame com uma coluna, mas isso não está certo. Em vez disso, ele retorna um tipo especial de coisa chamado **Series**:

In [198]:
type(imdb_por_nome.get('Rating'))

Você pode pensar em uma `Series` como um array com um índice. Enquanto as matrizes são sequências simples de números sem rótulos, `Series` pode ter rótulos. Isso geralmente é muito útil.

`avaliacoes` agora é uma `Series` que contém a coluna de classificações de filmes. Suponha que estejamos interessados ​​na avaliação de um filme específico: _Alien_. Para fazer isso, usaremos o "*acessador*" `.loc` que extrai um valor da Série em um *local* específico:

In [199]:
avaliacoes.loc["Alien"]

8.5

Há algumas coisas a serem observadas aqui. Primeiro, esses são colchetes em torno de `"Alien"`. Isso ocorre porque `.loc` não é um método, mas um "*acessador*". Os colchetes sinalizam que iremos extrair um elemento da `Série`. Segundo, passamos o rótulo como uma string.

**Pergunta 2.4.1.** Encontre a avaliação de _3 Idiotas_ (*3 Idiots*).

In [200]:
avaliacao_de_tres_idiotas = avaliacoes.loc["3 Idiots"]
avaliacao_de_tres_idiotas

8.2

In [201]:
#@title Solução
avaliacao_de_tres_idiotas = avaliacoes.loc['3 Idiots']
avaliacao_de_tres_idiotas


8.2

Agora suponha que quiséssemos saber o ano em que _Alien_ foi lançado. Poderíamos fazer isso obtendo primeiro a coluna dos anos:

In [202]:
anos = imdb_por_nome.get('Year')
anos

Unnamed: 0_level_0,Year
Title,Unnamed: 1_level_1
M,1931
Singin' in the Rain,1952
All About Eve,1950
Léon,1994
The Elephant Man,1980
...,...
Forrest Gump,1994
Le salaire de la peur,1953
3 Idiots,2009
Network,1976


E então usando `.loc` para obter a entrada correta:

In [203]:
anos.loc['Alien']

1979

Também poderíamos fazer isso em uma única etapa *encadeando* as operações:

In [204]:
imdb_por_nome.get('Year').loc['Alien']

1979

Isso funciona porque o Python primeiro avalia `imdb_por_nome.get('Year')` como uma `Series`. Em seguida, avalia `.loc['Alien']` para retornar o ano.

O encadeamento é usado com bastante frequência e pode ser útil. Apenas certifique-se de não encadear muitas coisas que tornem seu código difícil de ler. Você sempre pode salvar um resultado intermediário em uma variável.

# 3. Analisando conjuntos de dados

Com apenas alguns métodos DataFrame, podemos responder algumas questões interessantes sobre o conjunto de dados IMDb.

Se quisermos apenas as avaliações dos filmes, podemos usar `.get`:

In [205]:
avaliacoes = imdb_por_nome.get("Rating")
avaliacoes

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
M,8.4
Singin' in the Rain,8.3
All About Eve,8.3
Léon,8.6
The Elephant Man,8.2
...,...
Forrest Gump,8.7
Le salaire de la peur,8.1
3 Idiots,8.2
Network,8.1


Lembre-se de que `avaliacoes` é uma série. Objetos de série possuem alguns métodos úteis.

**Pergunta 3.1.** Encontre a maior avaliação no conjunto de dados.

*Dica:* Digite `avaliacoes.` e pressione Tab para ver uma lista dos métodos disponíveis. Existe algum que parece útil?

In [206]:
maior_avaliacao = avaliacoes.max()
maior_avaliacao

9.2

In [207]:
#@title Solução
maior_avaliacao = avaliacoes.max()
maior_avaliacao

9.2

Você provavelmente quer saber o *nome* do filme de maior avaliação que encontrou anteriormente! Para fazer isso, podemos ordenar toda a série usando o método `.sort_values`:

In [208]:
avaliacoes.sort_values()

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
Akira,8.0
Per un pugno di dollari,8.0
Guardians of the Galaxy,8.0
The Man Who Shot Liberty Valance,8.0
Underground,8.0
...,...
Schindler's List,8.9
12 Angry Men,8.9
The Godfather: Part II,9.0
The Shawshank Redemption,9.2


Portanto, na verdade, existem dois filmes com maior audiência no conjunto de dados: *Um Sonho de Liberdade* e *O Poderoso Chefão*.

Observe que estamos ordenando pelas avaliações, e não pelos rótulos! Além disso, o rótulo segue a ordenação conforme a sua avaliação. Isto é exatamente o que queremos.

Quando utilizamos o método `sort_values`, a `Series` resultante tem os dados ordenados em ordem crescente, do menor ao maior. Este é o comportamento padrão de `sort_values`, mas podemos mudar isso. Se quiséssemos os filmes com melhor avaliação no topo, precisaríamos especificar que a avaliação não deveria ser em ordem crescente com um *argumento keyword* ("palavra-chave") opcional:


In [209]:
avaliacoes.sort_values(ascending=False)

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
The Godfather,9.2
The Shawshank Redemption,9.2
The Godfather: Part II,9.0
12 Angry Men,8.9
"Il buono, il brutto, il cattivo (1966)",8.9
...,...
"Monsters, Inc. (2001)",8.0
The Big Sleep,8.0
X-Men: Days of Future Past,8.0
Roman Holiday,8.0


Se definirmos o argumento `ascending` como `True`, obteremos o mesmo resultado como se não o definissemos. Isso é o que queremos dizer quando dizemos que o comportamento padrão de `sort_values` é classificar em ordem crescente. Confirme se as próximas duas células fornecem a mesma saída.

In [210]:
avaliacoes.sort_values(ascending=True)

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
Akira,8.0
Per un pugno di dollari,8.0
Guardians of the Galaxy,8.0
The Man Who Shot Liberty Valance,8.0
Underground,8.0
...,...
Schindler's List,8.9
12 Angry Men,8.9
The Godfather: Part II,9.0
The Shawshank Redemption,9.2


In [211]:
avaliacoes.sort_values()

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
Akira,8.0
Per un pugno di dollari,8.0
Guardians of the Galaxy,8.0
The Man Who Shot Liberty Valance,8.0
Underground,8.0
...,...
Schindler's List,8.9
12 Angry Men,8.9
The Godfather: Part II,9.0
The Shawshank Redemption,9.2


Não só podemos ordenar séries, mas também ordenar DataFrames inteiros. Quando fazemos isso, temos que especificar a coluna pela qual iremos ordenar:

In [212]:
imdb_por_nome.sort_values('Rating')

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Akira,91652,8.0,1988,1980
Per un pugno di dollari,124671,8.0,1964,1960
Guardians of the Galaxy,527349,8.0,2014,2010
The Man Who Shot Liberty Valance,49135,8.0,1962,1960
Underground,39447,8.0,1995,1990
...,...,...,...,...
Schindler's List,761224,8.9,1993,1990
12 Angry Men,384187,8.9,1957,1950
The Godfather: Part II,692753,9.0,1974,1970
The Shawshank Redemption,1498733,9.2,1994,1990


Da mesma forma, podemos especificar que a ordenação deve estar em ordem decrescente:

In [213]:
imdb_por_nome.sort_values('Rating', ascending=False)

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Godfather,1027398,9.2,1972,1970
The Shawshank Redemption,1498733,9.2,1994,1990
The Godfather: Part II,692753,9.0,1974,1970
12 Angry Men,384187,8.9,1957,1950
"Il buono, il brutto, il cattivo (1966)",447875,8.9,1966,1960
...,...,...,...,...
"Monsters, Inc. (2001)",500576,8.0,2001,2000
The Big Sleep,59578,8.0,1946,1940
X-Men: Days of Future Past,427099,8.0,2014,2010
Roman Holiday,87437,8.0,1953,1950


Alguns detalhes sobre a ordenação de um DataFrame:

1. O primeiro argumento para `sort_values` é o nome de uma coluna pela qual iremos ordenar.
2. Se a coluna contiver strings, `sort` ordenará em ordem alfabética; se a coluna tiver números, ela será ordenada numericamente.
3. `imdb_por_nome.sort_values("Rating")` retorna um novo DataFrame; o DataFrame `imdb_por_nome` não é modificado. Por exemplo, se chamarmos `imdb_por_nome.sort("Rating")`, então executar `imdb_por_nome` por si só ainda retornaria o DataFrame não ordenado. Para salvar o resultado, você deve atribuí-lo a uma nova variável.
4. As linhas sempre permanecem juntas quando um DataFrame é ordenado. Não faria sentido ordenar apenas uma coluna e deixar as outras colunas em paz. Por exemplo, neste caso, se ordenássemos apenas a coluna `"Rating"`, todos os filmes terminariam com avaliações erradas.

**Pergunta 3.2.** Crie uma versão de `imdb_por_nome` que seja ordenada cronologicamente, com os filmes mais antigos primeiro. Chame-o de `imdb_ordenado`.

In [214]:
imdb_ordenado = imdb_por_nome.sort_values('Year')
imdb_ordenado

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Kid,55784,8.3,1921,1920
The Gold Rush,58506,8.2,1925,1920
The General,46332,8.2,1926,1920
Metropolis,98794,8.3,1927,1920
M,88355,8.4,1931,1930
...,...,...,...,...
The Grand Budapest Hotel,369141,8.1,2014,2010
Relatos salvajes,46987,8.0,2014,2010
Interstellar,689541,8.6,2014,2010
Mad Max: Fury Road,262425,8.3,2015,2010


In [215]:
#@title Solução
imdb_ordenado = imdb_por_nome.sort_values('Year')
imdb_ordenado

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Kid,55784,8.3,1921,1920
The Gold Rush,58506,8.2,1925,1920
The General,46332,8.2,1926,1920
Metropolis,98794,8.3,1927,1920
M,88355,8.4,1931,1930
...,...,...,...,...
The Grand Budapest Hotel,369141,8.1,2014,2010
Relatos salvajes,46987,8.0,2014,2010
Interstellar,689541,8.6,2014,2010
Mad Max: Fury Road,262425,8.3,2015,2010


**Pergunta 3.3.** Qual é o título do filme mais antigo no conjunto de dados? Você poderia simplesmente procurar isso na saída da célula anterior. Em vez disso, escreva o código Python para descobrir.

* **Dica:** Lembre-se de que o índice é um array.

In [216]:
titulo_do_filme_mais_antigo = imdb_ordenado.index[0]
titulo_do_filme_mais_antigo

'The Kid'

In [217]:
#@title Solução
titulo_do_filme_mais_antigo = imdb_ordenado.index[0]
titulo_do_filme_mais_antigo

'The Kid'

Suponha que queiramos obter a avaliação do filme mais antigo no DataFrame. Uma maneira de fazer isso é primeiro encontrar o rótulo de índice do filme mais antigo (o que já fizemos). Em seguida, extraímos a coluna `"Rating"` e usamos `.loc` para encontrar a avaliação do filme mais antigo.

In [218]:
imdb_ordenado.get('Rating').loc[titulo_do_filme_mais_antigo]

8.3

Porém, existe uma maneira mais rápida. Uma série não possui apenas um acessador `.loc`, mas também um acessador `.iloc`. Enquanto `.loc` procura coisas por *rótulo*, `.iloc` procura elementos por *posição inteira*.

Vamos lembrar o que está na coluna `"Rating"`:

In [219]:
imdb_ordenado.get('Rating')

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
The Kid,8.3
The Gold Rush,8.2
The General,8.2
Metropolis,8.3
M,8.4
...,...
The Grand Budapest Hotel,8.1
Relatos salvajes,8.0
Interstellar,8.6
Mad Max: Fury Road,8.3


Se quisermos a avaliação da primeira linha, podemos usar `.iloc[0]`:

In [220]:
imdb_ordenado.get('Rating').iloc[0]

8.3

Isso retorna exatamente a mesma coisa que `imdb_ordenado.get('Rating').loc['The Kid']`; essas são duas maneiras de fazer a mesma coisa. Normalmente é mais conveniente acessar um elemento por seu rótulo do que por sua posição inteira, mas é bom saber `.loc` e `.iloc`.

# 4. Encontrar partes de um conjunto de dados

Suponha que você esteja interessado em filmes da década de 1950. Ordenar o DataFrame por ano não ajuda, porque a década de 1950 está no meio do conjunto de dados. Em vez disso, usaremos um recurso de Series que nos permite comparar facilmente cada elemento em uma coluna com um valor específico.

Primeiro lembre-se que podemos usar `.get` para extrair uma única coluna. O resultado não é um DataFrame, mas sim uma Series:

In [221]:
imdb_por_nome.get('Decade')

Unnamed: 0_level_0,Decade
Title,Unnamed: 1_level_1
M,1930
Singin' in the Rain,1950
All About Eve,1950
Léon,1990
The Elephant Man,1980
...,...
Forrest Gump,1990
Le salaire de la peur,1950
3 Idiots,2000
Network,1970


Queremos verificar se cada filme foi lançado na década de 1950. Python nos dá uma maneira de verificar se duas coisas são iguais com `==` (lembre-se que `=` já está sendo usado para outro propósito: atribui valores a variáveis nomes):

In [222]:
imdb_por_nome.get('Decade') == 1950

Unnamed: 0_level_0,Decade
Title,Unnamed: 1_level_1
M,False
Singin' in the Rain,True
All About Eve,True
Léon,False
The Elephant Man,False
...,...
Forrest Gump,False
Le salaire de la peur,True
3 Idiots,False
Network,False


Vemos que o resultado é uma nova série que tem `Verdadeiro` apenas onde a década foi 1950, e `Falso` em todos os outros lugares. Dizemos que a Series resultante é uma Series de *Booleanos*, ou uma *Series Booleana*.

Vamos chamar esse resultado de `eh_de_1950s`. Seu nome pode ser lido como se fosse uma pergunta: “esse filme é da década de 1950”?

In [223]:
eh_de_1950s = imdb_por_nome.get('Decade') == 1950
eh_de_1950s

Unnamed: 0_level_0,Decade
Title,Unnamed: 1_level_1
M,False
Singin' in the Rain,True
All About Eve,True
Léon,False
The Elephant Man,False
...,...
Forrest Gump,False
Le salaire de la peur,True
3 Idiots,False
Network,False


Cada linha é uma resposta a esta pergunta. *O Homem Elefante* é da década de 1950? `Falso`. *Tudo sobre Eva* é da década de 1950? `Verdadeiro`.

Podemos usar `eh_de_1950s` para selecionar apenas as linhas de `imdb_por_nome` para as quais a resposta é `Verdadeiro`. A sintaxe para isso é:

In [224]:
imdb_por_nome[eh_de_1950s]

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Singin' in the Rain,132823,8.3,1952,1950
All About Eve,74178,8.3,1950,1950
Some Like It Hot,156432,8.3,1959,1950
The Killing,56671,8.0,1956,1950
Roman Holiday,87437,8.0,1953,1950
Touch of Evil,65408,8.1,1958,1950
Rashômon,90434,8.3,1950,1950
La strada,42446,8.0,1954,1950
North by Northwest,198795,8.4,1959,1950
Sunset Blvd.,123879,8.5,1950,1950


O que `imdb_por_nome[eh_de_1950s]` faz, precisamente, é percorrer `imdb_por_nome` linha por linha. Se a linha chamada *Singin' in the Rain* tiver o valor `True` em `eh_de_1950s`, essa linha será mantida. Se o valor for `False`, a linha será descartada. E assim por diante, para cada linha.

Observe que poderíamos ter conseguido isso sem nunca criar a variável `eh_de_1950s`, simplesmente colocando o código que usamos para criar a Series booleana diretamente dentro de `[...]`. Este é um padrão típico que você usará muito!

In [225]:
imdb_por_nome[imdb_por_nome.get('Decade') == 1950]

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Singin' in the Rain,132823,8.3,1952,1950
All About Eve,74178,8.3,1950,1950
Some Like It Hot,156432,8.3,1959,1950
The Killing,56671,8.0,1956,1950
Roman Holiday,87437,8.0,1953,1950
Touch of Evil,65408,8.1,1958,1950
Rashômon,90434,8.3,1950,1950
La strada,42446,8.0,1954,1950
North by Northwest,198795,8.4,1959,1950
Sunset Blvd.,123879,8.5,1950,1950


Ajuda ler os colchetes como "onde". Portanto, o comando na célula acima diz para manter todas as linhas de `imdb_por_nome` *onde* a década é a década de 1950.

Criar um novo DataFrame selecionando apenas certas linhas de um DataFrame existente que satisfaça alguma condição é chamado de *consulta*. A linha de código `imdb_por_nome[imdb_por_nome.get('Decade') == 1950]` é uma *consulta*.

**Questão 4.1.** Crie um DataFrame chamado `noventa_e_oito` contendo os filmes lançados em 1998.

In [226]:
noventa_e_oito = imdb_por_nome[imdb_por_nome.get('Year') == 1998]
noventa_e_oito

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Saving Private Ryan,769893,8.5,1998,1990
American History X,694602,8.5,1998,1990
"Lock, Stock and Two Smoking Barrels (1998)",372863,8.2,1998,1990
The Big Lebowski,473988,8.2,1998,1990
The Truman Show,583004,8.0,1998,1990


In [227]:
#@title Solução
noventa_e_oito = imdb_por_nome[imdb_por_nome.get('Year') == 1998]
noventa_e_oito

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Saving Private Ryan,769893,8.5,1998,1990
American History X,694602,8.5,1998,1990
"Lock, Stock and Two Smoking Barrels (1998)",372863,8.2,1998,1990
The Big Lebowski,473988,8.2,1998,1990
The Truman Show,583004,8.0,1998,1990


Até agora só descobrimos onde uma coluna é *exatamente* igual a um determinado valor. No entanto, existem muitos outros operadores de comparação que poderíamos usar. Aqui estão alguns:

|Operador|Testes|
|-|-|
|`==`|a coisa da esquerda é igual à coisa da direita|
|`!=`|a coisa à esquerda *não* é igual à coisa à direita|
|`>`|a coisa à esquerda é maior que (e não igual) à coisa à direita|
|`>=`|a coisa à esquerda é maior ou igual à coisa à direita|
|`<`|a coisa à esquerda é menor que (e não igual) à coisa à direita|

As [notas de curso](https://notes.dsc10.com/02-data_sets/querying.html#examples) do DSC10 tem mais exemplos.

Qual é a maior avaliação de qualquer filme da década de 1990? Agora temos as ferramentas para responder a perguntas como essas. Dividindo em pedaços, encontramos primeiro todos os filmes da década de 1990:

In [228]:
eh_de_1990s = imdb_por_nome.get('Decade') == 1990
eh_de_1990s

Unnamed: 0_level_0,Decade
Title,Unnamed: 1_level_1
M,False
Singin' in the Rain,False
All About Eve,False
Léon,True
The Elephant Man,False
...,...
Forrest Gump,True
Le salaire de la peur,False
3 Idiots,False
Network,False


Em seguida, selecionamos apenas estes filmes em nosso DataFrame:

In [229]:
de_1990s = imdb_por_nome[eh_de_1990s]
de_1990s

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Léon,635139,8.6,1994,1990
Mononoke-hime,192165,8.4,1997,1990
Saving Private Ryan,769893,8.5,1998,1990
In the Name of the Father,95212,8.1,1993,1990
Before Sunrise,158867,8.0,1995,1990
The Silence of the Lambs,767224,8.6,1991,1990
The Shawshank Redemption,1498733,9.2,1994,1990
Heat,388239,8.2,1995,1990
Toy Story,535249,8.3,1995,1990
Beauty and the Beast,268480,8.0,1991,1990


Encontramos então a maior avaliação apenas destes filmes:

In [230]:
de_1990s.get('Rating').max()

9.2

Ou, se quiséssemos fazer tudo isso de forma mais concisa usando encadeamento:

In [231]:
imdb_por_nome[imdb_por_nome.get('Decade') == 1990].get('Rating').max()

9.2

A propriedade `shape` informa quantas linhas e colunas existem em um DataFrame. (Uma "propriedade" é similar a um método que não precisa ser chamado adicionando parênteses.)

In [232]:
imdb_por_nome.shape

(250, 4)

Como um array, você pode obter o primeiro elemento do `shape` usando `[0]` e o segundo elemento usando `[1]`. Por exemplo, o número de linhas em `imdb_por_nome` é:

In [233]:
imdb_por_nome.shape[0]

250

**Pergunta 4.5.** Finalmente, vamos revisitar o DataFrame `populacao_por_ano` do início do laboratório. Calcule o ano em que a população mundial ultrapassou pela primeira vez os 7 mil milhões.

In [234]:
ano_que_a_populacao_ultrapassou_7_bilhoes = populacao_por_ano[populacao_por_ano.get('Populacao') > 7000000000].index[0]
ano_que_a_populacao_ultrapassou_7_bilhoes

2011

In [235]:
#@title Solução

ano_que_a_populacao_ultrapassou_7_bilhoes = populacao_por_ano[populacao_por_ano.get('Populacao') > 7000000000].index[0]
ano_que_a_populacao_ultrapassou_7_bilhoes

2011

# Linha de chegada

Parabéns! Você concluiu o Laboratório 1.

Para enviar sua tarefa:

1. Selecione `Kernel -> Reiniciar e executar tudo` para garantir que você executou todas as células.
2. Leia o caderno para ter certeza de que está tudo bem.
4. Baixe seu notebook usando `Arquivo -> Baixar como -> Notebook (.ipynb)` e, em seguida, carregue seu notebook para o Moodle.

<img src='http://www.inf.ufes.br/~vinicius.mota/Intro-IA-CD/banner_separador.png' style="float: right;">
