# Laboratório 1: Arrays e DataFrames

Bem-vindo ao Laboratório 1! Esta semana, aprenderemos sobre arrays, que nos permitem armazenar sequências de dados, e DataFrames, que nos permitem trabalhar com vários arrays de dados sobre as mesmas coisas. Esses tópicos são abordados nas [notas de aula](https://flaviovdf.io/icd-bradesco/).


**Não use loops `for` em nenhuma pergunta deste laboratório.** Se você não sabe o que é um loop `for`, não se preocupe: ainda não abordamos isso. Mas se você sabe o que eles são e está se perguntando por que não é correto usá-los, é porque os loops em Python são lentos e os loops em arrays e DataFrames geralmente devem ser evitados, já que temos funções nativas de bibliotecas como `numpy` que são muito mais rápidas.

Primeiro, configure as importações necessárias executando as células abaixo.

In [24]:
# Remova o caractere " # " da célula abaixo e execute a célula, caso esteja utilizando o Colab.
# Isso fará com que a biblioteca seja instalada.

In [25]:
import numpy as np
import pandas as pd

Além disso, iremos baixar alguns dados que usaremos ao longo desse notebook. Não se preocupe em entender a célula a seguir, mas basicamente o que estamos fazendo é:

1. Usaremos `wget` que é um comando para baixarmos coisas da internet.
2. Usaremos `unzip` para "dezipar" o arquivo `data.zip`, contendo uma pasta com os nossos dados.
3. Removeremos `data.zip` com o comando `rm` para não ficarmos com arquivos desnecessários.

> Para executarmos comandos de terminal no Jupyter Notebook, iniciamos as linhas com `!`.

In [26]:
!wget https://github.com/ThiagoPoppe/monitoria_fcd2024/raw/main/labs/lab01/data.zip -P ./
!unzip data.zip
!rm data.zip

--2025-03-31 13:23:11--  https://github.com/ThiagoPoppe/monitoria_fcd2024/raw/main/labs/lab01/data.zip
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/ThiagoPoppe/monitoria_fcd2024/main/labs/lab01/data.zip [following]
--2025-03-31 13:23:11--  https://raw.githubusercontent.com/ThiagoPoppe/monitoria_fcd2024/main/labs/lab01/data.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 207960 (203K) [application/zip]
Saving to: ‘./data.zip’


2025-03-31 13:23:11 (5.82 MB/s) - ‘./data.zip’ saved [207960/207960]

Archive:  data.zip
replace data/.gitkeep? [y]es, [n]o, [A]ll, [N]one, [r]ename: A
 extracting:

# 1. Matrizes

Os computadores são mais úteis quando você pode usar uma pequena quantidade de código para *fazer a mesma ação* para *muitas coisas diferentes*.

Por exemplo, no tempo que você leva para calcular a gorjeta de 18% na conta de um restaurante, um laptop pode calcular gorjetas de 18% para cada conta de restaurante paga por cada ser humano na Terra naquele dia. (Isto é, se você for muito rápido em fazer contas de cabeça!)

**Matrizes** são como colocamos muitos valores em um só lugar para que possamos operar neles como um grupo. Por exemplo, se `bilhoes_de_numeros` for uma matriz de números, a expressão

```python
0.18 * bilhoes_de_numeros
```

fornece uma nova matriz de números que é o resultado da multiplicação de cada número em `bilhoes_de_numeros` por 0,18 (18%). As matrizes não estão limitadas a números; também podemos colocar todas as palavras de um livro em uma série de strings.

Concretamente, uma matriz é uma **coleção de valores do mesmo tipo**, como uma coluna em uma planilha (pense no Planilhas Google ou no Microsoft Excel).

<img src="https://github.com/ThiagoPoppe/monitoria_fcd2024/blob/main/labs/lab01/imagens/sheet_array.png?raw=true" width=600>

Pense que cada célula do Excel é um espaço de memória no seu computador, e a linguagem de programação é responsável por fornecer formas de escrever nessas células, bem como acessar os valores que você guardou nessas células.

É importante ressaltar, também, que *matrizes* podem ser vistas como vários *arrays*, em sequência. Na imagem acima, mostramos os *arrays*, que seriam células justapostas e sequenciais, que armazenam algum valor e te permitem acessá-los. Fique tranquilo, as células abaixo vão fornecer exemplos práticos.

Mas não se preocupe muito com o funcionamento interno de matrizes, esse conceito básico é suficiente!

## 1.1. Fazendo matrizes

Você mesmo pode digitar os dados que vão em um array, mas normalmente não é assim que criaremos arrays. Normalmente, criamos arrays carregando-os de uma fonte externa, como um arquivo de dados.

Porém, primeiro vamos aprender como fazer isso da maneira mais difícil. Para começar, podemos fazer uma **lista** de números colocando-os entre colchetes e separando-os por vírgulas:

In [27]:
minha_lista = [14, -2.26, 0.15]
minha_lista

[14, -2.26, 0.15]

Assim como `int`, `float` e `str`, a `list` é um tipo de dados fornecido pelo Python. As listas são muito flexíveis e fáceis de trabalhar, mas são *lentas* 🐢.

Como cientistas de dados, frequentemente trabalharemos com milhões ou até bilhões de números. Para isso, precisamos de algo mais rápido que uma `lista`. Em vez de listas, usaremos *arrays*.

Arrays são fornecidos por um pacote chamado [NumPy](http://www.numpy.org/) (pronuncia-se "NUM-pai" ou, se você preferir pronunciar as coisas incorretamente, "NUM-pi"). O pacote é chamado `numpy`, mas é padrão abreviá-lo para `np`. Você pode fazer isso com:

```python
import numpy as np
```

Cientistas de dados, bem como engenheiros e cientistas de todos os tipos, usam `numpy` com frequência, e você verá bastante disso se for especialista em ciência de dados.

In [28]:
import numpy as np

Agora, para criar um array, chame a função `np.array` com uma lista de números. Execute esta célula para ver um exemplo:

In [29]:
np.array([14, -2.26, 0.15])

array([14.  , -2.26,  0.15])

Observe que você precisa dos colchetes aqui. Se você tentasse executar o código a seguir, o Python acharia ruim porque você o esqueceu:

```python
np.array(14, -2.26, 0.15)
```

<img src='https://github.com/ThiagoPoppe/monitoria_fcd2024/blob/main/labs/lab01/imagens/brackets.png?raw=true' width=400>

Para você entender um pouco melhor:

*Listas* não são necessariamente *arrays*, apesar de funcionarem de forma muito semelhante. Tente pensar que *listas* são, por baixo dos panos, um *array*, com algumas funcionalidades a mais, que não são úteis para nós e que tornam a manipulação de listas mais lenta do que *arrays*, como mencionado anteriormente.

O que *np.array(_lista_argumento_)* faz é converter uma *_lista_argumento_* em um array. Quando você utiliza isso, é esperado que você diga qual lista você quer gostaria de converter em um array.

O código abaixo funciona de forma semelhante:

In [30]:
minha_lista = [14, -2.26, 0.15]
np.array(minha_lista)

array([14.  , -2.26,  0.15])

Os próprios arrays também são valores, assim como números e strings. Isso significa que você pode atribuir nomes a eles ou usá-los como argumentos para funções.

**Questão 1.1.1.** Faça um array contendo os números 2, 4 e 6, nessa ordem. Nomeie-o como `numeros_pares`.

In [31]:
numeros_pares = ... # Complete aqui
numeros_pares

Ellipsis

In [32]:
# Gabarito:
numeros_pares = np.array([2,4,6])
numeros_pares

array([2, 4, 6])

**Questão 1.1.2.** Faça um array contendo os números 0, -1, 1, $\pi$ e $e$, nessa ordem. Nomeie-o como `outros_numeros`.

*Dica:* $\pi$ e $e$ estão disponíveis no módulo `np`, que já foi importado. Você pode usar `np.pi` para obter $\pi$, e `np.exp(1)` para obter $e^1$. **Não** importe o módulo `math`.

In [33]:
outros_numeros = ...
outros_numeros

Ellipsis

In [34]:
# Gabarito
outros_numeros = np.array([0, -1, 1, np.pi, np.exp(1)])
outros_numeros

array([ 0.        , -1.        ,  1.        ,  3.14159265,  2.71828183])

**Questão 1.1.3.** Faça um array contendo as cinco strings `"Hello"`, `","`, `" "`, `"world"` e `"!"`. (O terceiro é um espaço único entre aspas.) Nomeie-o como `componentes_hello_world`.

*Nota:* Se você imprimir `componentes_hello_world`, você notará algumas informações extras além de seu conteúdo: `dtype='<U5'`. Essa é apenas a maneira extremamente estranha do NumPy de dizer que as coisas no array são strings. Caso você esteja interessado, o `U` significa que esta string está codificada em [unicode](https://en.wikipedia.org/wiki/Unicode), e o `<5` significa que todas as strings no array têm 5 caracteres ou menos.

In [35]:
componentes_hello_world = ...
componentes_hello_world

Ellipsis

In [36]:
# Gabarito
componentes_hello_world = np.array(["Hello", ",", " ", "world", "!"])
componentes_hello_world

array(['Hello', ',', ' ', 'world', '!'], dtype='<U5')

Muitas vezes, em ciência de dados, queremos trabalhar com muitos números espaçados uniformemente dentro de algum intervalo. NumPy fornece uma função especial para isso chamada `arange`. A expressão `np.arange(comeco, fim, espaco)` produz um array com todos os números começando em `comeco`, contando de  `espaco` em `espaco`, parando **antes** de `fim` ser alcançado.

Por exemplo, o valor de `np.arange(1, 8, 2)` é uma matriz com os elementos `1, 3, 5 e 7` - começa em 1 e vai contando de 2 em 2, terminando até chegar no último valor menor que 8. Em outros palavras, ele cria o mesmo array que `np.array([1, 3, 5, 7])`.

`np.arange(4, 9, 1)` é um array com os elementos `4, 5, 6, 7 e 8`, não contendo o 9 porque `np.arange` para *antes* do valor de parada ser atingido.

**Questão 1.1.4.** Use `np.arange` para criar um array com todos os múltiplos de 99 de 0 até (**e incluindo**) 9999. (Portanto, seus elementos são 0, 99, 198, 297, etc.)

In [37]:
multiplos_de_99 = ...
multiplos_de_99

Ellipsis

In [38]:
# Gabarito
multiplos_de_99 = np.arange(0, 10000, 99)
multiplos_de_99

array([   0,   99,  198,  297,  396,  495,  594,  693,  792,  891,  990,
       1089, 1188, 1287, 1386, 1485, 1584, 1683, 1782, 1881, 1980, 2079,
       2178, 2277, 2376, 2475, 2574, 2673, 2772, 2871, 2970, 3069, 3168,
       3267, 3366, 3465, 3564, 3663, 3762, 3861, 3960, 4059, 4158, 4257,
       4356, 4455, 4554, 4653, 4752, 4851, 4950, 5049, 5148, 5247, 5346,
       5445, 5544, 5643, 5742, 5841, 5940, 6039, 6138, 6237, 6336, 6435,
       6534, 6633, 6732, 6831, 6930, 7029, 7128, 7227, 7326, 7425, 7524,
       7623, 7722, 7821, 7920, 8019, 8118, 8217, 8316, 8415, 8514, 8613,
       8712, 8811, 8910, 9009, 9108, 9207, 9306, 9405, 9504, 9603, 9702,
       9801, 9900, 9999])

##### Leituras de temperatura 🌡️
A NOAA (Administração Nacional Oceânica e Atmosférica dos EUA) opera estações meteorológicas que medem as temperaturas da superfície em diferentes locais dos Estados Unidos. As leituras horárias estão [disponíveis publicamente](http://www.ncdc.noaa.gov/qclcd/QCLCD?prior=N).

Suponha que baixemos todos os dados de horários do site de San Diego, Califórnia, para o mês de dezembro de 2021. Para analisar os dados, queremos saber quando cada leitura foi feita, mas descobrimos que os dados não incluem os carimbos de data e hora das leituras (o momento em que cada uma foi feita).

No entanto, sabemos que a primeira leitura foi feita no primeiro instante de dezembro de 2021 (meia-noite do dia 1º de dezembro) e cada leitura subsequente foi feita exatamente 1 hora após a última.

**Questão 1.1.5.** Crie uma matriz do *tempo, em segundos, desde o início do mês* em que cada leitura horária foi feita. Nomeie-o como `registro_de_leituras`.

* **Dica 1:** Há 31 dias em dezembro, o que equivale a ($31 \times 24$) horas ou ($31 \times 24 \times 60 \times 60$) segundos.

* **Dica 2:** A função `len` também funciona em arrays. Certifique-se de que seu `registro_de_leituras` tenha $31 \times 24$ elementos, já que as leituras são feitas de hora em hora durante 31 dias.

In [39]:
registro_de_leituras = ...
registro_de_leituras

Ellipsis

In [40]:
# Gabarito
registro_de_leituras = np.arange(0, (31*24*60*60)+1, 60*60)
print(f"Tamanho do Registro: {len(registro_de_leituras)}")
print(f"31 x 24 = {31*24}")
print(registro_de_leituras)

#PS: Lembre-se que 31x24 não considera a hora 0. É esperado que nossa solução tenha 31x24+1 elementos.
# Via de dúvidas, divida o último valor do vetor por (60*60) e terá como resultado (31*24)
# ;)

Tamanho do Registro: 745
31 x 24 = 744
[      0    3600    7200   10800   14400   18000   21600   25200   28800
   32400   36000   39600   43200   46800   50400   54000   57600   61200
   64800   68400   72000   75600   79200   82800   86400   90000   93600
   97200  100800  104400  108000  111600  115200  118800  122400  126000
  129600  133200  136800  140400  144000  147600  151200  154800  158400
  162000  165600  169200  172800  176400  180000  183600  187200  190800
  194400  198000  201600  205200  208800  212400  216000  219600  223200
  226800  230400  234000  237600  241200  244800  248400  252000  255600
  259200  262800  266400  270000  273600  277200  280800  284400  288000
  291600  295200  298800  302400  306000  309600  313200  316800  320400
  324000  327600  331200  334800  338400  342000  345600  349200  352800
  356400  360000  363600  367200  370800  374400  378000  381600  385200
  388800  392400  396000  399600  403200  406800  410400  414000  417600
  421200  42

## 1.2. Trabalhando com elementos únicos de arrays ("indexação")
Vamos trabalhar com um conjunto de dados mais interessante. A próxima célula cria uma matriz chamada `populacao` que inclui populações mundiais estimadas em cada ano de **1950** a **2022**. (As estimativas vêm da seguinte [base de dados internacional](https://www.census.gov/data-tools/demo/idb/#/country?COUNTRY_YEAR=2022&COUNTRY_YR_ANIM=2022), mantida pelo US Census Bureau.)

Em vez de digitar os dados manualmente, nós os carregamos de um arquivo em seu computador chamado `world_population_2022.csv`. Você aprenderá como ler dados de arquivos em breve.

In [41]:
# Não se preocupe sobre o que está acontecendo nessa célula por enquanto
populacao = pd.read_csv("data/world_population_2022.csv").get("Population").values
populacao

array([2557619597, 2594942227, 2636777090, 2682060684, 2730237675,
       2782111389, 2835315327, 2891368627, 2948159570, 3000742521,
       3043031253, 3084053711, 3140239653, 3210037409, 3281477826,
       3350773176, 3421097064, 3490825940, 3562887008, 3637819236,
       3713457589, 3791172327, 3867519813, 3943132388, 4017779234,
       4089387557, 4159536915, 4230430893, 4301282222, 4374940345,
       4445975606, 4527418598, 4610620221, 4694937687, 4777055423,
       4862317393, 4949951891, 5040273543, 5131575729, 5222662682,
       5315511894, 5403253915, 5490481497, 5568231516, 5650178207,
       5733211108, 5815333785, 5895837672, 5975189305, 6053955779,
       6132455985, 6211328357, 6290282107, 6369186797, 6448262425,
       6527056809, 6607396274, 6689442159, 6773319540, 6857160919,
       6939761510, 7022084781, 7105001721, 7188528811, 7271598780,
       7353476064, 7435151387, 7516769535, 7597066210, 7676686052,
       7756873419, 7831718605, 7905336896])

Veja como obtemos o primeiro elemento de `populacao`, que é a população mundial no primeiro ano do conjunto de dados, 1950.

In [42]:
populacao[0]

np.int64(2557619597)

Observe que usamos colchetes aqui. Os colchetes sinalizam que estamos *acessando* um elemento do array. Colchetes em Python são como subscritos em matemática (igual $x_1$, $x_2$, ...).

O valor dessa expressão é o número 2557619597 (cerca de 2,5 bilhões), porque é a primeira coisa na matriz `populacao`.

Observe que escrevemos `populacao[0]`, não `populacao[1]`, para obter o primeiro elemento. Esta é uma convenção estranha na ciência da computação. 0 é chamado de *índice* do primeiro item. Seguindo essa lógica, então 3, por exemplo, é o índice do 4º item.

Aqui estão mais alguns exemplos. Nos exemplos, demos nomes às coisas que obtemos de `populacao`. Leia e execute cada célula.

In [43]:
# O terceiro elemento do array é a população em 1952.
populacao_1952 = populacao[2]
populacao_1952

np.int64(2636777090)

In [44]:
# O décimo terceiro elemento do array é a população em 1962 (que é 1950 + 12).
populacao_1962 = populacao[12]
populacao_1962

np.int64(3140239653)

In [45]:
# O 73º elemento do array é a população em 2022.
populacao_2022 = populacao[72]
populacao_2022

np.int64(7905336896)

In [46]:
# O array possui apenas 73 elementos, então isso não funciona.
# populacao_2023 = populacao[73]
# populacao_2023

# 🚨 Depois de executar esta célula, coloque um # antes de cada linha acima
# para garantir que ela não seja executada novamente.

**Questão 1.2.1.** Defina `populacao_1998` para a população mundial em 1998, obtendo o elemento apropriado de `populacao`.

In [47]:
populacao_1998 = ...
populacao_1998

Ellipsis

In [48]:
#Gabarito
populacao_1998 = populacao[(1998-1950)]
populacao_1998

np.int64(5975189305)

## 1.3. Fazendo algo para cada elemento de um array
Arrays são úteis principalmente para realizar a mesma operação muitas vezes. Portanto, não precisamos acessar e trabalhar com frequência com elementos únicos.

##### Logaritmos
Aqui está uma pergunta simples que podemos fazer sobre a população mundial:

> Qual era o tamanho da população em *ordens de magnitude* em cada ano?

A função logaritmo é uma forma de medir o tamanho de um número. O logaritmo (base 10) de um número aumenta em 1 cada vez que multiplicamos o número por 10. É como uma medida de quantos dígitos decimais o número possui ou quão grande ele é em ordens de grandeza.

Poderíamos tentar responder nossa pergunta assim, usando a função `log10` do NumPy em cada elemento do array `populacao`:

In [49]:
magnitude_da_populacao_1950 = np.log10(populacao[0])
magnitude_da_populacao_1951 = np.log10(populacao[1])
magnitude_da_populacao_1952 = np.log10(populacao[2])
magnitude_da_populacao_1953 = np.log10(populacao[3])

# ... e assim por diante

Mas isso é tedioso e repetitivo. Deve haver uma maneira melhor!

Acontece que o `log10` do NumPy é bastante poderoso. Ele não apenas pode receber um único número (como `populacao[0]`) como entrada e retornar o logaritmo de um único número, mas **também** pode receber um array de números e retornar o logaritmo de cada elemento desse array!

Se você fornecer ao `log10` do NumPy um array como entrada, ele retornará um array do mesmo tamanho, onde o primeiro elemento do resultado é o logaritmo do primeiro elemento da entrada, o segundo elemento do resultado é o logaritmo de o segundo elemento da entrada e assim por diante.

<img src="https://github.com/ThiagoPoppe/monitoria_fcd2024/blob/main/labs/lab01/imagens/array_logarithm.jpg?raw=true">

Isso é chamado de aplicação *elementwise* (elemento a elemento) da função, uma vez que opera separadamente em cada elemento do array em que é chamada.

**Questão 1.3.1.** Use a função `log10` do NumPy para calcular os logaritmos da população mundial em cada ano. Dê ao resultado (uma matriz de 73 números) o nome `magnitude_da_populacao`. Seu código deve ser muito curto.

In [50]:
magnitude_da_populacao = ...
magnitude_da_populacao

Ellipsis

In [51]:
#Gabarito
magnitude_da_populacao = np.log10(populacao)
magnitude_da_populacao

array([9.40783595, 9.41412769, 9.42107342, 9.4284686 , 9.43620046,
       9.44437451, 9.45260137, 9.46110346, 9.46955099, 9.47722873,
       9.48330641, 9.48912193, 9.49696279, 9.50651009, 9.51606947,
       9.52514503, 9.5341654 , 9.54292819, 9.55180205, 9.56084112,
       9.56977847, 9.57877353, 9.58743255, 9.59584136, 9.60398607,
       9.61165827, 9.61904498, 9.6263846 , 9.63359794, 9.64097214,
       9.64796708, 9.65585065, 9.66375935, 9.67162983, 9.67916028,
       9.6868433 , 9.69460098, 9.70245411, 9.71025074, 9.71789198,
       9.72554509, 9.73265538, 9.73961043, 9.74571728, 9.75206215,
       9.75839793, 9.76457465, 9.77054552, 9.77635167, 9.78203924,
       9.78763444, 9.79318449, 9.79867012, 9.80408399, 9.8094427 ,
       9.81471739, 9.82003035, 9.8253899 , 9.83080156, 9.83614434,
       9.84134455, 9.84646607, 9.85156419, 9.85664002, 9.86162991,
       9.86649268, 9.87128982, 9.87603123, 9.88064591, 9.88517378,
       9.8896867 , 9.89385707, 9.89792038])

##### Aritmética
A aritmética também funciona *elementwise* em arrays. Por exemplo, você pode dividir todos os números da população por 1 bilhão para obter números em bilhões:

In [52]:
populacao_em_bilhoes = populacao / 1000000000
populacao_em_bilhoes

array([2.5576196 , 2.59494223, 2.63677709, 2.68206068, 2.73023768,
       2.78211139, 2.83531533, 2.89136863, 2.94815957, 3.00074252,
       3.04303125, 3.08405371, 3.14023965, 3.21003741, 3.28147783,
       3.35077318, 3.42109706, 3.49082594, 3.56288701, 3.63781924,
       3.71345759, 3.79117233, 3.86751981, 3.94313239, 4.01777923,
       4.08938756, 4.15953692, 4.23043089, 4.30128222, 4.37494034,
       4.44597561, 4.5274186 , 4.61062022, 4.69493769, 4.77705542,
       4.86231739, 4.94995189, 5.04027354, 5.13157573, 5.22266268,
       5.31551189, 5.40325391, 5.4904815 , 5.56823152, 5.65017821,
       5.73321111, 5.81533378, 5.89583767, 5.9751893 , 6.05395578,
       6.13245598, 6.21132836, 6.29028211, 6.3691868 , 6.44826243,
       6.52705681, 6.60739627, 6.68944216, 6.77331954, 6.85716092,
       6.93976151, 7.02208478, 7.10500172, 7.18852881, 7.27159878,
       7.35347606, 7.43515139, 7.51676953, 7.59706621, 7.67668605,
       7.75687342, 7.8317186 , 7.9053369 ])

Você pode fazer o mesmo com adição, subtração, multiplicação e exponenciação (`**`). Por exemplo, você pode calcular uma gorjeta de vinte por cento em várias contas de restaurante de uma só vez:

In [53]:
contas_dos_restaurantes = np.array([20.12, 39.90, 31.01])
print("Conta dos restaurantes:\t", contas_dos_restaurantes)

gorjetas = 0.2 * contas_dos_restaurantes
print("Gorjetas:\t\t", gorjetas)

Conta dos restaurantes:	 [20.12 39.9  31.01]
Gorjetas:		 [4.024 7.98  6.202]


<img src="https://github.com/ThiagoPoppe/monitoria_fcd2024/blob/main/labs/lab01/imagens/array_multiplication.jpg?raw=true">

**Questão 1.3.2.** Suponha que a cobrança total em um restaurante seja a conta original mais a gorjeta (20%). Isso significa que podemos multiplicar a fatura original por 1.2 para obter a cobrança total. Calcule a cobrança total de cada conta em `conta_dos_restaurantes` e dê ao array resultante o nome de `cobrancas_totais`.

In [54]:
cobrancas_totais = ...
cobrancas_totais

Ellipsis

In [55]:
# Gabarito

cobrancas_totais = contas_dos_restaurantes*1.2
cobrancas_totais

array([24.144, 47.88 , 37.212])

Vamos ler alguns dados para usar na próxima pergunta.

In [56]:
mais_contas_de_restaurantes = pd.read_csv("data/more_restaurant_bills.csv").get("Bill").values

**Questão 1.3.3.** O array `mais_contas_de_restaurantes` contém 100.000 contas! Calcule a cobrança total de cada uma, assumindo novamente uma gorjeta de vinte por cento, e dê ao array resultante o nome `mais_cobrancas_totais`.

In [57]:
mais_cobrancas_totais = ...
mais_cobrancas_totais

Ellipsis

In [58]:
# Gabarito
mais_cobrancas_totais = mais_contas_de_restaurantes * 1.2
mais_cobrancas_totais

array([20.244, 20.892, 12.216, ..., 19.308, 18.336, 35.664])

A função `np.sum` leva um único array de números como argumento. Ele retorna a soma de todos os números desse array (portanto, retorna um único número, não um array).

**Questão 1.3.4.** Qual foi a soma de todas as contas em `mais_contas_de_restaurantes`, **incluindo gorjetas**?

In [59]:
soma_das_contas = ...
soma_das_contas

Ellipsis

In [60]:
# Gabarito
soma_das_contas = np.sum(mais_cobrancas_totais)
soma_das_contas

np.float64(1795730.0639999998)

##### Potências de Dois
As potências de 2 ($2^0 = 1$, $2^1 = 2$, $2^2 = 4$, etc) surgem frequentemente na ciência da computação. (Por exemplo, você deve ter notado que o armazenamento em smartphones ou computadores vem em potências de 2, como 64 GB, 128 GB ou 256 GB.)

**Questão 1.3.5.** Use `np.arange` e o operador de exponenciação `**` para criar um array contendo as primeiras 40 potências de 2, começando em $2^0=1$.

* **Dica 1:** Seu kernel “morreu” quando você executou sua solução? Existe uma resposta incorreta comum para esse problema que tenta criar um array com tantas entradas que o Python desiste e trava. Se isso acontecer com você, verifique sua resposta!

* **Dica 2:** Talvez comece com as primeiras 5 potências de dois. Depois de fazer isso funcionar, tente todos os 40. Em nenhum momento você deve escrever manualmente `0, 1, 2, 3, 4, ...`; se você estiver tentando isso, leia novamente algumas células anteriores desse notebook.

In [61]:
potencias_de_2 = ...
potencias_de_2

Ellipsis

In [62]:
# Gabarito
potencias_de_2 = 2**np.arange(0, (40)+1)
potencias_de_2

array([            1,             2,             4,             8,
                  16,            32,            64,           128,
                 256,           512,          1024,          2048,
                4096,          8192,         16384,         32768,
               65536,        131072,        262144,        524288,
             1048576,       2097152,       4194304,       8388608,
            16777216,      33554432,      67108864,     134217728,
           268435456,     536870912,    1073741824,    2147483648,
          4294967296,    8589934592,   17179869184,   34359738368,
         68719476736,  137438953472,  274877906944,  549755813888,
       1099511627776])

# 2. DataFrames

## 2.1. Introdução

Para uma coleção de coisas no mundo, um array é útil para descrever um único atributo de cada coisa. Por exemplo, para a coleção de estados dos EUA, uma matriz poderia descrever a área territorial de cada um. As tabelas ampliam essa ideia descrevendo vários atributos para cada elemento de uma coleção. Numa tabela de estados, por exemplo, podemos registar a área territorial, a população, a capital do estado e o nome do governador. Em outras palavras, as tabelas rastreiam muitas entidades (indivíduos, armazenados como linhas) e, para cada entidade, muitos atributos (recursos, armazenados como colunas).

Na célula abaixo temos dois arrays. O primeiro contém a população mundial em cada ano (conforme estimado pelo US Census Bureau), e o segundo contém os próprios anos (em ordem, de modo que os primeiros elementos na população e as matrizes de anos correspondam).

In [63]:
anos = np.arange(1950, 2022+1)
quantidade_populacional = pd.read_csv("data/world_population_2022.csv").get("Population").values

print("Coluna de população:", quantidade_populacional)
print("Coluna dos anos:", anos)

Coluna de população: [2557619597 2594942227 2636777090 2682060684 2730237675 2782111389
 2835315327 2891368627 2948159570 3000742521 3043031253 3084053711
 3140239653 3210037409 3281477826 3350773176 3421097064 3490825940
 3562887008 3637819236 3713457589 3791172327 3867519813 3943132388
 4017779234 4089387557 4159536915 4230430893 4301282222 4374940345
 4445975606 4527418598 4610620221 4694937687 4777055423 4862317393
 4949951891 5040273543 5131575729 5222662682 5315511894 5403253915
 5490481497 5568231516 5650178207 5733211108 5815333785 5895837672
 5975189305 6053955779 6132455985 6211328357 6290282107 6369186797
 6448262425 6527056809 6607396274 6689442159 6773319540 6857160919
 6939761510 7022084781 7105001721 7188528811 7271598780 7353476064
 7435151387 7516769535 7597066210 7676686052 7756873419 7831718605
 7905336896]
Coluna dos anos: [1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963
 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977
 19

Suponha que queiramos responder a esta pergunta:

> Quando é que a população mundial ultrapassou os 7 mil milhões?

Você poderia tecnicamente responder a essa pergunta apenas olhando para as matrizes, mas é um pouco complicado, pois seria necessário contar a posição onde a população ultrapassou pela primeira vez os 7 bilhões e, em seguida, encontrar o elemento correspondente na matriz de anos. Em casos como estes, pode ser mais fácil colocar os dados em uma tabela.

Assim como `numpy` fornece arrays, um pacote popular chamado `pandas` fornece **DataFrames**, que é o nome em `pandas` para **tabelas**. `pandas` é *a* ferramenta para fazer ciência de dados em Python.

Você pode importar `pandas` usando o seguinte código:

In [64]:
import pandas as pd

A célula abaixo:

- cria um DataFrame vazio usando a expressão `pd.DataFrame()`,
- atribui duas colunas ao DataFrame chamando `assign`,
- atribui o DataFrame resultante ao nome `populacao_df` e, finalmente
- exibe `populacao_df` para que possamos ver o DataFrame que criamos.

`"Populacao"` e `"Ano"` são rótulos de coluna que escolhemos. Poderíamos ter escolhido qualquer coisa, mas é uma boa ideia escolher nomes que sejam descritivos e não muito longos.

In [65]:
populacao_df = pd.DataFrame().assign(
    Populacao=quantidade_populacional,
    Ano=anos
)

populacao_df

Unnamed: 0,Populacao,Ano
0,2557619597,1950
1,2594942227,1951
2,2636777090,1952
3,2682060684,1953
4,2730237675,1954
...,...,...
68,7597066210,2018
69,7676686052,2019
70,7756873419,2020
71,7831718605,2021


Agora os dados estão todos juntos em um único DataFrame! É muito mais fácil analisar esses dados. Se você precisa saber qual era a população em 2011, por exemplo, você pode saber com um simples olhar. Revisitaremos este DataFrame mais tarde.

**Questão 2.1.1.** Na célula abaixo, criamos 2 arrays. Usando as etapas acima, atribua `top_10_filmes` a um DataFrame que possui duas colunas chamadas `Avaliacao` e `Nome`, que contêm `top_10_avaliacoes` e `top_10_nomes` respectivamente.

In [66]:
top_10_avaliacoes = np.array([9.2, 9.2, 9., 8.9, 8.9, 8.9, 8.9, 8.9, 8.9, 8.8])
top_10_nomes = np.array([
        'The Shawshank Redemption (1994)',
        'The Godfather (1972)',
        'The Godfather: Part II (1974)',
        'Pulp Fiction (1994)',
        "Schindler's List (1993)",
        'The Lord of the Rings: The Return of the King (2003)',
        '12 Angry Men (1957)',
        'The Dark Knight (2008)',
        'Il buono, il brutto, il cattivo (1966)',
        'The Lord of the Rings: The Fellowship of the Ring (2001)'
])

In [67]:
top_10_filmes = ...
top_10_filmes

Ellipsis

In [68]:
# Gabarito
top_10_filmes = pd.DataFrame().assign(
      Nome=top_10_nomes,
      Avaliacao=top_10_avaliacoes
)
top_10_filmes

Unnamed: 0,Nome,Avaliacao
0,The Shawshank Redemption (1994),9.2
1,The Godfather (1972),9.2
2,The Godfather: Part II (1974),9.0
3,Pulp Fiction (1994),8.9
4,Schindler's List (1993),8.9
5,The Lord of the Rings: The Return of the King ...,8.9
6,12 Angry Men (1957),8.9
7,The Dark Knight (2008),8.9
8,"Il buono, il brutto, il cattivo (1966)",8.9
9,The Lord of the Rings: The Fellowship of the R...,8.8


Suponha que você queira adicionar suas próprias classificações a este DataFrame. A célula abaixo contém sua avaliação de cada filme:

In [69]:
minhas_avaliacoes = [8, 2, 1, 9, 7, 10, 6, 4, 3, 5]

**Questão 2.1.2** Você também pode usar o método `assign` para adicionar uma coluna a um DataFrame já existente. Crie um novo DataFrame chamado `com_minhas_avaliacoes` adicionando uma coluna chamada `MinhaAvaliacao` ao DataFrame em `top_10_filmes`.

In [70]:
com_minhas_avaliacoes = ...
com_minhas_avaliacoes

Ellipsis

In [71]:
# Gabarito
com_minhas_avaliacoes = top_10_filmes.assign(
    MinhaAvaliacao = minhas_avaliacoes
)
com_minhas_avaliacoes

Unnamed: 0,Nome,Avaliacao,MinhaAvaliacao
0,The Shawshank Redemption (1994),9.2,8
1,The Godfather (1972),9.2,2
2,The Godfather: Part II (1974),9.0,1
3,Pulp Fiction (1994),8.9,9
4,Schindler's List (1993),8.9,7
5,The Lord of the Rings: The Return of the King ...,8.9,10
6,12 Angry Men (1957),8.9,6
7,The Dark Knight (2008),8.9,4
8,"Il buono, il brutto, il cattivo (1966)",8.9,3
9,The Lord of the Rings: The Fellowship of the R...,8.8,5


## 2.2. Índices

Você deve ter notado que o DataFrame de populações contém o que parece ser uma coluna extra e sem rótulo à esquerda com os números de 0 a 65. **Isto não é uma coluna, é o que chamamos de *índice***. O índice contém os rótulos das linhas. Enquanto as colunas deste DataFrame são rotuladas como `"Populacao"` e `"Ano"`, as linhas são rotuladas como 0, 1, ..., 72.

Por padrão, `pandas` não sabe como rotular as linhas, então apenas as numera (começando com 0). É claro que, neste caso, faz mais sentido usar o ano como rótulo da linha. Podemos fazer isso dizendo ao `pandas` para definir a coluna `"Ano"` como índice:

In [72]:
populacao_por_ano = populacao_df.set_index('Ano')
populacao_por_ano

Unnamed: 0_level_0,Populacao
Ano,Unnamed: 1_level_1
1950,2557619597
1951,2594942227
1952,2636777090
1953,2682060684
1954,2730237675
...,...
2018,7597066210
2019,7676686052
2020,7756873419
2021,7831718605


Como veremos, isso faz mais do que deixar o DataFrame mais bonito – é muito útil também.

**Questão 2.2.1** Crie um novo DataFrame chamado `top_10_filmes_por_nome` pegando o DataFrame que você criou acima, `top_10_filmes`, e definindo o índice como a coluna `Nome`.

In [73]:
top_10_filmes_por_nome = ...
top_10_filmes_por_nome

Ellipsis

In [74]:
# Gabarito

top_10_filmes_por_nome = top_10_filmes.set_index('Nome')
top_10_filmes_por_nome

Unnamed: 0_level_0,Avaliacao
Nome,Unnamed: 1_level_1
The Shawshank Redemption (1994),9.2
The Godfather (1972),9.2
The Godfather: Part II (1974),9.0
Pulp Fiction (1994),8.9
Schindler's List (1993),8.9
The Lord of the Rings: The Return of the King (2003),8.9
12 Angry Men (1957),8.9
The Dark Knight (2008),8.9
"Il buono, il brutto, il cattivo (1966)",8.9
The Lord of the Rings: The Fellowship of the Ring (2001),8.8


Você pode obter um array de nomes de linhas usando `.index`. Por exemplo, o array de nomes de linhas do DataFrame `populacao_por_ano` é:

In [75]:
populacao_por_ano.index

Index([1950, 1951, 1952, 1953, 1954, 1955, 1956, 1957, 1958, 1959, 1960, 1961,
       1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969, 1970, 1971, 1972, 1973,
       1974, 1975, 1976, 1977, 1978, 1979, 1980, 1981, 1982, 1983, 1984, 1985,
       1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997,
       1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009,
       2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021,
       2022],
      dtype='int64', name='Ano')

**Questão 2.2.2** Usando o código acima, atribua a `decimo_filme` o nome do décimo filme em `top_10_filmes_por_nome`.

* **Dica:** Lembre-se de que o índice é um array e usamos colchetes para acessar os elementos de um array. E também que o índice 0 corresponde ao 1º elemento do array.

In [76]:
decimo_filme = ...
decimo_filme

Ellipsis

In [77]:
# Gabarito

decimo_filme = top_10_filmes_por_nome.index[9]
decimo_filme

'The Lord of the Rings: The Fellowship of the Ring (2001)'

## 2.3 Lendo um DataFrame de um arquivo
Na maioria dos casos, não teremos o trabalho de digitar todos os dados manualmente. Em vez disso, podemos usar funções fornecidas por `pandas` para ler dados de arquivos externos.

A função `pd.read_csv()` pega um argumento, um caminho para um arquivo de dados (uma string) e retorna um DataFrame. Existem muitos formatos de arquivos de dados, mas CSV (*comma separated values*, ou "valores separados por vírgula") é o mais comum.

**Questão 2.3.1.** O arquivo `data/imdb.csv` contém informações sobre os 250 filmes mais bem avaliados no IMDb. Carregue-o como um DataFrame chamado `imdb`.

In [78]:
imdb = ...
imdb

Ellipsis

In [79]:
# Gabarito

imdb = pd.read_csv("./data/imdb.csv")
imdb

Unnamed: 0,Votes,Rating,Title,Year,Decade
0,88355,8.4,M,1931,1930
1,132823,8.3,Singin' in the Rain,1952,1950
2,74178,8.3,All About Eve,1950,1950
3,635139,8.6,Léon,1994,1990
4,145514,8.2,The Elephant Man,1980,1980
...,...,...,...,...,...
245,1078416,8.7,Forrest Gump,1994,1990
246,31003,8.1,Le salaire de la peur,1953,1950
247,167076,8.2,3 Idiots,2009,2000
248,91689,8.1,Network,1976,1970


Observe os `...` no meio do DataFrame. Isso significa que muitas linhas foram omitidas. Este DataFrame é grande o suficiente para que apenas algumas de suas linhas sejam exibidas, mas as outras ainda estão lá. São 250 filmes no total.

De onde veio o `imdb.csv`? Se você entrar no diretório `data/`, deverá ver um arquivo chamado `imdb.csv`.

Abra o arquivo `imdb.csv` nessa pasta e observe o formato. O que você percebe? A terminação do nome do arquivo `.csv` indica que este arquivo está no formato [CSV (comma-separated value)](http://edoceo.com/utilitas/csv-file-format).

**Questão 2.3.2.** Este é um conjunto de dados de filmes, portanto faz sentido usar o título do filme como rótulo da linha. Crie um novo DataFrame chamado `imdb_por_nome` que usa o título do filme como índice.

In [80]:
imdb_por_nome = ...
imdb_por_nome

Ellipsis

In [81]:
# Gabarito

imdb_por_nome = imdb.set_index("Title")
imdb_por_nome

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,88355,8.4,1931,1930
Singin' in the Rain,132823,8.3,1952,1950
All About Eve,74178,8.3,1950,1950
Léon,635139,8.6,1994,1990
The Elephant Man,145514,8.2,1980,1980
...,...,...,...,...
Forrest Gump,1078416,8.7,1994,1990
Le salaire de la peur,31003,8.1,1953,1950
3 Idiots,167076,8.2,2009,2000
Network,91689,8.1,1976,1970


## 2.4. Series



Suponha que estejamos interessados ​​principalmente nas classificações de filmes. Para extrair apenas esta coluna do DataFrame, usamos o método `.get`:

In [82]:
avaliacoes = imdb_por_nome.get('Rating')
avaliacoes

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
M,8.4
Singin' in the Rain,8.3
All About Eve,8.3
Léon,8.6
The Elephant Man,8.2
...,...
Forrest Gump,8.7
Le salaire de la peur,8.1
3 Idiots,8.2
Network,8.1


Observe como não apenas as classificações do filme foram retornadas, mas também o nome do filme! Isto ocorre precisamente porque definimos o título do filme como o índice! Por exemplo, se tivéssemos solicitado a coluna `"Rating"` do DataFrame original, `imdb`, veríamos:

In [83]:
imdb.get('Rating')

Unnamed: 0,Rating
0,8.4
1,8.3
2,8.3
3,8.6
4,8.2
...,...
245,8.7
246,8.1
247,8.2
248,8.1


Esta é uma forma pela qual os índices são muito úteis – eles fornecem rótulos significativos para os dados.

À primeira vista, pode parecer que pedir uma coluna usando `.get` retorna um DataFrame com uma coluna, mas isso não está certo. Em vez disso, ele retorna um tipo especial de coisa chamado *Series*:

In [84]:
type(imdb_por_nome.get('Rating'))

Você pode pensar em uma `Series` como um array com um índice. Enquanto as matrizes são sequências simples de números sem rótulos, `Series` pode ter rótulos. Isso geralmente é muito útil.

`avaliacoes` agora é uma `Series` que contém a coluna de classificações de filmes. Suponha que estejamos interessados ​​na avaliação de um filme específico: _Alien_. Para fazer isso, usaremos o "*acessador*" `.loc` que extrai um valor da Série em um *local* específico:

In [85]:
avaliacoes.loc["Alien"]

np.float64(8.5)

Há algumas coisas a serem observadas aqui. Primeiro, esses são colchetes em torno de `"Alien"`. Isso ocorre porque `.loc` não é um método, mas um "*acessador*". Os colchetes sinalizam que iremos extrair um elemento da `Série`. Segundo, passamos o rótulo como uma string.

**Questão 2.4.1.** Encontre a avaliação de _3 Idiotas_ (*3 Idiots*).

In [86]:
avaliacao_de_tres_idiotas = ...
avaliacao_de_tres_idiotas

Ellipsis

In [87]:
# Gabarito

avaliacao_de_tres_idiotas = avaliacoes.loc["3 Idiots"]
avaliacao_de_tres_idiotas

np.float64(8.2)

Agora suponha que quiséssemos saber o ano em que _Alien_ foi lançado. Poderíamos fazer isso obtendo primeiro a coluna dos anos:

In [88]:
anos = imdb_por_nome.get('Year')
anos

Unnamed: 0_level_0,Year
Title,Unnamed: 1_level_1
M,1931
Singin' in the Rain,1952
All About Eve,1950
Léon,1994
The Elephant Man,1980
...,...
Forrest Gump,1994
Le salaire de la peur,1953
3 Idiots,2009
Network,1976


E então usando `.loc` para obter a entrada correta:

In [89]:
anos.loc['Alien']

np.int64(1979)

Também poderíamos fazer isso em uma única etapa *encadeando* as operações:

In [90]:
imdb_por_nome.get('Year').loc['Alien']

np.int64(1979)

Isso funciona porque o Python primeiro avalia `imdb_por_nome.get('Year')` como uma `Series`. Em seguida, avalia `.loc['Alien']` para retornar o ano.

O encadeamento é usado com bastante frequência e pode ser útil. Apenas certifique-se de não encadear muitas coisas que tornem seu código difícil de ler. Você sempre pode salvar um resultado intermediário em uma variável.

**Questão 2.4.2** Encontre a década em que _Gone Girl_ foi lançado usando encadeamento.

*Dica*: `imbd_por_nome` possui uma coluna chamada `"Decade"` (*Década*).

In [91]:
decada = ...
decada

Ellipsis

In [92]:
# Gabarito
decada = imdb_por_nome.get("Decade").loc["Gone Girl"]
decada

np.int64(2010)

# 3. Analisando conjuntos de dados

Com apenas alguns métodos DataFrame, podemos responder algumas questões interessantes sobre o conjunto de dados IMDb.

Se quisermos apenas as avaliações dos filmes, podemos usar `.get`:

In [93]:
avaliacoes = imdb_por_nome.get("Rating")
avaliacoes

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
M,8.4
Singin' in the Rain,8.3
All About Eve,8.3
Léon,8.6
The Elephant Man,8.2
...,...
Forrest Gump,8.7
Le salaire de la peur,8.1
3 Idiots,8.2
Network,8.1


Lembre-se de que `avaliacoes` é uma série. Objetos de série possuem alguns métodos úteis.

**Questão 3.1.** Encontre a maior avaliação no conjunto de dados.

*Dica:* Digite `avaliacoes.` e pressione Tab para ver uma lista dos métodos disponíveis. Existe algum que parece útil?

In [94]:
maior_avaliacao = ...
maior_avaliacao

Ellipsis

In [95]:
# Gabarito

maior_avaliacao = avaliacoes.max()
maior_avaliacao

9.2

Você provavelmente quer saber o *nome* do filme de maior avaliação que encontrou anteriormente! Para fazer isso, podemos ordenar toda a série usando o método `.sort_values`:

In [96]:
avaliacoes.sort_values()

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
Relatos salvajes,8.0
La battaglia di Algeri,8.0
Jaws,8.0
Bom yeoreum gaeul gyeoul geurigo bom,8.0
"Paris, Texas (1984)",8.0
...,...
"Il buono, il brutto, il cattivo (1966)",8.9
Schindler's List,8.9
The Godfather: Part II,9.0
The Godfather,9.2


Portanto, na verdade, existem dois filmes com maior audiência no conjunto de dados: *Um Sonho de Liberdade* e *O Poderoso Chefão*.

Observe que estamos ordenando pelas avaliações, e não pelos rótulos! Além disso, o rótulo segue a ordenação conforme a sua avaliação. Isto é exatamente o que queremos.

Quando utilizamos o método `sort_values`, a `Series` resultante tem os dados ordenados em ordem crescente, do menor ao maior. Este é o comportamento padrão de `sort_values`, mas podemos mudar isso. Se quiséssemos os filmes com melhor avaliação no topo, precisaríamos especificar que a avaliação não deveria ser em ordem crescente com um *argumento keyword* ("palavra-chave") opcional:


In [97]:
avaliacoes.sort_values(ascending=False)

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
The Godfather,9.2
The Shawshank Redemption,9.2
The Godfather: Part II,9.0
"Il buono, il brutto, il cattivo (1966)",8.9
The Dark Knight,8.9
...,...
Dog Day Afternoon,8.0
Prisoners,8.0
Rocky,8.0
Tenkû no shiro Rapyuta,8.0


Se definirmos o argumento `ascending` como `True`, obteremos o mesmo resultado como se não o definissemos. Isso é o que queremos dizer quando dizemos que o comportamento padrão de `sort_values` é classificar em ordem crescente. Confirme se as próximas duas células fornecem a mesma saída.

In [98]:
avaliacoes.sort_values(ascending=True)

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
Relatos salvajes,8.0
La battaglia di Algeri,8.0
Jaws,8.0
Bom yeoreum gaeul gyeoul geurigo bom,8.0
"Paris, Texas (1984)",8.0
...,...
"Il buono, il brutto, il cattivo (1966)",8.9
Schindler's List,8.9
The Godfather: Part II,9.0
The Godfather,9.2


In [99]:
avaliacoes.sort_values()

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
Relatos salvajes,8.0
La battaglia di Algeri,8.0
Jaws,8.0
Bom yeoreum gaeul gyeoul geurigo bom,8.0
"Paris, Texas (1984)",8.0
...,...
"Il buono, il brutto, il cattivo (1966)",8.9
Schindler's List,8.9
The Godfather: Part II,9.0
The Godfather,9.2


Não só podemos ordenar séries, mas também ordenar DataFrames inteiros. Quando fazemos isso, temos que especificar a coluna pela qual iremos ordenar:

In [100]:
imdb_por_nome.sort_values('Rating')

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Relatos salvajes,46987,8.0,2014,2010
La battaglia di Algeri,32385,8.0,1966,1960
Jaws,364225,8.0,1975,1970
Bom yeoreum gaeul gyeoul geurigo bom,55382,8.0,2003,2000
"Paris, Texas (1984)",43090,8.0,1984,1980
...,...,...,...,...
"Il buono, il brutto, il cattivo (1966)",447875,8.9,1966,1960
Schindler's List,761224,8.9,1993,1990
The Godfather: Part II,692753,9.0,1974,1970
The Godfather,1027398,9.2,1972,1970


Da mesma forma, podemos especificar que a ordenação deve estar em ordem decrescente:

In [101]:
imdb_por_nome.sort_values('Rating', ascending=False)

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Godfather,1027398,9.2,1972,1970
The Shawshank Redemption,1498733,9.2,1994,1990
The Godfather: Part II,692753,9.0,1974,1970
"Il buono, il brutto, il cattivo (1966)",447875,8.9,1966,1960
The Dark Knight,1473049,8.9,2008,2000
...,...,...,...,...
Dog Day Afternoon,164419,8.0,1975,1970
Prisoners,312516,8.0,2013,2010
Rocky,318041,8.0,1976,1970
Tenkû no shiro Rapyuta,83941,8.0,1986,1980


Alguns detalhes sobre a ordenação de um DataFrame:

1. O primeiro argumento para `sort_values` é o nome de uma coluna pela qual iremos ordenar.
2. Se a coluna contiver strings, `sort` ordenará em ordem alfabética; se a coluna tiver números, ela será ordenada numericamente.
3. `imdb_por_nome.sort_values("Rating")` retorna um novo DataFrame; o DataFrame `imdb_por_nome` não é modificado. Por exemplo, se chamarmos `imdb_por_nome.sort("Rating")`, então executar `imdb_por_nome` por si só ainda retornaria o DataFrame não ordenado. Para salvar o resultado, você deve atribuí-lo a uma nova variável.
4. As linhas sempre permanecem juntas quando um DataFrame é ordenado. Não faria sentido ordenar apenas uma coluna e deixar as outras colunas em paz. Por exemplo, neste caso, se ordenássemos apenas a coluna `"Rating"`, todos os filmes terminariam com avaliações erradas.

**Questão 3.2.** Crie uma versão de `imdb_por_nome` que seja ordenada cronologicamente, com os filmes mais antigos primeiro. Chame-o de `imdb_ordenado`.

In [102]:
imdb_ordenado = ...
imdb_ordenado

Ellipsis

In [103]:
# Gabarito

imdb_ordenado = imdb_por_nome.sort_values(by="Year")
imdb_ordenado

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Kid,55784,8.3,1921,1920
The Gold Rush,58506,8.2,1925,1920
The General,46332,8.2,1926,1920
Metropolis,98794,8.3,1927,1920
City Lights,92375,8.5,1931,1930
...,...,...,...,...
X-Men: Days of Future Past,427099,8.0,2014,2010
The Imitation Game,321834,8.0,2014,2010
Relatos salvajes,46987,8.0,2014,2010
Inside Out (2015/I),79615,8.5,2015,2010


**Questão 3.3.** Qual é o título do filme mais antigo no conjunto de dados? Você poderia simplesmente procurar isso na saída da célula anterior. Em vez disso, escreva o código Python para descobrir.

* **Dica:** Lembre-se de que o índice é um array.

In [104]:
titulo_do_filme_mais_antigo = ...
titulo_do_filme_mais_antigo

Ellipsis

In [105]:
# Gabarito

titulo_do_filme_mais_antigo = imdb_ordenado.index[0]
titulo_do_filme_mais_antigo

'The Kid'

Suponha que queiramos obter a avaliação do filme mais antigo no DataFrame. Uma maneira de fazer isso é primeiro encontrar o rótulo de índice do filme mais antigo (o que já fizemos). Em seguida, extraímos a coluna `"Rating"` e usamos `.loc` para encontrar a avaliação do filme mais antigo.

In [106]:
imdb_ordenado.get('Rating').loc[titulo_do_filme_mais_antigo]

np.float64(8.3)

Porém, existe uma maneira mais rápida. Uma série não possui apenas um acessador `.loc`, mas também um acessador `.iloc`. Enquanto `.loc` procura coisas por *rótulo*, `.iloc` procura elementos por *posição inteira*.

Vamos lembrar o que está na coluna `"Rating"`:

In [107]:
imdb_ordenado.get('Rating')

Unnamed: 0_level_0,Rating
Title,Unnamed: 1_level_1
The Kid,8.3
The Gold Rush,8.2
The General,8.2
Metropolis,8.3
City Lights,8.5
...,...
X-Men: Days of Future Past,8.0
The Imitation Game,8.0
Relatos salvajes,8.0
Inside Out (2015/I),8.5


Se quisermos a avaliação da primeira linha, podemos usar `.iloc[0]`:

In [108]:
imdb_ordenado.get('Rating').iloc[0]

np.float64(8.3)

Isso retorna exatamente a mesma coisa que `imdb_ordenado.get('Rating').loc['The Kid']`; essas são duas maneiras de fazer a mesma coisa. Normalmente é mais conveniente acessar um elemento por seu rótulo do que por sua posição inteira, mas é bom saber `.loc` e `.iloc`.

**Questão 3.4.** Qual é a avaliação do quinto filme mais antigo no conjunto de dados? Você poderia simplesmente procurar isso na saída da célula anterior. Em vez disso, escreva o código Python para descobrir.

* PS: Lembre-se que o 1° elemento está no "index" 0, o 2° elemento no "index" 1...

In [109]:
avaliacao_do_quinto_filme_mais_antigo = ...
avaliacao_do_quinto_filme_mais_antigo

Ellipsis

In [110]:
# Gabarito

avaliacao_do_quinto_filme_mais_antigo = imdb_ordenado.get("Rating").iloc[4]
avaliacao_do_quinto_filme_mais_antigo

np.float64(8.5)

# 4. Encontrar partes de um conjunto de dados

Suponha que você esteja interessado em filmes da década de 1950. Ordenar o DataFrame por ano não ajuda, porque a década de 1950 está no meio do conjunto de dados. Em vez disso, usaremos um recurso de Series que nos permite comparar facilmente cada elemento em uma coluna com um valor específico.

Primeiro lembre-se que podemos usar `.get` para extrair uma única coluna. O resultado não é um DataFrame, mas sim uma Series:

In [111]:
imdb_por_nome.get('Decade')

Unnamed: 0_level_0,Decade
Title,Unnamed: 1_level_1
M,1930
Singin' in the Rain,1950
All About Eve,1950
Léon,1990
The Elephant Man,1980
...,...
Forrest Gump,1990
Le salaire de la peur,1950
3 Idiots,2000
Network,1970


Queremos verificar se cada filme foi lançado na década de 1950. Python nos dá uma maneira de verificar se duas coisas são iguais com `==` (lembre-se que `=` já está sendo usado para outro propósito: atribui valores a variáveis nomes):

In [112]:
3 == 4

False

In [113]:
3 == 3

True

`True` e `False` são instâncias de um tipo que não vimos antes:

In [114]:
type(True)

bool

`bool` significa "Boolean", em homenagem ao lógico inglês [George Boole](https://en.wikipedia.org/wiki/George_Boole). Dizemos que "True" e "False" são valores *Booleanos*.

Acontece que podemos facilmente verificar se *cada* um dos elementos em uma `Series` é igual a alguma coisa:

In [115]:
imdb_por_nome.get('Decade') == 1950

Unnamed: 0_level_0,Decade
Title,Unnamed: 1_level_1
M,False
Singin' in the Rain,True
All About Eve,True
Léon,False
The Elephant Man,False
...,...
Forrest Gump,False
Le salaire de la peur,True
3 Idiots,False
Network,False


Vemos que o resultado é uma nova série que tem `Verdadeiro` apenas onde a década foi 1950, e `Falso` em todos os outros lugares. Dizemos que a Series resultante é uma Series de *Booleanos*, ou uma *Series Booleana*.

Vamos chamar esse resultado de `eh_de_1950s`. Seu nome pode ser lido como se fosse uma pergunta: “esse filme é da década de 1950”?

In [116]:
eh_de_1950s = imdb_por_nome.get('Decade') == 1950
eh_de_1950s

Unnamed: 0_level_0,Decade
Title,Unnamed: 1_level_1
M,False
Singin' in the Rain,True
All About Eve,True
Léon,False
The Elephant Man,False
...,...
Forrest Gump,False
Le salaire de la peur,True
3 Idiots,False
Network,False


Cada linha é uma resposta a esta pergunta. *O Homem Elefante* é da década de 1950? `Falso`. *Tudo sobre Eva* é da década de 1950? `Verdadeiro`.

Podemos usar `eh_de_1950s` para selecionar apenas as linhas de `imdb_por_nome` para as quais a resposta é `Verdadeiro`. A sintaxe para isso é:

In [117]:
imdb_por_nome[eh_de_1950s]

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Singin' in the Rain,132823,8.3,1952,1950
All About Eve,74178,8.3,1950,1950
Some Like It Hot,156432,8.3,1959,1950
The Killing,56671,8.0,1956,1950
Roman Holiday,87437,8.0,1953,1950
Touch of Evil,65408,8.1,1958,1950
Rashômon,90434,8.3,1950,1950
La strada,42446,8.0,1954,1950
North by Northwest,198795,8.4,1959,1950
Sunset Blvd.,123879,8.5,1950,1950


O que `imdb_por_nome[eh_de_1950s]` faz, precisamente, é percorrer `imdb_por_nome` linha por linha. Se a linha chamada *Singin' in the Rain* tiver o valor `True` em `eh_de_1950s`, essa linha será mantida. Se o valor for `False`, a linha será descartada. E assim por diante, para cada linha.

Observe que poderíamos ter conseguido isso sem nunca criar a variável `eh_de_1950s`, simplesmente colocando o código que usamos para criar a Series booleana diretamente dentro de `[...]`. Este é um padrão típico que você usará muito!

In [118]:
imdb_por_nome[imdb_por_nome.get('Decade') == 1950]

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Singin' in the Rain,132823,8.3,1952,1950
All About Eve,74178,8.3,1950,1950
Some Like It Hot,156432,8.3,1959,1950
The Killing,56671,8.0,1956,1950
Roman Holiday,87437,8.0,1953,1950
Touch of Evil,65408,8.1,1958,1950
Rashômon,90434,8.3,1950,1950
La strada,42446,8.0,1954,1950
North by Northwest,198795,8.4,1959,1950
Sunset Blvd.,123879,8.5,1950,1950


Ajuda ler os colchetes como "onde". Portanto, o comando na célula acima diz para manter todas as linhas de `imdb_por_nome` *onde* a década é a década de 1950.

Criar um novo DataFrame selecionando apenas certas linhas de um DataFrame existente que satisfaça alguma condição é chamado de *consulta*. A linha de código `imdb_por_nome[imdb_por_nome.get('Decade') == 1950]` é uma *consulta*.

**Questão 4.1.** Crie um DataFrame chamado `noventa_e_oito` contendo os filmes lançados em 1998.

In [119]:
noventa_e_oito = ...
noventa_e_oito

Ellipsis

In [120]:
# Gabarito

noventa_e_oito = imdb_por_nome[imdb_por_nome.get("Year") == 1998]
noventa_e_oito

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Saving Private Ryan,769893,8.5,1998,1990
American History X,694602,8.5,1998,1990
"Lock, Stock and Two Smoking Barrels (1998)",372863,8.2,1998,1990
The Big Lebowski,473988,8.2,1998,1990
The Truman Show,583004,8.0,1998,1990


Até agora só descobrimos onde uma coluna é *exatamente* igual a um determinado valor. No entanto, existem muitos outros operadores de comparação que poderíamos usar. Aqui estão alguns:

|Operador|Testes|
|-|-|
|`==`|a coisa da esquerda é igual à coisa da direita|
|`!=`|a coisa à esquerda *não* é igual à coisa à direita|
|`>`|a coisa à esquerda é maior que (e não igual) à coisa à direita|
|`>=`|a coisa à esquerda é maior ou igual à coisa à direita|
|`<`|a coisa à esquerda é menor que (e não igual) à coisa à direita|

As [notas de curso](https://notes.dsc10.com/02-data_sets/querying.html#examples) do DSC10 tem mais exemplos.

**Questão 4.2.** Utilizando os operadores da tabela acima, encontre todos os filmes com avaliação superior a 8,6. Coloque seus dados em um DataFrame chamado `realmente_bem_avaliados`.

In [121]:
realmente_bem_avaliados = ...
realmente_bem_avaliados

Ellipsis

In [122]:
# Gabarito

# PS: Sort_values é opcional. ;)

realmente_bem_avaliados = imdb_por_nome[imdb_por_nome.get("Rating") >= 8.6].sort_values(by="Rating")
realmente_bem_avaliados

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Léon,635139,8.6,1994,1990
The Silence of the Lambs,767224,8.6,1991,1990
Interstellar,689541,8.6,2014,2010
C'era una volta il West,192206,8.6,1968,1960
The Usual Suspects,656756,8.6,1995,1990
Cidade de Deus,476501,8.6,2002,2000
Se7en,895411,8.6,1995,1990
La vita è bella,358305,8.6,1997,1990
It's a Wonderful Life,242353,8.6,1946,1940
The Matrix,1073043,8.7,1999,1990


Qual é a maior avaliação de qualquer filme da década de 1990? Agora temos as ferramentas para responder a perguntas como essas. Dividindo em pedaços, encontramos primeiro todos os filmes da década de 1990:

In [123]:
eh_de_1990s = imdb_por_nome.get('Decade') == 1990
eh_de_1990s

Unnamed: 0_level_0,Decade
Title,Unnamed: 1_level_1
M,False
Singin' in the Rain,False
All About Eve,False
Léon,True
The Elephant Man,False
...,...
Forrest Gump,True
Le salaire de la peur,False
3 Idiots,False
Network,False


Em seguida, selecionamos apenas estes filmes em nosso DataFrame:

In [124]:
de_1990s = imdb_por_nome[eh_de_1990s]
de_1990s

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Léon,635139,8.6,1994,1990
Mononoke-hime,192165,8.4,1997,1990
Saving Private Ryan,769893,8.5,1998,1990
In the Name of the Father,95212,8.1,1993,1990
Before Sunrise,158867,8.0,1995,1990
The Silence of the Lambs,767224,8.6,1991,1990
The Shawshank Redemption,1498733,9.2,1994,1990
Heat,388239,8.2,1995,1990
Toy Story,535249,8.3,1995,1990
Beauty and the Beast,268480,8.0,1991,1990


Encontramos então a maior avaliação apenas destes filmes:

In [125]:
de_1990s.get('Rating').max()

9.2

Ou, se quiséssemos fazer tudo isso de forma mais concisa usando encadeamento:

In [126]:
imdb_por_nome[imdb_por_nome.get('Decade') == 1990].get('Rating').max()

9.2

**Questão 4.3.** Encontre a avaliação média para filmes lançados no século 20 e a avaliação média para filmes lançados no século 21 para os filmes no `imdb`.

*Dica*: As séries possuem um método `.mean()`. Observe que o ano 2000 está no século 20 e que o filme mais antigo do conjunto de dados é de 1921!

In [127]:
avaliacao_media_do_seculo_20 = ...
avaliacao_media_do_seculo_20

Ellipsis

In [128]:
# Gabarito

avaliacao_media_do_seculo_20 = imdb_por_nome[imdb_por_nome.get("Year") <= 2000].get("Rating").mean().round(3)
avaliacao_media_do_seculo_20

np.float64(8.28)

In [129]:
avaliacao_media_do_seculo_21 = ...
avaliacao_media_do_seculo_21

Ellipsis

In [130]:
# Gabarito

avaliacao_media_do_seculo_21 = imdb_por_nome[imdb_por_nome.get("Year") > 2000].get("Rating").mean().round(3)
avaliacao_media_do_seculo_21

np.float64(8.231)

A propriedade `shape` informa quantas linhas e colunas existem em um DataFrame. (Uma "propriedade" é similar a um método que não precisa ser chamado adicionando parênteses.)

In [131]:
imdb_por_nome.shape

(250, 4)

Como um array, você pode obter o primeiro elemento do `shape` usando `[0]` e o segundo elemento usando `[1]`. Por exemplo, o número de linhas em `imdb_por_nome` é:

In [132]:
imdb_por_nome.shape[0]

250

Podemos usar isso para responder "Quantos filmes são do século 20?":

In [133]:
imdb_por_nome[imdb_por_nome.get('Year') <= 2000].shape[0]

176

**Questão 4.4.** Use `shape` (e aritmética) para encontrar a *proporção* de filmes no conjunto de dados que foram lançados no século 20 e a proporção do século 21.

* **Dica:** A *proporção* de filmes lançados no século 20 é o *número* de filmes lançados no século 20, dividido pelo *número total* de filmes no conjunto de dados.

In [134]:
proporcao_do_seculo_20 = ...
proporcao_do_seculo_20

Ellipsis

In [135]:
# Gabarito

total_filmes = imdb_por_nome.shape[0]
filmes_seculo_20 = imdb_por_nome[imdb_por_nome.get("Year") <= 2000].shape[0]

proporcao_do_seculo_20 = filmes_seculo_20 / total_filmes
proporcao_do_seculo_20

0.704

In [136]:
proporcao_do_seculo_21 = ...
proporcao_do_seculo_21

Ellipsis

In [137]:
# Gabarito

total_filmes = imdb_por_nome.shape[0]
filmes_seculo_20 = imdb_por_nome[imdb_por_nome.get("Year") > 2000].shape[0]

proporcao_do_seculo_20 = filmes_seculo_20 / total_filmes
proporcao_do_seculo_20

0.296

**Questão 4.5.** Finalmente, vamos revisitar o DataFrame `populacao_por_ano` do início do laboratório. Calcule o ano em que a população mundial ultrapassou pela primeira vez os 7 mil milhões.

In [138]:
ano_que_a_populacao_ultrapassou_7_bilhoes = ...
ano_que_a_populacao_ultrapassou_7_bilhoes

Ellipsis

In [139]:
# Gabarito

ano_que_a_populacao_ultrapassou_7_bilhoes = populacao_por_ano[populacao_por_ano.get("Populacao") >= 7e9].sort_values(by="Populacao").index[0]
ano_que_a_populacao_ultrapassou_7_bilhoes

np.int64(2011)

# Desafios

Abaixo, alguns desafios adicionais. Via de regra, estaremos utilizando o DataFrame `imdb_por_nome` nos desafios abaixo.

---

PS: Anteriormente, você estava acostumado a acessar colunas do DataFrame usando a função `df.get("nome_da_coluna")`, pois trás uma legibilidade maior quando outras pessoas leem seu código. 📖

Entretando, uma forma prática de fazer a mesma coisa é utilizar `df["nome_da_coluna]`, que lhe trará os mesmos resultados. 😀

## Desafio 1

Liste os filmes que tem mais votos que 90% dos filmes no conjunto de dados e mais Rating que 75% dos filmes no conjunto de dados.

**Dica 👣:** Lembra daquela história de fazer operações aritméticas vetorialmente? Você pode usar os operadores & e | para realizar operações entre vetores/séries booleanos, porém tome cuidado com a forma que você utiliza. Exemplo:

`[False True True False True False False] &`

 `[True True False False True False False] =`

 `[False True False False True False False]`

**Dica de ouro 🥇:** A biblioteca numpy conta com uma função chamada `np.percentile`. Veja a documentação de numpy na web e tente entender como essa função funciona e o que ela faz!

In [140]:
# Use esse espaço para fazer sua resposta.
# Fique a vontade para criar mais células =)

In [141]:
# Gabarito

vote_90 = np.percentile(imdb_por_nome.get("Votes"), 90)
rating_95 = np.percentile(imdb_por_nome.get("Rating"), 95)

print(f"10% dos filmes tem votos maiores que {vote_90}")
print(f"5% dos filmes tem rating maiores que {rating_95}")

ans = imdb_por_nome[(imdb_por_nome.get("Votes") > vote_90) & (imdb_por_nome.get("Rating") > rating_95)]
ans

10% dos filmes tem votos maiores que 733646.6
5% dos filmes tem rating maiores que 8.7


Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Godfather,1027398,9.2,1972,1970
The Shawshank Redemption,1498733,9.2,1994,1990
The Dark Knight,1473049,8.9,2008,2000
Fight Club,1177098,8.8,1999,1990
The Lord of the Rings: The Return of the King,1074146,8.9,2003,2000
Schindler's List,761224,8.9,1993,1990
The Lord of the Rings: The Fellowship of the Ring,1099087,8.8,2001,2000
Pulp Fiction,1166532,8.9,1994,1990


## Desafio 2

Escolha 5 filmes quaisquer, da Década de 2010, que tenham uma pontuação maior que a média das pontuações das Décadas de 70, 80 e 90.

In [142]:
# Use esse espaço para fazer sua resposta.
# Fique a vontade para criar mais células =)

In [143]:
# Gabarito

media = imdb_por_nome[(imdb_por_nome.get("Decade") == 1970) |
                      (imdb_por_nome.get("Decade") == 1980) |
                      (imdb_por_nome.get("Decade") == 1990)].get("Rating").mean()
print(f"A nota média dos filmes nas décadas de 70, 80 e 90 é: {media.round(3)}")

ans = imdb_por_nome[(imdb_por_nome.get("Decade") == 2010) & (imdb_por_nome.get("Rating") > media)].sample(5)
ans

A nota média dos filmes nas décadas de 70, 80 e 90 é: 8.309


Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Intouchables,417122,8.5,2011,2010
Interstellar,689541,8.6,2014,2010
The Dark Knight Rises,997350,8.4,2012,2010
Inside Out (2015/I),79615,8.5,2015,2010
Inception,1271949,8.7,2010,2010


In [144]:
imdb_por_nome

Unnamed: 0_level_0,Votes,Rating,Year,Decade
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,88355,8.4,1931,1930
Singin' in the Rain,132823,8.3,1952,1950
All About Eve,74178,8.3,1950,1950
Léon,635139,8.6,1994,1990
The Elephant Man,145514,8.2,1980,1980
...,...,...,...,...
Forrest Gump,1078416,8.7,1994,1990
Le salaire de la peur,31003,8.1,1953,1950
3 Idiots,167076,8.2,2009,2000
Network,91689,8.1,1976,1970


# Desafio 3

Encontre qual é a média de Votos em filmes lançados em anos bissextos, nas décadas de 60, 70 e 80.

**Dica de ouro 🥇:** (Anos bissextos são divisíveis por 4 E não são divisíveis por 100) OU são divisíveis por 400.

Tente transformar isso numa expressão, que você possa utilizar para filtrar o DataFrame.

In [145]:
# Use esse espaço para fazer sua resposta.
# Fique a vontade para criar mais células =)

In [146]:
# Gabarito

bissextos = imdb_por_nome[(((imdb_por_nome["Year"] % 4 == 0) & (imdb_por_nome["Year"] % 100 != 0)) |
                            (imdb_por_nome["Year"] % 400 == 0))]

bissextos_decadas = bissextos[(bissextos["Decade"] == 1960) |
                              (bissextos["Decade"] == 1970) |
                              (bissextos["Decade"] == 1980)]

print(f"A média é: {bissextos_decadas['Rating'].mean().round(3)}")

A média é: 8.304


# Linha de chegada

Parabéns! Você concluiu o Laboratório 1.