<a href="https://colab.research.google.com/github/IanOliv/IanOliv/blob/main/ex_1_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Laboratório 1: Arrays e DataFrames

Bem-vindo ao Laboratório 1! Esta semana, aprenderemos sobre arrays, que nos permitem armazenar sequências de dados, e DataFrames, que nos permitem trabalhar com vários arrays de dados sobre as mesmas coisas. Esses tópicos são abordados nas [notas de aula](https://flaviovdf.io/icd-bradesco/).


**Não use loops `for` em nenhuma pergunta deste laboratório.** Se você não sabe o que é um loop `for`, não se preocupe: ainda não abordamos isso. Mas se você sabe o que eles são e está se perguntando por que não é correto usá-los, é porque os loops em Python são lentos e os loops em arrays e DataFrames geralmente devem ser evitados, já que temos funções nativas de bibliotecas como `numpy` que são muito mais rápidas.

Recomendação: crie uma cópia desse notebook jupyter para seu colab, antes de começar a executá-lo e realizar as tarefas.

Primeiro, configure as importações necessárias executando as células abaixo.

In [None]:
# Remova o caractere " # " da célula abaixo e execute a célula, caso esteja utilizando o Colab.
# Isso fará com que a biblioteca seja instalada.

In [None]:
import numpy as np
import pandas as pd

Além disso, iremos baixar alguns dados que usaremos ao longo desse notebook. Não se preocupe em entender a célula a seguir, mas basicamente o que estamos fazendo é:

1. Usaremos `wget` que é um comando para baixarmos coisas da internet.
2. Usaremos `unzip` para "dezipar" o arquivo `data.zip`, contendo uma pasta com os nossos dados.
3. Removeremos `data.zip` com o comando `rm` para não ficarmos com arquivos desnecessários.

> Para executarmos comandos de terminal no Jupyter Notebook, iniciamos as linhas com `!`.

In [None]:
!wget https://github.com/flaviovdf/icd-bradesco/raw/refs/heads/main/labs/lab01/data.zip -P ./
!unzip data.zip
!rm data.zip

# 1. Matrizes

Os computadores são mais úteis quando você pode usar uma pequena quantidade de código para *fazer a mesma ação* para *muitas coisas diferentes*.

Por exemplo, no tempo que você leva para calcular a gorjeta de 18% na conta de um restaurante, um laptop pode calcular gorjetas de 18% para cada conta de restaurante paga por cada ser humano na Terra naquele dia. (Isto é, se você for muito rápido em fazer contas de cabeça!)

**Matrizes** são como colocamos muitos valores em um só lugar para que possamos operar neles como um grupo. Por exemplo, se `bilhoes_de_numeros` for uma matriz de números, a expressão

```python
0.18 * bilhoes_de_numeros
```

fornece uma nova matriz de números que é o resultado da multiplicação de cada número em `bilhoes_de_numeros` por 0,18 (18%). As matrizes não estão limitadas a números; também podemos colocar todas as palavras de um livro em uma série de strings.

Concretamente, uma matriz é uma **coleção de valores do mesmo tipo**, como uma coluna em uma planilha (pense no Planilhas Google ou no Microsoft Excel).

<img src="https://github.com/ThiagoPoppe/monitoria_fcd2024/blob/main/labs/lab01/imagens/sheet_array.png?raw=true" width=600>

Pense que cada célula do Excel é um espaço de memória no seu computador, e a linguagem de programação é responsável por fornecer formas de escrever nessas células, bem como acessar os valores que você guardou nessas células.

É importante ressaltar, também, que *matrizes* podem ser vistas como vários *arrays*, em sequência. Na imagem acima, mostramos os *arrays*, que seriam células justapostas e sequenciais, que armazenam algum valor e te permitem acessá-los. Fique tranquilo, as células abaixo vão fornecer exemplos práticos.

Mas não se preocupe muito com o funcionamento interno de matrizes, esse conceito básico é suficiente!

## 1.1. Fazendo matrizes

Você mesmo pode digitar os dados que vão em um array, mas normalmente não é assim que criaremos arrays. Normalmente, criamos arrays carregando-os de uma fonte externa, como um arquivo de dados.

Porém, primeiro vamos aprender como fazer isso da maneira mais difícil. Para começar, podemos fazer uma **lista** de números colocando-os entre colchetes e separando-os por vírgulas:

In [None]:
minha_lista = [14, -2.26, 0.15]
minha_lista

Assim como `int`, `float` e `str`, a `list` é um tipo de dados fornecido pelo Python. As listas são muito flexíveis e fáceis de trabalhar, mas são *lentas* 🐢.

Como cientistas de dados, frequentemente trabalharemos com milhões ou até bilhões de números. Para isso, precisamos de algo mais rápido que uma `lista`. Em vez de listas, usaremos *arrays*.

Arrays são fornecidos por um pacote chamado [NumPy](http://www.numpy.org/) (pronuncia-se "NUM-pai" ou, se você preferir pronunciar as coisas incorretamente, "NUM-pi"). O pacote é chamado `numpy`, mas é padrão abreviá-lo para `np`. Você pode fazer isso com:

```python
import numpy as np
```

Cientistas de dados, bem como engenheiros e cientistas de todos os tipos, usam `numpy` com frequência, e você verá bastante disso se for especialista em ciência de dados.

In [None]:
import numpy as np

Agora, para criar um array, chame a função `np.array` com uma lista de números. Execute esta célula para ver um exemplo:

In [None]:
np.array([14, -2.26, 0.15])

Observe que você precisa dos colchetes aqui. Se você tentasse executar o código a seguir, o Python acharia ruim porque você o esqueceu:

```python
np.array(14, -2.26, 0.15)
```

<img src='https://github.com/ThiagoPoppe/monitoria_fcd2024/blob/main/labs/lab01/imagens/brackets.png?raw=true' width=400>

Para você entender um pouco melhor:

*Listas* não são necessariamente *arrays*, apesar de funcionarem de forma muito semelhante. Tente pensar que *listas* são, por baixo dos panos, um *array*, com algumas funcionalidades a mais, que não são úteis para nós e que tornam a manipulação de listas mais lenta do que *arrays*, como mencionado anteriormente.

O que *np.array(_lista_argumento_)* faz é converter uma *_lista_argumento_* em um array. Quando você utiliza isso, é esperado que você diga qual lista você quer gostaria de converter em um array.

O código abaixo funciona de forma semelhante:

In [None]:
minha_lista = [14, -2.26, 0.15]
np.array(minha_lista)

Os próprios arrays também são valores, assim como números e strings. Isso significa que você pode atribuir nomes a eles ou usá-los como argumentos para funções.

**Questão 1.1.1.** Faça um array contendo os números 2, 4 e 6, nessa ordem. Nomeie-o como `numeros_pares`.

In [None]:
numeros_pares = ... # Complete aqui
numeros_pares

**Questão 1.1.2.** Faça um array contendo os números 0, -1, 1, $\pi$ e $e$, nessa ordem. Nomeie-o como `outros_numeros`.

*Dica:* $\pi$ e $e$ estão disponíveis no módulo `np`, que já foi importado. Você pode usar `np.pi` para obter $\pi$, e `np.exp(1)` para obter $e^1$. **Não** importe o módulo `math`.

In [None]:
outros_numeros = ...
outros_numeros

**Questão 1.1.3.** Faça um array contendo as cinco strings `"Hello"`, `","`, `" "`, `"world"` e `"!"`. (O terceiro é um espaço único entre aspas.) Nomeie-o como `componentes_hello_world`.

*Nota:* Se você imprimir `componentes_hello_world`, você notará algumas informações extras além de seu conteúdo: `dtype='<U5'`. Essa é apenas a maneira extremamente estranha do NumPy de dizer que as coisas no array são strings. Caso você esteja interessado, o `U` significa que esta string está codificada em [unicode](https://en.wikipedia.org/wiki/Unicode), e o `<5` significa que todas as strings no array têm 5 caracteres ou menos.

In [None]:
componentes_hello_world = ...
componentes_hello_world

Muitas vezes, em ciência de dados, queremos trabalhar com muitos números espaçados uniformemente dentro de algum intervalo. NumPy fornece uma função especial para isso chamada `arange`. A expressão `np.arange(comeco, fim, espaco)` produz um array com todos os números começando em `comeco`, contando de  `espaco` em `espaco`, parando **antes** de `fim` ser alcançado.

Por exemplo, o valor de `np.arange(1, 8, 2)` é uma matriz com os elementos `1, 3, 5 e 7` - começa em 1 e vai contando de 2 em 2, terminando até chegar no último valor menor que 8. Em outros palavras, ele cria o mesmo array que `np.array([1, 3, 5, 7])`.

`np.arange(4, 9, 1)` é um array com os elementos `4, 5, 6, 7 e 8`, não contendo o 9 porque `np.arange` para *antes* do valor de parada ser atingido.

**Questão 1.1.4.** Use `np.arange` para criar um array com todos os múltiplos de 99 de 0 até (**e incluindo**) 9999. (Portanto, seus elementos são 0, 99, 198, 297, etc.)

In [None]:
multiplos_de_99 = ...
multiplos_de_99

##### Leituras de temperatura 🌡️
A NOAA (Administração Nacional Oceânica e Atmosférica dos EUA) opera estações meteorológicas que medem as temperaturas da superfície em diferentes locais dos Estados Unidos. As leituras horárias estão [disponíveis publicamente](http://www.ncdc.noaa.gov/qclcd/QCLCD?prior=N).

Suponha que baixemos todos os dados de horários do site de San Diego, Califórnia, para o mês de dezembro de 2021. Para analisar os dados, queremos saber quando cada leitura foi feita, mas descobrimos que os dados não incluem os carimbos de data e hora das leituras (o momento em que cada uma foi feita).

No entanto, sabemos que a primeira leitura foi feita no primeiro instante de dezembro de 2021 (meia-noite do dia 1º de dezembro) e cada leitura subsequente foi feita exatamente 1 hora após a última.

**Questão 1.1.5.** Crie uma matriz do *tempo, em segundos, desde o início do mês* em que cada leitura horária foi feita. Nomeie-o como `registro_de_leituras`.

* **Dica 1:** Há 31 dias em dezembro, o que equivale a ($31 \times 24$) horas ou ($31 \times 24 \times 60 \times 60$) segundos.

* **Dica 2:** A função `len` também funciona em arrays. Certifique-se de que seu `registro_de_leituras` tenha $31 \times 24$ elementos, já que as leituras são feitas de hora em hora durante 31 dias.

In [None]:
registro_de_leituras = ...
registro_de_leituras

## 1.2. Trabalhando com elementos únicos de arrays ("indexação")
Vamos trabalhar com um conjunto de dados mais interessante. A próxima célula cria uma matriz chamada `populacao` que inclui populações mundiais estimadas em cada ano de **1950** a **2022**. (As estimativas vêm da seguinte [base de dados internacional](https://www.census.gov/data-tools/demo/idb/#/country?COUNTRY_YEAR=2022&COUNTRY_YR_ANIM=2022), mantida pelo US Census Bureau.)

Em vez de digitar os dados manualmente, nós os carregamos de um arquivo em seu computador chamado `world_population_2022.csv`. Você aprenderá como ler dados de arquivos em breve.

In [None]:
# Não se preocupe sobre o que está acontecendo nessa célula por enquanto
populacao = pd.read_csv("data/world_population_2022.csv").get("Population").values
populacao

Veja como obtemos o primeiro elemento de `populacao`, que é a população mundial no primeiro ano do conjunto de dados, 1950.

In [None]:
populacao[0]

Observe que usamos colchetes aqui. Os colchetes sinalizam que estamos *acessando* um elemento do array. Colchetes em Python são como subscritos em matemática (igual $x_1$, $x_2$, ...).

O valor dessa expressão é o número 2557619597 (cerca de 2,5 bilhões), porque é a primeira coisa na matriz `populacao`.

Observe que escrevemos `populacao[0]`, não `populacao[1]`, para obter o primeiro elemento. Esta é uma convenção estranha na ciência da computação. 0 é chamado de *índice* do primeiro item. Seguindo essa lógica, então 3, por exemplo, é o índice do 4º item.

Aqui estão mais alguns exemplos. Nos exemplos, demos nomes às coisas que obtemos de `populacao`. Leia e execute cada célula.

In [None]:
# O terceiro elemento do array é a população em 1952.
populacao_1952 = populacao[2]
populacao_1952

In [None]:
# O décimo terceiro elemento do array é a população em 1962 (que é 1950 + 12).
populacao_1962 = populacao[12]
populacao_1962

In [None]:
# O 73º elemento do array é a população em 2022.
populacao_2022 = populacao[72]
populacao_2022

In [None]:
# O array possui apenas 73 elementos, então isso não funciona.
# populacao_2023 = populacao[73]
# populacao_2023

# 🚨 Depois de executar esta célula, coloque um # antes de cada linha acima
# para garantir que ela não seja executada novamente.

**Questão 1.2.1.** Defina `populacao_1998` para a população mundial em 1998, obtendo o elemento apropriado de `populacao`.

In [None]:
populacao_1998 = ...
populacao_1998

## 1.3. Fazendo algo para cada elemento de um array
Arrays são úteis principalmente para realizar a mesma operação muitas vezes. Portanto, não precisamos acessar e trabalhar com frequência com elementos únicos.

##### Logaritmos
Aqui está uma pergunta simples que podemos fazer sobre a população mundial:

> Qual era o tamanho da população em *ordens de magnitude* em cada ano?

A função logaritmo é uma forma de medir o tamanho de um número. O logaritmo (base 10) de um número aumenta em 1 cada vez que multiplicamos o número por 10. É como uma medida de quantos dígitos decimais o número possui ou quão grande ele é em ordens de grandeza.

Poderíamos tentar responder nossa pergunta assim, usando a função `log10` do NumPy em cada elemento do array `populacao`:

In [None]:
magnitude_da_populacao_1950 = np.log10(populacao[0])
magnitude_da_populacao_1951 = np.log10(populacao[1])
magnitude_da_populacao_1952 = np.log10(populacao[2])
magnitude_da_populacao_1953 = np.log10(populacao[3])

# ... e assim por diante

Mas isso é tedioso e repetitivo. Deve haver uma maneira melhor!

Acontece que o `log10` do NumPy é bastante poderoso. Ele não apenas pode receber um único número (como `populacao[0]`) como entrada e retornar o logaritmo de um único número, mas **também** pode receber um array de números e retornar o logaritmo de cada elemento desse array!

Se você fornecer ao `log10` do NumPy um array como entrada, ele retornará um array do mesmo tamanho, onde o primeiro elemento do resultado é o logaritmo do primeiro elemento da entrada, o segundo elemento do resultado é o logaritmo de o segundo elemento da entrada e assim por diante.

<img src="https://github.com/ThiagoPoppe/monitoria_fcd2024/blob/main/labs/lab01/imagens/array_logarithm.jpg?raw=true">

Isso é chamado de aplicação *elementwise* (elemento a elemento) da função, uma vez que opera separadamente em cada elemento do array em que é chamada.

**Questão 1.3.1.** Use a função `log10` do NumPy para calcular os logaritmos da população mundial em cada ano. Dê ao resultado (uma matriz de 73 números) o nome `magnitude_da_populacao`. Seu código deve ser muito curto.

In [None]:
magnitude_da_populacao = ...
magnitude_da_populacao

##### Aritmética
A aritmética também funciona *elementwise* em arrays. Por exemplo, você pode dividir todos os números da população por 1 bilhão para obter números em bilhões:

In [None]:
populacao_em_bilhoes = populacao / 1000000000
populacao_em_bilhoes

Você pode fazer o mesmo com adição, subtração, multiplicação e exponenciação (`**`). Por exemplo, você pode calcular uma gorjeta de vinte por cento em várias contas de restaurante de uma só vez:

In [None]:
contas_dos_restaurantes = np.array([20.12, 39.90, 31.01])
print("Conta dos restaurantes:\t", contas_dos_restaurantes)

gorjetas = 0.2 * contas_dos_restaurantes
print("Gorjetas:\t\t", gorjetas)

<img src="https://github.com/ThiagoPoppe/monitoria_fcd2024/blob/main/labs/lab01/imagens/array_multiplication.jpg?raw=true">

**Questão 1.3.2.** Suponha que a cobrança total em um restaurante seja a conta original mais a gorjeta (20%). Isso significa que podemos multiplicar a fatura original por 1.2 para obter a cobrança total. Calcule a cobrança total de cada conta em `conta_dos_restaurantes` e dê ao array resultante o nome de `cobrancas_totais`.

In [None]:
cobrancas_totais = ...
cobrancas_totais

Vamos ler alguns dados para usar na próxima pergunta.

In [None]:
mais_contas_de_restaurantes = pd.read_csv("data/more_restaurant_bills.csv").get("Bill").values

**Questão 1.3.3.** O array `mais_contas_de_restaurantes` contém 100.000 contas! Calcule a cobrança total de cada uma, assumindo novamente uma gorjeta de vinte por cento, e dê ao array resultante o nome `mais_cobrancas_totais`.

In [None]:
mais_cobrancas_totais = ...
mais_cobrancas_totais

A função `np.sum` leva um único array de números como argumento. Ele retorna a soma de todos os números desse array (portanto, retorna um único número, não um array).

**Questão 1.3.4.** Qual foi a soma de todas as contas em `mais_contas_de_restaurantes`, **incluindo gorjetas**?

In [None]:
soma_das_contas = ...
soma_das_contas

##### Potências de Dois
As potências de 2 ($2^0 = 1$, $2^1 = 2$, $2^2 = 4$, etc) surgem frequentemente na ciência da computação. (Por exemplo, você deve ter notado que o armazenamento em smartphones ou computadores vem em potências de 2, como 64 GB, 128 GB ou 256 GB.)

**Questão 1.3.5.** Use `np.arange` e o operador de exponenciação `**` para criar um array contendo as primeiras 40 potências de 2, começando em $2^0=1$.

* **Dica 1:** Seu kernel “morreu” quando você executou sua solução? Existe uma resposta incorreta comum para esse problema que tenta criar um array com tantas entradas que o Python desiste e trava. Se isso acontecer com você, verifique sua resposta!

* **Dica 2:** Talvez comece com as primeiras 5 potências de dois. Depois de fazer isso funcionar, tente todos os 40. Em nenhum momento você deve escrever manualmente `0, 1, 2, 3, 4, ...`; se você estiver tentando isso, leia novamente algumas células anteriores desse notebook.

In [None]:
potencias_de_2 = ...
potencias_de_2

# 2. DataFrames

## 2.1. Introdução

Para uma coleção de coisas no mundo, um array é útil para descrever um único atributo de cada coisa. Por exemplo, para a coleção de estados dos EUA, uma matriz poderia descrever a área territorial de cada um. As tabelas ampliam essa ideia descrevendo vários atributos para cada elemento de uma coleção. Numa tabela de estados, por exemplo, podemos registar a área territorial, a população, a capital do estado e o nome do governador. Em outras palavras, as tabelas rastreiam muitas entidades (indivíduos, armazenados como linhas) e, para cada entidade, muitos atributos (recursos, armazenados como colunas).

Na célula abaixo temos dois arrays. O primeiro contém a população mundial em cada ano (conforme estimado pelo US Census Bureau), e o segundo contém os próprios anos (em ordem, de modo que os primeiros elementos na população e as matrizes de anos correspondam).

In [None]:
anos = np.arange(1950, 2022+1)
quantidade_populacional = pd.read_csv("data/world_population_2022.csv").get("Population").values

print("Coluna de população:", quantidade_populacional)
print("Coluna dos anos:", anos)

Suponha que queiramos responder a esta pergunta:

> Quando é que a população mundial ultrapassou os 7 mil milhões?

Você poderia tecnicamente responder a essa pergunta apenas olhando para as matrizes, mas é um pouco complicado, pois seria necessário contar a posição onde a população ultrapassou pela primeira vez os 7 bilhões e, em seguida, encontrar o elemento correspondente na matriz de anos. Em casos como estes, pode ser mais fácil colocar os dados em uma tabela.

Assim como `numpy` fornece arrays, um pacote popular chamado `pandas` fornece **DataFrames**, que é o nome em `pandas` para **tabelas**. `pandas` é *a* ferramenta para fazer ciência de dados em Python.

Você pode importar `pandas` usando o seguinte código:

In [None]:
import pandas as pd

A célula abaixo:

- cria um DataFrame vazio usando a expressão `pd.DataFrame()`,
- atribui duas colunas ao DataFrame chamando `assign`,
- atribui o DataFrame resultante ao nome `populacao_df` e, finalmente
- exibe `populacao_df` para que possamos ver o DataFrame que criamos.

`"Populacao"` e `"Ano"` são rótulos de coluna que escolhemos. Poderíamos ter escolhido qualquer coisa, mas é uma boa ideia escolher nomes que sejam descritivos e não muito longos.

In [None]:
populacao_df = pd.DataFrame().assign(
    Populacao=quantidade_populacional,
    Ano=anos
)

populacao_df

Agora os dados estão todos juntos em um único DataFrame! É muito mais fácil analisar esses dados. Se você precisa saber qual era a população em 2011, por exemplo, você pode saber com um simples olhar. Revisitaremos este DataFrame mais tarde.

**Questão 2.1.1.** Na célula abaixo, criamos 2 arrays. Usando as etapas acima, atribua `top_10_filmes` a um DataFrame que possui duas colunas chamadas `Avaliacao` e `Nome`, que contêm `top_10_avaliacoes` e `top_10_nomes` respectivamente.

In [None]:
top_10_avaliacoes = np.array([9.2, 9.2, 9., 8.9, 8.9, 8.9, 8.9, 8.9, 8.9, 8.8])
top_10_nomes = np.array([
        'The Shawshank Redemption (1994)',
        'The Godfather (1972)',
        'The Godfather: Part II (1974)',
        'Pulp Fiction (1994)',
        "Schindler's List (1993)",
        'The Lord of the Rings: The Return of the King (2003)',
        '12 Angry Men (1957)',
        'The Dark Knight (2008)',
        'Il buono, il brutto, il cattivo (1966)',
        'The Lord of the Rings: The Fellowship of the Ring (2001)'
])

In [None]:
top_10_filmes = ...
top_10_filmes

Suponha que você queira adicionar suas próprias classificações a este DataFrame. A célula abaixo contém sua avaliação de cada filme:

In [None]:
minhas_avaliacoes = [8, 2, 1, 9, 7, 10, 6, 4, 3, 5]

**Questão 2.1.2** Você também pode usar o método `assign` para adicionar uma coluna a um DataFrame já existente. Crie um novo DataFrame chamado `com_minhas_avaliacoes` adicionando uma coluna chamada `MinhaAvaliacao` ao DataFrame em `top_10_filmes`.

In [None]:
com_minhas_avaliacoes = ...
com_minhas_avaliacoes

## 2.2. Índices

Você deve ter notado que o DataFrame de populações contém o que parece ser uma coluna extra e sem rótulo à esquerda com os números de 0 a 65. **Isto não é uma coluna, é o que chamamos de *índice***. O índice contém os rótulos das linhas. Enquanto as colunas deste DataFrame são rotuladas como `"Populacao"` e `"Ano"`, as linhas são rotuladas como 0, 1, ..., 72.

Por padrão, `pandas` não sabe como rotular as linhas, então apenas as numera (começando com 0). É claro que, neste caso, faz mais sentido usar o ano como rótulo da linha. Podemos fazer isso dizendo ao `pandas` para definir a coluna `"Ano"` como índice:

In [None]:
populacao_por_ano = populacao_df.set_index('Ano')
populacao_por_ano

Como veremos, isso faz mais do que deixar o DataFrame mais bonito – é muito útil também.

**Questão 2.2.1** Crie um novo DataFrame chamado `top_10_filmes_por_nome` pegando o DataFrame que você criou acima, `top_10_filmes`, e definindo o índice como a coluna `Nome`.

In [None]:
top_10_filmes_por_nome = ...
top_10_filmes_por_nome

Você pode obter um array de nomes de linhas usando `.index`. Por exemplo, o array de nomes de linhas do DataFrame `populacao_por_ano` é:

In [None]:
populacao_por_ano.index

**Questão 2.2.2** Usando o código acima, atribua a `decimo_filme` o nome do décimo filme em `top_10_filmes_por_nome`.

* **Dica:** Lembre-se de que o índice é um array e usamos colchetes para acessar os elementos de um array. E também que o índice 0 corresponde ao 1º elemento do array.

In [None]:
decimo_filme = ...
decimo_filme

## 2.3 Lendo um DataFrame de um arquivo
Na maioria dos casos, não teremos o trabalho de digitar todos os dados manualmente. Em vez disso, podemos usar funções fornecidas por `pandas` para ler dados de arquivos externos.

A função `pd.read_csv()` pega um argumento, um caminho para um arquivo de dados (uma string) e retorna um DataFrame. Existem muitos formatos de arquivos de dados, mas CSV (*comma separated values*, ou "valores separados por vírgula") é o mais comum.

**Questão 2.3.1.** O arquivo `data/imdb.csv` contém informações sobre os 250 filmes mais bem avaliados no IMDb. Carregue-o como um DataFrame chamado `imdb`.

In [None]:
imdb = ...
imdb

Observe os `...` no meio do DataFrame. Isso significa que muitas linhas foram omitidas. Este DataFrame é grande o suficiente para que apenas algumas de suas linhas sejam exibidas, mas as outras ainda estão lá. São 250 filmes no total.

De onde veio o `imdb.csv`? Se você entrar no diretório `data/`, deverá ver um arquivo chamado `imdb.csv`.

Abra o arquivo `imdb.csv` nessa pasta e observe o formato. O que você percebe? A terminação do nome do arquivo `.csv` indica que este arquivo está no formato [CSV (comma-separated value)](http://edoceo.com/utilitas/csv-file-format).

**Questão 2.3.2.** Este é um conjunto de dados de filmes, portanto faz sentido usar o título do filme como rótulo da linha. Crie um novo DataFrame chamado `imdb_por_nome` que usa o título do filme como índice.

In [None]:
imdb_por_nome = ...
imdb_por_nome

## 2.4. Series



Suponha que estejamos interessados ​​principalmente nas classificações de filmes. Para extrair apenas esta coluna do DataFrame, usamos o método `.get`:

In [None]:
avaliacoes = imdb_por_nome.get('Rating')
avaliacoes

Observe como não apenas as classificações do filme foram retornadas, mas também o nome do filme! Isto ocorre precisamente porque definimos o título do filme como o índice! Por exemplo, se tivéssemos solicitado a coluna `"Rating"` do DataFrame original, `imdb`, veríamos:

In [None]:
imdb.get('Rating')

Esta é uma forma pela qual os índices são muito úteis – eles fornecem rótulos significativos para os dados.

À primeira vista, pode parecer que pedir uma coluna usando `.get` retorna um DataFrame com uma coluna, mas isso não está certo. Em vez disso, ele retorna um tipo especial de coisa chamado *Series*:

In [None]:
type(imdb_por_nome.get('Rating'))

Você pode pensar em uma `Series` como um array com um índice. Enquanto as matrizes são sequências simples de números sem rótulos, `Series` pode ter rótulos. Isso geralmente é muito útil.

`avaliacoes` agora é uma `Series` que contém a coluna de classificações de filmes. Suponha que estejamos interessados ​​na avaliação de um filme específico: _Alien_. Para fazer isso, usaremos o "*acessador*" `.loc` que extrai um valor da Série em um *local* específico:

In [None]:
avaliacoes.loc["Alien"]

Há algumas coisas a serem observadas aqui. Primeiro, esses são colchetes em torno de `"Alien"`. Isso ocorre porque `.loc` não é um método, mas um "*acessador*". Os colchetes sinalizam que iremos extrair um elemento da `Série`. Segundo, passamos o rótulo como uma string.

**Questão 2.4.1.** Encontre a avaliação de _3 Idiotas_ (*3 Idiots*).

In [None]:
avaliacao_de_tres_idiotas = ...
avaliacao_de_tres_idiotas

Agora suponha que quiséssemos saber o ano em que _Alien_ foi lançado. Poderíamos fazer isso obtendo primeiro a coluna dos anos:

In [None]:
anos = imdb_por_nome.get('Year')
anos

E então usando `.loc` para obter a entrada correta:

In [None]:
anos.loc['Alien']

Também poderíamos fazer isso em uma única etapa *encadeando* as operações:

In [None]:
imdb_por_nome.get('Year').loc['Alien']

Isso funciona porque o Python primeiro avalia `imdb_por_nome.get('Year')` como uma `Series`. Em seguida, avalia `.loc['Alien']` para retornar o ano.

O encadeamento é usado com bastante frequência e pode ser útil. Apenas certifique-se de não encadear muitas coisas que tornem seu código difícil de ler. Você sempre pode salvar um resultado intermediário em uma variável.

**Questão 2.4.2** Encontre a década em que _Gone Girl_ foi lançado usando encadeamento.

*Dica*: `imbd_por_nome` possui uma coluna chamada `"Decade"` (*Década*).

In [None]:
decada = ...
decada

# 3. Analisando conjuntos de dados

Com apenas alguns métodos DataFrame, podemos responder algumas questões interessantes sobre o conjunto de dados IMDb.

Se quisermos apenas as avaliações dos filmes, podemos usar `.get`:

In [None]:
avaliacoes = imdb_por_nome.get("Rating")
avaliacoes

Lembre-se de que `avaliacoes` é uma série. Objetos de série possuem alguns métodos úteis.

**Questão 3.1.** Encontre a maior avaliação no conjunto de dados.

*Dica:* Digite `avaliacoes.` e pressione Tab para ver uma lista dos métodos disponíveis. Existe algum que parece útil?

In [None]:
maior_avaliacao = ...
maior_avaliacao

Você provavelmente quer saber o *nome* do filme de maior avaliação que encontrou anteriormente! Para fazer isso, podemos ordenar toda a série usando o método `.sort_values`:

In [None]:
avaliacoes.sort_values()

Portanto, na verdade, existem dois filmes com maior audiência no conjunto de dados: *Um Sonho de Liberdade* e *O Poderoso Chefão*.

Observe que estamos ordenando pelas avaliações, e não pelos rótulos! Além disso, o rótulo segue a ordenação conforme a sua avaliação. Isto é exatamente o que queremos.

Quando utilizamos o método `sort_values`, a `Series` resultante tem os dados ordenados em ordem crescente, do menor ao maior. Este é o comportamento padrão de `sort_values`, mas podemos mudar isso. Se quiséssemos os filmes com melhor avaliação no topo, precisaríamos especificar que a avaliação não deveria ser em ordem crescente com um *argumento keyword* ("palavra-chave") opcional:


In [None]:
avaliacoes.sort_values(ascending=False)

Se definirmos o argumento `ascending` como `True`, obteremos o mesmo resultado como se não o definissemos. Isso é o que queremos dizer quando dizemos que o comportamento padrão de `sort_values` é classificar em ordem crescente. Confirme se as próximas duas células fornecem a mesma saída.

In [None]:
avaliacoes.sort_values(ascending=True)

In [None]:
avaliacoes.sort_values()

Não só podemos ordenar séries, mas também ordenar DataFrames inteiros. Quando fazemos isso, temos que especificar a coluna pela qual iremos ordenar:

In [None]:
imdb_por_nome.sort_values('Rating')

Da mesma forma, podemos especificar que a ordenação deve estar em ordem decrescente:

In [None]:
imdb_por_nome.sort_values('Rating', ascending=False)

Alguns detalhes sobre a ordenação de um DataFrame:

1. O primeiro argumento para `sort_values` é o nome de uma coluna pela qual iremos ordenar.
2. Se a coluna contiver strings, `sort` ordenará em ordem alfabética; se a coluna tiver números, ela será ordenada numericamente.
3. `imdb_por_nome.sort_values("Rating")` retorna um novo DataFrame; o DataFrame `imdb_por_nome` não é modificado. Por exemplo, se chamarmos `imdb_por_nome.sort("Rating")`, então executar `imdb_por_nome` por si só ainda retornaria o DataFrame não ordenado. Para salvar o resultado, você deve atribuí-lo a uma nova variável.
4. As linhas sempre permanecem juntas quando um DataFrame é ordenado. Não faria sentido ordenar apenas uma coluna e deixar as outras colunas em paz. Por exemplo, neste caso, se ordenássemos apenas a coluna `"Rating"`, todos os filmes terminariam com avaliações erradas.

**Questão 3.2.** Crie uma versão de `imdb_por_nome` que seja ordenada cronologicamente, com os filmes mais antigos primeiro. Chame-o de `imdb_ordenado`.

In [None]:
imdb_ordenado = ...
imdb_ordenado

**Questão 3.3.** Qual é o título do filme mais antigo no conjunto de dados? Você poderia simplesmente procurar isso na saída da célula anterior. Em vez disso, escreva o código Python para descobrir.

* **Dica:** Lembre-se de que o índice é um array.

In [None]:
titulo_do_filme_mais_antigo = ...
titulo_do_filme_mais_antigo

Suponha que queiramos obter a avaliação do filme mais antigo no DataFrame. Uma maneira de fazer isso é primeiro encontrar o rótulo de índice do filme mais antigo (o que já fizemos). Em seguida, extraímos a coluna `"Rating"` e usamos `.loc` para encontrar a avaliação do filme mais antigo.

In [None]:
imdb_ordenado.get('Rating').loc[titulo_do_filme_mais_antigo]

Porém, existe uma maneira mais rápida. Uma série não possui apenas um acessador `.loc`, mas também um acessador `.iloc`. Enquanto `.loc` procura coisas por *rótulo*, `.iloc` procura elementos por *posição inteira*.

Vamos lembrar o que está na coluna `"Rating"`:

In [None]:
imdb_ordenado.get('Rating')

Se quisermos a avaliação da primeira linha, podemos usar `.iloc[0]`:

In [None]:
imdb_ordenado.get('Rating').iloc[0]

Isso retorna exatamente a mesma coisa que `imdb_ordenado.get('Rating').loc['The Kid']`; essas são duas maneiras de fazer a mesma coisa. Normalmente é mais conveniente acessar um elemento por seu rótulo do que por sua posição inteira, mas é bom saber `.loc` e `.iloc`.

**Questão 3.4.** Qual é a avaliação do quinto filme mais antigo no conjunto de dados? Você poderia simplesmente procurar isso na saída da célula anterior. Em vez disso, escreva o código Python para descobrir.

* PS: Lembre-se que o 1° elemento está no "index" 0, o 2° elemento no "index" 1...

In [None]:
avaliacao_do_quinto_filme_mais_antigo = ...
avaliacao_do_quinto_filme_mais_antigo

# 4. Encontrar partes de um conjunto de dados

Suponha que você esteja interessado em filmes da década de 1950. Ordenar o DataFrame por ano não ajuda, porque a década de 1950 está no meio do conjunto de dados. Em vez disso, usaremos um recurso de Series que nos permite comparar facilmente cada elemento em uma coluna com um valor específico.

Primeiro lembre-se que podemos usar `.get` para extrair uma única coluna. O resultado não é um DataFrame, mas sim uma Series:

In [None]:
imdb_por_nome.get('Decade')

Queremos verificar se cada filme foi lançado na década de 1950. Python nos dá uma maneira de verificar se duas coisas são iguais com `==` (lembre-se que `=` já está sendo usado para outro propósito: atribui valores a variáveis nomes):

In [None]:
3 == 4

In [None]:
3 == 3

`True` e `False` são instâncias de um tipo que não vimos antes:

In [None]:
type(True)

`bool` significa "Boolean", em homenagem ao lógico inglês [George Boole](https://en.wikipedia.org/wiki/George_Boole). Dizemos que "True" e "False" são valores *Booleanos*.

Acontece que podemos facilmente verificar se *cada* um dos elementos em uma `Series` é igual a alguma coisa:

In [None]:
imdb_por_nome.get('Decade') == 1950

Vemos que o resultado é uma nova série que tem `Verdadeiro` apenas onde a década foi 1950, e `Falso` em todos os outros lugares. Dizemos que a Series resultante é uma Series de *Booleanos*, ou uma *Series Booleana*.

Vamos chamar esse resultado de `eh_de_1950s`. Seu nome pode ser lido como se fosse uma pergunta: “esse filme é da década de 1950”?

In [None]:
eh_de_1950s = imdb_por_nome.get('Decade') == 1950
eh_de_1950s

Cada linha é uma resposta a esta pergunta. *O Homem Elefante* é da década de 1950? `Falso`. *Tudo sobre Eva* é da década de 1950? `Verdadeiro`.

Podemos usar `eh_de_1950s` para selecionar apenas as linhas de `imdb_por_nome` para as quais a resposta é `Verdadeiro`. A sintaxe para isso é:

In [None]:
imdb_por_nome[eh_de_1950s]

O que `imdb_por_nome[eh_de_1950s]` faz, precisamente, é percorrer `imdb_por_nome` linha por linha. Se a linha chamada *Singin' in the Rain* tiver o valor `True` em `eh_de_1950s`, essa linha será mantida. Se o valor for `False`, a linha será descartada. E assim por diante, para cada linha.

Observe que poderíamos ter conseguido isso sem nunca criar a variável `eh_de_1950s`, simplesmente colocando o código que usamos para criar a Series booleana diretamente dentro de `[...]`. Este é um padrão típico que você usará muito!

In [None]:
imdb_por_nome[imdb_por_nome.get('Decade') == 1950]

Ajuda ler os colchetes como "onde". Portanto, o comando na célula acima diz para manter todas as linhas de `imdb_por_nome` *onde* a década é a década de 1950.

Criar um novo DataFrame selecionando apenas certas linhas de um DataFrame existente que satisfaça alguma condição é chamado de *consulta*. A linha de código `imdb_por_nome[imdb_por_nome.get('Decade') == 1950]` é uma *consulta*.

**Questão 4.1.** Crie um DataFrame chamado `noventa_e_oito` contendo os filmes lançados em 1998.

In [None]:
noventa_e_oito = ...
noventa_e_oito

Até agora só descobrimos onde uma coluna é *exatamente* igual a um determinado valor. No entanto, existem muitos outros operadores de comparação que poderíamos usar. Aqui estão alguns:

|Operador|Testes|
|-|-|
|`==`|a coisa da esquerda é igual à coisa da direita|
|`!=`|a coisa à esquerda *não* é igual à coisa à direita|
|`>`|a coisa à esquerda é maior que (e não igual) à coisa à direita|
|`>=`|a coisa à esquerda é maior ou igual à coisa à direita|
|`<`|a coisa à esquerda é menor que (e não igual) à coisa à direita|

As [notas de curso](https://notes.dsc10.com/02-data_sets/querying.html#examples) do DSC10 tem mais exemplos.

**Questão 4.2.** Utilizando os operadores da tabela acima, encontre todos os filmes com avaliação superior a 8,6. Coloque seus dados em um DataFrame chamado `realmente_bem_avaliados`.

In [None]:
realmente_bem_avaliados = ...
realmente_bem_avaliados

Qual é a maior avaliação de qualquer filme da década de 1990? Agora temos as ferramentas para responder a perguntas como essas. Dividindo em pedaços, encontramos primeiro todos os filmes da década de 1990:

In [None]:
eh_de_1990s = imdb_por_nome.get('Decade') == 1990
eh_de_1990s

Em seguida, selecionamos apenas estes filmes em nosso DataFrame:

In [None]:
de_1990s = imdb_por_nome[eh_de_1990s]
de_1990s

Encontramos então a maior avaliação apenas destes filmes:

In [None]:
de_1990s.get('Rating').max()

Ou, se quiséssemos fazer tudo isso de forma mais concisa usando encadeamento:

In [None]:
imdb_por_nome[imdb_por_nome.get('Decade') == 1990].get('Rating').max()

**Questão 4.3.** Encontre a avaliação média para filmes lançados no século 20 e a avaliação média para filmes lançados no século 21 para os filmes no `imdb`.

*Dica*: As séries possuem um método `.mean()`. Observe que o ano 2000 está no século 20 e que o filme mais antigo do conjunto de dados é de 1921!

In [None]:
avaliacao_media_do_seculo_20 = ...
avaliacao_media_do_seculo_20

In [None]:
avaliacao_media_do_seculo_21 = ...
avaliacao_media_do_seculo_21

A propriedade `shape` informa quantas linhas e colunas existem em um DataFrame. (Uma "propriedade" é similar a um método que não precisa ser chamado adicionando parênteses.)

In [None]:
imdb_por_nome.shape

Como um array, você pode obter o primeiro elemento do `shape` usando `[0]` e o segundo elemento usando `[1]`. Por exemplo, o número de linhas em `imdb_por_nome` é:

In [None]:
imdb_por_nome.shape[0]

Podemos usar isso para responder "Quantos filmes são do século 20?":

In [None]:
imdb_por_nome[imdb_por_nome.get('Year') <= 2000].shape[0]

**Questão 4.4.** Use `shape` (e aritmética) para encontrar a *proporção* de filmes no conjunto de dados que foram lançados no século 20 e a proporção do século 21.

* **Dica:** A *proporção* de filmes lançados no século 20 é o *número* de filmes lançados no século 20, dividido pelo *número total* de filmes no conjunto de dados.

In [None]:
proporcao_do_seculo_20 = ...
proporcao_do_seculo_20

In [None]:
proporcao_do_seculo_21 = ...
proporcao_do_seculo_21

**Questão 4.5.** Finalmente, vamos revisitar o DataFrame `populacao_por_ano` do início do laboratório. Calcule o ano em que a população mundial ultrapassou pela primeira vez os 7 mil milhões.

In [None]:
ano_que_a_populacao_ultrapassou_7_bilhoes = ...
ano_que_a_populacao_ultrapassou_7_bilhoes

# Desafios

Abaixo, alguns desafios adicionais. Via de regra, estaremos utilizando o DataFrame `imdb_por_nome` nos desafios abaixo.

---

PS: Anteriormente, você estava acostumado a acessar colunas do DataFrame usando a função `df.get("nome_da_coluna")`, pois trás uma legibilidade maior quando outras pessoas leem seu código. 📖

Entretando, uma forma prática de fazer a mesma coisa é utilizar `df["nome_da_coluna]`, que lhe trará os mesmos resultados. 😀

## Desafio 1

Liste os filmes que tem mais votos que 90% dos filmes no conjunto de dados e mais Rating que 75% dos filmes no conjunto de dados.

**Dica 👣:** Lembra daquela história de fazer operações aritméticas vetorialmente? Você pode usar os operadores & e | para realizar operações entre vetores/séries booleanos, porém tome cuidado com a forma que você utiliza. Exemplo:

`[False True True False True False False] &`

 `[True True False False True False False] =`

 `[False True False False True False False]`

**Dica de ouro 🥇:** A biblioteca numpy conta com uma função chamada `np.percentile`. Veja a documentação de numpy na web e tente entender como essa função funciona e o que ela faz!

In [None]:
# Use esse espaço para fazer sua resposta.
# Fique a vontade para criar mais células =)

## Desafio 2

Escolha 5 filmes quaisquer, da Década de 2010, que tenham uma pontuação maior que a média das pontuações das Décadas de 70, 80 e 90.

In [None]:
# Use esse espaço para fazer sua resposta.
# Fique a vontade para criar mais células =)

# Desafio 3

Encontre qual é a média de Votos em filmes lançados em anos bissextos, nas décadas de 60, 70 e 80.

**Dica de ouro 🥇:** (Anos bissextos são divisíveis por 4 E não são divisíveis por 100) OU são divisíveis por 400.

Tente transformar isso numa expressão, que você possa utilizar para filtrar o DataFrame.

In [None]:
# Use esse espaço para fazer sua resposta.
# Fique a vontade para criar mais células =)

# Linha de chegada

Parabéns! Você concluiu o Laboratório 1.