# <center>VAI Academy</center>
# <center> Introdução ao NumPy e Pandas</center>
___
Todo o conteúdo que você terá acesso ao longo desse período é confidencial, não sendo possível compartilhar ou comercializar os links ou os materiais recebidos que sejam de propriedade da VAI Academy. 

Dessa forma, ao participar do curso você está aceitando os termos de confidencialidade e não-comercialização dos conteúdos que serão recebidos.
___

# <center> Objetivos de aprendizado </center>
- Familiarizar-se com as funcionalidades básicas do NumPy e Pandas
- Ser capaz de carregar dados em um DataFrame
- Ser capaz de realizar manipulações básicas de dados
___

## Conteúdo
1. [Introdução](#intro)
2. [NumPy](#numpy)
3. [Pandas](#pandas)<br>

<a id="intro"></a>
## 1. Introdução

Agora que você já teve uma pequena introdução ao mundo do Python, vamos te introduzir a dois dos pacotes básicos mais importantes em análise de dados em Python: o **NumPy** e o **Pandas**.

Boa aula!

<a name="numpy"></a>
## 2. NumPy



### 2.1. O que é o NumPy?

**NumPy** é a abreviação de *Numerical Python* ou *Numeric Python*. Ela é uma biblioteca *open-source* (ou seja, é um software cujo código original é disponibilizado livremente e pode ser distribuído e modificado) que oferece suporte a arrays e matrizes multidimensionais, provendo diversas funções matemáticas úteis em computação científica.

Mas por que você deveria utilizar o NumPy? É simples! As listas do Python funcionam como as arrays, no entanto, são lentas para utilização com grandes volumes de dados. No ramo de Ciência de Dados, velocidade e recursos durante o processamento são bem importantes! Dessa forma, o NumPy nos possibilita utilizar os objetos arrays, que são bem mais rápidos que as listas tradicionais do Python.

O **ndarray** é o objeto fundamental do NumPy. Este objeto é uma matriz N-dimensional, vamos entender melhor como este objeto funciona nas células abaixo.

#### 2.1.1. Importando o NumPy

Na aula anterior você já aprendeu a importar o NumPy, vamos importá-lo com o alias ```np```.

In [3]:
import numpy as np

Vamos agora observar o porquê o NumPy é tão poderoso e preferível às listas do Python.

Imagine que você tenha duas listas de dados de indivíduos, com alturas e pesos, e queira calcular o IMC [(Índice de Massa Corporal)](https://pt.wikipedia.org/wiki/Índice_de_massa_corporal) de cada um deles, como mostrado abaixo:

In [8]:
altura = [1.81, 1.77, 1.69, 1.91]
peso = [89.0, 77.3, 55.9, 99.4]

# Calculando o IMC
imc = peso / altura ** 2

TypeError: ignored

Observe que o Python nos retornou um erro porque não é possivel realizar cálculos com listas, para isso vamos utilizar os arrays do NumPy!

In [9]:
# Criando os arrays com o NumPy

np_altura = np.array(altura)
np_peso = np.array(peso)

# Calculando o IMC
imc = np_peso / np_altura ** 2
imc

array([27.16644791, 24.67362508, 19.57214383, 27.24706011])

O Numpy consegue realizar perfeitamente as operações elemento a elemento!

Mas fique atento! O NumPy só consegue fazer isto pois ele assume que cada array possui elementos de um único tipo de dado. Se você tentar criar um array com tipos de dados diferentes, o NumPy irá converter todos os elementos para um único tipo. Observe abaixo:


In [10]:
np.array([1.0, 4, True, "NumPy"])

array(['1.0', '4', 'True', 'NumPy'], dtype='<U32')


Além disso, algumas operações podem funcionar de forma diferente do que você imagina. Veja o exemplo abaixo:

In [11]:
# Lista do Python
altura * 2

[1.81, 1.77, 1.69, 1.91, 1.81, 1.77, 1.69, 1.91]

In [12]:
# NumPy array
np_altura * 2

array([3.62, 3.54, 3.38, 3.82])

#### 2.1.2. Selecionando subconjuntos de NumPy Arrays
A seleção de subconjuntos de NumPy arrays funciona de forma similar à listas de Python.

In [13]:
# retornando o terceiro elemento da array
imc[2]

19.572143832498863

Você também pode selecionar subconjuntos baseados em condições, de forma que apenas os valores que satisfazem as condições serão retornados.

In [14]:
imc[imc > 25]

array([27.16644791, 27.24706011])

Podemos combinar a seleção de um subconjunto com a utilização de uma função, observe:

In [15]:
# soma do IMC do primeiro e segundo elementos
sum(imc[0:2])

51.840072986433796

Agora vamos fazer um exercício para fixação.

#### Exercício 2.1

In [None]:
#Exercício 2.1.1
# lista de pesos de castanhas
c_peso = [0.946, 0.918, 0.906, 0.904, 0.858, 0.774, 0.652, 0.516, 0.478, 0.404, 0.396, 0.364, 0.342, 0.304, 
            0.262, 0.208, 0.134, 0.974, 0.792, 0.792, 0.628, 0.552, 0.506, 0.478, 0.462, 0.436, 0.408, 0.378, 
            0.3, 0.298, 0.268, 0.252, 0.16, 0.114, 0.092, 0.936, 0.894, 0.744, 0.706, 0.694, 0.69, 0.652, 0.518, 
            0.508, 0.502, 0.5, 0.47, 0.44, 0.39, 0.384]

# Importe o numpy como np


# Crie um numpy array (np_c_peso) a partir de c_peso
np_c_peso =

# Printe o tipo de np_c_peso


In [None]:
#Exercício 2.1.2
c_kg_preco = 45.00

# Crie um numpy array (np_c_despesa) a partir de np_c_peso com a quantia gasta em cada compra
np_c_despesa = 

In [None]:
#Exercício 2.1.3
# Crie a variável compras_acima_30 que corresponde ao valor total gasto nas compras que custaram mais de R$ 30. Printe o resultado
compras_acima_30 = 

In [None]:
# Exercício 2.1.4
# Printe o peso no indíce 20 (vigésima primeira compra)


#### 2.1.3.  Array N-dimensional
Vamos verificar o tipo dos arrays criados acima!

In [None]:
print(type(np_c_peso))

**ndarrays** significam arrays N-dimensionais, vamos criar um NumPy array multi-dimensional a partir de listas tradicionais do Python.

In [None]:
np_2d = np.array([[1.81, 1.77, 1.69, 1.91],
                  [89.0, 77.3, 55.9, 99.4]])
np_2d

Cada sublista da lista corresponde à uma linha da array bi-dimensional criada.
Nós podemos verificar o tamanho do array usando o atributo ```shape```.

In [None]:
np_2d.shape

Podemos ver que o np_2d tem 2 linhas e 4 colunas.

#### 2.1.4. Selecionando subconjuntos de array bidimensional

Assim como o array unidimensional, também podemos selecionar um subconjunto de um array bidimensional, usando o índice da linha e coluna como exemplifica a imagem abaixo.
![Subsetting](https://imgur.com/08EIOjy.png)
Veja alguns exemplos de como isso é feito.

In [None]:
# Selecionando a primeira linha
np_2d[0]

In [None]:
# Selecionando a altura (primeira linha) do terceiro elemento
np_2d[0][2]

Basicamente nós selecionamos a linha, e a partir daquela linha fazemos outra seleção.

Também é possível selecionar utilizando vírgulas dentro de colchetes: ```array[linha, coluna]```

In [None]:
# Primeira linha e terceira colna
np_2d[0, 2]

In [None]:
# Todas as linhas e segunda e terceira coluna
np_2d[:, 1:3] 

#### Exercício 2.2

Abaixo temos uma lista de listas contendo informações de vendas de castanhas de uma loja. Cada lista representa uma venda que foi realizada. O primeiro elemento de cada lista é o dia que  venda foi feita, o segundo elemento representa o peso das castanhas compradas. Por fim, o terceiro elemento é a quantia paga pelas castanhas.

Com isso em mente, faça os seguintes exercícios:

In [None]:
# Exercício 2.2.1
castanha = [[2, 0.946, 66.1], 
          [2, 0.918, 32.96], 
          [2, 0.906, 58.76],
          [2, 0.904, 29.14], 
          [2, 0.858, 59.96],
          [2, 0.774, 27.77],
          [2, 0.652, 42.3],
          [2, 0.516, 18.51], 
          [2, 0.478, 17.15],
          [2, 0.404, 28.22], 
          [2, 0.396, 7.88], 
          [2, 0.364, 7.24],
          [2, 0.342, 22.18], 
          [2, 0.304, 10.91], 
          [2, 0.262, 9.41], 
          [2, 0.208, 4.13],
          [2, 0.134, 9.36],
          [4, 0.974, 34.95],
          [4, 0.792, 51.38],
          [4, 0.792, 51.38], 
          [4, 0.628, 12.48], 
          [4, 0.552, 19.81], 
          [4, 0.506, 25], 
          [4, 0.478, 31], 
          [4, 0.462, 32.24],
          [4, 0.436, 28.28],
          [4, 0.408, 14.64],
          [4, 0.378, 13.56],
          [4, 0.3, 19.46],
          [4, 0.298, 10.69],
          [4, 0.268, 9.62],
          [4, 0.252, 16.34],
          [4, 0.16, 3.18],
          [4, 0.114, 4.09],
          [4, 0.092, 5.97],
          [5, 0.936, 65.33],
          [5, 0.894, 32.07],
          [5, 0.744, 48.28], 
          [5, 0.706, 25.34],
          [5, 0.694, 24.91], 
          [5, 0.69, 13.72], 
          [5, 0.652, 42.32], 
          [5, 0.518, 33.6], 
          [5, 0.508, 18.23],
          [5, 0.502, 35.09],
          [5, 0.5, 27.45], 
          [5, 0.47, 9.35], 
          [5, 0.44, 28.54],
          [5, 0.39, 7.76], 
          [5, 0.384, 21.08]]

# Crie um numpy array 2d (np_castanha) a partir de castanha
np_castanha =

# Printe o tipo de np_castanha


# Printe as dimensões (número de linhas e colunas)


In [None]:
# Exercício 2.2.2
# Crie um numpy array (np_peso) que corresponde à toda segunda coluna de np_castanha
np_peso =

In [None]:
# Exercício 2.2.3
# Printe o preço da 14ª (décima quarta) venda


# Printe todas as vendas feitas após o dia 2


#### 2.1.5. Estatística básica com NumPy
Costumeiramente o primeiro passo para analisar nossos dados é conhecê-los através de estatística descritiva. O NumPy pode ser usado para obter essa visão inicial dos dados mesmo com grande quantidade de observações. Nos próximos módulos teremos uma aula dedicada à estatística básica, então não se preocupe se você não entender algum dos conceitos utilizados abaixo.

Vamos então usar alguns atributos do NumPy para começar a analisar nossos dados.

In [None]:
np_a_p = np.array([[1.81, 89.0],
                  [1.77, 77.3],
                  [1.69, 55.9],
                  [1.91, 99.4]])

# Calculando a média dos pesos
np.mean(np_a_p[:, 1])

In [None]:
# calculando a mediana dos pesos
np.median(np_a_p[:, 1])

In [None]:
# calculando os coeficientes de correlação entre pesos e alturas
np.corrcoef(np_a_p[:, 0], np_a_p[:, 1])

In [None]:
# calculando o desvio padrão dos pesos
np.std(np_a_p[:, 1])

In [None]:
# calculando a soma dos pesos
np.sum(np_a_p[:, 1])

Alguns desses atributos já estão disponíveis no Python, no entanto, a principal diferença entre eles é a performance. Os atributos do NumPy são mais rápidos na execução do que os básicos do Python.

Lembrando que sempre que tiver dificuldade para entender algum atributo, você pode consultar a documentação do [NumPy](https://numpy.org/doc/).

Agora que aprendemos como o NumPy funciona, vamos aprender sobre uma das bibliotecas mais utilizadas para manipulação de dados em Python, o **Pandas**!

<a name="pandas"></a>
## 3. Pandas

### 3.1. O que é o Pandas?

Pandas é uma biblioteca *open source*, que proporciona estruturas de dados e ferramentas de análise de dados de alta performance e fáceis de usar para Python. Vamos entender melhor o que alguns termos significam:
 - *open source*: assim como o NumPy, seu código original é disponibilizado livremente e pode ser distribuido e modificado. Isso significa que qualquer um pode contribuir para a evolução do Pandas!
 - alta performance: Pandas é escrito em Python, Cython e C. Isso permite que os cientistas de dados consigam utilizá-lo para lidar com conjuntos de dados muito grandes (daqueles que o Excel não conseguiria nem abrir) e fazer operações sobre esses dados com facilidade. Dessa forma, Pandas torna nosso trabalho melhor e mais fácil provendo ótima performânce.
 - estruturas de dados e análises de dados: o motivo pelo qual Pandas existe. Muitas vezes precisamos obter insights de dados crus como documentos de textos, tabelas e etc. Pandas é capaz de lidar com esses tipos de dados para que possamos analisá-los.

Em resumo, **Pandas fornece estrutura de dados especializadas e ferramentas para manipulação de dados**. Sua ótima performance, facilidade de uso e comunidade dedicada são as principais razões de sua vasta adoção entre cientistas de dados. 

Agora vamos começar a utilizá-lo! Se você está utilizando o Anaconda ou o Google Colab, já deve ter ele instalado. Senão, é possível achar os passos de instalação [neste link](https://pandas.pydata.org/). <br>

### 3.2. Básico de Pandas

Vamos relembrar as etapas da construção de um modelo de dados para entender a importância do Pandas:

1. Entendimento do problema / Definição do escopo
2. Definição do objetivo e métricas de avaliação
3. Determinação dos dados necessários
4. Aquisição dos dados
5. Tratamento e manipulação dos dados
6. Análise Exploratória dos Dados (E.D.A.)
7. Engenharia de Variáveis
8. Construção e avaliação do modelo
9. Interpretação dos resultados e apresentação dos dados
10. Deploy
11. Monitoramento e manutenção

Então, mas em quais etapas o Pandas é mais utilizado? Nas etapas 4 a 7 e 9! Ou seja, das 11 etapas, o Pandas pode nos ajudar em 5 delas! Isso mostra o quão poderosa essa biblioteca é, e porque utilizamos ela diariamente.

#### 3.2.1. Como importá-lo?

O Pandas é geralmente importado sempre da mesma forma, como mostramos abaixo. Aproveitamos também para importar o NumPy, biblioteca que já apresentamos anteriormente.

In [None]:
import pandas as pd
import numpy as np

#### 3.2.2. Objetos do Pandas

Existem 2 principais tipos de objetos no Pandas: as [*Series*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series) e os *DataFrames*. As *Series* são sequências de uma dimensão  de elementos (para ser mais específico *ndarray*), todos do mesmo tipo de dados, com rótulos/índices (*labels*). São o objeto primário do Pandas, tudo vai funcionar baseado nelas. Pra criar um objeto do tipo *Series*, podemos fazer o seguinte:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

Podemos ver acima que cada elemento da *Series* tem um rótulo relacionado. Esses rótulos podem ser tanto numéricos quanto de texto! Ao final do objeto temos a informação sobre o tipo de dados da *Series*: nesse caso, números *float64*. <br>
O outro objeto principal do Pandas é o [*DataFrame*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame), que é basicamente uma coleção de *Series* com rótulos em comum. O *DataFrame* é bem parecido com uma tabela de Excel, com seus índices e colunas. Tanto suas linhas quanto suas colunas tem rótulos, nos permitindo acessar qualquer célula pela sua coordenada. Há diversas formas de criar um *DataFrame*, vamos começar com o mais simples:

In [None]:
dates = pd.date_range('20210101', periods=6) #estamos criando uma lista de datas entre 01/01/2021 e 06/01/2021. Note que estamos usando uma função do Pandas
df = pd.DataFrame(
    np.random.randn(6, 4), #apenas números aleatórios nas células
    index=dates,  #especificando quais são os índices. Eles aceitam até datas como índice! Isso é muito bom para lidar com dados de séries temporais
    columns=list('ABCD')) #especificando como quero que sejam os nomes das colunas, passando uma lista de letras
df

Isso é um *DataFrame*! Uma coisa boa do Pandas com o Jupyter Notebook é que eles mostram o *DataFrame* de uma forma bastante amigável. Agora que sabemos sobre as duas principais estruturas de dados do Pandas, podemos aprender sobre os principais métodos e funcionalidades dessa biblioteca, e para isso vamos utilizar dados reais sobre uma das marcas mais conhecidas dos desenhos e videogames, a franquia Pokémon :)

Observação: um *DataFrame* pode ser visto como um dicionário de listas.

#### 3.2.3. Carregando o conjunto de dados

Um dos tipos de dados mais comuns para se guardar arquivos são os CSVs (comma-separated values, em português, valores separados por vírgulas). O Pandas tem diversas funções para transformar os mais variados tipos de arquivos em *DataFrames*, como csv, Excel, json e etc. Nesse exemplo, vamos usar o [leitor de csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). Execute a célula abaixo para carregar os dados dos Pokémons.

Caso você não conheça, [Pokémon](https://www.pokemon.com/us/) é uma franquia japonesa composta por jogos de videogame, desenhos, cartas colecionáveis, entre outros produtos. Nos jogos, principal produto da franquia, os humanos (conhecidos como treinadores Pokémon) capturam e treinam os monstrinhos (Pokémons) para realizar diversas aventuras e batalhas. Cada Pokémon pode ser de diferentes tipos (fogo, água, elétrico, pedra, etc) e apresentam diferentes níveis de habilidades (ataque, defesa, velocidade, etc). Além disso, alguns Pokémons são mais raros que outros (conhecidos como lendários).

Caso você esteja utilizando o Google Colab, não se esqueça de conectar no seu Drive e alterar o caminho para a pasta que contém seus arquivos de dados.

In [None]:
pkmn = pd.read_csv(
    'pokemon_data.csv', #o caminho para o arquivo que se quer ler
    sep=',') #o caracter utilizado para separar os valores

#### 3.2.4. Visualizações iniciais
Ótimo! Acabamos de criar um *DataFrame* a partir de um arquivo csv. Mas como gostamos de verificar as coisas, seria interessante saber algumas informações como: o que os dados contêm, como são as colunas, se tem valores nulos e etc. O Pandas tem 4 métodos principais para isso:

In [None]:
pkmn.info()

A primeira coisa que é interessante de se fazer após ler um conjunto de dados em um *DataFrame* é utilizar o método *info()*. Ele mostra informações como:
 - a classe do objeto criado
 - o intervalo do índice e quantas linhas de dados se tem
 - as colunas, seus nomes e tipos de dados
 - quais os tipos de dados presentes no *DataFrame* e quantas colunas de cada
 - a quantidade de memória utilizada pelo computador para guardar esses dados

Podemos ver que temos uma base sobre Pokémon, com 800 linhas com índices númericos de 0 a 799, 13 colunas de três tipos de dados diferentes, usando cerca de ~76kB de memória RAM. As informações presentes sobre os Pokémons são o número, o nome, o tipo (alguns tem subtipo, mas não todos, por isso os dados faltantes na coluna *Type 2*), estatísticas de ataque, defesa e velocidade, a geração (novos Pokémons são apresentados a cada alguns anos, e cada grupo é conhecido por uma geração) e a indicação se ele é lendário (como uma espécie mística). <br> Todas essas informações a gente conseguiu descobrir com apenas uma linha de código! Vamos então ver como o *DataFrame* realmente é. Temos dois métodos para isso:

In [None]:
pkmn.head()

In [None]:
pkmn.tail()

Os métodos *.head()* e *.tail()* mostram, respectivamente, as primeiras e últimas *n* linhas do *DataFrame* (por padrão, *n*=5, mas você pode passar qualquer número como parâmetro) mostrando os índices e os nomes das colunas como numa tabela.

In [None]:
pkmn.describe()

Por fim, o método *.describe()* na sua forma padrão mostra um resumo estatístico de todas as colunas numéricas. É um método bom para ter uma ideia inicial sobre o que ocorre nas colunas de uma perspectiva estatística.

#### Exercício 3.1
Use o arquivo de jogadores do FIFA Ultimate Team para os exercícios de Pandas. Caso você não conheça, o Ultimate Team (FUT) é um modo de jogo do FIFA (um jogo de simulador de futebol) onde você monta seu próprio time comprando jogadores do jogo. Cada jogador pode apresentar diferentes níveis de habilidade em algumas características, como "drible", "chute", "passe", entre outras.  <br>
Substitua os \____ abaixo para ler o arquivo e siga as instruções para ter as visualizações iniciais.

In [None]:
# Exercício 3.1.1
# leia o arquivo (tente abrir num editor de texto antes para verificar o separador)
fut_players = ____

# mostre as primeiras 10 linhas de dados
fut_players.____

In [None]:
# Exercício 3.1.2
# mostre as últimas 10 linhas de dados
fut_players.____

In [None]:
# Exercício 3.1.3
# use o método .info() no DataFrame
fut_players.____

In [None]:
# Exercício 3.1.4
# mostre o resumo estatístico das colunas numéricas
fut_players.____

### 3.3. Filtrando (*Filtering*) e fatiando (*slicing*) os dados

*Filtering* e *slicing* são técnicas utilizadas para isolar partes específicas do *DataFrame*, sejam linhas, colunas ou células. Isso é muito útil pois diversas vezes queremos analisar alguns dados ao invés da base inteira. O Pandas tem ferramentas próprias para isso. <br>

#### 3.3.1. *Slicing*

No Pandas existem duas principais formas de fatiar os dados, isto é, selecionar apenas uma parte de acordo com as linhas e colunas do *DataFrame*: utilizando o nome das partes ou com os métodos *.loc()* e *.iloc()*. Vamos começar pelo primeiro. Para fazer isso, imagine que queremos apenas os nomes e o poder de ataque dos Pokémons e veja o exemplo:

In [None]:
pkmn[['Name','Attack']].head(7)

Duas coisas importantes aqui:
 - Juntamos o *slicing* com o método *.head()* na mesma linha, para que fosse possível ver o resultado do fatiamento. Ao usar o Pandas é possível e comum fazer esse tipo de agrupamento de operações.
 - Foram utilizadas chaves duplas ```[[]]``` no fatiamento. Ao fazer isso, estou explicitando que quero um objeto do tipo *DataFrame*. Se eu quisesse objetos do tipo *Series* usaria chaves simples. Podemos ver um exemplo disso abaixo:

In [None]:
type(pkmn[['Name']])

In [None]:
type(pkmn['Name'])

Outra forma de se obter um objeto do tipo *Series* é passando a coluna como se fosse um atributo do *DataFrame*:

In [None]:
pkmn.Name

O único problema desse formato é que colunas cujo nome contém espaços não funcionarão, como é o caso das colunas *Type 1*, *Type 2*, *Sp. Atk* e *Sp. Def*. Para resolver isso, vamos renomeá-las com o método *.rename()*.

In [None]:
pkmn.rename(
    columns={'Type 1':'Type_1', 'Type 2':'Type_2', 'Sp. Atk':'Sp_Atk','Sp. Def':'Sp_Def'}, #passando o nome antigo e novo como um dicionário
    inplace = True #algumas operações com Pandas criam uma cópia do DataFrame e não alteram o objeto em si, alteramos isso mudando o parâmetro inplace para verdadeiro
)

In [None]:
pkmn.info()

Agora que os nomes foram trocados, podemos obter um objeto *Series* do tipo do Pokémon como a seguir:

In [None]:
pkmn.Type_1

Outra forma de selecionar partes dos dados é usando os métodos *.loc()* e *.iloc()*.<br>
Para usar a localização númerica utilizamos o *iloc*. Como você pode imaginar, a linhas e colunas são ordenadas por números inteiros sequenciais, começando do 0, como nas listas. Dessa forma, se você sabe o número da linha e da coluna, você pode usar o *iloc*. Por exemplo, se quisermos a coluna HP, que é a 6ª, poderíamos fazer o seguinte:

In [None]:
pkmn.iloc[:,5].head()

A sintaxe do *iloc* é como [x,y], que significa que queremos a (x+1)ª linha e (y+1)ª coluna. Se utilizarmos ```:``` no lugar de x ou y significa que queremos a coluna ou linha completa, respectivamente. Vamos pegar o HP do Bulbasaur, o primeiro Pokémon do nosso *DataFrame*:

In [None]:
print("O HP do Bulbasaur é "+str(pkmn.iloc[0,5]))

O método *.loc()* usa o rótulo para acessar os valores. Dessa forma, ao invés de passarmos as coordenadas numéricas, passamos o nome da linha e da coluna, como a seguir:

In [None]:
pkmn.loc[0, :]

No caso, os rótulos das linhas são iguais às suas coordenadas, por isso ficou parecido com o *iloc*. Vamos fazer o teste com as colunas também para ver a diferença. Abaixo pegaremos novamente o HP do Bulbasaur:

In [None]:
print("O HP do Bulbasaur é "+str(pkmn.loc[0,'HP']))

#### 3.3.2. Filtros (*Filtering*)

Uma vez sabendo isolar partes do *DataFrame* de acordo com a localização dos dados, podemos partir para isolar de acordo com condições, ou seja, filtrar os dados.
Para conseguir fazer isso no Pandas, fazemos o seguinte: passamos uma expressão condicional e o Pandas retorna apenas as partes que teriam a condição como verdade. Para testar isso, vamos ver a defesa média de todos os Pokémons e depois ver se os tipos 'Rock' e 'Steel' têm defesas maiores:

In [None]:
pkmn.Defense.mean() #note que operações comuns como média (mean), mediana (median) e soma (sum) são métodos do Pandas

In [None]:
pkmn.loc[pkmn.Type_1=='Rock'].Defense.mean()

In [None]:
pkmn[pkmn.Type_1=='Steel'].Defense.mean()

De fato, parece que os tipos selecionados tem média acima dos demais Pokémons. Para verificar isso, passamos a condição pkmn.Type_1=='Steel' entre chaves, o que retorna apenas as linhas de tal tipo. Com isso, selecionamos apenas a coluna de defesa e calculamos a média. <br>
Vamos ver agora os Pokémons com defesa maior que 150, cujo tipo principal não é 'Rock' nem 'Steel':

In [None]:
pkmn[(pkmn.Defense > 150)&(pkmn.Type_1!='Rock')&(pkmn.Type_1!='Steel')]

Podemos ver acima que é possível juntar condições com os operadores E (&) e OU (|).<br>
Vamos dizer agora que você quer apenas alguns Pokémons em específico, por exemplo Venusaur, Charizard e Blastoise. Criar uma condição para cada e uní-las com o operador & pode ser difícil, ainda mais se for uma quantidade grande de opções. Podemos facilitar isso passando uma tupla ao método *.isin()*, como abaixo:

In [None]:
aux = ('Venusaur', 'Charizard', 'Blastoise')
pkmn[pkmn.Name.isin(aux)]

Finalmente, podemos criar novos *DataFrames* a partir de um já existente selecionando apenas algumas linhas ou colunas dele:

In [None]:
offensive_stats = pkmn[['#','Name','Attack','Sp_Atk','Speed']] #selecionando apenas estatísticas ofensivas
defensive_stats = pkmn[['#','Name', 'HP','Defense','Sp_Def']] #selecionando apenas estatísticas defensivas

In [None]:
offensive_stats.head()

In [None]:
defensive_stats.head()

In [None]:
fire_pkmn = pkmn[(pkmn.Type_1=='Fire')|(pkmn.Type_2=='Fire')] #filtrando apenas linhas com algumas condições
fire_pkmn.head()

In [None]:
water_pkmn = pkmn[(pkmn.Type_1=='Water')|(pkmn.Type_2=='Water')] #filtrando apenas linhas com algumas condições
water_pkmn.head()

#### Exercício 3.2
Siga as instruções e substitua os \____ para exercitar o que aprendemos.

In [None]:
# Exercício 3.2.1
# mostre as 5 primeiras linhas das colunas player_name, position e nationality
fut_players[[____]].____

In [None]:
# Exercício 3.2.2
#renomeie as colunas player_id, player_name e player_extended_name para id, name e extended_name, respectivamente
fut_players.rename(
    columns={____, ____, ____},
    inplace = True
)

fut_players.info()

In [None]:
# Exercício 3.2.3
#imprima a coluna extended_name do 4534º jogador (atenção: não queremos o jogador de id = 4534) usando loc e iloc
print(fut_players.iloc____)
print(fut_players.loc____)

In [None]:
# Exercício 3.2.4
#nosso DataFrame tem muitas colunas
#crie outro DataFrame (fut_players_2) apenas com as colunas na lista abaixo
selected_columns = ['id', 'name', 'overall', 'nationality', 'position', 'pref_foot', 'base_id']

fut_players_2 = ____

fut_players_2.info()

In [None]:
# Exercício 3.2.5
#queremos ver os melhores jogadores nascidos no Brasil (Brazil), isto é, aqueles com médio (overall) acima de 90
#mostre os 15 primeiros
aux_1 = fut_players_2[____]
aux_1.head(15)

In [None]:
# Exercício 3.2.6
#vários jogadores bons!
#agora mostre os jogadores brasileiros que sejam canhotos (pref_foot é Left) ou brasileiros que sejam goleiros (position é GK)
aux_2 = fut_players_2[____]
aux_2.head(20)

### 3.4. Juntando DataFrames

É muito comum ter a necessidade de juntar *DataFrames* diferentes. Se você já utilizou SQL ou qualquer outro banco de dados relacional, deve conhecer isso como *join*. O Pandas também tem a mesma função utilizando o método *.merge()*. Antes do exemplo, vamos aprender/relembrar os tipos de *joins* mais comuns:<br>
![Joining Methods](https://i.imgur.com/HaSBT91.jpg) <br>
Agora, vamos carregar um DataFrame mais simples para testar os tipos de *merge*.

In [None]:
#Execute esta célula para carregar o dataframe metal_bands com dados de bandas de metal
metal_bands = pd.read_csv('metal_bands.csv', encoding='latin')
metal_bands.info()
metal_bands.head()

Assim como criamos os dataframes *offensive_stats*, *defensive_stats*, *fire_pkmn* e *water_pkmn*, vamos separar alguns dataframes a partir de *metal_bands* para testar os merges. Observe a célula abaixo.

In [None]:
bands_origin = metal_bands[['id','band_name','formed','origin']] #ano de formação e país das bandas
bands_style = metal_bands[['id','band_name','style']] #estilo das bandas

bands_split = metal_bands[metal_bands['split']!='-'][['id','band_name','split']] #bandas que se separaram
bands_4000_fans = metal_bands[metal_bands['fans']>4000][['id','band_name','fans']] #bandas com mais de 4000 fans
bands_USA = metal_bands[metal_bands['origin']=='USA'][['id','band_name','formed','origin']] #bandas formadas nos EUA
bands_Sweden = metal_bands[metal_bands['origin']=='Sweden'][['id','band_name','formed','origin']] #bandas formadas na Suécia

Vamos criar um DataFrame a partir de ```bands_origin``` e ```bands_split```, utilizando *merge*.

In [None]:
origin_split = pd.merge(
    bands_origin, #o DataFrame da esquerda
    bands_split, #o DataFrame da direita
    how='inner', #o tipo de join que queremos fazer
    on='id') #baseado em quais valores em comum (chave)
origin_split.info()
origin_split.head()

Ótimo! Conseguimos fazer o *merge* (termo mais utilizado no Pandas) de dois *DataFrames*. Observe que utilizamos o argumento ```how='inner'```. Lembre-se que *inner*, *left*, *right* e *outer* terão resultados diferentes, observe os merges abaixo e a explicação ao final.

In [None]:
left_origin_split = pd.merge(bands_origin, bands_split, how='left', on='id')
left_origin_split.info()

In [None]:
right_origin_split = pd.merge(bands_origin, bands_split, how='right', on='id')
right_origin_split.info()

In [None]:
print('Numero de linhas do DataFrame bands_4000_fans:', bands_4000_fans.shape[0])
print('Numero de linhas do DataFrame bands_USA:', bands_USA.shape[0])
print('----------------------------------------------')
outer_origin_split = pd.merge(bands_4000_fans, bands_USA, how='outer', on='id')
outer_origin_split.info()

Como podemos ver com o resultado do método *.info()*, os resultados são de fato bem diferentes.

O *inner* mantém apenas os dados das bandas encontradas nos dois dataframes (onde há correspondência de *id*), dessa forma, a posição do dataframe não faz diferença.

No *left*, mantemos os dados do dataframe à esquerda, e trazemos os dados do dataframe à direita no qual encontrou-se a chave (neste exemplo, o *id* da banda).

Por outro lado, no *right* ocorre o contrário, mantemos os dados do dataframe à direita e, quando há correspondência da chave, trazemos os dados do dataframe à esquerda. Note que o número de entradas (*entries*) é diferente do caso com o *left*. Isso ocorre porque no *left* mantemos os dados de formação das bandas (ou seja, o dataframe contém todas as bandas do .csv), enquanto no *right*, mantemos apenas os dados de bandas que se separaram (e existem muitas bandas que ainda continuam juntas).

Por fim, no *outer* utilizamos dois dataframes diferentes dos anteriores para facilitar o entendimento. Observe pelos prints que existem apenas 4 bandas com mais de 4000 fans e 1139 bandas formadas nos EUA. Quando fazemos o *merge* com *outer*, observe que o total de linhas passa a ser 1143. O que acontece é que esse tipo de join mantém os dados de ambos os dataframes, independente se houve correspondência de chave ou não.

Podemos também querer apenas concatenar dois *DataDrames*, isto é, juntá-los colocando um abaixo ou ao lado do outro. Para isso, utilizamos o método *.concat()*:

In [None]:
USA_Sweden = pd.concat([bands_USA, bands_Sweden], ignore_index=True) #concatenando bandas formadas nos EUA e bandas formadas na Suécia
USA_Sweden.info()

Acima fizemos a concatenação vertical. Vamos fazer a horizontal abaixo:

In [None]:
bands_origin_style = pd.concat([bands_origin, bands_style], axis=1)
bands_origin_style.info()

Você deve estar se perguntando: mas então qual a diferença entre utilizar o *merge* e o *concat* com axis=1 (concatenação horizontal)? Observe a imagem abaixo.
![concat](https://i.imgur.com/YlmiwsR.png) <br>

Note que o *concat* recebe os dataframes e apenas os empilha (verticalmente ou horizontalmente). Observe agora o funcionamento do *merge* na imagem abaixo.
![merge](https://i.imgur.com/yGum2id.png) <br>

Com o *merge*, podemos combinar os dataframes de acordo com os valores de suas colunas. Passamos a coluna a ser utilizada como chave, e os valores serão apenas combinados caso haja correspondência nos dois dataframes.

#### Exercício 3.3
Mais uma vez, substitua os \____ de acordo com as instruções

In [None]:
#the_best é um DataDrame dos melhores jogadores em drible (dribbling) e chute (shooting)
the_best = fut_players[(fut_players.dribbling > 90) & (fut_players.shooting > 90)][['id', 'name', 'position', 'dribbling', 'shooting', 'overall']]

#nationalities é um DataDrame da nacionalidade dos jogadores
nationalities = fut_players[['id', 'name', 'nationality']]

#faça um merge dos dois DataDrames, mantendo todos os jogadores de the_best e obtendo suas nacionalidades (dica: a chave é o id)
the_best_nationality = ____
the_best_nationality.head()

### 3.5. Alterando o dataframe

Até o momento apenas utilizamos os dados da forma que nos foram fornecidos, mas e se precisássemos criar alguma coluna que fosse a combinação das demais? Por exemplo, caso eu deseje criar uma coluna que corresponde à soma do ataque e velocidade dos Pokémons? Observe abaixo:

In [None]:
#Criando a coluna desejada
pkmn['Sum_Attack_Speed'] = pkmn['Attack'] + pkmn['Speed']
pkmn.head()

Observe como foi fácil! Apenas utilizamos o operador de soma com as duas colunas necessárias. Você pode fazer isso com outras operações também, basta utilizar ```-```, ```/``` ou ```*```. Além disso, você pode combinar quantas colunas quiser!

Mas e se precisarmos alterar apenas algumas linhas do nosso DataFrame?

Por exemplo, suponha que você percebeu que seus dados estão errados, e todos os Pokémons com velocidade acima de 100 deveriam estar marcados como Type_1 = 'Fire', podemos seguir o procedimento abaixo:

In [None]:
#Observe os valores unicos da coluna Type_1 para os Pokémons com mais de 100 de velocidade
pkmn.loc[pkmn['Speed']>100, 'Type_1'].unique()

In [None]:
#Vamos alterar tudo para Fire
pkmn.loc[pkmn['Speed']>100, 'Type_1'] = 'Fire'

In [None]:
#Observe como os valores mudaram
pkmn.loc[pkmn['Speed']>100, 'Type_1'].unique()

Antes de continuar, vamos ler novamente os dados de Pokémon, sem essa última alteração. Execute a célula abaixo.

In [None]:
pkmn = pd.read_csv(
    'pokemon_data.csv', #o caminho para o arquivo que se quer ler
    sep=',') #o caracter utilizado para separar os valores

pkmn.rename(
    columns={'Type 1':'Type_1', 'Type 2':'Type_2', 'Sp. Atk':'Sp_Atk','Sp. Def':'Sp_Def'}, #passando o nome antigo e novo como um dicionário
    inplace = True #algumas operações com Pandas criam uma cópia do DataFrame e não alteram o objeto em si, alteramos isso mudando o parâmetro inplace para verdadeiro
)

### 3.6. Operações em grupo

Com Pandas nós podemos aplicar operações em grupos usando o método *.groupby()*. Ele é muito útil por ser uma forma bem simples de extrair informação de dados agregados. Para utilizá-lo, passamos as colunas nas quais queremos agrupar os dados e a operação que queremos fazer. Para exemplificar, vamos ver quantos Pokémons lendários cada geração tem:

In [None]:
pkmn.groupby('Generation').Legendary.sum() #fazendo uma soma pois a coluna Legendary é boolean

Podemos obter um relatório da média de diversas colunas para cada tipo de Pokémon:

In [None]:
pkmn.groupby('Type_1')[['HP','Attack','Defense','Sp_Atk','Sp_Def','Speed']].mean()

Isso é realmente muito importante e extremamente utilizado com pandas pois conseguimos fazer análises dos grupos com apenas uma linha de código. Podemos perceber, por exemplo, que Pokémons do tipo *Flying* são especialistas em velocidade enquanto *Dragon* e *Fighting* são especialistas em ataque.

#### Exercício 3.4
Use o método *.groupby()* para descobrir qual país tem o melhor *overall* médio.

In [None]:
#crie o DataFrame country_avg_overall, que tem o overall médio de cada país (nationality), usando groupby
country_avg_overall = ____

#usamos o método idxmax() para encontrar o maior overall médio
print("Melhor overall médio: \n", country_avg_overall.loc[country_avg_overall.idxmax()])
print("Overall médio do Brasil: ", country_avg_overall.loc["Brazil"])

### 3.7. Aplicando funções no Pandas

Com Pandas, nós temos um grande nível de controle de nossos dados, e somos capazes de transformá-los conforme precisarmos. Nós podemos, até mesmo, executar funções em DataFrames e manipulá-los como quisermos. Vamos revisitar o método head():

In [None]:
pkmn.head()

Existem algumas mega evoluções misturadas no dataset (apenas alguns Pokémons são capazes de evoluir temporariamente para sua forma Mega, uma forma mais poderosa). Não seria legal se nós tivéssemos alguma flag que nos diria se um pokémon é mega ou não? E, por um acaso, será que os pokémons mega são mais poderosos?

Você deve ter percebido que evoluções mega têm um padrão em nosso DataFrame, algo como 'PokemonMega Pokemon'. Se nós tivermos esse padrão, podemos construir uma função que retorna True se este padrão for detectado:

In [None]:
def is_it_mega(pokemon_name):
    """
    Recebe um nome de pokemon e diz se é uma mega evolução ou não
    I: string pokemon_name
    O: boolean para Mega evos
    """
    if 'Mega ' in pokemon_name: #é importante usar 'Mega ' e não 'mega', pois há um pokemon chamado Yanmega e outro chamado Meganium que não são uma mega evolução
        return True
    else:
        return False

Vamos ver se funciona:

In [None]:
is_it_mega('VenusaurMega Venusaur')

In [None]:
is_it_mega('Squirtle')

Excelente! Seria ótimo se conseguíssemos aplicar essa função em todo nosso DataFrame. Para fazer isso, usaremos o método .apply(). Também criaremos uma coluna que é uma flag se o pokémon é mega:

In [None]:
pkmn['Mega'] = pkmn.apply(
    lambda row: is_it_mega(row['Name']), #chamando uma função lambda que acabamos de construir
    axis=1 #qual direção queremos executar a função. 0 para horizontal, 1 para vertical
)

In [None]:
pkmn.head()

Observe como funcionou o apply com lambda. Utilizando o axis=1, a função ```is_it_mega``` é aplicada para cada linha do nosso DataFrame, recebendo como entrada o *Name* do pokémon daquela linha e retornando a flag de True/False na coluna *Mega*.

Agora, vamos verificar quão poderosos são os pokémons mega:

In [None]:
pkmn.groupby('Mega').Total.mean()

Uau! Eles têm quase 200 stat points a mais que pokémons normais! Evoluções mega são, sim, muito poderosos! Uma boa prática é sempre tentar manter nosso DataFrame organizado. A forma como os pokémons mega estão nomeados não é muito ótima, e nós já temos uma coluna com a flag para pokémons Mega, então, vamos atacar isso! A estrutura do nome de um pokémon mega é da seguinte forma: 'NomeMega Nome'. Portanto, se nós pegarmos o qeu vem após o caractere ' ', teremos o nome original do pokémon!

In [None]:
pkmn.Name.nunique() #conta elementos únicos de uma determinada coluna

In [None]:
def get_original_name(s):
    """
    Recebe um nome de pokemon e retorna seu nome original
    I: s string
    O: string
    """
    return s.split(' ')[-1]

pkmn['Name'] = pkmn.Name.apply(lambda s: get_original_name(s)) #sobreescrevendo a coluna Name
pkmn.Name.nunique()

In [None]:
pkmn.head()

Agora nós já cobrimos toda a parte básica de Pandas! Vamos praticar essa última parte!

#### Exercício 3.5
Crie uma função que retorna a classificação para o jogador de acordo com as instruções abaixo, então aplique isso para o dataframe fut_players.

In [None]:
def get_classification(overall):
    """
    Recebe um overall de algum jogador e retorna a classificação conforme a seguir:
    Overall -> classification
    -50     -> "Amador"
    51-60   -> "Ruim"
    61-70   -> "Ok"
    71-80   -> "Bom"
    81-90   -> "Ótimo"
    91+     -> "Lenda"
    
    I: int overall
    O: string
    """
    ____
    
fut_players["classification"] = ____
fut_players.groupby('classification')[['id']].count()

# Declaração de Inexistência de Plágio:

1. Eu sei que plágio é utilizar o trabalho de outra pessoa e apresentar como meu.
2. Eu sei que plágio é errado e declaro que este notebook foi feito por mim.
3. Tenho consciência de que a utilização do trabalho de terceiros é antiético e está sujeito à medidas administrativas.
4. Declaro também que não compartilhei e não compartilharei meu trabalho com o intuito de que seja copiado e submetido por outra pessoa.

In [None]:
# LEMBRE-SE DE SALVAR O NOTEBOOK ANTES DE EXECUTAR ESSA CELULA
token = '___' # seu token aqui

# Não altere o código abaixo
import requests as req
exec(req.get('https://api.vai.academy/submissioncode').text)

# Fim da aula!

Obrigado por participar do curso, você acaba de finalizar a aula de NumPy e Pandas. Neste momento você já deve ser capaz de manipular seus dados no Python, utilizando as bibliotecas que acabamos de aprender! 

Lembre-se que sempre que surgir alguma dúvida, você pode olhar a documentação do [NumPy](https://numpy.org/doc/) e do [Pandas](https://pandas.pydata.org/docs/).