# <center>VAI Academy</center>
# <center> Introdução à Python e Pandas - Parte 6</center>
___
Todo o conteúdo que você terá acesso ao longo desse período é confidencial, não sendo possível compartilhar ou comercializar os links ou os materiais recebidos que sejam de propriedade da VAI Academy. 

Dessa forma, ao participar do curso você está aceitando os termos de confidencialidade e não-comercialização dos conteúdos que serão recebidos.
___

# <center> Objetivos de aprendizado </center>
- Familiarizar-se com as funcionalidades básicas do Pandas
- Ser capaz de carregar dados em um DataFrame
- Ser capaz de realizar manipulações básicas de dados
___

## Conteúdo
1. Introdução (Parte 1)
2. Python/Jupyter Básico (Partes 1 e 2)
3. Python Datatypes (Parte 3)
4. Funções (Parte 4)
5. Numpy (Parte 5)
6. [Pandas (Partes 6 e 7)](#pandas)

<a name="pandas"></a>
## 6. Pandas

### 6.1. O que é o Pandas?

Pandas é uma biblioteca *open source*, que proporciona estruturas de dados e ferramentas de análise de dados de alta performance e fáceis de usar para Python. Vamos entender melhor o que alguns termos significam:
 - *open source*: assim como o NumPy, seu código original é disponibilizado livremente e pode ser distribuido e modificado. Isso significa que qualquer um pode contribuir para a evolução do Pandas!
 - alta performance: Pandas é escrito em Python, Cython e C. Isso permite que os cientistas de dados consigam utilizá-lo para lidar com conjuntos de dados muito grandes (daqueles que o Excel não conseguiria nem abrir) e fazer operações sobre esses dados com facilidade. Dessa forma, Pandas torna nosso trabalho melhor e mais fácil provendo ótima performânce.
 - estruturas de dados e análises de dados: o motivo pelo qual Pandas existe. Muitas vezes precisamos obter insights de dados crus como documentos de textos, tabelas e etc. Pandas é capaz de lidar com esses tipos de dados para que possamos analisá-los.

Em resumo, **Pandas fornece estrutura de dados especializadas e ferramentas para manipulação de dados**. Sua ótima performance, facilidade de uso e comunidade dedicada são as principais razões de sua vasta adoção entre cientistas de dados. 

Agora vamos começar a utilizá-lo! Se você está utilizando o Anaconda ou o Google Colab, já deve ter ele instalado. Senão, é possível achar os passos de instalação [neste link](https://pandas.pydata.org/). <br>

### 6.2. Básico de Pandas

Vamos relembrar as etapas da construção de um modelo de dados para entender a importância do Pandas:

1. Entendimento do problema / Definição do escopo
2. Definição do objetivo e métricas de avaliação
3. Determinação dos dados necessários
4. Aquisição dos dados
5. Tratamento e manipulação dos dados
6. Análise Exploratória dos Dados (E.D.A.)
7. Engenharia de Variáveis
8. Construção e avaliação do modelo
9. Interpretação dos resultados e apresentação dos dados
10. Deploy
11. Monitoramento e manutenção

Então, mas em quais etapas o Pandas é mais utilizado? Nas etapas 4 a 7 e 9! Ou seja, das 11 etapas, o Pandas pode nos ajudar em 5 delas! Isso mostra o quão poderosa essa biblioteca é, e porque utilizamos ela diariamente.

#### 6.2.1. Como importá-lo?

O Pandas é geralmente importado sempre da mesma forma, como mostramos abaixo. Aproveitamos também para importar o NumPy, biblioteca que já apresentamos anteriormente.

In [None]:
import pandas as pd
import numpy as np

#### 6.2.2. Objetos do Pandas

Existem 2 principais tipos de objetos no Pandas: as [*Series*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series) e os *DataFrames*. As *Series* são sequências de uma dimensão  de elementos (para ser mais específico *ndarray*), todos do mesmo tipo de dados, com rótulos/índices (*labels*). São o objeto primário do Pandas, tudo vai funcionar baseado nelas. Pra criar um objeto do tipo *Series*, podemos fazer o seguinte:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Podemos ver acima que cada elemento da *Series* tem um rótulo relacionado. Esses rótulos podem ser tanto numéricos quanto de texto! Ao final do objeto temos a informação sobre o tipo de dados da *Series*: nesse caso, números *float64*. <br>
O outro objeto principal do Pandas é o [*DataFrame*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame), que é basicamente uma coleção de *Series* com rótulos em comum. O *DataFrame* é bem parecido com uma tabela de Excel, com seus índices e colunas. Tanto suas linhas quanto suas colunas tem rótulos, nos permitindo acessar qualquer célula pela sua coordenada. Há diversas formas de criar um *DataFrame*, vamos começar com o mais simples:

In [None]:
dates = pd.date_range('20210101', periods=6) # estamos criando uma lista de datas entre 01/01/2021 e 06/01/2021. Note que estamos usando uma função do Pandas
df = pd.DataFrame(
    np.random.randn(6, 4), # apenas números aleatórios nas células
    index=dates,  # especificando quais são os índices. Eles aceitam até datas como índice! Isso é muito bom para lidar com dados de séries temporais
    columns=list('ABCD')) # especificando como quero que sejam os nomes das colunas, passando uma lista de letras
df

Unnamed: 0,A,B,C,D
2021-01-01,-1.111423,0.419943,-0.672452,-0.742874
2021-01-02,-0.184683,0.010372,-0.164267,-1.078302
2021-01-03,0.346835,0.15077,-0.042554,0.353471
2021-01-04,-0.247369,-0.415606,0.626045,0.727162
2021-01-05,-0.00864,-0.503628,0.574108,-0.081466
2021-01-06,1.034539,0.768478,0.420525,-1.025313


Isso é um *DataFrame*! Uma coisa boa do Pandas com o Jupyter Notebook é que eles mostram o *DataFrame* de uma forma bastante amigável. Agora que sabemos sobre as duas principais estruturas de dados do Pandas, podemos aprender sobre os principais métodos e funcionalidades dessa biblioteca, e para isso vamos utilizar dados reais sobre uma das marcas mais conhecidas dos desenhos e videogames, a franquia Pokémon :)

Observação: um *DataFrame* pode ser visto como um dicionário de listas.

#### 6.2.3. Carregando o conjunto de dados

Um dos tipos de dados mais comuns para se guardar arquivos são os CSVs (comma-separated values, em português, valores separados por vírgulas). O Pandas tem diversas funções para transformar os mais variados tipos de arquivos em *DataFrames*, como csv, Excel, json e etc. Nesse exemplo, vamos usar o [leitor de csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). Execute a célula abaixo para carregar os dados dos Pokémons.

Caso você não conheça, [Pokémon](https://www.pokemon.com/us/) é uma franquia japonesa composta por jogos de videogame, desenhos, cartas colecionáveis, entre outros produtos. Nos jogos, principal produto da franquia, os humanos (conhecidos como treinadores Pokémon) capturam e treinam os monstrinhos (Pokémons) para realizar diversas aventuras e batalhas. Cada Pokémon pode ser de diferentes tipos (fogo, água, elétrico, pedra, etc) e apresentam diferentes níveis de habilidades (ataque, defesa, velocidade, etc). Além disso, alguns Pokémons são mais raros que outros (conhecidos como lendários).

Caso você esteja utilizando o Google Colab, não se esqueça de conectar no seu Drive e alterar o caminho para a pasta que contém seus arquivos de dados.

In [None]:
from google.colab import drive
drive.mount('/gdrive')

Mounted at /gdrive


In [None]:
pkmn = pd.read_csv(
    '/gdrive/MyDrive/cienciadados/dados/pokemon_data.csv', # o caminho para o arquivo que se quer ler
    sep=',') # o caracter utilizado para separar os valores

#### 6.2.4. Visualizações iniciais
Ótimo! Acabamos de criar um *DataFrame* a partir de um arquivo csv. Mas como gostamos de verificar as coisas, seria interessante saber algumas informações como: o que os dados contêm, como são as colunas, se tem valores nulos e etc. O Pandas tem 4 métodos principais para isso:

In [None]:
pkmn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   #           800 non-null    int64 
 1   Name        800 non-null    object
 2   Type 1      800 non-null    object
 3   Type 2      414 non-null    object
 4   Total       800 non-null    int64 
 5   HP          800 non-null    int64 
 6   Attack      800 non-null    int64 
 7   Defense     800 non-null    int64 
 8   Sp. Atk     800 non-null    int64 
 9   Sp. Def     800 non-null    int64 
 10  Speed       800 non-null    int64 
 11  Generation  800 non-null    int64 
 12  Legendary   800 non-null    bool  
dtypes: bool(1), int64(9), object(3)
memory usage: 75.9+ KB


A primeira coisa que é interessante de se fazer após ler um conjunto de dados em um *DataFrame* é utilizar o método *info()*. Ele mostra informações como:
 - a classe do objeto criado
 - o intervalo do índice e quantas linhas de dados se tem
 - as colunas, seus nomes e tipos de dados
 - quais os tipos de dados presentes no *DataFrame* e quantas colunas de cada
 - a quantidade de memória utilizada pelo computador para guardar esses dados

Podemos ver que temos uma base sobre Pokémon, com 800 linhas com índices númericos de 0 a 799, 13 colunas de três tipos de dados diferentes, usando cerca de ~76kB de memória RAM. As informações presentes sobre os Pokémons são o número, o nome, o tipo (alguns tem subtipo, mas não todos, por isso os dados faltantes na coluna *Type 2*), estatísticas de ataque, defesa e velocidade, a geração (novos Pokémons são apresentados a cada alguns anos, e cada grupo é conhecido por uma geração) e a indicação se ele é lendário (como uma espécie mística). <br> Todas essas informações a gente conseguiu descobrir com apenas uma linha de código! Vamos então ver como o *DataFrame* realmente é. Temos dois métodos para isso:

In [None]:
pkmn.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


In [None]:
pkmn.tail()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
795,719,Diancie,Rock,Fairy,600,50,100,150,100,150,50,6,True
796,719,DiancieMega Diancie,Rock,Fairy,700,50,160,110,160,110,110,6,True
797,720,HoopaHoopa Confined,Psychic,Ghost,600,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,680,80,160,60,170,130,80,6,True
799,721,Volcanion,Fire,Water,600,80,110,120,130,90,70,6,True


Os métodos *.head()* e *.tail()* mostram, respectivamente, as primeiras e últimas *n* linhas do *DataFrame* (por padrão, *n*=5, mas você pode passar qualquer número como parâmetro) mostrando os índices e os nomes das colunas como numa tabela.

In [None]:
pkmn.describe()

Unnamed: 0,#,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,362.81375,435.1025,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375
std,208.343798,119.96304,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129
min,1.0,180.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0
25%,184.75,330.0,50.0,55.0,50.0,49.75,50.0,45.0,2.0
50%,364.5,450.0,65.0,75.0,70.0,65.0,70.0,65.0,3.0
75%,539.25,515.0,80.0,100.0,90.0,95.0,90.0,90.0,5.0
max,721.0,780.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0


Por fim, o método *.describe()* na sua forma padrão mostra um resumo estatístico de todas as colunas numéricas. É um método bom para ter uma ideia inicial sobre o que ocorre nas colunas de uma perspectiva estatística.

#### Exercício 6.1
Use o arquivo de jogadores do FIFA Ultimate Team para os exercícios de Pandas. Caso você não conheça, o Ultimate Team (FUT) é um modo de jogo do FIFA (um jogo de simulador de futebol) onde você monta seu próprio time comprando jogadores do jogo. Cada jogador pode apresentar diferentes níveis de habilidade em algumas características, como "drible", "chute", "passe", entre outras.  <br>
Substitua os \____ abaixo para ler o arquivo e siga as instruções para ter as visualizações iniciais.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Exercício 6.1.1
# leia o arquivo (tente abrir num editor de texto antes para verificar o separador)
fut_players = pd.read_csv('/content/drive/MyDrive/cienciadados/dados/fut_players_data.csv', sep=',')

# mostre as primeiras 10 linhas de dados
fut_players.head(10)

Unnamed: 0,player_id,player_name,player_extended_name,quality,revision,origin,overall,club,league,nationality,...,cam,cf,rf,lf,rw,lw,st,traits,specialities,base_id
0,1,Pelé,Arantes Nascimento Edson,Gold - Rare,Icon,Prime,98,Icons,Icons,Brazil,...,96.0,96.0,96.0,96.0,96.0,96.0,95.0,Finesse Shot,"Speedster, Aerial Threat, Dribbler, Play Maker...",237067
1,2,Maradona,Diego Maradona,Gold - Rare,Icon,Prime,97,Icons,Icons,Argentina,...,95.0,94.0,94.0,94.0,94.0,94.0,90.0,"Avoids Using Weaker Foot, Finesse Shot, Flair,...","Speedster, Dribbler, Play Maker, Distance Shoo...",190042
2,3,Ronaldo,Nazário de Lima Ronaldo Luís,Gold - Rare,Icon,Prime,96,Icons,Icons,Brazil,...,91.0,94.0,94.0,94.0,92.0,92.0,94.0,"Tries To Beat Defensive Line, Finesse Shot","Speedster, Dribbler, Distance Shooter, FK Spec...",37576
3,4,Pelé,Arantes Nascimento Edson,Gold - Rare,Icon,Medium,95,Icons,Icons,Brazil,...,93.0,94.0,94.0,94.0,94.0,94.0,92.0,Finesse Shot,"Speedster, Dribbler, Distance Shooter, Crosser...",237068
4,5,Maradona,Diego Maradona,Gold - Rare,Icon,Medium,95,Icons,Icons,Argentina,...,93.0,92.0,92.0,92.0,92.0,92.0,88.0,"Avoids Using Weaker Foot, Finesse Shot, Flair,...","Dribbler, Play Maker, Distance Shooter, Crosse...",237074
5,6,Maldini,Paolo Maldini,Gold - Rare,Icon,Prime,94,Icons,Icons,Italy,...,70.0,68.0,68.0,68.0,69.0,69.0,70.0,Team Player,"Aerial Threat, Tackler, Tactician, Complete De...",238439
6,7,Ronaldo,Nazário de Lima Ronaldo Luís,Gold - Rare,Icon,Medium,94,Icons,Icons,Brazil,...,90.0,92.0,92.0,92.0,91.0,91.0,92.0,Finesse Shot,"Speedster, Dribbler, Distance Shooter, FK Spec...",237064
7,8,Yashin,Lev Yashin,Gold - Rare,Icon,Prime,94,Icons,Icons,Russia,...,,,,,,,,"Puncher, Team Player",,238380
8,9,Ronaldinho,de Assis Moreira Ronaldo,Gold - Rare,Icon,Prime,94,Icons,Icons,Brazil,...,93.0,92.0,92.0,92.0,93.0,93.0,88.0,"Finesse Shot, Flair","Speedster, Dribbler, Distance Shooter, Crosser...",28130
9,10,Van Basten,Marco van Basten,Gold - Rare,Icon,Prime,93,Icons,Icons,Holland,...,86.0,90.0,90.0,90.0,87.0,87.0,92.0,"Finesse Shot, Team Player","Aerial Threat, Distance Shooter, Acrobat, Clin...",192181


In [None]:
# Exercício 6.1.2
# mostre as últimas 10 linhas de dados
fut_players.tail(10)

Unnamed: 0,player_id,player_name,player_extended_name,quality,revision,origin,overall,club,league,nationality,...,cam,cf,rf,lf,rw,lw,st,traits,specialities,base_id
18821,19298,Angol,Lee Angol,Bronze - Rare,Normal,Transfers,63,Lincoln City,EFL League Two,England,...,60.0,61.0,61.0,61.0,61.0,61.0,62.0,"Finesse Shot, Flair",,210244
18822,19299,Mendoza Hansen,Kevin Ray Mendoza Hansen,Bronze,Normal,,55,AC Horsens,Superliga,Philippines,...,,,,,,,,,,215656
18823,19300,Piossek,Marcus Piossek,Silver,Normal,Transfers,66,SV Meppen,3. Liga,Poland,...,65.0,65.0,65.0,65.0,65.0,65.0,64.0,,,197148
18824,19301,Bingham,Rakish Bingham,Bronze,Normal,Transfers,62,Cheltenham Town,EFL League Two,England,...,58.0,60.0,60.0,60.0,60.0,60.0,61.0,,,209462
18825,19302,Gibson,Jordan Gibson,Bronze,Normal,Transfers,51,Stevenage,EFL League Two,England,...,48.0,50.0,50.0,50.0,51.0,51.0,50.0,,,240813
18826,19303,Shala,Herolind Shala,Silver,Normal,,65,IK Start,Eliteserien,Norway,...,67.0,66.0,66.0,66.0,67.0,67.0,63.0,Speed Dribbler (CPU AI Only),,205423
18827,19304,Boyer,Fabien Boyer,Silver,Normal,,65,Grenoble Foot 38,Domino’s Ligue 2,Madagascar,...,46.0,46.0,46.0,46.0,48.0,48.0,48.0,Injury Prone,,208832
18828,19305,Arias,Jafar Arias,Silver,Normal,,65,FC Emmen,Eredivisie,Curaçao,...,57.0,60.0,60.0,60.0,57.0,57.0,64.0,,,226122
18829,19306,Moses Ekpai,Ubong Moses Ekpai,Bronze,Normal,,62,Viktoria Plzeň,Česká Liga,Nigeria,...,60.0,63.0,63.0,63.0,62.0,62.0,62.0,,,244790
18830,19307,Diallo,Amadou Tidiane Diallo,Bronze,Normal,,60,Red Star FC,Domino’s Ligue 2,Guinea,...,58.0,58.0,58.0,58.0,59.0,59.0,57.0,,,233902


In [None]:
# Exercício 6.1.3
# use o método .info() no DataFrame
fut_players.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18831 entries, 0 to 18830
Data columns (total 82 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   player_id             18831 non-null  int64  
 1   player_name           18831 non-null  object 
 2   player_extended_name  18831 non-null  object 
 3   quality               18831 non-null  object 
 4   revision              18826 non-null  object 
 5   origin                2478 non-null   object 
 6   overall               18831 non-null  int64  
 7   club                  18831 non-null  object 
 8   league                18831 non-null  object 
 9   nationality           18831 non-null  object 
 10  position              18831 non-null  object 
 11  age                   18831 non-null  int64  
 12  date_of_birth         18831 non-null  object 
 13  height                18831 non-null  int64  
 14  weight                18831 non-null  int64  
 15  intl_rep           

In [None]:
# Exercício 6.1.4
# mostre o resumo estatístico das colunas numéricas
fut_players.describe()

Unnamed: 0,player_id,overall,age,height,weight,intl_rep,pace,pace_acceleration,pace_sprint_speed,dribbling,...,rm,lm,cam,cf,rf,lf,rw,lw,st,base_id
count,18831.0,18831.0,18831.0,18831.0,18831.0,18831.0,16882.0,18831.0,18831.0,16882.0,...,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,18831.0
mean,9724.997663,68.200839,26.364027,181.413202,75.565929,1.172269,69.072859,65.947427,66.10658,64.32354,...,62.166746,62.166746,61.509774,61.252517,61.252517,61.252517,61.511314,61.511314,60.297832,209831.137114
std,5592.051018,8.143145,5.223632,6.778249,7.096437,0.587855,11.909037,15.120939,14.851889,10.906452,...,10.206237,10.206237,10.760257,10.901557,10.901557,10.901557,10.866396,10.866396,10.213289,31943.69155
min,1.0,47.0,17.0,155.0,50.0,0.0,24.0,13.0,12.0,24.0,...,28.0,28.0,27.0,27.0,27.0,27.0,26.0,26.0,31.0,16.0
25%,4846.5,63.0,23.0,177.0,70.0,1.0,62.0,58.0,58.0,58.0,...,56.0,56.0,55.0,54.0,54.0,54.0,55.0,55.0,53.0,194928.5
50%,9805.0,67.0,26.0,182.0,75.0,1.0,70.0,68.0,68.0,65.0,...,63.0,63.0,62.0,62.0,62.0,62.0,62.0,62.0,60.0,214860.0
75%,14581.5,73.0,29.0,186.0,80.0,1.0,77.0,76.0,76.0,71.0,...,68.0,68.0,68.0,68.0,68.0,68.0,68.0,68.0,67.0,232590.5
max,19307.0,99.0,89.0,205.0,110.0,5.0,99.0,99.0,99.0,99.0,...,97.0,97.0,98.0,98.0,98.0,98.0,97.0,97.0,98.0,245714.0


### 6.3. Filtrando (*Filtering*) e fatiando (*slicing*) os dados

*Filtering* e *slicing* são técnicas utilizadas para isolar partes específicas do *DataFrame*, sejam linhas, colunas ou células. Isso é muito útil pois diversas vezes queremos analisar alguns dados ao invés da base inteira. O Pandas tem ferramentas próprias para isso. <br>

#### 6.3.1. *Slicing*

No Pandas existem duas principais formas de fatiar os dados, isto é, selecionar apenas uma parte de acordo com as linhas e colunas do *DataFrame*: utilizando o nome das partes ou com os métodos *.loc()* e *.iloc()*. Vamos começar pelo primeiro. Para fazer isso, imagine que queremos apenas os nomes e o poder de ataque dos Pokémons e veja o exemplo:

In [None]:
pkmn[['Name','Attack']].head(7)

Unnamed: 0,Name,Attack
0,Bulbasaur,49
1,Ivysaur,62
2,Venusaur,82
3,VenusaurMega Venusaur,100
4,Charmander,52
5,Charmeleon,64
6,Charizard,84


Duas coisas importantes aqui:
 - Juntamos o *slicing* com o método *.head()* na mesma linha, para que fosse possível ver o resultado do fatiamento. Ao usar o Pandas é possível e comum fazer esse tipo de agrupamento de operações.
 - Foram utilizadas chaves duplas ```[[]]``` no fatiamento. Ao fazer isso, estou explicitando que quero um objeto do tipo *DataFrame*. Se eu quisesse objetos do tipo *Series* usaria chaves simples. Podemos ver um exemplo disso abaixo:

In [None]:
type(pkmn[['Name']])

pandas.core.frame.DataFrame

In [None]:
type(pkmn['Name'])

pandas.core.series.Series

Outra forma de se obter um objeto do tipo *Series* é passando a coluna como se fosse um atributo do *DataFrame*:

In [None]:
pkmn.Name

0                  Bulbasaur
1                    Ivysaur
2                   Venusaur
3      VenusaurMega Venusaur
4                 Charmander
               ...          
795                  Diancie
796      DiancieMega Diancie
797      HoopaHoopa Confined
798       HoopaHoopa Unbound
799                Volcanion
Name: Name, Length: 800, dtype: object

O único problema desse formato é que colunas cujo nome contém espaços não funcionarão, como é o caso das colunas *Type 1*, *Type 2*, *Sp. Atk* e *Sp. Def*. Para resolver isso, vamos renomeá-las com o método *.rename()*.

In [None]:
pkmn.rename(
    columns={'Type 1':'Type_1', 'Type 2':'Type_2', 'Sp. Atk':'Sp_Atk','Sp. Def':'Sp_Def'}, # passando o nome antigo e novo como um dicionário
    inplace = True # algumas operações com Pandas criam uma cópia do DataFrame e não alteram o objeto em si, alteramos isso mudando o parâmetro inplace para verdadeiro
)

In [None]:
pkmn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   #           800 non-null    int64 
 1   Name        800 non-null    object
 2   Type_1      800 non-null    object
 3   Type_2      414 non-null    object
 4   Total       800 non-null    int64 
 5   HP          800 non-null    int64 
 6   Attack      800 non-null    int64 
 7   Defense     800 non-null    int64 
 8   Sp_Atk      800 non-null    int64 
 9   Sp_Def      800 non-null    int64 
 10  Speed       800 non-null    int64 
 11  Generation  800 non-null    int64 
 12  Legendary   800 non-null    bool  
dtypes: bool(1), int64(9), object(3)
memory usage: 75.9+ KB


Agora que os nomes foram trocados, podemos obter um objeto *Series* do tipo do Pokémon como a seguir:

In [None]:
pkmn.Type_1

0        Grass
1        Grass
2        Grass
3        Grass
4         Fire
        ...   
795       Rock
796       Rock
797    Psychic
798    Psychic
799       Fire
Name: Type_1, Length: 800, dtype: object

Outra forma de selecionar partes dos dados é usando os métodos *.loc()* e *.iloc()*.<br>
Para usar a localização númerica utilizamos o *iloc*. Como você pode imaginar, a linhas e colunas são ordenadas por números inteiros sequenciais, começando do 0, como nas listas. Dessa forma, se você sabe o número da linha e da coluna, você pode usar o *iloc*. Por exemplo, se quisermos a coluna HP, que é a 6ª, poderíamos fazer o seguinte:

In [None]:
pkmn.iloc[:,5].head()

0    45
1    60
2    80
3    80
4    39
Name: HP, dtype: int64

A sintaxe do *iloc* é como [x,y], que significa que queremos a (x+1)ª linha e (y+1)ª coluna. Se utilizarmos ```:``` no lugar de x ou y significa que queremos a coluna ou linha completa, respectivamente. Vamos pegar o HP do Bulbasaur, o primeiro Pokémon do nosso *DataFrame*:

In [None]:
print("O HP do Bulbasaur é "+str(pkmn.iloc[0,5]))

O HP do Bulbasaur é 45


O método *.loc()* usa o rótulo para acessar os valores. Dessa forma, ao invés de passarmos as coordenadas numéricas, passamos o nome da linha e da coluna, como a seguir:

In [None]:
pkmn.loc[0, :]

#                     1
Name          Bulbasaur
Type_1            Grass
Type_2           Poison
Total               318
HP                   45
Attack               49
Defense              49
Sp_Atk               65
Sp_Def               65
Speed                45
Generation            1
Legendary         False
Name: 0, dtype: object

No caso, os rótulos das linhas são iguais às suas coordenadas, por isso ficou parecido com o *iloc*. Vamos fazer o teste com as colunas também para ver a diferença. Abaixo pegaremos novamente o HP do Bulbasaur:

In [None]:
print("O HP do Bulbasaur é "+str(pkmn.loc[0,'HP']))

O HP do Bulbasaur é 45


#### 6.3.2. Filtros (*Filtering*)

Uma vez sabendo isolar partes do *DataFrame* de acordo com a localização dos dados, podemos partir para isolar de acordo com condições, ou seja, filtrar os dados.
Para conseguir fazer isso no Pandas, fazemos o seguinte: passamos uma expressão condicional e o Pandas retorna apenas as partes que teriam a condição como verdade. Para testar isso, vamos ver a defesa média de todos os Pokémons e depois ver se os tipos 'Rock' e 'Steel' têm defesas maiores:

In [None]:
pkmn.Defense.mean() # note que operações comuns como média (mean), mediana (median) e soma (sum) são métodos do Pandas

73.8425

In [None]:
pkmn.loc[pkmn.Type_1=='Rock'].Defense.mean()

100.79545454545455

In [None]:
pkmn[pkmn.Type_1=='Steel'].Defense.mean()

126.37037037037037

De fato, parece que os tipos selecionados tem média acima dos demais Pokémons. Para verificar isso, passamos a condição pkmn.Type_1=='Steel' entre chaves, o que retorna apenas as linhas de tal tipo. Com isso, selecionamos apenas a coluna de defesa e calculamos a média. <br>
Vamos ver agora os Pokémons com defesa maior que 150, cujo tipo principal não é 'Rock' nem 'Steel':

In [None]:
pkmn[(pkmn.Defense > 150)&(pkmn.Type_1!='Rock')&(pkmn.Type_1!='Steel')]

Unnamed: 0,#,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,Legendary
87,80,SlowbroMega Slowbro,Water,Psychic,590,95,75,180,130,80,30,1,False
98,91,Cloyster,Water,Ice,525,50,95,180,85,45,70,1,False
230,213,Shuckle,Bug,Rock,505,20,10,230,10,230,5,2,False
424,383,GroudonPrimal Groudon,Ground,Fire,770,100,180,160,150,90,90,3,True
430,386,DeoxysDefense Forme,Psychic,,600,50,70,160,70,160,90,3,True
789,713,Avalugg,Ice,,514,95,117,184,44,46,28,6,False


Podemos ver acima que é possível juntar condições com os operadores E (&) e OU (|).<br>
Vamos dizer agora que você quer apenas alguns Pokémons em específico, por exemplo Venusaur, Charizard e Blastoise. Criar uma condição para cada e uní-las com o operador & pode ser difícil, ainda mais se for uma quantidade grande de opções. Podemos facilitar isso passando uma tupla ao método *.isin()*, como abaixo:

In [None]:
aux = ('Venusaur', 'Charizard', 'Blastoise')
pkmn[pkmn.Name.isin(aux)]

Unnamed: 0,#,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,Legendary
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
6,6,Charizard,Fire,Flying,534,78,84,78,109,85,100,1,False
11,9,Blastoise,Water,,530,79,83,100,85,105,78,1,False


Finalmente, podemos criar novos *DataFrames* a partir de um já existente selecionando apenas algumas linhas ou colunas dele:

In [None]:
offensive_stats = pkmn[['#','Name','Attack','Sp_Atk','Speed']] # selecionando apenas estatísticas ofensivas
defensive_stats = pkmn[['#','Name', 'HP','Defense','Sp_Def']] # selecionando apenas estatísticas defensivas

In [None]:
offensive_stats.head()

Unnamed: 0,#,Name,Attack,Sp_Atk,Speed
0,1,Bulbasaur,49,65,45
1,2,Ivysaur,62,80,60
2,3,Venusaur,82,100,80
3,3,VenusaurMega Venusaur,100,122,80
4,4,Charmander,52,60,65


In [None]:
defensive_stats.head()

Unnamed: 0,#,Name,HP,Defense,Sp_Def
0,1,Bulbasaur,45,49,65
1,2,Ivysaur,60,63,80
2,3,Venusaur,80,83,100
3,3,VenusaurMega Venusaur,80,123,120
4,4,Charmander,39,43,50


In [None]:
fire_pkmn = pkmn[(pkmn.Type_1=='Fire')|(pkmn.Type_2=='Fire')] # filtrando apenas linhas com algumas condições
fire_pkmn.head()

Unnamed: 0,#,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,Legendary
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,405,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,534,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,634,78,130,111,130,85,100,1,False
8,6,CharizardMega Charizard Y,Fire,Flying,634,78,104,78,159,115,100,1,False


In [None]:
water_pkmn = pkmn[(pkmn.Type_1=='Water')|(pkmn.Type_2=='Water')] # filtrando apenas linhas com algumas condições
water_pkmn.head()

Unnamed: 0,#,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,Legendary
9,7,Squirtle,Water,,314,44,48,65,50,64,43,1,False
10,8,Wartortle,Water,,405,59,63,80,65,80,58,1,False
11,9,Blastoise,Water,,530,79,83,100,85,105,78,1,False
12,9,BlastoiseMega Blastoise,Water,,630,79,103,120,135,115,78,1,False
59,54,Psyduck,Water,,320,50,52,48,65,50,55,1,False


#### Exercício 6.2
Siga as instruções e substitua os \____ para exercitar o que aprendemos.

In [None]:
# Exercício 6.2.1
# mostre as 5 primeiras linhas das colunas player_name, position e nationality
fut_players[['player_name','position','nationality']].head(5)

In [None]:
# Exercício 6.2.2
# renomeie as colunas player_id, player_name e player_extended_name para id, name e extended_name, respectivamente
fut_players.rename(
    columns={'player_id':'id', 'player_name':'name', 'player_extended_name':'extended_name'},
    inplace = True
)

fut_players.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18831 entries, 0 to 18830
Data columns (total 82 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 18831 non-null  int64  
 1   name               18831 non-null  object 
 2   extended_name      18831 non-null  object 
 3   quality            18831 non-null  object 
 4   revision           18826 non-null  object 
 5   origin             2478 non-null   object 
 6   overall            18831 non-null  int64  
 7   club               18831 non-null  object 
 8   league             18831 non-null  object 
 9   nationality        18831 non-null  object 
 10  position           18831 non-null  object 
 11  age                18831 non-null  int64  
 12  date_of_birth      18831 non-null  object 
 13  height             18831 non-null  int64  
 14  weight             18831 non-null  int64  
 15  intl_rep           18831 non-null  int64  
 16  added_date         188

In [None]:
# Exercício 6.2.3
# salve nas variáveis ext_name_4534_a e ext_name_4534_b a coluna extended_name do 4534º jogador
# (atenção: não queremos o jogador de id = 4534) usando loc e iloc
ext_name_4534_a = fut_players.iloc[4533, 2]
ext_name_4534_b = fut_players.loc[4533, :]
print(ext_name_4534_a)

print(ext_name_4534_b)



Sandro Sirigu
id                        4665
name                    Sirigu
extended_name    Sandro Sirigu
quality          Silver - Rare
revision                Normal
                     ...      
lw                        68.0
st                        65.0
traits           Long Throw-In
specialities               NaN
base_id                 190648
Name: 4533, Length: 82, dtype: object


In [None]:
# Exercício 6.2.4
# nosso DataFrame tem muitas colunas
# crie outro DataFrame (fut_players_2) apenas com as colunas na lista abaixo
selected_columns = ['id', 'name', 'overall', 'nationality', 'position', 'pref_foot', 'base_id']

fut_players_2 = fut_players[['id', 'name', 'overall', 'nationality', 'position', 'pref_foot', 'base_id']] 

fut_players_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18831 entries, 0 to 18830
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           18831 non-null  int64 
 1   name         18831 non-null  object
 2   overall      18831 non-null  int64 
 3   nationality  18831 non-null  object
 4   position     18831 non-null  object
 5   pref_foot    18831 non-null  object
 6   base_id      18831 non-null  int64 
dtypes: int64(3), object(4)
memory usage: 1.0+ MB


In [None]:
# Exercício 6.2.5
# queremos ver os melhores jogadores nascidos no Brasil (Brazil), isto é, aqueles com médio (overall) acima de 90
# mostre os 15 primeiros
aux_1 = fut_players_2[(fut_players_2.nationality=='Brazil')&(fut_players_2.overall > 90)]
aux_1.head(15)

Unnamed: 0,id,name,overall,nationality,position,pref_foot,base_id
0,1,Pelé,98,Brazil,CAM,Right,237067
2,3,Ronaldo,96,Brazil,ST,Right,37576
3,4,Pelé,95,Brazil,CF,Right,237068
6,7,Ronaldo,94,Brazil,ST,Right,237064
8,9,Ronaldinho,94,Brazil,LW,Right,28130
37,38,Ronaldinho,91,Brazil,CAM,Right,238395
48,49,Pelé,91,Brazil,CF,Right,190043
51,52,Carlos,91,Brazil,LB,Left,238430
826,846,Neymar Jr,92,Brazil,LW,Right,190871
12632,13091,Rivaldo,92,Brazil,LW,Left,4231


In [None]:
# Exercício 6.2.6
# vários jogadores bons!
# agora mostre os jogadores brasileiros que sejam canhotos (pref_foot é Left) ou brasileiros que sejam goleiros (position é GK)
aux_2 = fut_players_2[(fut_players_2=='Brazil')&((fut_players_2.pref_foot=='Left')|(fut_players_2.position=='GK'))]
aux_2.head(20)

Unnamed: 0,id,name,overall,nationality,position,pref_foot,base_id
51,52,Carlos,91,Brazil,LB,Left,238430
90,91,Carlos,88,Brazil,LB,Left,1040
121,122,Carlos,86,Brazil,LB,Left,237071
148,149,Alex Sandro,87,Brazil,LB,Left,191043
150,151,Douglas Costa,87,Brazil,LM,Left,190483
153,154,Douglas Costa,86,Brazil,LM,Left,190483
154,155,Alex Sandro,86,Brazil,LB,Left,191043
246,250,Fred,83,Brazil,CM,Left,209297
257,261,Fred,82,Brazil,CM,Left,209297
292,298,Ederson,87,Brazil,GK,Left,210257


# Declaração de Inexistência de Plágio:

1. Eu sei que plágio é utilizar o trabalho de outra pessoa e apresentar como meu.
2. Eu sei que plágio é errado e declaro que este notebook foi feito por mim.
3. Tenho consciência de que a utilização do trabalho de terceiros é antiético e está sujeito à medidas administrativas.
4. Declaro também que não compartilhei e não compartilharei meu trabalho com o intuito de que seja copiado e submetido por outra pessoa.

In [None]:
# LEMBRE-SE DE SALVAR O NOTEBOOK ANTES DE EXECUTAR ESSA CELULA
token = '___' # seu token aqui

# Não altere o código abaixo
import requests as req
exec(req.get('https://api.vai.academy/submissioncode2').text)