<a href="https://colab.research.google.com/github/Bruno-Messias/data_science_visagio/blob/main/NumPy_e_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <center> Introdução ao NumPy e Pandas</center>
___

## Conteúdo
1. [Introdução](#intro)
2. [Jupyter Básico](#basics)
3. [Pacotes (Packages)](#pacotes)<br>
4. [Encerramento](#encerramento)<br>

<a name="intro"></a>
## 1. Introdução

Bem-vindo a Trilha de Data Science! É um prazer tê-lo como aluno nesta jornada. O objetivo deste curso é fornecer uma introdução ao mundo de data science e machine learning de forma que você seja capaz de abordar problemas nestes domínios. Caso tenha interesse em se aprofundar ainda mais, recomendamos a inscrição em nosso curso na [VAI Academy](https://www.vai.academy/).

Nesta primeira aula, vamos te introduzir a duas das bibliotecas mais importantes em análise de dados: as bibliotecas NumPy e Pandas.

Utilizaremos o Jupyter Notebook para o acompanhamento da aula.

<a name="basics"></a>
## 2. Jupyter e Colab Básicos

### 2.1. O que é Jupyter e Colab?
"Jupyter" é uma aplicação *open source* para criar e compartilhar documentos que contém códigos executáveis, equações, visualizações e texto. O nome é um acrônimo que significa Julia, Python, and R. Essas linguagens de programação foram as primeiras utilizadas na aplicação Jupyter, mas, atualmente, o notebook também suporta  [muitas outras linguagens](https://github.com/jupyter/jupyter/wiki/Jupyter-kernels).

Existem diferentes formas de abrir este tipo de arquivo. Neste curso, recomendamos o uso do Google Colab, pois ele possui algumas vantagens, como:
* Nenhuma configuração necessária
* Execução de código em núvem (servidores Google)
* Ambiente isolado para instalação de bibliotecas com diversas já pré-instaladas
* Integração com o Google Drive

Caso queira se habituar com o Colab e praticar, use este [notebook introdutório](https://colab.research.google.com/notebooks/welcome.ipynb).

Você pode também utilizar atalhos de teclado para agilizar a manipulação do notebook. No Google Colab, os principais são:
* ```Ctrl+Enter```: Executar célula selecionada
* ```Shift+Enter```: Executar célula e selecionar a célula seguinte
* ```Ctrl+M B```: Inserir célula de código abaixo
* ```Ctrl+M B```: Excluir célula/seleção
* ```Ctrl+M Z``` ou ```Ctrl+Shift+Z```: Desfazer a última ação em células

Para ver a lista completa de todos os atalhos, vá em Ferramentas > Atalhos do Teclado.

### 2.2 Execução de células

Não podemos aprender Data Science sem antes conhecer nossas ferramentas, né?

Clique na célula abaixo e pressione ```Ctrl+Enter``` para executar o código.

In [None]:
print("Hello World!") #Lembre-se que shift+enter vai executar a célula atual e selecionar a próxima célula

Hello World!


Parabéns!!! Você acabou de executar sua primeira linha de código no Jupyter. Foi bem fácil, né?

É assim que o notebook funciona, você pode executar o documento célula a célula e observar o que está sendo realizado.

Vamos, agora, acompanhar uma seção sobre os pacotes básicos mais utilizados para análise de dados em Python: o **Numpy** e o **Pandas**!

<a name="pacotes"></a>
## 3. Pacotes (Packages)

Um *package* é um diretório de scripts Python, também chamados de modules, com um objetivo em comum. Isso significa que cada script é um módulo que define funções, métodos e tipos. E esse módulos estão organizados em *packages*.

Quando você inicializa o Jupyter, apenas o package built-in é carregado. Para usar qualquer função, método ou objeto definido em outro módulo, você deve, primeiramente, importá-lo.

Vamos tentar fazer isso com o NumPy, um pacote que lida eficientemente com arrays e matrizes, que você certamente utilizará bastante em sua vida com o Python.

### 3.1 NumPy

NumPy é a abreviação de ‘Numerical Python’ ou ‘Numeric Python’. Ela é uma biblioteca *open-source* (ou seja, é um software cujo código original é disponibilizado livremente e pode ser distribuido e modificado) que oferece suporte à arrays e matrizes multidimensionais, provendo diversas funções matemáticas úteis em computação científica.

Mas por que você deveria utilizar o NumPy? É simples! As listas do Python funcionam como as arrays, no entanto, são lentas para utilização com grandes volumes de dados. No ramo de Ciência de Dados, velocidade e recursos durante o processamento são bem importantes! Dessa forma, o NumPy nos possibilita utilizar os objetos arrays, que são bem mais rápidos que as listas tradicionais do Python.

O **ndarray** é o objeto fundamental do NumPy. Este objeto é uma matriz N-dimensional, vamos entender melhor como este objeto funciona nas células abaixo.

#### 3.1.1 Importando o NumPy

In [None]:
# Primeiramente, o que você acha que aconteceria se tentássemos utilizar algumas coisa de um pacote que ainda não foi carregado?
# Nós podemos testar isso com a função array, do módulo numpy, que retorna um array para uma lista dada
array([1, 2, 3])

NameError: ignored

Como esperado, tivemos um erro. Nós deveríamos carregar o pacote, então.
Para fazer isso, utilizamos a keyword 'import' seguida do nome do package.

In [None]:
import numpy
numpy.array([1, 2, 3])

array([1, 2, 3])

Repare como precisamos especificar qual é o pacote ao qual a função ```array``` pertence. Poderia ficar muito chato se você tivesse que digitar os nomes dos pacotes todas as vezes que quisesse utilizar alguma coisa deles.

Para te ajudar com isso, o Python permite que você utilize um alias para o nome do pacote, através da keyword 'as', tornando seu uso um pouco mais prático, como mostrado a seguir.

In [None]:
import numpy as np
np.array([1, 2, 3])

array([1, 2, 3])

Por último, é possível carregar apenas uma parte de um pacote com a expressão  ```from ... import ...```. Fazendo isso, você estará permitido a utilizar apenas a parte que você carregou do pacote, sem a necessidade de especificar o nome do pacote posteriormente. Veja.

In [None]:
from numpy import array
array([1, 2, 3])

array([1, 2, 3])

Ótimo, você já sabe importar os pacotes que precisar!

Vamos observar o porquê o NumPy é tão poderoso e preferível às listas do Python.

Imagine que você tenha duas listas de dados de indivíduos, com alturas e pesos, e queira calcular o IMC (Índice de Massa Corporal) de cada um deles, como mostrado abaixo:

In [None]:
altura = [1.81, 1.77, 1.69, 1.91]
peso = [89.0, 77.3, 55.9, 99.4]

# Calculando o IMC
imc = peso / altura ** 2

TypeError: ignored

Observe que o Python nos retornou um erro porque não é possivel realizar cálculos com listas, para isso vamos utilizar o NumPy!

In [None]:
# Criando os arrays com o NumPy
np_altura = np.array(altura)
np_peso = np.array(peso)

# Calculando o IMC
imc = np_peso / np_altura ** 2
imc

array([27.16644791, 24.67362508, 19.57214383, 27.24706011])

O Numpy consegue realizar perfeitamente as operações elemento a elemento!

Mas preste bem atenção, pois algumas operações podem funcionar de forma diferente do que você imagina. Veja o exemplo abaixo:

In [None]:
# Lista do Python
altura * 2

[1.81, 1.77, 1.69, 1.91, 1.81, 1.77, 1.69, 1.91]

In [None]:
# NumPy array
np_altura * 2

array([3.62, 3.54, 3.38, 3.82])

#### 3.1.2 Selecionando subconjuntos de NumPy Arrays
A seleção de subconjuntos de NumPy arrays funciona de forma similar à listas de Python.

In [None]:
# retornando o terceiro elemento da array
imc[2]

19.572143832498863

Você também pode selecionar subconjuntos baseados em condições, de forma que apenas os valores que satisfazem as condições serão retornados.

In [None]:
imc[imc > 25]

array([27.16644791, 27.24706011])

Vamos fazer um exercício para fixação.

#### Exercício 3.1

In [None]:
# lista de pesos de castanhas
c_peso = [0.946, 0.918, 0.906, 0.904, 0.858, 0.774, 0.652, 0.516, 0.478, 0.404, 0.396, 0.364, 0.342, 0.304, 
            0.262, 0.208, 0.134, 0.974, 0.792, 0.792, 0.628, 0.552, 0.506, 0.478, 0.462, 0.436, 0.408, 0.378, 
            0.3, 0.298, 0.268, 0.252, 0.16, 0.114, 0.092, 0.936, 0.894, 0.744, 0.706, 0.694, 0.69, 0.652, 0.518, 
            0.508, 0.502, 0.5, 0.47, 0.44, 0.39, 0.384]

# Importe o numpy como np
import numpy as np

# Crie um numpy array a partir de c_peso: np_c_peso
np_c_peso = np.array(c_peso)

# Imprima o tipo de np_c_peso
type(np_c_peso)

numpy.ndarray

In [None]:
c_kg_preco = 45.00

# Crie um array a partir de c_peso com a quantia gasta em cada compra: np_c_despesa
np_c_despesa = c_kg_preco * np_c_peso

In [None]:
# Imprima o peso no indíce 20
np_c_despesa[20]

28.26

#### 3.1.3  Array N-dimensional
Vamos verificar o tipo dos arrays criados acima!

In [None]:
print(type(np_peso))

<class 'numpy.ndarray'>


**ndarrays** significam arrays N-dimensionais, vamos criar um numpy array multi-dimensional a partir de listas tradicionais do Python.

In [None]:
np_2d = np.array([[1.81, 1.77, 1.69, 1.91],
                  [89.0, 77.3, 55.9, 99.4]])
np_2d

array([[ 1.81,  1.77,  1.69,  1.91],
       [89.  , 77.3 , 55.9 , 99.4 ]])

Cada sublista da lista corresponde a uma linha da array bi-dimensional criada.
Nós podemos verificar o tamanho da array usando o atributo "shape".

In [None]:
np_2d.shape

(2, 4)

Podemos ver que o np_2d tem 2 linhas e 4 colunas.

Assim como a array unidimensional, também podemos selecionar um subconjunto de uma array multi-dimensional, usando o índice da linha e coluna como abaixo.
![Subsetting](https://imgur.com/08EIOjy.png)
Veja alguns exemplos abaixo.

In [None]:
np_2d[0]

array([1.81, 1.77, 1.69, 1.91])

In [None]:
# Selecionando a altura (primeira linha) do terceiro elemento
np_2d[0][2]

1.69

Basicamente nós selecionamos a linha, e a partir daquela linha fazemos outra seleção.

Também é possível selecionar utilizando vírgulas dentro de colchetes: array[linha, coluna]

In [None]:
# Primeira linha e terceira colna
np_2d[0, 2]

1.69

In [None]:
# Todas as linhas e segunda e terceira colunas
np_2d[:, 1:3] 

array([[ 1.77,  1.69],
       [77.3 , 55.9 ]])

#### Exercício 3.2

Abaixo temos uma lista de listas contendo informações de vendas de castanhas de uma loja. Cada lista representa uma venda que foi realizada. O primeiro elemento de cada lista é o dia que  venda foi feita, o segundo elemento representa o peso das castanhas compradas. Por fim, o terceiro elemento é a quantia paga pelas castanhas.

Com isso em mente, faça os seguintes exercícios:

In [None]:
castanha = [[2, 0.946, 66.1], 
          [2, 0.918, 32.96], 
          [2, 0.906, 58.76],
          [2, 0.904, 29.14], 
          [2, 0.858, 59.96],
          [2, 0.774, 27.77],
          [2, 0.652, 42.3],
          [2, 0.516, 18.51], 
          [2, 0.478, 17.15],
          [2, 0.404, 28.22], 
          [2, 0.396, 7.88], 
          [2, 0.364, 7.24],
          [2, 0.342, 22.18], 
          [2, 0.304, 10.91], 
          [2, 0.262, 9.41], 
          [2, 0.208, 4.13],
          [2, 0.134, 9.36],
          [4, 0.974, 34.95],
          [4, 0.792, 51.38],
          [4, 0.792, 51.38], 
          [4, 0.628, 12.48], 
          [4, 0.552, 19.81], 
          [4, 0.506, 25], 
          [4, 0.478, 31], 
          [4, 0.462, 32.24],
          [4, 0.436, 28.28],
          [4, 0.408, 14.64],
          [4, 0.378, 13.56],
          [4, 0.3, 19.46],
          [4, 0.298, 10.69],
          [4, 0.268, 9.62],
          [4, 0.252, 16.34],
          [4, 0.16, 3.18],
          [4, 0.114, 4.09],
          [4, 0.092, 5.97],
          [5, 0.936, 65.33],
          [5, 0.894, 32.07],
          [5, 0.744, 48.28], 
          [5, 0.706, 25.34],
          [5, 0.694, 24.91], 
          [5, 0.69, 13.72], 
          [5, 0.652, 42.32], 
          [5, 0.518, 33.6], 
          [5, 0.508, 18.23],
          [5, 0.502, 35.09],
          [5, 0.5, 27.45], 
          [5, 0.47, 9.35], 
          [5, 0.44, 28.54],
          [5, 0.39, 7.76], 
          [5, 0.384, 21.08]]

# Crie um numpy array 2d a partir de castanha: np_castanha
np_castanha = np.array(castanha)

# Imprima o tipo de np_castanha
print(type(np_castanha))

# Imprima a forma de np_castanha
np_castanha.shape

<class 'numpy.ndarray'>


(50, 3)

In [None]:
# Selecione toda a segunda coluna de np_castanha: np_c_peso
np_c_peso = np_castanha[:, 1]

# Imprima o preço da 14 venda
print(np_castanha[13][2])

# Imprima todas as vendas feitas após o dia 2
np_castanha[17:,:]

10.91


array([[ 4.   ,  0.974, 34.95 ],
       [ 4.   ,  0.792, 51.38 ],
       [ 4.   ,  0.792, 51.38 ],
       [ 4.   ,  0.628, 12.48 ],
       [ 4.   ,  0.552, 19.81 ],
       [ 4.   ,  0.506, 25.   ],
       [ 4.   ,  0.478, 31.   ],
       [ 4.   ,  0.462, 32.24 ],
       [ 4.   ,  0.436, 28.28 ],
       [ 4.   ,  0.408, 14.64 ],
       [ 4.   ,  0.378, 13.56 ],
       [ 4.   ,  0.3  , 19.46 ],
       [ 4.   ,  0.298, 10.69 ],
       [ 4.   ,  0.268,  9.62 ],
       [ 4.   ,  0.252, 16.34 ],
       [ 4.   ,  0.16 ,  3.18 ],
       [ 4.   ,  0.114,  4.09 ],
       [ 4.   ,  0.092,  5.97 ],
       [ 5.   ,  0.936, 65.33 ],
       [ 5.   ,  0.894, 32.07 ],
       [ 5.   ,  0.744, 48.28 ],
       [ 5.   ,  0.706, 25.34 ],
       [ 5.   ,  0.694, 24.91 ],
       [ 5.   ,  0.69 , 13.72 ],
       [ 5.   ,  0.652, 42.32 ],
       [ 5.   ,  0.518, 33.6  ],
       [ 5.   ,  0.508, 18.23 ],
       [ 5.   ,  0.502, 35.09 ],
       [ 5.   ,  0.5  , 27.45 ],
       [ 5.   ,  0.47 ,  9.35 ],
       [ 5

#### 3.1.4 Estatística básica com NumPy
Costumeiramente o primeiro passo para analisar nossos dados é conhecê-los através de estatística descritiva. O NumPy pode ser usado para obter essa visão inicial dos dados mesmo com grande quantidade de observações.

Vamos usar alguns atributos do NumPy para começar a analisar nossos dados.

In [None]:
np_a_p = np.array([[1.81, 89.0],
                  [1.77, 77.3],
                  [1.69, 55.9],
                  [1.91, 99.4]])

# Calculando a media dos pesos
np.mean(np_a_p[:, 1])

80.4

In [None]:
# calculando a mediana dos pesos
np.median(np_a_p[:, 1])

83.15

In [None]:
# calculando os coeficientes de correlação entre pesos e alturas
np.corrcoef(np_a_p[:, 0], np_a_p[:, 1])

array([[1.        , 0.96933562],
       [0.96933562, 1.        ]])

In [None]:
# calculando o desvio padrão dos pesos
np.std(np_a_p[:, 1])

16.16183776678878

In [None]:
# calculando a soma dos pesos
np.sum(np_a_p[:, 1])

321.6

Alguns desses atributos já estão disponíveis no Python, no entanto, a principal diferença entre eles é a performance. Os atributos do NumPy são mais rápidos na execução do que os básicos do Python.

Lembrando que sempre que tiver dificuldade para entender algum atributo, você pode consultar a documentação do [Numpy](https://numpy.org/doc/).

Agora que aprendemos como o NumPy funciona, vamos aprender sobre uma das bibliotecas mais utilizadas para manipulação de dados em Python, o **Pandas**!

### 3.2 O que é o Pandas?

Pandas é uma biblioteca *open source*, que proporciona estruturas de dados e ferramentas de análise de dados de alta performance e fáceis de usar para Python. Vamos entender melhor o que alguns termos significam:
 - *open source*: assim como o NumPy, seu código original é disponibilizado livremente e pode ser distribuido e modificado. Isso significa que qualquer um pode contribuir para a evolução do Pandas!
 - alta performance: Pandas é escrito em Python, Cython e C. Isso permite que os cientistas de dados consigam o utilizar para lidar com conjuntos de dados muito grandes (daqueles que o excel não conseguiria nem abrir) e fazer operações sobre esses dados com facilidade. Dessa forma, Pandas torna nosso trabalho melhor e mais fácil provendo ótima performânce.
 - estruturas de dados e análises de dados: o motivo pelo qual Pandas existe. Muitas vezes precisamos obter algo com significado de dados crus como documentos de textos, tabelas e etc. Pandas é capaz de lidar com esses tipos de dados para que possamos analisá-los.
Em resumo, **Pandas fornece estrutura de dados especializadas e ferramentas para manipulação de dados**. Sua ótima performance, facilidade de uso e comunidade dedicada são as principais razões de sua vasta adoção entre cientistas de dados. Vamos utilizá-lo!

### 3.3 Começando com Pandas

#### 3.3.1 Como importá-lo?

Por algum motivo, todo mundo importa o Pandas da mesma forma, como mostramos abaixo. Aproveitamos também para importar o Numpy, biblioteca que já apresentamos anteriormente.

In [None]:
import pandas as pd
import numpy as np

#### 3.3.2 Objetos do Pandas

Existem 2 principais tipos de objetos no Pandas: as [*Series*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series) e os *DataFrames*. As *Series* são sequências de uma dimensão  de elementos (pra ser mais específicos *ndarray*), todos do mesmo tipo de dados, com rótulos/índices (*labels*). São o objeto primário do Pandas, tudo vai funcionar baseado nelas. Pra criar um objeto do tipo *Series*, podemos fazer o seguinte:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Podemos ver acima que cada elemento da *Series* tem um rótulo relacionado. Esses rótulos podem ser tanto numéricos quanto de texto! Ao final do objeto temos a informação sobre o tipo de dados da *Series*: nesse caso, números *float64*. <br>
O outro objeto principal do Pandas é o [*DataFrame*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame), que é basicamente uma coleção de *Series* com rótulos em comum. O *DataFrame* é bem parecido com uma tabela de Excel, com seus índices e colunas. Tanto suas linhas quanto suas colunas tem rótulos, nos permitindo acessar qualquer célula pela sua coordenada. Há diversas formas de criar um *DataFrame*, vamos começar com o mais simples:

In [None]:
dates = pd.date_range('20130101', periods=6) #estamos criando uma lista de datas entre 01/01/2013 e 06/01/2013. Note que estamos usando uma função do Pandas
df = pd.DataFrame(
    np.random.randn(6, 4), #apenas números aleatórios nas células
    index=dates,  #especificando quais são os índices. Eles aceitam até datas como índice! Isso é muito bom para lidar com dados seriados no tempo
    columns=list('ABCD')) #especificando como quero que sejam os nomes das colunas passando uma lista de letras
df

Unnamed: 0,A,B,C,D
2013-01-01,-2.334633,-0.312667,-0.706345,-0.355694
2013-01-02,-1.568332,-0.293408,-1.527838,0.238607
2013-01-03,0.395196,-1.594272,0.160299,-0.38489
2013-01-04,0.062129,-0.143177,-1.60566,0.279885
2013-01-05,-0.314154,-0.397949,-0.512884,-0.246577
2013-01-06,1.203781,-1.595383,0.240398,0.663706


Isso é um *DataFrame*! Uma coisa boa do Pandas com o Jupyter Notebook é que eles mostram o *DataFrame* de uma forma bastante amigável. Agora que sabemos sobre as duas principais estruturas de dados do Pandas, podemos aprender sobre os principais métodos e funcionalidades dessa biblioteca, e para isso vamos utilizar dados reais sobre um das marcas mais conhecidas dos desenhos e videogames :)

Observação: um *DataFrame* pode ser visto como um dicionário de listas.

#### 3.3.3 Carregando o conjunto de dados

Um dos tipos de dados mais comuns para se guardar arquivos são os CSVs. O Pandas tem diversas funções para transformar os mais variados tipos de arquivos em *DataFrames*, como csv, excel, json e etc. Nesse exemplo, vamos usar o [leitor de csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

Você pode importar arquivos no Colab de duas maneiras diferentes:
1. **Upload manual**: este método tem a desvantagem de que o arquivo é deletado quando o Colab é fechado. Para subir o arquivo, clique no ícone de pasta à esquerda. Isto vai abrir a barra lateral da sessão de arquivos. Nela, clique no primeiro ícone e selecione o arquivo do seu computador para subir
2. **Conectando ao seu Google Drive**: este método dá acesso a todos os seus arquivos e pastas do Google Drive. Para isso, abra novamente a sessão de arquivos, clique no terceiro ícone (aquele com o logo do Drive) e siga as instruções.

Para obter o caminho do arquivo, você pode encontrá-lo navegando através da sessão de arquivos na esquerda, clicar com o botão direito do mouse no arquivo desejado e clicar para copiar o caminho (path).

In [None]:
# pkmn = pd.read_csv(
#     '/dados/aula_1_pokemon.csv', #o caminho para o arquivo que se quer ler
#     sep=',') #o caracter utilizado para separar os valores

In [None]:
# Usando outro caminho para obter os csv do google drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
!ln -s /content/drive/MyDrive/Data\ Science/Entrega1 /mydrive
!ls /mydrive

 dados	'NumPy e Pandas.ipynb'


In [None]:
pkmn = pd.read_csv(
    '/mydrive/dados/aula_1_pokemon.csv', #o caminho para o arquivo que se quer ler
    sep=',') #o caracter utilizado para separar os valores

#### 3.3.4 Visualizações iniciais
Ótimo! Acabamos de criar um *DataFrame* a partir de um arquivo csv. Mas como gostamos de verificar as coisas, seria interessante saber algumas coisas como o que os dados contêm, como é, se tem valores nulos e etc. O Pandas tem 4 métodos principais para isso:

In [None]:
pkmn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   #           800 non-null    int64 
 1   Name        800 non-null    object
 2   Type 1      800 non-null    object
 3   Type 2      414 non-null    object
 4   Total       800 non-null    int64 
 5   HP          800 non-null    int64 
 6   Attack      800 non-null    int64 
 7   Defense     800 non-null    int64 
 8   Sp. Atk     800 non-null    int64 
 9   Sp. Def     800 non-null    int64 
 10  Speed       800 non-null    int64 
 11  Generation  800 non-null    int64 
 12  Legendary   800 non-null    bool  
dtypes: bool(1), int64(9), object(3)
memory usage: 75.9+ KB


A primeira coisa útil de fazer após ler um conjunto de dados em um *DataFrame* é utilizar o método *info()*. Ele mostra informações como:
 - a classe do objeto criado
 - o intervalo do índice e quantas linhas de dados se tem
 - as colunas, seus nomes e tipos de dado
 - quais os tipos de dados presentes no *DataFrame* e quantas colunas de cada
 - a quantidade de memória utilizada pelo computador para guardar esses dados

Podemos ver que temos uma base sobre Pokémon, com 800 linhas com índices númericos de 0 a 799, 13 colunas de três tipos de dados diferentes, usando cerca de ~76kB de memória RAM. As informações presentes sobre os Pokémons são o número, o nome, o tipo (alguns tem subtipo, mas não todos, por isso dos dados faltantes na coluna *Type 2*), estatísticas de ataque, defesa e velocidade, a geração e a indicação se ele é lendário (como uma espécie mística). <br> Todas essas informações a gente conseguiu descobrir com apenas uma linha de código! Vamos então ver como o *DataFrame* realmente é. Temos dois métodos para isso:

In [None]:
pkmn.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


In [None]:
pkmn.tail()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
795,719,Diancie,Rock,Fairy,600,50,100,150,100,150,50,6,True
796,719,DiancieMega Diancie,Rock,Fairy,700,50,160,110,160,110,110,6,True
797,720,HoopaHoopa Confined,Psychic,Ghost,600,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,680,80,160,60,170,130,80,6,True
799,721,Volcanion,Fire,Water,600,80,110,120,130,90,70,6,True


O método *.head()* e *.tail()* mostram, respectivamente, as primeiras e últimas n linhas do *DataFrame* (por padrão, n=5, mas você pode passar qualquer número como parâmetro) mostrando os índices e os nomes das colunas como numa tabela.

In [None]:
pkmn.describe()

Unnamed: 0,#,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,362.81375,435.1025,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375
std,208.343798,119.96304,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129
min,1.0,180.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0
25%,184.75,330.0,50.0,55.0,50.0,49.75,50.0,45.0,2.0
50%,364.5,450.0,65.0,75.0,70.0,65.0,70.0,65.0,3.0
75%,539.25,515.0,80.0,100.0,90.0,95.0,90.0,90.0,5.0
max,721.0,780.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0


Por fim, o método *.describe()* mostra um resumo estatístico de todas as colunas numéricas. É um método bom para ter uma ideia inicial sobre o que ocorre nas colunas de uma perspectiva estatística.

#### Exercício 3.3
Use o arquivo de jogadores do FIFA Ultimate Team para os exercícios de Pandas. Caso você não conheça, o Ultimate Team (FUT) é um modo de jogo do FIFA onde você monta seu próprio time comprando jogadores do jogo. <br>
Substitua os \____ abaixo para ler o arquivo e siga as instruções para ter as visualizações iniciais.

In [None]:
# leia o arquivo (tente abrir num editor de texto antes para verificar o separador)
fut_players = pd.read_csv(
    '/mydrive/dados/aula_1_fut_players.csv',
    sep=',')

# mostre as primeiras 10 linhas de dados
fut_players.head(n=10)

Unnamed: 0,player_id,player_name,player_extended_name,quality,revision,origin,overall,club,league,nationality,position,age,date_of_birth,height,weight,intl_rep,added_date,pace,pace_acceleration,pace_sprint_speed,dribbling,drib_agility,drib_balance,drib_reactions,drib_ball_control,drib_dribbling,drib_composure,shooting,shoot_positioning,shoot_finishing,shoot_shot_power,shoot_long_shots,shoot_volleys,shoot_penalties,passing,pass_vision,pass_crossing,pass_free_kick,pass_short,pass_long,...,def_interceptions,def_heading,def_marking,def_stand_tackle,def_slid_tackle,physicality,phys_jumping,phys_stamina,phys_strength,phys_aggression,gk_diving,gk_reflexes,gk_handling,gk_speed,gk_kicking,gk_positoning,pref_foot,att_workrate,def_workrate,weak_foot,skill_moves,cb,rb,lb,rwb,lwb,cdm,cm,rm,lm,cam,cf,rf,lf,rw,lw,st,traits,specialities,base_id
0,1,Pelé,Arantes Nascimento Edson,Gold - Rare,Icon,Prime,98,Icons,Icons,Brazil,CAM,78,23/10/1940,173,70,0,2018-09-19,95.0,95,95,96.0,94,93,98,97,96,98,96.0,97,98,94,94,95,93,93.0,97,90,89,96,88,...,67,94,55,53,49,76.0,88,86,76,59,,,,,,,Right,High,Med,4,5,70.0,77.0,77.0,79.0,79.0,77.0,91.0,95.0,95.0,96.0,96.0,96.0,96.0,96.0,96.0,95.0,Finesse Shot,"Speedster, Aerial Threat, Dribbler, Play Maker...",237067
1,2,Maradona,Diego Maradona,Gold - Rare,Icon,Prime,97,Icons,Icons,Argentina,CAM,58,30/10/1960,165,70,0,2018-09-19,92.0,94,90,97.0,91,98,94,97,98,95,93.0,92,97,85,94,88,94,92.0,95,88,96,93,89,...,44,67,27,42,37,76.0,82,78,75,76,,,,,,,Left,High,Med,3,5,57.0,66.0,66.0,71.0,71.0,69.0,88.0,93.0,93.0,95.0,94.0,94.0,94.0,94.0,94.0,90.0,"Avoids Using Weaker Foot, Finesse Shot, Flair,...","Speedster, Dribbler, Play Maker, Distance Shoo...",190042
2,3,Ronaldo,Nazário de Lima Ronaldo Luís,Gold - Rare,Icon,Prime,96,Icons,Icons,Brazil,ST,42,22/09/1976,183,78,0,2018-09-19,97.0,97,97,95.0,91,85,95,96,97,89,95.0,95,98,93,90,96,89,81.0,81,75,90,86,73,...,41,84,39,44,38,76.0,82,81,85,47,,,,,,,Right,Med,Med,5,5,60.0,67.0,67.0,70.0,70.0,66.0,83.0,90.0,90.0,91.0,94.0,94.0,94.0,92.0,92.0,94.0,"Tries To Beat Defensive Line, Finesse Shot","Speedster, Dribbler, Distance Shooter, FK Spec...",37576
3,4,Pelé,Arantes Nascimento Edson,Gold - Rare,Icon,Medium,95,Icons,Icons,Brazil,CF,78,23/10/1940,173,69,0,2018-09-19,96.0,95,96,95.0,96,95,95,95,94,95,93.0,94,95,90,91,93,91,90.0,93,88,88,91,87,...,64,89,51,49,45,75.0,89,87,74,57,,,,,,,Right,High,Med,4,5,66.0,74.0,74.0,77.0,77.0,74.0,88.0,93.0,93.0,93.0,94.0,94.0,94.0,94.0,94.0,92.0,Finesse Shot,"Speedster, Dribbler, Distance Shooter, Crosser...",237068
4,5,Maradona,Diego Maradona,Gold - Rare,Icon,Medium,95,Icons,Icons,Argentina,CAM,58,30/10/1960,165,72,0,2018-09-19,88.0,91,85,95.0,89,98,93,95,96,95,91.0,92,94,83,91,86,92,90.0,95,87,93,90,87,...,46,67,30,44,39,75.0,80,75,74,76,,,,,,,Left,High,Med,3,5,58.0,66.0,66.0,70.0,70.0,69.0,86.0,91.0,91.0,93.0,92.0,92.0,92.0,92.0,92.0,88.0,"Avoids Using Weaker Foot, Finesse Shot, Flair,...","Dribbler, Play Maker, Distance Shooter, Crosse...",237074
5,6,Maldini,Paolo Maldini,Gold - Rare,Icon,Prime,94,Icons,Icons,Italy,CB,50,26/06/1968,186,83,0,2018-09-19,86.0,85,86,69.0,65,69,95,74,61,95,56.0,39,57,73,38,65,54,75.0,69,76,31,87,79,...,96,93,95,97,96,83.0,84,81,85,79,,,,,,,Right,Med,High,4,2,92.0,89.0,89.0,87.0,87.0,88.0,76.0,73.0,73.0,70.0,68.0,68.0,68.0,69.0,69.0,70.0,Team Player,"Aerial Threat, Tackler, Tactician, Complete De...",238439
6,7,Ronaldo,Nazário de Lima Ronaldo Luís,Gold - Rare,Icon,Medium,94,Icons,Icons,Brazil,ST,42,22/09/1976,183,82,0,2018-09-19,93.0,94,93,93.0,87,81,94,94,95,91,93.0,96,96,91,89,90,90,80.0,84,72,90,84,72,...,43,81,39,46,38,80.0,81,79,89,58,,,,,,,Right,Med,Low,5,5,61.0,66.0,66.0,69.0,69.0,66.0,82.0,89.0,89.0,90.0,92.0,92.0,92.0,91.0,91.0,92.0,Finesse Shot,"Speedster, Dribbler, Distance Shooter, FK Spec...",237064
7,8,Yashin,Lev Yashin,Gold - Rare,Icon,Prime,94,Icons,Icons,Russia,GK,89,22/10/1929,189,82,0,2018-09-19,,65,53,,79,64,92,43,25,75,,32,15,36,23,23,46,,79,33,30,34,33,...,43,20,21,21,20,,87,45,77,61,95.0,96.0,89.0,65.0,75.0,95.0,Right,Med,Med,3,1,,,,,,,,,,,,,,,,,"Puncher, Team Player",,238380
8,9,Ronaldinho,de Assis Moreira Ronaldo,Gold - Rare,Icon,Prime,94,Icons,Icons,Brazil,LW,38,21/03/1980,180,78,0,2018-09-19,92.0,94,91,95.0,94,89,93,95,96,94,90.0,90,93,86,89,83,88,91.0,93,90,90,92,86,...,26,54,37,41,31,81.0,86,83,84,70,,,,,,,Right,High,Low,4,5,55.0,63.0,63.0,69.0,69.0,66.0,86.0,92.0,92.0,93.0,92.0,92.0,92.0,93.0,93.0,88.0,"Finesse Shot, Flair","Speedster, Dribbler, Distance Shooter, Crosser...",28130
9,10,Van Basten,Marco van Basten,Gold - Rare,Icon,Prime,93,Icons,Icons,Holland,ST,54,31/10/1964,188,78,0,2018-09-19,83.0,81,85,89.0,86,74,95,93,88,92,94.0,96,97,94,88,98,90,76.0,77,74,78,80,66,...,47,90,25,32,31,75.0,85,78,82,52,,,,,,,Right,Med,Med,4,3,56.0,62.0,62.0,65.0,65.0,62.0,79.0,85.0,85.0,86.0,90.0,90.0,90.0,87.0,87.0,92.0,"Finesse Shot, Team Player","Aerial Threat, Distance Shooter, Acrobat, Clin...",192181


In [None]:
# mostre as últimas 10 linhas de dados
fut_players.tail(n=10)

Unnamed: 0,player_id,player_name,player_extended_name,quality,revision,origin,overall,club,league,nationality,position,age,date_of_birth,height,weight,intl_rep,added_date,pace,pace_acceleration,pace_sprint_speed,dribbling,drib_agility,drib_balance,drib_reactions,drib_ball_control,drib_dribbling,drib_composure,shooting,shoot_positioning,shoot_finishing,shoot_shot_power,shoot_long_shots,shoot_volleys,shoot_penalties,passing,pass_vision,pass_crossing,pass_free_kick,pass_short,pass_long,...,def_interceptions,def_heading,def_marking,def_stand_tackle,def_slid_tackle,physicality,phys_jumping,phys_stamina,phys_strength,phys_aggression,gk_diving,gk_reflexes,gk_handling,gk_speed,gk_kicking,gk_positoning,pref_foot,att_workrate,def_workrate,weak_foot,skill_moves,cb,rb,lb,rwb,lwb,cdm,cm,rm,lm,cam,cf,rf,lf,rw,lw,st,traits,specialities,base_id
18821,19298,Angol,Lee Angol,Bronze - Rare,Normal,Transfers,63,Lincoln City,EFL League Two,England,ST,24,04/08/1994,188,75,1,2019-02-09,82.0,80,84,60.0,73,70,55,58,59,56,61.0,58,62,65,55,53,65,55.0,57,52,61,58,49,...,30,58,30,23,24,66.0,80,76,69,42,,,,,,,Right,Med,Low,3,3,42.0,47.0,47.0,49.0,49.0,45.0,54.0,61.0,61.0,60.0,61.0,61.0,61.0,61.0,61.0,62.0,"Finesse Shot, Flair",,210244
18822,19299,Mendoza Hansen,Kevin Ray Mendoza Hansen,Bronze,Normal,,55,AC Horsens,Superliga,Philippines,GK,24,29/09/1994,187,81,1,2019-02-09,,40,44,,32,55,48,24,12,37,,14,14,25,15,13,20,,18,13,15,30,24,...,20,14,21,15,13,,52,30,54,20,58.0,57.0,54.0,40.0,55.0,52.0,Right,Med,Med,2,1,,,,,,,,,,,,,,,,,,,215656
18823,19300,Piossek,Marcus Piossek,Silver,Normal,Transfers,66,SV Meppen,3. Liga,Poland,RM,29,21/07/1989,176,73,1,2019-02-09,71.0,69,72,66.0,74,75,67,65,65,63,64.0,63,62,71,65,57,49,60.0,64,60,41,64,59,...,56,52,46,45,49,70.0,72,82,65,66,,,,,,,Right,High,High,4,3,55.0,59.0,59.0,61.0,61.0,59.0,63.0,65.0,65.0,65.0,65.0,65.0,65.0,65.0,65.0,64.0,,,197148
18824,19301,Bingham,Rakish Bingham,Bronze,Normal,Transfers,62,Cheltenham Town,EFL League Two,England,ST,25,25/10/1993,180,75,1,2019-02-09,81.0,83,79,62.0,69,65,56,61,63,53,58.0,57,58,62,54,44,65,47.0,48,42,45,54,36,...,16,56,17,17,18,54.0,76,34,68,38,,,,,,,Right,High,Med,3,2,36.0,39.0,39.0,40.0,40.0,36.0,48.0,57.0,57.0,58.0,60.0,60.0,60.0,60.0,60.0,61.0,,,209462
18825,19302,Gibson,Jordan Gibson,Bronze,Normal,Transfers,51,Stevenage,EFL League Two,England,LM,20,28/02/1998,178,80,1,2019-02-09,66.0,69,64,55.0,62,67,45,55,54,44,51.0,44,55,60,36,37,54,39.0,40,44,34,40,30,...,16,37,20,27,26,38.0,42,33,42,32,,,,,,,Right,Med,Med,3,2,31.0,36.0,36.0,38.0,38.0,33.0,40.0,49.0,49.0,48.0,50.0,50.0,50.0,51.0,51.0,50.0,,,240813
18826,19303,Shala,Herolind Shala,Silver,Normal,,65,IK Start,Eliteserien,Norway,CM,27,01/02/1992,178,71,1,2019-02-09,75.0,74,75,71.0,80,81,62,72,69,68,62.0,61,63,66,60,62,44,61.0,69,54,41,65,58,...,56,42,40,54,57,59.0,62,65,51,71,,,,,,,Left,High,Low,3,3,55.0,59.0,59.0,61.0,61.0,59.0,64.0,66.0,66.0,67.0,66.0,66.0,66.0,67.0,67.0,63.0,Speed Dribbler (CPU AI Only),,205423
18827,19304,Boyer,Fabien Boyer,Silver,Normal,,65,Grenoble Foot 38,Domino’s Ligue 2,Madagascar,LB,27,12/04/1991,187,80,1,2019-02-09,67.0,67,67,45.0,57,44,62,56,32,52,30.0,48,22,46,26,25,46,51.0,29,61,33,58,64,...,64,65,60,66,68,74.0,67,71,75,78,,,,,,,Left,Med,Med,3,2,66.0,64.0,64.0,62.0,62.0,62.0,52.0,52.0,52.0,46.0,46.0,46.0,46.0,48.0,48.0,48.0,Injury Prone,,208832
18828,19305,Arias,Jafar Arias,Silver,Normal,,65,FC Emmen,Eredivisie,Curaçao,ST,23,16/06/1995,191,80,1,2019-02-09,62.0,55,67,58.0,43,52,59,58,62,54,65.0,60,67,72,62,52,51,45.0,50,31,34,57,32,...,18,66,25,23,26,70.0,62,60,83,53,,,,,,,Right,Med,Med,2,2,42.0,41.0,41.0,42.0,42.0,42.0,51.0,55.0,55.0,57.0,60.0,60.0,60.0,57.0,57.0,64.0,,,226122
18829,19306,Moses Ekpai,Ubong Moses Ekpai,Bronze,Normal,,62,Viktoria Plzeň,Česká Liga,Nigeria,RM,23,17/10/1995,176,75,1,2019-02-09,73.0,72,73,66.0,70,73,65,67,66,46,61.0,68,62,66,56,62,50,47.0,49,47,38,49,43,...,20,51,22,22,19,49.0,50,63,47,34,,,,,,,Right,Med,Med,3,2,35.0,43.0,43.0,45.0,45.0,40.0,53.0,61.0,61.0,60.0,63.0,63.0,63.0,62.0,62.0,62.0,,,244790
18830,19307,Diallo,Amadou Tidiane Diallo,Bronze,Normal,,60,Red Star FC,Domino’s Ligue 2,Guinea,LM,24,21/06/1994,178,77,1,2019-02-09,69.0,68,69,60.0,61,70,46,60,62,51,57.0,53,58,60,55,52,57,56.0,54,60,51,60,52,...,18,50,30,29,23,60.0,56,59,64,50,,,,,,,Left,Med,Med,3,2,39.0,43.0,43.0,46.0,46.0,43.0,53.0,59.0,59.0,58.0,58.0,58.0,58.0,59.0,59.0,57.0,,,233902


In [None]:
# use o método .info() no DataFrame
fut_players.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18831 entries, 0 to 18830
Data columns (total 82 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   player_id             18831 non-null  int64  
 1   player_name           18831 non-null  object 
 2   player_extended_name  18831 non-null  object 
 3   quality               18831 non-null  object 
 4   revision              18826 non-null  object 
 5   origin                2478 non-null   object 
 6   overall               18831 non-null  int64  
 7   club                  18831 non-null  object 
 8   league                18831 non-null  object 
 9   nationality           18831 non-null  object 
 10  position              18831 non-null  object 
 11  age                   18831 non-null  int64  
 12  date_of_birth         18831 non-null  object 
 13  height                18831 non-null  int64  
 14  weight                18831 non-null  int64  
 15  intl_rep           

In [None]:
# mostre o resumo estatístico das colunas numericas
fut_players.describe()

Unnamed: 0,player_id,overall,age,height,weight,intl_rep,pace,pace_acceleration,pace_sprint_speed,dribbling,drib_agility,drib_balance,drib_reactions,drib_ball_control,drib_dribbling,drib_composure,shooting,shoot_positioning,shoot_finishing,shoot_shot_power,shoot_long_shots,shoot_volleys,shoot_penalties,passing,pass_vision,pass_crossing,pass_free_kick,pass_short,pass_long,pass_curve,defending,def_interceptions,def_heading,def_marking,def_stand_tackle,def_slid_tackle,physicality,phys_jumping,phys_stamina,phys_strength,phys_aggression,gk_diving,gk_reflexes,gk_handling,gk_speed,gk_kicking,gk_positoning,weak_foot,skill_moves,cb,rb,lb,rwb,lwb,cdm,cm,rm,lm,cam,cf,rf,lf,rw,lw,st,base_id
count,18831.0,18831.0,18831.0,18831.0,18831.0,18831.0,16882.0,18831.0,18831.0,16882.0,18831.0,18831.0,18831.0,18831.0,18831.0,18831.0,16882.0,18831.0,18831.0,18831.0,18831.0,18831.0,18831.0,16882.0,18831.0,18831.0,18831.0,18831.0,18831.0,18831.0,16882.0,18831.0,18831.0,18831.0,18831.0,18831.0,16882.0,18831.0,18831.0,18831.0,18831.0,1949.0,1949.0,1949.0,1949.0,1949.0,1949.0,18831.0,18831.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,16882.0,18831.0
mean,9724.997663,68.200839,26.364027,181.413202,75.565929,1.172269,69.072859,65.947427,66.10658,64.32354,65.209389,64.701078,63.948861,60.706973,57.606659,61.0077,54.609762,52.403537,47.94748,57.820668,49.634804,45.260846,50.268971,59.218398,55.65132,51.859912,44.86894,60.836068,54.697095,49.541872,52.701339,48.017099,53.905156,48.4568,48.680792,46.355106,66.620187,66.398545,65.121502,66.888853,57.548032,67.14315,67.963571,64.546434,39.866598,62.835813,64.866085,3.00085,2.443205,57.291553,58.607392,58.607392,59.446511,59.446511,58.805355,60.659519,62.166746,62.166746,61.509774,61.252517,61.252517,61.252517,61.511314,61.511314,60.297832,209831.137114
std,5592.051018,8.143145,5.223632,6.778249,7.096437,0.587855,11.909037,15.120939,14.851889,10.906452,14.997386,14.413848,10.083633,17.202343,19.396738,12.149795,15.107605,20.409736,20.521042,17.939622,20.132526,18.924257,16.530383,11.419965,14.975552,19.014996,18.509768,15.18592,15.711925,19.351717,16.722049,21.057464,17.893621,20.033335,22.061622,21.769919,9.684565,12.212297,15.978211,12.436567,17.536713,8.661708,9.105203,8.618454,10.924167,8.381051,9.493704,0.680429,0.803174,12.034789,9.969701,9.969701,9.452841,9.452841,10.517244,9.682493,10.206237,10.206237,10.760257,10.901557,10.901557,10.901557,10.866396,10.866396,10.213289,31943.69155
min,1.0,47.0,17.0,155.0,50.0,0.0,24.0,13.0,12.0,24.0,14.0,16.0,30.0,5.0,4.0,3.0,15.0,2.0,2.0,2.0,3.0,4.0,5.0,24.0,10.0,5.0,4.0,7.0,9.0,6.0,15.0,5.0,4.0,3.0,2.0,3.0,30.0,15.0,12.0,24.0,10.0,45.0,45.0,44.0,13.0,34.0,38.0,1.0,1.0,26.0,29.0,29.0,30.0,30.0,29.0,31.0,28.0,28.0,27.0,27.0,27.0,27.0,26.0,26.0,31.0,16.0
25%,4846.5,63.0,23.0,177.0,70.0,1.0,62.0,58.0,58.0,58.0,57.0,56.0,57.0,56.0,51.0,53.0,44.0,41.0,32.0,48.0,35.0,31.0,40.0,52.0,46.0,40.0,31.0,55.0,45.0,36.0,38.0,27.0,45.5,31.0,28.0,25.0,61.0,59.0,59.0,60.0,46.0,61.0,62.0,59.0,32.0,57.0,59.0,3.0,2.0,47.0,52.0,52.0,53.0,53.0,51.0,54.0,56.0,56.0,55.0,54.0,54.0,54.0,55.0,55.0,53.0,194928.5
50%,9805.0,67.0,26.0,182.0,75.0,1.0,70.0,68.0,68.0,65.0,67.0,67.0,64.0,64.0,62.0,61.0,56.0,57.0,51.0,61.0,54.0,46.0,51.0,59.0,57.0,56.0,43.0,64.0,58.0,51.0,57.0,53.0,57.0,53.0,55.0,52.0,68.0,67.0,68.0,68.0,60.0,66.0,67.0,64.0,41.0,62.0,65.0,3.0,2.0,59.0,59.0,59.0,60.0,60.0,59.0,60.0,63.0,63.0,62.0,62.0,62.0,62.0,62.0,62.0,60.0,214860.0
75%,14581.5,73.0,29.0,186.0,80.0,1.0,77.0,76.0,76.0,71.0,76.0,75.0,70.0,71.0,70.0,69.0,65.0,67.0,64.0,70.0,65.0,59.0,62.0,67.0,66.0,66.0,59.0,70.0,66.0,64.0,65.0,65.0,66.0,65.0,67.0,64.0,73.0,75.0,76.0,75.0,71.0,72.0,74.0,69.0,48.0,68.0,70.0,3.0,3.0,66.0,65.0,65.0,66.0,66.0,66.0,67.0,68.0,68.0,68.0,68.0,68.0,68.0,68.0,68.0,67.0,232590.5
max,19307.0,99.0,89.0,205.0,110.0,5.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,98.0,99.0,99.0,99.0,99.0,98.0,97.0,99.0,99.0,99.0,99.0,97.0,98.0,93.0,75.0,95.0,95.0,5.0,5.0,97.0,95.0,95.0,96.0,96.0,97.0,98.0,97.0,97.0,98.0,98.0,98.0,98.0,97.0,97.0,98.0,245714.0


### 3.4 Filtrando (*Filtering*) e fatiando (*slicing*) os dados

*Filtering* e *slicing* são técnicas utilizadas para isolar partes específicas do *DataFrame*, sejam linhas, colunas ou células. Isso é muito útil pois diversas vezes queremos analisar alguns dados ao invés da base inteira. O Pandas tem ferramentas próprias para isso. <br>

#### 3.4.1 *Slicing*

No Pandas existem duas principais formas de fatiar os dados, isto é, selecionar apenas uma parte de acordo com as linhas e colunas do *DataFrame*: utilizando o nome das partes ou com os métodos *.loc()* e *.iloc()*. Vamos começar pelo primeiro. Para fazer isso, imagine que queremos apenas os nomes e o poder de ataque dos Pokémons e veja o exemplo:

In [None]:
pkmn[['Name','Attack']].head(7)

Unnamed: 0,Name,Attack
0,Bulbasaur,49
1,Ivysaur,62
2,Venusaur,82
3,VenusaurMega Venusaur,100
4,Charmander,52
5,Charmeleon,64
6,Charizard,84


Duas coisas importantes aqui:
 - Juntamos o *slicing* com o método *.head()* na mesma linha, para que fosse possível ver o resultado do fatiamento. Ao usar o Pandas é possível e comum fazer esse tipo de agrupamento de operações.
 - Foram utilizadas chaves duplas [[]] no fatiamento. Ao fazer isso, estou explicitando que quero um objeto do tipo *DataFrame*. Se eu quisesse objetos do tipo *Series* usaria chaves simples. Podemos ver um exemplo disso abaixo:

In [None]:
type(pkmn[['Name']])

pandas.core.frame.DataFrame

In [None]:
type(pkmn['Name'])

pandas.core.series.Series

Outra forma de se obter um objeto do tipo *Series* é passando a coluna como se fosse um atributo do *DataFrame*:

In [None]:
pkmn.Name

0                  Bulbasaur
1                    Ivysaur
2                   Venusaur
3      VenusaurMega Venusaur
4                 Charmander
               ...          
795                  Diancie
796      DiancieMega Diancie
797      HoopaHoopa Confined
798       HoopaHoopa Unbound
799                Volcanion
Name: Name, Length: 800, dtype: object

O único problema desse formato é que colunas cujo nome contém espaços não funcionarão, como é o caso das colunas *Type 1*, *Type 2*, *Sp. Atk* e *Sp. Def*. Para resolver isso, vamos renomeá-las com o método *.rename()*.

In [None]:
pkmn.rename(
    columns={'Type 1':'Type_1', 'Type 2':'Type_2', 'Sp. Atk':'Sp_Atk','Sp. Def':'Sp_Def'}, #passando o nome antigo e novo como um dicionário
    inplace = True #algumas operações com Pandas criam uma cópia do DataFrame e não alteram o objeto em si, alteramos isso mudando o parâmetro inplace para verdadeiro
)

In [None]:
pkmn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   #           800 non-null    int64 
 1   Name        800 non-null    object
 2   Type_1      800 non-null    object
 3   Type_2      414 non-null    object
 4   Total       800 non-null    int64 
 5   HP          800 non-null    int64 
 6   Attack      800 non-null    int64 
 7   Defense     800 non-null    int64 
 8   Sp_Atk      800 non-null    int64 
 9   Sp_Def      800 non-null    int64 
 10  Speed       800 non-null    int64 
 11  Generation  800 non-null    int64 
 12  Legendary   800 non-null    bool  
dtypes: bool(1), int64(9), object(3)
memory usage: 75.9+ KB


Agora que os nomes foram trocados, podemos obter um objeto *Series* do tipo do Pokémon como a seguir:

In [None]:
pkmn.Type_1

0        Grass
1        Grass
2        Grass
3        Grass
4         Fire
        ...   
795       Rock
796       Rock
797    Psychic
798    Psychic
799       Fire
Name: Type_1, Length: 800, dtype: object

Outra forma de selecionar partes dos dados é usando os métodos *.loc()* e *.iloc()*.<br>
Para usar a localização númerica utilizamos o *iloc*. Como você pode imaginar, a linhas e colunas são ordenadas por números inteiros sequenciais, começando do 0, como nas listas. Dessa forma, se você sabe o número da linha e da coluna, você pode usar o *iloc*. Por exemplo, se quisermos a coluna HP, que é a 6ª, poderíamos fazer o seguinte:

In [None]:
pkmn.iloc[:,5].head()

0    45
1    60
2    80
3    80
4    39
Name: HP, dtype: int64

A sintaxe do *iloc* é como [x,y], que significa que queremos a (x+1)ª linha e (y+1)ª coluna. Se utilizarmos ':' no lugar de x ou y significa que queremos a coluna ou linha completa, respectivamente. Vamos pegar o HP do Bulbasaur, o primeiro Pokémon do nosso *DataFrame*:

In [None]:
print("O HP do Bulbasaur é "+str(pkmn.iloc[0,5]))

O HP do Bulbasaur é 45


O método *.loc()* usa o rótulo para acessar os valores. Dessa forma, ao invés de passarmos as coordenadas numéricas, passamos o nome da linha e da coluna, como a seguir:

In [None]:
pkmn.loc[0, :]

#                     1
Name          Bulbasaur
Type_1            Grass
Type_2           Poison
Total               318
HP                   45
Attack               49
Defense              49
Sp_Atk               65
Sp_Def               65
Speed                45
Generation            1
Legendary         False
Name: 0, dtype: object

No caso, os rótulos das linhas são iguais às suas coordenadas, por isso ficou parecido com o *iloc*. Vamos fazer o teste com as colunas também para ver a diferença. Abaixo pegaremos novamente o HP do Bulbasaur:

In [None]:
print("O HP do Bulbasaur é "+str(pkmn.loc[0,'HP']))

O HP do Bulbasaur é 45


#### 3.4.2 Filtros (*Filtering*)

Uma vez sabendo isolar partes do *DataFrame* de acordo com a localização dos dados, podemos partir para isolar de acordo com condições, ou seja, filtrar os dados.
Para conseguir fazer isso no Pandas, fazemos o seguinte: passamos uma expressão condicional e o Pandas retorna apenas as partes que teriam a condição como verdade. Para testar isso, vamos ver a defesa média de todas os Pokémons e depois ver se os tipos 'Rock' e 'Steel' tem defesas maiores:

In [None]:
pkmn.Defense.mean() #note que operações comuns como média (mean), mediana (median) e soma (sum) são métodos do Pandas

73.8425

In [None]:
pkmn.loc[pkmn.Type_1=='Rock'].Defense.mean()

100.79545454545455

In [None]:
pkmn[pkmn.Type_1=='Steel'].Defense.mean()

126.37037037037037

De fato, parece que os tipos selecionados tem média acima dos demais Pokémons. Para verificar isso, passamos a condição pkmn.Type_1=='Steel' entre chaves, o que retorna apenas as linhas de tal tipo. Com isso, selecionamos apenas a coluna de defesa e calculamos a média. <br>
Vamos ver agora os Pokémons com defesa maior que 150, cujo tipo principal não é 'Rock' nem 'Steel':

In [None]:
pkmn[(pkmn.Defense > 150)&(pkmn.Type_1!='Rock')&(pkmn.Type_1!='Steel')]

Unnamed: 0,#,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,Legendary
87,80,SlowbroMega Slowbro,Water,Psychic,590,95,75,180,130,80,30,1,False
98,91,Cloyster,Water,Ice,525,50,95,180,85,45,70,1,False
230,213,Shuckle,Bug,Rock,505,20,10,230,10,230,5,2,False
424,383,GroudonPrimal Groudon,Ground,Fire,770,100,180,160,150,90,90,3,True
430,386,DeoxysDefense Forme,Psychic,,600,50,70,160,70,160,90,3,True
789,713,Avalugg,Ice,,514,95,117,184,44,46,28,6,False


Podemos ver acima que é possível juntar condições com os operadores E (&) e OU (|), como vimos no inicio da aula.<br>
Vamos dizer agora que você quer apenas alguns Pokémons em específico, por exemplo Venusaur, Charizard e Blastoise. Criar uma condição para cada e uní-las com o operador & pode ser difícil, ainda mais se for uma quantidade grande de opções. Podemos facilitar isso passando uma tupla ao método *.isin()*, como abaixo:

In [None]:
aux = ('Venusaur', 'Charizard', 'Blastoise')
pkmn[pkmn.Name.isin(aux)]

Unnamed: 0,#,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,Legendary
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
6,6,Charizard,Fire,Flying,534,78,84,78,109,85,100,1,False
11,9,Blastoise,Water,,530,79,83,100,85,105,78,1,False


Finalmente, podemos criar novos *DataFrames* de um já existente selecionando apenas algumas linhas ou colunas dele:

In [None]:
offensive_stats = pkmn[['#','Name','Attack','Sp_Atk','Speed']] #selecionando apenas estatísticas ofensivas
defensive_stats = pkmn[['#','Name', 'HP','Defense','Sp_Def']] #selecionando apenas estatísticas defensivas

In [None]:
offensive_stats.head()

Unnamed: 0,#,Name,Attack,Sp_Atk,Speed
0,1,Bulbasaur,49,65,45
1,2,Ivysaur,62,80,60
2,3,Venusaur,82,100,80
3,3,VenusaurMega Venusaur,100,122,80
4,4,Charmander,52,60,65


In [None]:
defensive_stats.head()

Unnamed: 0,#,Name,HP,Defense,Sp_Def
0,1,Bulbasaur,45,49,65
1,2,Ivysaur,60,63,80
2,3,Venusaur,80,83,100
3,3,VenusaurMega Venusaur,80,123,120
4,4,Charmander,39,43,50


In [None]:
fire_pkmn = pkmn[(pkmn.Type_1=='Fire')|(pkmn.Type_2=='Fire')] #filtrando apenas linhas com algumas condições
fire_pkmn.head()

Unnamed: 0,#,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,Legendary
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,405,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,534,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,634,78,130,111,130,85,100,1,False
8,6,CharizardMega Charizard Y,Fire,Flying,634,78,104,78,159,115,100,1,False


In [None]:
water_pkmn = pkmn[(pkmn.Type_1=='Water')|(pkmn.Type_2=='Water')] #filtrando apenas linhas com algumas condições
water_pkmn.head()

Unnamed: 0,#,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,Legendary
9,7,Squirtle,Water,,314,44,48,65,50,64,43,1,False
10,8,Wartortle,Water,,405,59,63,80,65,80,58,1,False
11,9,Blastoise,Water,,530,79,83,100,85,105,78,1,False
12,9,BlastoiseMega Blastoise,Water,,630,79,103,120,135,115,78,1,False
59,54,Psyduck,Water,,320,50,52,48,65,50,55,1,False


#### Exercício 3.4
Siga as instruções e substitua os \____ para exercitar o que aprendemos.

In [None]:
# mostre as 5 primeiras linhas das colunas player_name, position and nationality
fut_players[['player_name','position','nationality']].head()

Unnamed: 0,player_name,position,nationality
0,Pelé,CAM,Brazil
1,Maradona,CAM,Argentina
2,Ronaldo,ST,Brazil
3,Pelé,CF,Brazil
4,Maradona,CAM,Argentina


In [None]:
#renomeie as colunas player_id, player_name and player_extended_name para id, name and extended_name, respectivamente
fut_players.rename(
    columns={'player_id':'id', 'player_name': 'name', 'player_extended_name': 'extended_name'},
    inplace=True
)

fut_players.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18831 entries, 0 to 18830
Data columns (total 82 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 18831 non-null  int64  
 1   name               18831 non-null  object 
 2   extended_name      18831 non-null  object 
 3   quality            18831 non-null  object 
 4   revision           18826 non-null  object 
 5   origin             2478 non-null   object 
 6   overall            18831 non-null  int64  
 7   club               18831 non-null  object 
 8   league             18831 non-null  object 
 9   nationality        18831 non-null  object 
 10  position           18831 non-null  object 
 11  age                18831 non-null  int64  
 12  date_of_birth      18831 non-null  object 
 13  height             18831 non-null  int64  
 14  weight             18831 non-null  int64  
 15  intl_rep           18831 non-null  int64  
 16  added_date         188

In [None]:
#imprima a coluna extended_name do 4534º jogador usando loc e iloc
print(fut_players.iloc[4533,2])
print(fut_players.loc[4533,'extended_name'])

Sandro Sirigu
Sandro Sirigu


In [None]:
#nosso DataFrame tem muitas colunas
#crie outro DataFrame (fut_players_2) apenas com as colunas na lista abaixo
selected_columns = ['id', 'name', 'overall', 'nationality', 'position', 'pref_foot', 'base_id']

fut_players_2 = fut_players[selected_columns]

fut_players_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18831 entries, 0 to 18830
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           18831 non-null  int64 
 1   name         18831 non-null  object
 2   overall      18831 non-null  int64 
 3   nationality  18831 non-null  object
 4   position     18831 non-null  object
 5   pref_foot    18831 non-null  object
 6   base_id      18831 non-null  int64 
dtypes: int64(3), object(4)
memory usage: 1.0+ MB


In [None]:
#queremos ver os melhores jogadores nascidos no Brasil (Brazil), isto é, aqueles com médio (overall) acima de 90
#mostre os 15 primeiros
aux_1 = fut_players_2[(fut_players.overall > 90)&(fut_players.nationality=='Brazil')] #.drop_duplicates(subset=['name']) Para retirar elementos repetidos
aux_1.head(n=15)

Unnamed: 0,id,name,overall,nationality,position,pref_foot,base_id
0,1,Pelé,98,Brazil,CAM,Right,237067
2,3,Ronaldo,96,Brazil,ST,Right,37576
3,4,Pelé,95,Brazil,CF,Right,237068
6,7,Ronaldo,94,Brazil,ST,Right,237064
8,9,Ronaldinho,94,Brazil,LW,Right,28130
37,38,Ronaldinho,91,Brazil,CAM,Right,238395
48,49,Pelé,91,Brazil,CF,Right,190043
51,52,Carlos,91,Brazil,LB,Left,238430
826,846,Neymar Jr,92,Brazil,LW,Right,190871
12632,13091,Rivaldo,92,Brazil,LW,Left,4231


In [None]:
#vários jogadores bons!
#agora mostre os jogadores brasileiros que sejam canhotos (pref_foot é Left) ou que sejam goleiros (position é GK)
aux_2 = fut_players_2[(fut_players.nationality=='Brazil')&(fut_players.pref_foot=='Left')&(fut_players.position=='GK')]
aux_2.head(20)

Unnamed: 0,id,name,overall,nationality,position,pref_foot,base_id
292,298,Ederson,87,Brazil,GK,Left,210257
296,302,Ederson,86,Brazil,GK,Left,210257
3278,3374,Rafael,75,Brazil,GK,Left,140082
14966,15425,Daniel Fuzato,66,Brazil,GK,Left,244363
16566,17030,Daniel Fuzato,66,Brazil,GK,Left,244363


### 3.4 Juntando DataFrames

É muito comum ter a necessidade de juntar *DataFrames* diferentes. Se você já utilizou SQL ou qualquer outro banco de dados relacional, deve conhecer isso como *join*. O Pandas também tem a mesma função utilizando o método *.merge()*. Antes do exemplo, vamos relembrar os tipos de *joins* mais comuns:<br>
![Joining Methods](https://arquivo.devmedia.com.br/artigos/Fernanda_sallai/sql_join/image001.jpg) <br>
Agora, vamos testar os *merge* nos *DataFrames* filtrados que criamos anteriormente:

In [None]:
all_stats = pd.merge(
    offensive_stats, #o DataDrame da esquerda
    defensive_stats, #o DataDrame da direita
    how='inner', #o tipo de join que queremos fazer
    on=['#','Name']) #baseado em quais valores em comum
all_stats.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 800 entries, 0 to 799
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   #        800 non-null    int64 
 1   Name     800 non-null    object
 2   Attack   800 non-null    int64 
 3   Sp_Atk   800 non-null    int64 
 4   Speed    800 non-null    int64 
 5   HP       800 non-null    int64 
 6   Defense  800 non-null    int64 
 7   Sp_Def   800 non-null    int64 
dtypes: int64(7), object(1)
memory usage: 56.2+ KB


Ótimo! Conseguimos fazer o *merge* (termo mais utilizado no Pandas) de dois *DataDrames*. Lembre-se que *inner*, *left*, *right* e *outer* terão resultados diferentes:

In [None]:
fire_pkmn.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 64 entries, 4 to 799
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   #           64 non-null     int64 
 1   Name        64 non-null     object
 2   Type_1      64 non-null     object
 3   Type_2      36 non-null     object
 4   Total       64 non-null     int64 
 5   HP          64 non-null     int64 
 6   Attack      64 non-null     int64 
 7   Defense     64 non-null     int64 
 8   Sp_Atk      64 non-null     int64 
 9   Sp_Def      64 non-null     int64 
 10  Speed       64 non-null     int64 
 11  Generation  64 non-null     int64 
 12  Legendary   64 non-null     bool  
dtypes: bool(1), int64(9), object(3)
memory usage: 6.6+ KB


In [None]:
water_pkmn.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 126 entries, 9 to 799
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   #           126 non-null    int64 
 1   Name        126 non-null    object
 2   Type_1      126 non-null    object
 3   Type_2      67 non-null     object
 4   Total       126 non-null    int64 
 5   HP          126 non-null    int64 
 6   Attack      126 non-null    int64 
 7   Defense     126 non-null    int64 
 8   Sp_Atk      126 non-null    int64 
 9   Sp_Def      126 non-null    int64 
 10  Speed       126 non-null    int64 
 11  Generation  126 non-null    int64 
 12  Legendary   126 non-null    bool  
dtypes: bool(1), int64(9), object(3)
memory usage: 12.9+ KB


In [None]:
left_fire_water = pd.merge(fire_pkmn, water_pkmn, how='left', on=['#','Name'])
left_fire_water.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 64 entries, 0 to 63
Data columns (total 24 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   #             64 non-null     int64  
 1   Name          64 non-null     object 
 2   Type_1_x      64 non-null     object 
 3   Type_2_x      36 non-null     object 
 4   Total_x       64 non-null     int64  
 5   HP_x          64 non-null     int64  
 6   Attack_x      64 non-null     int64  
 7   Defense_x     64 non-null     int64  
 8   Sp_Atk_x      64 non-null     int64  
 9   Sp_Def_x      64 non-null     int64  
 10  Speed_x       64 non-null     int64  
 11  Generation_x  64 non-null     int64  
 12  Legendary_x   64 non-null     bool   
 13  Type_1_y      1 non-null      object 
 14  Type_2_y      1 non-null      object 
 15  Total_y       1 non-null      float64
 16  HP_y          1 non-null      float64
 17  Attack_y      1 non-null      float64
 18  Defense_y     1 non-null      fl

In [None]:
right_fire_water = pd.merge(fire_pkmn, water_pkmn, how='right', on=['#','Name'])
right_fire_water.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 126 entries, 0 to 125
Data columns (total 24 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   #             126 non-null    int64  
 1   Name          126 non-null    object 
 2   Type_1_x      1 non-null      object 
 3   Type_2_x      1 non-null      object 
 4   Total_x       1 non-null      float64
 5   HP_x          1 non-null      float64
 6   Attack_x      1 non-null      float64
 7   Defense_x     1 non-null      float64
 8   Sp_Atk_x      1 non-null      float64
 9   Sp_Def_x      1 non-null      float64
 10  Speed_x       1 non-null      float64
 11  Generation_x  1 non-null      float64
 12  Legendary_x   1 non-null      object 
 13  Type_1_y      126 non-null    object 
 14  Type_2_y      67 non-null     object 
 15  Total_y       126 non-null    int64  
 16  HP_y          126 non-null    int64  
 17  Attack_y      126 non-null    int64  
 18  Defense_y     126 non-null    

In [None]:
inner_fire_water = pd.merge(fire_pkmn, water_pkmn, how='inner', on=['#','Name'])
inner_fire_water.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1 entries, 0 to 0
Data columns (total 24 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   #             1 non-null      int64 
 1   Name          1 non-null      object
 2   Type_1_x      1 non-null      object
 3   Type_2_x      1 non-null      object
 4   Total_x       1 non-null      int64 
 5   HP_x          1 non-null      int64 
 6   Attack_x      1 non-null      int64 
 7   Defense_x     1 non-null      int64 
 8   Sp_Atk_x      1 non-null      int64 
 9   Sp_Def_x      1 non-null      int64 
 10  Speed_x       1 non-null      int64 
 11  Generation_x  1 non-null      int64 
 12  Legendary_x   1 non-null      bool  
 13  Type_1_y      1 non-null      object
 14  Type_2_y      1 non-null      object
 15  Total_y       1 non-null      int64 
 16  HP_y          1 non-null      int64 
 17  Attack_y      1 non-null      int64 
 18  Defense_y     1 non-null      int64 
 19  Sp_Atk_y    

Como podemos ver, os resultados são de fato bem diferentes.<br>
Podemos também querer apenas concatenar dois *DataDrames*, isto é, juntá-los colocando um abaixo ou ao lado do outro. Para isso, utilizamos o método *.concat()*:

In [None]:
fire_and_water = pd.concat([fire_pkmn, water_pkmn], ignore_index=True)
fire_and_water.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 190 entries, 0 to 189
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   #           190 non-null    int64 
 1   Name        190 non-null    object
 2   Type_1      190 non-null    object
 3   Type_2      103 non-null    object
 4   Total       190 non-null    int64 
 5   HP          190 non-null    int64 
 6   Attack      190 non-null    int64 
 7   Defense     190 non-null    int64 
 8   Sp_Atk      190 non-null    int64 
 9   Sp_Def      190 non-null    int64 
 10  Speed       190 non-null    int64 
 11  Generation  190 non-null    int64 
 12  Legendary   190 non-null    bool  
dtypes: bool(1), int64(9), object(3)
memory usage: 18.1+ KB


Acima fizemos a concatenação vertical. Vamos fazer a horizontal abaixo:

In [None]:
atk_and_defense = pd.concat([offensive_stats, defensive_stats], axis=1)
atk_and_defense.head()

Unnamed: 0,#,Name,Attack,Sp_Atk,Speed,#.1,Name.1,HP,Defense,Sp_Def
0,1,Bulbasaur,49,65,45,1,Bulbasaur,45,49,65
1,2,Ivysaur,62,80,60,2,Ivysaur,60,63,80
2,3,Venusaur,82,100,80,3,Venusaur,80,83,100
3,3,VenusaurMega Venusaur,100,122,80,3,VenusaurMega Venusaur,80,123,120
4,4,Charmander,52,60,65,4,Charmander,39,43,50


#### Exercício 3.5
Mais uma vez, substitua os \____ de acordo com as instruções

In [None]:
#the_best é um DataDrame dos melhores jogadores em drible (dribbling) e chute (shooting)
the_best = fut_players[(fut_players.dribbling > 90) & (fut_players.shooting > 90)][['id', 'name', 'position', 'dribbling', 'shooting', 'overall']]

#nationalities é um DataDrame da nacionalidade dos jogadores
nationalities = fut_players[['id', 'name', 'nationality']]

#faça um merge dos dois DataDrames para obter a nacionalidade dos melhores jogadores (dica: chave é o id)
the_best_nationality = pd.merge(
                        the_best, 
                        nationalities, 
                        how='inner', 
                        on=['id']) 

the_best_nationality.head()

Unnamed: 0,id,name_x,position,dribbling,shooting,overall,name_y,nationality
0,1,Pelé,CAM,96.0,96.0,98,Pelé,Brazil
1,2,Maradona,CAM,97.0,93.0,97,Maradona,Argentina
2,3,Ronaldo,ST,95.0,95.0,96,Ronaldo,Brazil
3,4,Pelé,CF,95.0,93.0,95,Pelé,Brazil
4,5,Maradona,CAM,95.0,91.0,95,Maradona,Argentina


### 3.5 Operações em grupo

Com Pandas nós podemos aplicar operações em grupos usando o método *.groupby()*. Ele é muito útil por ser uma forma bem simples de extrair informação de dados agregados. Para utilizá-lo, passamos as colunas nas quais queremos agrupar os dados e a operação que queremos fazer. Para exemplificar, vamos ver quantos Pokémons lendários cada geração tem:

In [None]:
pkmn.groupby('Generation').Legendary.sum() #fazendo uma soma pois a coluna Legendary é boolean

Generation
1     6
2     5
3    18
4    13
5    15
6     8
Name: Legendary, dtype: int64

Podemos obter um relatório da média de diversas colunas para cada tipo de Pokémon:

In [None]:
pkmn.groupby('Type_1')[['HP','Attack','Defense','Sp_Atk','Sp_Def','Speed']].mean()

Unnamed: 0_level_0,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed
Type_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Bug,56.884058,70.971014,70.724638,53.869565,64.797101,61.681159
Dark,66.806452,88.387097,70.225806,74.645161,69.516129,76.16129
Dragon,83.3125,112.125,86.375,96.84375,88.84375,83.03125
Electric,59.795455,69.090909,66.295455,90.022727,73.704545,84.5
Fairy,74.117647,61.529412,65.705882,78.529412,84.705882,48.588235
Fighting,69.851852,96.777778,65.925926,53.111111,64.703704,66.074074
Fire,69.903846,84.769231,67.769231,88.980769,72.211538,74.442308
Flying,70.75,78.75,66.25,94.25,72.5,102.5
Ghost,64.4375,73.78125,81.1875,79.34375,76.46875,64.34375
Grass,67.271429,73.214286,70.8,77.5,70.428571,61.928571


Isso é realmente muito importante e extremamente utilizado com pandas pois conseguimos fazer análises dos grupos com apenas uma linha de código. Podemos perceber, por exemplo, que Pokémons do tipo *Flying* são especialistas em velocidade enquanto *Dragon* e *Fighting* são especialistas em ataque.

#### Exercício 3.6
Use o método *.groupby()* para descobrir qual país tem o melhor *overall* médio.

In [None]:
#cria o DataDrame country_avg_overall, que tem o overall médio de cada país (nationality), usando groupby
country_avg_overall = fut_players.groupby('nationality').overall.mean()

#usamos o método idxmax() para encontrar o maior overall médio
print("Melhor overall médio: \n", country_avg_overall.loc[country_avg_overall.idxmax()])
print("Overall médio do Brasil: ", country_avg_overall.loc["Brazil"])

Melhor overall médio: 
 79.0
Overall médio do Brasil:  75.21915584415585


### 3.6 Aplicando funções no Pandas

Com Pandas, nós temos um grande nível de controle de nossos dados, e somos capazes de transformá-los conforme queiramos. Nós podemos, até mesmo, executar funções em DataFrames e manipulá-lo como quisermos. Vamos revisitar o método head():

In [None]:
pkmn.head(13)

Unnamed: 0,#,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,405,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,534,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,634,78,130,111,130,85,100,1,False
8,6,CharizardMega Charizard Y,Fire,Flying,634,78,104,78,159,115,100,1,False
9,7,Squirtle,Water,,314,44,48,65,50,64,43,1,False


Existem algumas mega evoluções misturadas no dataset. Não seria legal se nós tivéssemos alguma flag que nos diria se um pokémon é mega ou não? E, por um acaso, será que os pokémons mega são mais poderosos?

Você deve ter percebido que evoluções mega têm um padrão em nosso DataFrame, algo como 'PokemonMega Pokemon'. Se nós tivermos esse padrão, podemos construir uma função que retorna True is este padrão for detectado:

In [None]:
def is_it_mega(pokemon_name):
    """
    Recebe um nome de pokemon e diz se é uma mega evolução ou não
    I: string pokemon_name
    O: boolean para Mega evos
    """
    if 'Mega ' in pokemon_name: #é importante usar 'Mega ' e não 'mega', pois há um pokemon chamado called Yanmega e outro chamado Meganium que não são uma mega evolução
        return True
    else:
        return False

Vamos ver se funciona:

In [None]:
is_it_mega('VenusaurMega Venusaur')

True

In [None]:
is_it_mega('Squirtle')

False

Excelente! Seria ótimo se conseguíssemos aplicar essa função em todo nosso DataFrame. Para fazer isso, usaremos o método .apply(). Também criaremos uma coluna que é uma flag se o pokémon é mega:

In [None]:
pkmn['Mega'] = pkmn.apply(
    lambda row: is_it_mega(row['Name']), #chamando uma função lambda que acabamos de construir
    axis=1 #qual direção queremos executar a função. 0 para horizontal, 1 para vertical
)

In [None]:
pkmn.head()

Unnamed: 0,#,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,Legendary,Mega
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False,True
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False,False


Agora, vamos verificar quão poderosos são os pokémons mega:

In [None]:
pkmn.groupby('Mega').Total.mean()

Mega
False    423.457447
True     617.541667
Name: Total, dtype: float64

Uau! Eles têm quase 200 stat points a mais que pokémons normais! Evoluções mega são, sim, muito poderosos! Uma boa prática é sempre tentar manter nosso DataFrame organizado. A forma como os pokémons mega estão nomeados não é muito ótima, e nós já temos uma coluna com a flag para pokémons Mega, então, vamos atacar isso! A estrutura do nome de um pokémon mega é da seguinte forma: 'NomeMega Nome'. Portanto, se nós pegarmos o que vem após o caractere ' ', teremos o nome original do pokémon!

In [None]:
pkmn.Name.nunique() #numero de elementos unicos na coluna

800

In [None]:
def get_original_name(s):
    """
    Recebe um nome de pokemon e retorna seu nome original
    I: s string
    O: string
    """
    return s.split(' ')[-1]

pkmn['Name'] = pkmn.Name.apply(lambda s: get_original_name(s)) #sobreescrevendo a coluna Name
pkmn.Name.nunique()

715

In [None]:
pkmn.head()

Unnamed: 0,#,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,Legendary,Mega
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False,False
3,3,Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False,True
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False,False


Parece que conseguimos limpar o nome deles! Agora nós cobrimos toda a parte básica de Pandas! Mas vamos a um exercício final.

#### Exercício 3.7
Crie uma função que retorna a classificação para o jogador de acordo com as instruções abaixo, então aplique isso para o dataframe fut_players.

In [None]:
def get_classification(overall):
    """
    Recebe um overall de algum jogador e retorna a classificação conforme a seguir:
    Overall -> classification
    -50     -> "Amador"
    50-60   -> "Ruim"
    60-70   -> "Ok"
    70-80   -> "Bom"
    80-90   -> "Ótimo"
    90+     -> "Lenda"
    
    I: int overall
    O: string
    """
    if overall < 50:
      return "Amador"
    elif (overall >= 50)&(overall < 60):
      return "Ruim"
    elif (overall >= 60)&(overall < 70):
      return "Ok"
    elif (overall >= 70)&(overall < 80):
      return "Bom"
    elif (overall >= 80)&(overall < 90):
      return "Ótimo"
    else:
      return "Lenda"
    
fut_players["classification"] = fut_players.apply(
    lambda row: get_classification(int(row['overall'])), 
    axis=1)
fut_players.head()

Unnamed: 0,id,name,extended_name,quality,revision,origin,overall,club,league,nationality,position,age,date_of_birth,height,weight,intl_rep,added_date,pace,pace_acceleration,pace_sprint_speed,dribbling,drib_agility,drib_balance,drib_reactions,drib_ball_control,drib_dribbling,drib_composure,shooting,shoot_positioning,shoot_finishing,shoot_shot_power,shoot_long_shots,shoot_volleys,shoot_penalties,passing,pass_vision,pass_crossing,pass_free_kick,pass_short,pass_long,...,def_heading,def_marking,def_stand_tackle,def_slid_tackle,physicality,phys_jumping,phys_stamina,phys_strength,phys_aggression,gk_diving,gk_reflexes,gk_handling,gk_speed,gk_kicking,gk_positoning,pref_foot,att_workrate,def_workrate,weak_foot,skill_moves,cb,rb,lb,rwb,lwb,cdm,cm,rm,lm,cam,cf,rf,lf,rw,lw,st,traits,specialities,base_id,classification
0,1,Pelé,Arantes Nascimento Edson,Gold - Rare,Icon,Prime,98,Icons,Icons,Brazil,CAM,78,23/10/1940,173,70,0,2018-09-19,95.0,95,95,96.0,94,93,98,97,96,98,96.0,97,98,94,94,95,93,93.0,97,90,89,96,88,...,94,55,53,49,76.0,88,86,76,59,,,,,,,Right,High,Med,4,5,70.0,77.0,77.0,79.0,79.0,77.0,91.0,95.0,95.0,96.0,96.0,96.0,96.0,96.0,96.0,95.0,Finesse Shot,"Speedster, Aerial Threat, Dribbler, Play Maker...",237067,Lenda
1,2,Maradona,Diego Maradona,Gold - Rare,Icon,Prime,97,Icons,Icons,Argentina,CAM,58,30/10/1960,165,70,0,2018-09-19,92.0,94,90,97.0,91,98,94,97,98,95,93.0,92,97,85,94,88,94,92.0,95,88,96,93,89,...,67,27,42,37,76.0,82,78,75,76,,,,,,,Left,High,Med,3,5,57.0,66.0,66.0,71.0,71.0,69.0,88.0,93.0,93.0,95.0,94.0,94.0,94.0,94.0,94.0,90.0,"Avoids Using Weaker Foot, Finesse Shot, Flair,...","Speedster, Dribbler, Play Maker, Distance Shoo...",190042,Lenda
2,3,Ronaldo,Nazário de Lima Ronaldo Luís,Gold - Rare,Icon,Prime,96,Icons,Icons,Brazil,ST,42,22/09/1976,183,78,0,2018-09-19,97.0,97,97,95.0,91,85,95,96,97,89,95.0,95,98,93,90,96,89,81.0,81,75,90,86,73,...,84,39,44,38,76.0,82,81,85,47,,,,,,,Right,Med,Med,5,5,60.0,67.0,67.0,70.0,70.0,66.0,83.0,90.0,90.0,91.0,94.0,94.0,94.0,92.0,92.0,94.0,"Tries To Beat Defensive Line, Finesse Shot","Speedster, Dribbler, Distance Shooter, FK Spec...",37576,Lenda
3,4,Pelé,Arantes Nascimento Edson,Gold - Rare,Icon,Medium,95,Icons,Icons,Brazil,CF,78,23/10/1940,173,69,0,2018-09-19,96.0,95,96,95.0,96,95,95,95,94,95,93.0,94,95,90,91,93,91,90.0,93,88,88,91,87,...,89,51,49,45,75.0,89,87,74,57,,,,,,,Right,High,Med,4,5,66.0,74.0,74.0,77.0,77.0,74.0,88.0,93.0,93.0,93.0,94.0,94.0,94.0,94.0,94.0,92.0,Finesse Shot,"Speedster, Dribbler, Distance Shooter, Crosser...",237068,Lenda
4,5,Maradona,Diego Maradona,Gold - Rare,Icon,Medium,95,Icons,Icons,Argentina,CAM,58,30/10/1960,165,72,0,2018-09-19,88.0,91,85,95.0,89,98,93,95,96,95,91.0,92,94,83,91,86,92,90.0,95,87,93,90,87,...,67,30,44,39,75.0,80,75,74,76,,,,,,,Left,High,Med,3,5,58.0,66.0,66.0,70.0,70.0,69.0,86.0,91.0,91.0,93.0,92.0,92.0,92.0,92.0,92.0,88.0,"Avoids Using Weaker Foot, Finesse Shot, Flair,...","Dribbler, Play Maker, Distance Shooter, Crosse...",237074,Lenda


<a name="encerramento"></a>
# 4. Encerramento

Obrigado por participar da trilha, você acaba de finalizar a primeira aula. Neste momento você já deve ser capaz de manipular seus dados no Python, utilizando as bibliotecas que acabamos de aprender! 

Lembre-se que sempre que surgir alguma dúvida, você pode olhar a documentação do [Numpy](https://numpy.org/doc/) e do [Pandas](https://pandas.pydata.org/docs/).