<img src="http://sonetodigital.com.br/adm/wp-content/uploads/2018/12/logo-fiap.png" width="150" align="left"/>

<br/><br/>

<font size=5 color="#ed145b"><b> Sistemas para Internet </b></font><font size=5 color="#ed145b"> - Inteligência Artificial e Machine Learning </font>

<font size=4 color="#ed145b"> Profa. Thais Rodrigues Neubauer - profthais.neubauer@fiap.com.br</font>

<font size=5 ><b>Aula 01</b></font>

## Introdução a Python

Abra o nosso repositório no [Binder](https://mybinder.org/v2/gh/thaisneubauer/FIAP-3ECA-IA/master)

Duas das principais ferramentas para realizar manipular, tratar, sumarizar e visualizar dados em Python são **Numpy** e **Pandas**. São bibliotecas (conjuntos de classes, funções e objetos) feitos para análise de dados. 

Enquanto Numpy foca em manipulação de vetores e matrizes, muito úteis para realizar operações de álgebra linear (como decomposição de matrizes, calculo de similaridade e distâncias, etc), o Pandas é focado em dados tabulares e manipulações de dados estruturados.

In [3]:
import pandas as pd
import numpy as np

### Numpy e listas em Python

In [None]:
lista_de_ints = [1, 2, 3, 4]
lista_de_strings = ["um", "dois"]
lista_de_listas = [[1,2], [1,2,3,4]]
outra_lista = [5, 5, "banana", 8]

Listas são pouco indicadas para fazer contas. 

Suponha que tenhamos duas listas para gerênciar uma compra em uma loja: uma contendo a quantidade de itens, outra o valor dos ítens.

In [None]:
quantidades = [1, 10, 0, 5, 2]
precos = [10.5, 20.3, 100.75, 0.5, 2.0]

<div class="alert alert-block alert-info">
<b>Exercício:</b>
Calcule o preço total da compra do cliente, multiplicando a quantidade pedida do primeiro produto pelo seu preço, a quantidade pedida do segundo produto pelo seu preço e assim por diante.
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

Com Numpy...

In [None]:
x = np.array([1, 2, 3])
y = np.array([5.2, 3.4, 1.0])
x + y

In [None]:
x * y

In [None]:
quantidades = np.array(quantidades)
precos = np.array(precos)

#### Acessando e mudando elementos do array

Algumas vezes, precisamos acessar (por qualquer motivo que seja) um sub-conjunto de um array do numpy. Pode ser que queiramos usar apenas um elemento (ex.: precisamos mandar para alguém apenas o preço do segundo item). Outras vezes, precisamos de um pedaço maior do array, em outras palavras, um sub-array.

Para acessar apenas um elemento do array, podemos usar a sintaxe `a[i]`. No caso dos preços, por exemplo, podemos acessar o preço do terceiro item fazendo:

In [None]:
precos[2]

<div class="alert alert-block alert-warning">
<b>Atenção:</b>

Assim como nas listas, a contagem dos índices começa de zero. Ou seja, `0` é a posição do primeiro elemento, `1` é a posição do segundo etc.
</div>

Podemos também usar listas para acessar multiplos elementos de uma vez, fazendo `a[[1,2,3,4]]`. Por exemplo, se quisermos os preços dos três primeiros itens, podemos fazer: 

In [None]:
precos[[0,1,2]]

Para acessar elementos contíguos (ou seja, adjacentes) como no caso acima, podemos também usar o que é chamado de `slicing`. Slices são escritos como `i:j` e significam algo como "acessar os itens da posição `i` (inclusa) até a posição `j` (não inclusa)". Por exemplo, para pegar os preços dos três primeiros itens, faríamos:

In [None]:
precos[0:3]

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Sobre o array `x`, encontre:
    
* O décimo terceiro elemento
* Um sub-array com o primeiro, terceiro e décimo elemento
* Um sub-array com os 5 primeiros elementos
</div>

In [None]:
x = np.random.randint(0, 100, size=30)

In [None]:
x

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

#### Máscaras

Para acessar elementos de um array, também podemos usar uma lista de Booleanos (`True` ou `False`) do mesmo tamanho do array. Esta lista é chamada de máscara.

A máscara representa quais elementos você quer preservar (representado por `True`) e quais você quer descartar (`False`) do seu resultado final. Por exemplo, para acessar os preços do primeiro e do terceiro item, fazemos:

In [None]:
precos[[True, False, True, False, False]]

<div class="alert alert-block alert-warning">
<b>Atenção:</b>

Você também pode usar um np.array de booleanos se desejar. Usamos a lista por simplicidade.
</div>

O método da máscara pode parecer inútil, mas é muito útil quando você quer filtrar elementos de um array. Por exemplo, imagine que queremos somente os preços maiores que 10:

In [None]:
mascara = precos > 10

In [None]:
# A máscara é um np.array de booleanos
mascara

In [None]:
# Usamos então a máscara para acessar os elementos que queremos
precos[mascara]

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Alguns produtos tiveram mais de uma unidade pedida pelo usuário. Encontre os preços desse produtos.
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

#### Alterando elementos do array

Se você precisar, pode alterar elementos de um array. Para fazer isso é muito simples, para mudar o preço do terceiro para 90, fazemos:

In [None]:
precos[2] = 90

In [None]:
precos

Mais do que isso, você pode alterar multiplos elementos de uma vez! Imagine que você queira dar um desconto de 50% nos três primeiros itens da lista. Basta fazer:

In [None]:
precos[0:3] = precos[0:3] / 2

In [None]:
precos

#### Numpy Arrays de multiplas dimensões

![title](../images/arrays.png)

Numpy dá ferramentas excelentes para a manipulação de vetores (no sentido matemático). No entanto, também é ideal quando lidamos com dados de dimensionalidade mais alta, como matrizes ou arrays em 3D. Matrizes, por serem bidimensionais (altura e largura), são capazer de representar objetos como rotações e imagens preto e branco. Arrays 3D podem ser usados para representar imagens coloridas (onde a terceira dimensão é a cor), ou um vídeo (onde a terceira dimensão é o tempo).

Para criar uma matriz, basta fazer:

In [3]:
m1 = np.array([[1,2,3], [4,5,6]])

In [4]:
m1

array([[1, 2, 3],
       [4, 5, 6]])

Podemos também criar uma matriz aleatória, fazendo:

In [5]:
m2 = np.random.randint(0, 10, size=(3, 2))

In [6]:
m2

array([[4, 2],
       [0, 8],
       [4, 5]])

Como são matrizes, podemos fazer operações entre elas, como por exemplo a multiplicação matricial:

In [7]:
np.dot(m1, m2)

array([[16, 33],
       [40, 78]])

Você também consegue transpor uma matriz, fazendo simplesmente:

In [8]:
m1.T

array([[1, 4],
       [2, 5],
       [3, 6]])

Incrível! Diversas operação estão disponíveis no `numpy` e também em outras bibliotecas como `scipy`.

#### Acessando dados

Para acessar os dados, basta usar `matriz[linha, coluna]` onde `linha` é a posição da linha e `coluna` é a posição da coluna. Por exemplo, para acessarmos a primeira linha e segunda coluna de uma matriz, fazemos:

In [9]:
m1[0, 1]

2

Técnicas para acessar dados que funcionam para arrays de 1 dimensão, também funcionam aqui. Um exemplo é usar slices:

In [13]:
m1[0:2, 0:1]

array([[1],
       [4]])

E também máscaras. Por exemplo, podemos querer só as linhas da matriz cuja segunda coluna tem valor superior a zero:

In [15]:
mascara = m2[:, 1] > 0  # mascara das linhas cuja segunda coluna é superior a zero
m2[mascara, :]

array([[4, 2],
       [0, 8],
       [4, 5]])

In [16]:
mascara

array([ True,  True,  True])

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Crie uma matriz do numpy com números aleatórios de 0 a 100. O tamanho da matriz deve ser 100 linhas por 50 colunas. Depois, use a técnica da máscara para selecionar só as linhas da matriz cujo valor da terceira coluna seja maior do que o da primeira coluna. Quantas linhas sobraram?
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [18]:
x = np.random.randint(0, 100, size=30)

In [21]:
x

array([85, 66, 27, 39, 43, 62, 81, 89, 85, 77, 80, 97, 84, 50, 49, 61, 36,
       56, 39, 51, 42, 59, 37, 32, 74, 67, 67, 16, 56, 67])

#### Operações de agregação

Com numpy, você consegue agregar dados com extrema facilidade. Por exemplo, é possível calcular soma, média, desvio padrão, etc. de uma matrix por linha, or coluna ou entre todos os elementos. Essas operações facilitam muito a computação de estatisticas de seus dados.

Por exemplo, muitos dos modelos de machine learning funcionam melhor se os dados estiverem normalizadas, ou seja, subtraído da sua média e divido pela variância. Isso (usualmente, dependendo da distribuição original) faz com que os dados tenham a média 0 e o desvio padrão 1.

![standardization](../images/standardization.jpg)

 Em numpy, imagine que temos uma matriz cujas linhas representam pessoas, e uma coluna representa a altura (cms) e a outra coluna o peso da pessoa (em kgs). Para normalizar as alturas e os pesos, você poderia fazer:

In [None]:
# Criando alturas e pesos aleatórios 
alturas_pesos = np.concatenate([np.random.randint(140, 200, size=(10,1)), np.random.randint(60, 110, size=(10, 1))], axis=1)
alturas_pesos

In [None]:
# normalizando
(alturas_pesos - alturas_pesos.mean(axis=0)) / alturas_pesos.std(axis=0)

O diagrama abaixo mostra como o parâmetro `axis` afeta o calculo da média e do desvio padrão. Mudar esse parâmetro permite você calcular a média por linha, por coluna, ou geral do seus dados.

![Eixos de Agregação](../images/agregacao_numpy.png)

### Pandas

<img src="../images/pandas.jpeg" width=400 align="center">

Pandas é uma biblioteca para Python, desenvolvida para manipular dados tabulares. Essa biblioteca pode não só substituir o excel por uma alternativa mais flexível e programático, mas também é ideal para integras dados com bibliotecas de machine learning, como Sklearn e Tensorflow, que já estão preparados para lidar com dados carregados via pandas.

Para essa parte da aula, usaremos os dados do jogo FIFA 19. Esses dados contém informações sobre todos os jogadores presentes no jogo, de diversos clubes ao redor do mundo. Esses dados podem ser [encontrados no Kaggle](https://www.kaggle.com/karangadiya/fifa19). Apesar de lúdico, esses dados têm muitas das características de dados que encontramos normalmente como data scientists: são dados brutos de indivíduos, de onde queremos extrair informações e padrões.

![fifa](../images/fifa.jpeg)

Nesta aula, usaremos a biblioteca Pandas para extrair informações básicas e responder perguntas sobre nossos dados.

Exemplos de uso deste dataset no futuro: *clustering* dos jogadores, previsão de sua habilidade geral (*Overall*) com base em suas estatísticas, visualização dos dados, etc. Muitas destas aplicações podem ser encontradas em [notebooks do Kaggle](https://www.kaggle.com/karangadiya/fifa19/kernels).

#### Baixando e Carregando dados

In [4]:
data = pd.read_csv("../data/data.csv", index_col=0)

In [5]:
data

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M
1,20801,Cristiano Ronaldo,33,https://cdn.sofifa.org/players/4/19/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,Juventus,https://cdn.sofifa.org/teams/2/light/45.png,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M
2,190871,Neymar Jr,26,https://cdn.sofifa.org/players/4/19/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,Paris Saint-Germain,https://cdn.sofifa.org/teams/2/light/73.png,...,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M
3,193080,De Gea,27,https://cdn.sofifa.org/players/4/19/193080.png,Spain,https://cdn.sofifa.org/flags/45.png,91,93,Manchester United,https://cdn.sofifa.org/teams/2/light/11.png,...,68.0,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M
4,192985,K. De Bruyne,27,https://cdn.sofifa.org/players/4/19/192985.png,Belgium,https://cdn.sofifa.org/flags/7.png,91,92,Manchester City,https://cdn.sofifa.org/teams/2/light/10.png,...,88.0,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M
5,183277,E. Hazard,27,https://cdn.sofifa.org/players/4/19/183277.png,Belgium,https://cdn.sofifa.org/flags/7.png,91,91,Chelsea,https://cdn.sofifa.org/teams/2/light/5.png,...,91.0,34.0,27.0,22.0,11.0,12.0,6.0,8.0,8.0,€172.1M
6,177003,L. Modrić,32,https://cdn.sofifa.org/players/4/19/177003.png,Croatia,https://cdn.sofifa.org/flags/10.png,91,91,Real Madrid,https://cdn.sofifa.org/teams/2/light/243.png,...,84.0,60.0,76.0,73.0,13.0,9.0,7.0,14.0,9.0,€137.4M
7,176580,L. Suárez,31,https://cdn.sofifa.org/players/4/19/176580.png,Uruguay,https://cdn.sofifa.org/flags/60.png,91,91,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,85.0,62.0,45.0,38.0,27.0,25.0,31.0,33.0,37.0,€164M
8,155862,Sergio Ramos,32,https://cdn.sofifa.org/players/4/19/155862.png,Spain,https://cdn.sofifa.org/flags/45.png,91,91,Real Madrid,https://cdn.sofifa.org/teams/2/light/243.png,...,82.0,87.0,92.0,91.0,11.0,8.0,9.0,7.0,11.0,€104.6M
9,200389,J. Oblak,25,https://cdn.sofifa.org/players/4/19/200389.png,Slovenia,https://cdn.sofifa.org/flags/44.png,90,93,Atlético Madrid,https://cdn.sofifa.org/teams/2/light/240.png,...,70.0,27.0,12.0,18.0,86.0,92.0,78.0,88.0,89.0,€144.5M


In [6]:
data.shape

(18207, 88)

In [7]:
data.columns

Index(['ID', 'Name', 'Age', 'Photo', 'Nationality', 'Flag', 'Overall',
       'Potential', 'Club', 'Club Logo', 'Value', 'Wage', 'Special',
       'Preferred Foot', 'International Reputation', 'Weak Foot',
       'Skill Moves', 'Work Rate', 'Body Type', 'Real Face', 'Position',
       'Jersey Number', 'Joined', 'Loaned From', 'Contract Valid Until',
       'Height', 'Weight', 'LS', 'ST', 'RS', 'LW', 'LF', 'CF', 'RF', 'RW',
       'LAM', 'CAM', 'RAM', 'LM', 'LCM', 'CM', 'RCM', 'RM', 'LWB', 'LDM',
       'CDM', 'RDM', 'RWB', 'LB', 'LCB', 'CB', 'RCB', 'RB', 'Crossing',
       'Finishing', 'HeadingAccuracy', 'ShortPassing', 'Volleys', 'Dribbling',
       'Curve', 'FKAccuracy', 'LongPassing', 'BallControl', 'Acceleration',
       'SprintSpeed', 'Agility', 'Reactions', 'Balance', 'ShotPower',
       'Jumping', 'Stamina', 'Strength', 'LongShots', 'Aggression',
       'Interceptions', 'Positioning', 'Vision', 'Penalties', 'Composure',
       'Marking', 'StandingTackle', 'SlidingTackle', 'GKDiv

In [8]:
data.describe()

Unnamed: 0,ID,Age,Overall,Potential,Special,International Reputation,Weak Foot,Skill Moves,Jersey Number,Crossing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
count,18207.0,18207.0,18207.0,18207.0,18207.0,18159.0,18159.0,18159.0,18147.0,18159.0,...,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0
mean,214298.338606,25.122206,66.238699,71.307299,1597.809908,1.113222,2.947299,2.361308,19.546096,49.734181,...,48.548598,58.648274,47.281623,47.697836,45.661435,16.616223,16.391596,16.232061,16.388898,16.710887
std,29965.244204,4.669943,6.90893,6.136496,272.586016,0.394031,0.660456,0.756164,15.947765,18.364524,...,15.704053,11.436133,19.904397,21.664004,21.289135,17.695349,16.9069,16.502864,17.034669,17.955119
min,16.0,16.0,46.0,48.0,731.0,1.0,1.0,1.0,1.0,5.0,...,5.0,3.0,3.0,2.0,3.0,1.0,1.0,1.0,1.0,1.0
25%,200315.5,21.0,62.0,67.0,1457.0,1.0,3.0,2.0,8.0,38.0,...,39.0,51.0,30.0,27.0,24.0,8.0,8.0,8.0,8.0,8.0
50%,221759.0,25.0,66.0,71.0,1635.0,1.0,3.0,2.0,17.0,54.0,...,49.0,60.0,53.0,55.0,52.0,11.0,11.0,11.0,11.0,11.0
75%,236529.5,28.0,71.0,75.0,1787.0,1.0,3.0,3.0,26.0,64.0,...,60.0,67.0,64.0,66.0,64.0,14.0,14.0,14.0,14.0,14.0
max,246620.0,45.0,94.0,95.0,2346.0,5.0,5.0,5.0,99.0,93.0,...,92.0,96.0,94.0,93.0,91.0,90.0,92.0,91.0,90.0,94.0


In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18207 entries, 0 to 18206
Data columns (total 88 columns):
ID                          18207 non-null int64
Name                        18207 non-null object
Age                         18207 non-null int64
Photo                       18207 non-null object
Nationality                 18207 non-null object
Flag                        18207 non-null object
Overall                     18207 non-null int64
Potential                   18207 non-null int64
Club                        17966 non-null object
Club Logo                   18207 non-null object
Value                       18207 non-null object
Wage                        18207 non-null object
Special                     18207 non-null int64
Preferred Foot              18159 non-null object
International Reputation    18159 non-null float64
Weak Foot                   18159 non-null float64
Skill Moves                 18159 non-null float64
Work Rate                   18159 non-null 

#### Acessando dados de uma tabela

Você consegue acessar uma coluna inteira da tabela usando `df.nomeDaColuna`

In [28]:
data.Name

0                  L. Messi
1         Cristiano Ronaldo
2                 Neymar Jr
3                    De Gea
4              K. De Bruyne
                ...        
18202          J. Lundstram
18203    N. Christoffersson
18204             B. Worman
18205        D. Walker-Rice
18206             G. Nugent
Name: Name, Length: 18207, dtype: object

<div class="alert alert-block alert-warning">
<b>Atenção:</b>

Dessa maneira não é possível acessar colunas cujos nomes contém espaços. Nesses casos, prefira o método `.loc`.
</div>


Além de usar o método acima de acessar, existem outras duas maneiras de acessar dados em pandas: uma usando o método `loc` (mais comum) e outra usando o método `iloc`. Em ambos os casos é possível acessar

* Um elemento da tabela (em geral um `int`, `float` ou `str`)
* Uma coluna (que em pandas é do tipo `pd.Series`)
* Uma sub-tabela (que também é do tipo `pd.DataFrame`, assim como a tabela original)

##### .iloc

O método mais simples é o `iloc`, que deixa você acessar os elementos da tabela usando os números das posições das colunas e das linhas. Isso é chamado de **acesso posicional**. Você sempre usa esse método como `df.iloc[linhas, colunas]`, onde `linhas` e `colunas` podem ser:

* Inteiros, ex. 5.
* Uma lista de inteiros, ex. `[4, 3, 0]`.
* Um objeto slice com inteiros, ex. `1:7`.
* Um array de booleanos, ex `[false, true, false]`.

Por exemplo, se você quiser acessar a linha 0 e a coluna 1, você faz:

In [29]:
data.iloc[0, 1]

'L. Messi'

Agora, usando listas de inteiros, é possível acessar a linha 0 e 1, e as colunas 1 e 2:

In [30]:
data.iloc[[0, 1], [1, 2]]

Unnamed: 0,Name,Age
0,L. Messi,31
1,Cristiano Ronaldo,33


É possível selecionar multiplas linhas e colunas com `slices` usando ranges como `n:m` ao invés de números

In [None]:
data.iloc[0:5, 0:3]

Podemos misturar também!

In [31]:
data.iloc[0:10, 1]

0             L. Messi
1    Cristiano Ronaldo
2            Neymar Jr
3               De Gea
4         K. De Bruyne
5            E. Hazard
6            L. Modrić
7            L. Suárez
8         Sergio Ramos
9             J. Oblak
Name: Name, dtype: object

##### .loc

Também é possível acessar dados partir dos `nomes de linhas e de colunas`, usando o método `loc`. Esse método usa os índices das linhas (que são basicamente os "nomes" das linhas, e os nomes das colunas como forma de acessar os dados da tabela. Esse método é usado como `df.loc[linhas, colunas]`, onde `linhas` e `colunas` podem ser:

* Um label único, como por exemplo `5` ou `'a'`, (note que 5 é interpretado como nome do índice nesse caso, e não como sua posição).
* Uma lista de labels, ex `['a', 'b', 'c']`.
* Um objeto slice com labels como `'a':'f'`.
* Um array de booleanos, ex `[false, true, false]`.

In [33]:
data.loc[0, "Name"]

'L. Messi'

Também é possível usar listas de nomes que você quer acessar:

In [34]:
data.loc[[0,1,3], ["Name", "Age"]]

Unnamed: 0,Name,Age
0,L. Messi,31
1,Cristiano Ronaldo,33
3,De Gea,27


Além de aceitar usar slicing

In [41]:
data.loc[1:5, "Name":"Age"]

Unnamed: 0,Name,Age
1,Cristiano Ronaldo,33
2,Neymar Jr,26
3,De Gea,27
4,K. De Bruyne,27
5,E. Hazard,27


E também conseguir misturar:

In [42]:
data.loc[0:10, ["Name", "Age"]]

Unnamed: 0,Name,Age
0,L. Messi,31
1,Cristiano Ronaldo,33
2,Neymar Jr,26
3,De Gea,27
4,K. De Bruyne,27
5,E. Hazard,27
6,L. Modrić,32
7,L. Suárez,31
8,Sergio Ramos,32
9,J. Oblak,25


#### Acesso com array de booleanos

Tanto no caso de `iloc` como de `loc` é possível passar um array de booleanos. Funciona assim, cada booleano, `True` ou `False`, indica se você quer ou não, manter aquela linha/coluna na sua tabela. Por exemplo, se queremos apenas a segunda e a terceira linha da tabela podemos acessar usando um array de booleanos fazendo:

`df.loc[[False, True, True, False, False, False, False, ..., False], :]`

Pode não parecer muito útil a princípio (afinal, poderíamos fazer simplesmente `df.loc[[1,2], :]`, não é mesmo?) mas esta é a principal forma de filtrar dados de uma tabela, como veremos mais pra frente.

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Extraia da tabela o nome e a posição dos dez últimos jogadores da tabela.
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [51]:
data.loc[(len(data)-10):,:]

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
18197,246167,D. Holland,18,https://cdn.sofifa.org/players/4/19/246167.png,Republic of Ireland,https://cdn.sofifa.org/flags/25.png,47,61,Cork City,https://cdn.sofifa.org/teams/2/light/422.png,...,52.0,41.0,47.0,38.0,13.0,6.0,9.0,10.0,15.0,€88K
18198,242844,J. Livesey,18,https://cdn.sofifa.org/players/4/19/242844.png,England,https://cdn.sofifa.org/flags/14.png,47,70,Burton Albion,https://cdn.sofifa.org/teams/2/light/15015.png,...,34.0,15.0,11.0,13.0,46.0,52.0,58.0,42.0,48.0,€165K
18199,244677,M. Baldisimo,18,https://cdn.sofifa.org/players/4/19/244677.png,Canada,https://cdn.sofifa.org/flags/70.png,47,69,Vancouver Whitecaps FC,https://cdn.sofifa.org/teams/2/light/101112.png,...,40.0,48.0,49.0,49.0,7.0,7.0,9.0,14.0,15.0,€175K
18200,231381,J. Young,18,https://cdn.sofifa.org/players/4/19/231381.png,Scotland,https://cdn.sofifa.org/flags/42.png,47,62,Swindon Town,https://cdn.sofifa.org/teams/2/light/1934.png,...,50.0,15.0,17.0,14.0,11.0,15.0,12.0,12.0,11.0,€143K
18201,243413,D. Walsh,18,https://cdn.sofifa.org/players/4/19/243413.png,Republic of Ireland,https://cdn.sofifa.org/flags/25.png,47,68,Waterford FC,https://cdn.sofifa.org/teams/2/light/753.png,...,43.0,44.0,47.0,53.0,9.0,10.0,9.0,11.0,13.0,€153K
18202,238813,J. Lundstram,19,https://cdn.sofifa.org/players/4/19/238813.png,England,https://cdn.sofifa.org/flags/14.png,47,65,Crewe Alexandra,https://cdn.sofifa.org/teams/2/light/121.png,...,45.0,40.0,48.0,47.0,10.0,13.0,7.0,8.0,9.0,€143K
18203,243165,N. Christoffersson,19,https://cdn.sofifa.org/players/4/19/243165.png,Sweden,https://cdn.sofifa.org/flags/46.png,47,63,Trelleborgs FF,https://cdn.sofifa.org/teams/2/light/703.png,...,42.0,22.0,15.0,19.0,10.0,9.0,9.0,5.0,12.0,€113K
18204,241638,B. Worman,16,https://cdn.sofifa.org/players/4/19/241638.png,England,https://cdn.sofifa.org/flags/14.png,47,67,Cambridge United,https://cdn.sofifa.org/teams/2/light/1944.png,...,41.0,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0,€165K
18205,246268,D. Walker-Rice,17,https://cdn.sofifa.org/players/4/19/246268.png,England,https://cdn.sofifa.org/flags/14.png,47,66,Tranmere Rovers,https://cdn.sofifa.org/teams/2/light/15048.png,...,46.0,20.0,25.0,27.0,14.0,6.0,14.0,8.0,9.0,€143K
18206,246269,G. Nugent,16,https://cdn.sofifa.org/players/4/19/246269.png,England,https://cdn.sofifa.org/flags/14.png,46,66,Tranmere Rovers,https://cdn.sofifa.org/teams/2/light/15048.png,...,43.0,40.0,43.0,50.0,10.0,15.0,9.0,12.0,9.0,€165K


In [53]:
data.iloc[-10:,:]

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
18197,246167,D. Holland,18,https://cdn.sofifa.org/players/4/19/246167.png,Republic of Ireland,https://cdn.sofifa.org/flags/25.png,47,61,Cork City,https://cdn.sofifa.org/teams/2/light/422.png,...,52.0,41.0,47.0,38.0,13.0,6.0,9.0,10.0,15.0,€88K
18198,242844,J. Livesey,18,https://cdn.sofifa.org/players/4/19/242844.png,England,https://cdn.sofifa.org/flags/14.png,47,70,Burton Albion,https://cdn.sofifa.org/teams/2/light/15015.png,...,34.0,15.0,11.0,13.0,46.0,52.0,58.0,42.0,48.0,€165K
18199,244677,M. Baldisimo,18,https://cdn.sofifa.org/players/4/19/244677.png,Canada,https://cdn.sofifa.org/flags/70.png,47,69,Vancouver Whitecaps FC,https://cdn.sofifa.org/teams/2/light/101112.png,...,40.0,48.0,49.0,49.0,7.0,7.0,9.0,14.0,15.0,€175K
18200,231381,J. Young,18,https://cdn.sofifa.org/players/4/19/231381.png,Scotland,https://cdn.sofifa.org/flags/42.png,47,62,Swindon Town,https://cdn.sofifa.org/teams/2/light/1934.png,...,50.0,15.0,17.0,14.0,11.0,15.0,12.0,12.0,11.0,€143K
18201,243413,D. Walsh,18,https://cdn.sofifa.org/players/4/19/243413.png,Republic of Ireland,https://cdn.sofifa.org/flags/25.png,47,68,Waterford FC,https://cdn.sofifa.org/teams/2/light/753.png,...,43.0,44.0,47.0,53.0,9.0,10.0,9.0,11.0,13.0,€153K
18202,238813,J. Lundstram,19,https://cdn.sofifa.org/players/4/19/238813.png,England,https://cdn.sofifa.org/flags/14.png,47,65,Crewe Alexandra,https://cdn.sofifa.org/teams/2/light/121.png,...,45.0,40.0,48.0,47.0,10.0,13.0,7.0,8.0,9.0,€143K
18203,243165,N. Christoffersson,19,https://cdn.sofifa.org/players/4/19/243165.png,Sweden,https://cdn.sofifa.org/flags/46.png,47,63,Trelleborgs FF,https://cdn.sofifa.org/teams/2/light/703.png,...,42.0,22.0,15.0,19.0,10.0,9.0,9.0,5.0,12.0,€113K
18204,241638,B. Worman,16,https://cdn.sofifa.org/players/4/19/241638.png,England,https://cdn.sofifa.org/flags/14.png,47,67,Cambridge United,https://cdn.sofifa.org/teams/2/light/1944.png,...,41.0,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0,€165K
18205,246268,D. Walker-Rice,17,https://cdn.sofifa.org/players/4/19/246268.png,England,https://cdn.sofifa.org/flags/14.png,47,66,Tranmere Rovers,https://cdn.sofifa.org/teams/2/light/15048.png,...,46.0,20.0,25.0,27.0,14.0,6.0,14.0,8.0,9.0,€143K
18206,246269,G. Nugent,16,https://cdn.sofifa.org/players/4/19/246269.png,England,https://cdn.sofifa.org/flags/14.png,46,66,Tranmere Rovers,https://cdn.sofifa.org/teams/2/light/15048.png,...,43.0,40.0,43.0,50.0,10.0,15.0,9.0,12.0,9.0,€165K


#### Operações lógicas e filtrando dados de uma tabela

Você pode fazer operações lógicas com elementos de uma dataframe. Suponha que vocês queiram ver quais jogadores tem mais de 27 anos:

In [58]:
data.Age >= 28

0         True
1         True
2        False
3        False
4        False
         ...  
18202    False
18203    False
18204    False
18205    False
18206    False
Name: Age, Length: 18207, dtype: bool

Você pode usar operações como `>`, `>=`, `==` para fazer esse tipo de comparação:

In [None]:
data.Club == "FC Barcelona"

Se você quiser saber quais jogadores são do Barcelona **E** têm mais de 28 anos, pode usar o operador `&` (que é basicamente um `and`, assim como `|` é um `or`):

In [59]:
(data.Age >= 28) & (data.Club == "FC Barcelona")

0         True
1        False
2        False
3        False
4        False
         ...  
18202    False
18203    False
18204    False
18205    False
18206    False
Length: 18207, dtype: bool

Podemos agora usar esses arrays  booleanos para **filtrar nossos dados**, usando `.loc` ou `.iloc`. Se quisermos filtrar a tabela e só manter as linhas dos jogadores do Barcelona, fazemos

In [None]:
data.loc[data.Club == "FC Barcelona", :]  # note que usamos array de booleanos para as linhas e slice para as colunas

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Filtre a tabela, mantendo somente os jogadores do barcelona **E** de nacionalidade espanhola.
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [65]:
barcelonosEspanhois = (data.Club == "FC Barcelona") & (data.Nationality == "Spain")

In [67]:
data[barcelonosEspanhois]

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
20,189511,Sergio Busquets,29,https://cdn.sofifa.org/players/4/19/189511.png,Spain,https://cdn.sofifa.org/flags/45.png,89,89,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,90.0,90.0,86.0,80.0,5.0,8.0,13.0,9.0,13.0,€105.6M
49,189332,Jordi Alba,29,https://cdn.sofifa.org/players/4/19/189332.png,Spain,https://cdn.sofifa.org/flags/45.png,87,87,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,79.0,72.0,84.0,85.0,13.0,15.0,13.0,6.0,13.0,€77.9M
54,152729,Piqué,31,https://cdn.sofifa.org/players/4/19/152729.png,Spain,https://cdn.sofifa.org/flags/45.png,87,87,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,86.0,91.0,86.0,84.0,10.0,11.0,14.0,15.0,8.0,€69.7M
192,199564,Sergi Roberto,26,https://cdn.sofifa.org/players/4/19/199564.png,Spain,https://cdn.sofifa.org/flags/45.png,83,86,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,76.0,75.0,83.0,83.0,14.0,16.0,11.0,15.0,10.0,€56.3M
613,205192,Denis Suárez,24,https://cdn.sofifa.org/players/4/19/205192.png,Spain,https://cdn.sofifa.org/flags/45.png,79,86,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,70.0,69.0,59.0,42.0,10.0,14.0,10.0,7.0,7.0,€39.4M
1007,220253,Munir,22,https://cdn.sofifa.org/players/4/19/220253.png,Spain,https://cdn.sofifa.org/flags/45.png,77,83,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,76.0,38.0,24.0,22.0,9.0,12.0,6.0,13.0,16.0,€28.1M
3118,208088,Sergi Samper,23,https://cdn.sofifa.org/players/4/19/208088.png,Spain,https://cdn.sofifa.org/flags/45.png,73,80,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,75.0,75.0,71.0,62.0,12.0,10.0,13.0,11.0,6.0,€10.8M
3684,233113,Aleñá,20,https://cdn.sofifa.org/players/4/19/233113.png,Spain,https://cdn.sofifa.org/flags/45.png,72,85,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,70.0,70.0,62.0,48.0,12.0,9.0,10.0,8.0,12.0,€16.1M
6102,242816,Riqui Puig,18,https://cdn.sofifa.org/players/4/19/242816.png,Spain,https://cdn.sofifa.org/flags/45.png,69,89,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,70.0,53.0,57.0,53.0,12.0,15.0,14.0,12.0,9.0,€6.5M
8284,239249,Oriol Busquets,19,https://cdn.sofifa.org/players/4/19/239249.png,Spain,https://cdn.sofifa.org/flags/45.png,67,82,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,70.0,64.0,63.0,61.0,9.0,6.0,5.0,10.0,12.0,€4M


#### Outras operações com pandas

Você também pode usar métodos de soma, média, desvio padrão para colunas (ou seja, objetos do tipo `pd.Series`) do pandas. Isso é muito simples, já que você precisa apenas usar métodos como `series.sum()`. Por exemplo, qual é a média de idade dos jogadores do Fifa? Podemos responder isso fazendo:

In [73]:
data.Age.sum()

457400

Outros métodos são `.sum()`, `.min()`, `.max()`, `.stddev()`, mas diversos outros estão disponíveis na [documentação do pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html).

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Encontre a menor idade dentre os jogadores do Barcelona. Qual (ou quais) jogadores do barcelona possuem essa idade?
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [75]:
jogadoresDoBarca = data.Club == "FC Barcelona"

In [85]:
idadeMinima = data[jogadoresDoBarca].Age.min()

In [105]:
doBarcaQueTemIdadeMinima = (data.Club == "FC Barcelona") & (data.Age == idadeMinima)

In [107]:
data[doBarcaQueTemIdadeMinima]

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
6102,242816,Riqui Puig,18,https://cdn.sofifa.org/players/4/19/242816.png,Spain,https://cdn.sofifa.org/flags/45.png,69,89,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,70.0,53.0,57.0,53.0,12.0,15.0,14.0,12.0,9.0,€6.5M
8289,239250,Abel Ruiz,18,https://cdn.sofifa.org/players/4/19/239250.png,Spain,https://cdn.sofifa.org/flags/45.png,67,83,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,57.0,45.0,12.0,12.0,6.0,10.0,10.0,10.0,8.0,€4.2M
8857,240915,Miranda,18,https://cdn.sofifa.org/players/4/19/240915.png,Spain,https://cdn.sofifa.org/flags/45.png,66,81,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,59.0,64.0,69.0,67.0,11.0,8.0,12.0,9.0,6.0,€3.2M
10777,237522,Jorge Cuenca,18,https://cdn.sofifa.org/players/4/19/237522.png,Spain,https://cdn.sofifa.org/flags/45.png,65,78,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,57.0,62.0,66.0,63.0,10.0,12.0,5.0,14.0,12.0,€2.3M


<div class="alert alert-block alert-info">
<b>Exercício:</b>

A habilidade do jogador, de maneira geral, está contida na coluna `Overall`. Qual time possui a maior média de habilidade, Barecelona ou Real Madrid? Qual dos dois times tem o melhor jogador?
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [115]:
data[data.Club == "FC Barcelona"].Overall.mean()

78.03030303030303

In [116]:
data[data.Club == "Real Madrid"].Overall.mean()

78.24242424242425

In [118]:
data[data.Club == "FC Barcelona"].Overall.max()

94

In [120]:
data[data.Club == "Real Madrid"].Overall.max()

91

In [127]:
data.loc[data.Club == "FC Barcelona", "Overall"]

0        94
7        91
18       89
20       89
32       88
42       87
49       87
53       87
54       87
96       85
155      83
192      83
228      82
236      82
239      82
263      82
266      82
324      81
613      79
1007     77
1037     77
3118     73
3684     72
6000     69
6102     69
8284     67
8289     67
8857     66
10526    65
10777    65
11300    64
12502    63
14286    61
Name: Overall, dtype: int64

#### Ordenando os dados

Nem sempre a tabela está ordenada da maneira ideal para resolver o seu problema. Por exemplo, você pode querer ver os jogadores do FIFA ordenados por idade. Para isso, usaremos o método `.sort_values()`:

In [128]:
data.sort_values(by="Age")

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
18206,246269,G. Nugent,16,https://cdn.sofifa.org/players/4/19/246269.png,England,https://cdn.sofifa.org/flags/14.png,46,66,Tranmere Rovers,https://cdn.sofifa.org/teams/2/light/15048.png,...,43.0,40.0,43.0,50.0,10.0,15.0,9.0,12.0,9.0,€165K
17743,244752,J. Olstad,16,https://cdn.sofifa.org/players/4/19/244752.png,Norway,https://cdn.sofifa.org/flags/36.png,52,69,Sarpsborg 08 FF,https://cdn.sofifa.org/teams/2/light/112199.png,...,42.0,13.0,19.0,20.0,7.0,8.0,9.0,11.0,8.0,€188K
13293,246594,H. Massengo,16,https://cdn.sofifa.org/players/4/19/246594.png,France,https://cdn.sofifa.org/flags/18.png,62,75,AS Monaco,https://cdn.sofifa.org/teams/2/light/69.png,...,50.0,52.0,62.0,65.0,8.0,14.0,12.0,9.0,15.0,€1.1M
16081,241552,J. Italiano,16,https://cdn.sofifa.org/players/4/19/241552.png,Australia,https://cdn.sofifa.org/flags/195.png,58,79,Perth Glory,https://cdn.sofifa.org/teams/2/light/111399.png,...,57.0,36.0,38.0,43.0,7.0,7.0,9.0,10.0,5.0,€630K
18166,243621,N. Ayéva,16,https://cdn.sofifa.org/players/4/19/243621.png,Sweden,https://cdn.sofifa.org/flags/46.png,48,72,Örebro SK,https://cdn.sofifa.org/teams/2/light/705.png,...,44.0,14.0,19.0,16.0,10.0,9.0,8.0,7.0,6.0,€158K
17712,245470,K. Broda,16,https://cdn.sofifa.org/players/4/19/245470.png,Poland,https://cdn.sofifa.org/flags/37.png,53,74,Wisła Kraków,https://cdn.sofifa.org/teams/2/light/1873.png,...,37.0,8.0,11.0,12.0,59.0,51.0,53.0,45.0,58.0,€259K
17354,242240,L. D'Arrigo,16,https://cdn.sofifa.org/players/4/19/242240.png,Australia,https://cdn.sofifa.org/flags/195.png,54,71,Adelaide United,https://cdn.sofifa.org/teams/2/light/111393.png,...,41.0,20.0,35.0,34.0,5.0,10.0,12.0,15.0,9.0,€244K
13567,246419,Y. Verschaeren,16,https://cdn.sofifa.org/players/4/19/246419.png,Belgium,https://cdn.sofifa.org/flags/7.png,62,83,RSC Anderlecht,https://cdn.sofifa.org/teams/2/light/229.png,...,50.0,35.0,38.0,35.0,15.0,6.0,12.0,10.0,7.0,€1.6M
16927,243646,B. Nygren,16,https://cdn.sofifa.org/players/4/19/243646.png,Sweden,https://cdn.sofifa.org/flags/46.png,56,73,IFK Göteborg,https://cdn.sofifa.org/teams/2/light/319.png,...,43.0,18.0,16.0,18.0,6.0,10.0,6.0,12.0,8.0,€338K
18018,243722,B. O'Gorman,16,https://cdn.sofifa.org/players/4/19/243722.png,Republic of Ireland,https://cdn.sofifa.org/flags/25.png,50,69,Bray Wanderers,https://cdn.sofifa.org/teams/2/light/838.png,...,46.0,28.0,18.0,14.0,14.0,15.0,12.0,10.0,5.0,€131K


Se quisermos inverter a ordem, basta usar o parâmetro `ascending`:

In [129]:
data.sort_values(by="Age", ascending=False)

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
4741,140029,O. Pérez,45,https://cdn.sofifa.org/players/4/19/140029.png,Mexico,https://cdn.sofifa.org/flags/83.png,71,71,Pachuca,https://cdn.sofifa.org/teams/2/light/110147.png,...,62.0,23.0,12.0,11.0,70.0,64.0,65.0,73.0,74.0,€272K
18183,53748,K. Pilkington,44,https://cdn.sofifa.org/players/4/19/53748.png,England,https://cdn.sofifa.org/flags/14.png,48,48,Cambridge United,https://cdn.sofifa.org/teams/2/light/1944.png,...,56.0,15.0,15.0,13.0,45.0,48.0,44.0,49.0,46.0,
17726,51963,T. Warner,44,https://cdn.sofifa.org/players/4/19/51963.png,Trinidad & Tobago,https://cdn.sofifa.org/flags/93.png,53,53,Accrington Stanley,https://cdn.sofifa.org/teams/2/light/110313.png,...,46.0,19.0,15.0,14.0,48.0,56.0,56.0,60.0,44.0,
10545,140183,S. Narazaki,42,https://cdn.sofifa.org/players/4/19/140183.png,Japan,https://cdn.sofifa.org/flags/163.png,65,65,Nagoya Grampus,https://cdn.sofifa.org/teams/2/light/112092.png,...,45.0,27.0,24.0,22.0,64.0,63.0,62.0,67.0,63.0,€50K
7225,142998,C. Muñoz,41,https://cdn.sofifa.org/players/4/19/142998.png,Argentina,https://cdn.sofifa.org/flags/52.png,68,68,CD Universidad de Concepción,https://cdn.sofifa.org/teams/2/light/112534.png,...,62.0,18.0,14.0,19.0,67.0,65.0,68.0,71.0,68.0,€84K
1120,156092,J. Villar,41,https://cdn.sofifa.org/players/4/19/156092.png,Paraguay,https://cdn.sofifa.org/flags/58.png,77,77,,https://cdn.sofifa.org/flags/58.png,...,55.0,13.0,13.0,14.0,75.0,75.0,74.0,78.0,77.0,
12192,208927,H. Sulaimani,41,https://cdn.sofifa.org/players/4/19/208927.png,Saudi Arabia,https://cdn.sofifa.org/flags/183.png,63,63,Ohod Club,https://cdn.sofifa.org/teams/2/light/113219.png,...,67.0,62.0,66.0,63.0,15.0,8.0,15.0,14.0,13.0,
15426,18745,M. Tyler,41,https://cdn.sofifa.org/players/4/19/18745.png,England,https://cdn.sofifa.org/flags/14.png,59,59,Peterborough United,https://cdn.sofifa.org/teams/2/light/1938.png,...,57.0,24.0,16.0,17.0,61.0,54.0,54.0,63.0,55.0,€18K
4228,3665,B. Nivet,41,https://cdn.sofifa.org/players/4/19/3665.png,France,https://cdn.sofifa.org/flags/18.png,71,71,ESTAC Troyes,https://cdn.sofifa.org/teams/2/light/294.png,...,82.0,58.0,56.0,43.0,11.0,7.0,8.0,14.0,7.0,
10356,49511,F. Kippe,40,https://cdn.sofifa.org/players/4/19/49511.png,Norway,https://cdn.sofifa.org/flags/36.png,65,65,Lillestrøm SK,https://cdn.sofifa.org/teams/2/light/299.png,...,64.0,62.0,58.0,55.0,14.0,9.0,10.0,6.0,11.0,


Podemos ordenar por duas colunas. Quando você faz isso, o pandas ordena pela primeira, e quando há empate, ordena pela segunda:

In [None]:
data.sort_values(by=["Age", "Overall"], ascending=False)

##### Alterando dados e criando colunas novas

Em pandas, podemos manipular os dados de diversas maneiras. A operações mais comuns (como `+`, `-`, `==` etc), podem ser usadas diretamente, como qualquer outro objeto Python. No caso de uma coluna de um DataFrame, a operação é feita **termo a termo**:

In [10]:
data["Age"] + 10

0        41
1        43
2        36
3        37
4        37
         ..
18202    29
18203    29
18204    26
18205    27
18206    26
Name: Age, Length: 18207, dtype: int64

In [132]:
data

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M
1,20801,Cristiano Ronaldo,33,https://cdn.sofifa.org/players/4/19/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,Juventus,https://cdn.sofifa.org/teams/2/light/45.png,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M
2,190871,Neymar Jr,26,https://cdn.sofifa.org/players/4/19/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,Paris Saint-Germain,https://cdn.sofifa.org/teams/2/light/73.png,...,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M
3,193080,De Gea,27,https://cdn.sofifa.org/players/4/19/193080.png,Spain,https://cdn.sofifa.org/flags/45.png,91,93,Manchester United,https://cdn.sofifa.org/teams/2/light/11.png,...,68.0,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M
4,192985,K. De Bruyne,27,https://cdn.sofifa.org/players/4/19/192985.png,Belgium,https://cdn.sofifa.org/flags/7.png,91,92,Manchester City,https://cdn.sofifa.org/teams/2/light/10.png,...,88.0,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M
5,183277,E. Hazard,27,https://cdn.sofifa.org/players/4/19/183277.png,Belgium,https://cdn.sofifa.org/flags/7.png,91,91,Chelsea,https://cdn.sofifa.org/teams/2/light/5.png,...,91.0,34.0,27.0,22.0,11.0,12.0,6.0,8.0,8.0,€172.1M
6,177003,L. Modrić,32,https://cdn.sofifa.org/players/4/19/177003.png,Croatia,https://cdn.sofifa.org/flags/10.png,91,91,Real Madrid,https://cdn.sofifa.org/teams/2/light/243.png,...,84.0,60.0,76.0,73.0,13.0,9.0,7.0,14.0,9.0,€137.4M
7,176580,L. Suárez,31,https://cdn.sofifa.org/players/4/19/176580.png,Uruguay,https://cdn.sofifa.org/flags/60.png,91,91,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,85.0,62.0,45.0,38.0,27.0,25.0,31.0,33.0,37.0,€164M
8,155862,Sergio Ramos,32,https://cdn.sofifa.org/players/4/19/155862.png,Spain,https://cdn.sofifa.org/flags/45.png,91,91,Real Madrid,https://cdn.sofifa.org/teams/2/light/243.png,...,82.0,87.0,92.0,91.0,11.0,8.0,9.0,7.0,11.0,€104.6M
9,200389,J. Oblak,25,https://cdn.sofifa.org/players/4/19/200389.png,Slovenia,https://cdn.sofifa.org/flags/44.png,90,93,Atlético Madrid,https://cdn.sofifa.org/teams/2/light/240.png,...,70.0,27.0,12.0,18.0,86.0,92.0,78.0,88.0,89.0,€144.5M


Podemos colocar os nossos resultados em colunas novas do DataFrame se desejarmos. Para fazer isso, simplesmente use um *assignment* do Python, assim:

In [12]:
data["Age in 10 years"] = data["Age"] + 10

In [13]:
data

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause,Age in 10 years
0,158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M,41
1,20801,Cristiano Ronaldo,33,https://cdn.sofifa.org/players/4/19/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,Juventus,https://cdn.sofifa.org/teams/2/light/45.png,...,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M,43
2,190871,Neymar Jr,26,https://cdn.sofifa.org/players/4/19/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,Paris Saint-Germain,https://cdn.sofifa.org/teams/2/light/73.png,...,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M,36
3,193080,De Gea,27,https://cdn.sofifa.org/players/4/19/193080.png,Spain,https://cdn.sofifa.org/flags/45.png,91,93,Manchester United,https://cdn.sofifa.org/teams/2/light/11.png,...,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M,37
4,192985,K. De Bruyne,27,https://cdn.sofifa.org/players/4/19/192985.png,Belgium,https://cdn.sofifa.org/flags/7.png,91,92,Manchester City,https://cdn.sofifa.org/teams/2/light/10.png,...,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M,37
5,183277,E. Hazard,27,https://cdn.sofifa.org/players/4/19/183277.png,Belgium,https://cdn.sofifa.org/flags/7.png,91,91,Chelsea,https://cdn.sofifa.org/teams/2/light/5.png,...,34.0,27.0,22.0,11.0,12.0,6.0,8.0,8.0,€172.1M,37
6,177003,L. Modrić,32,https://cdn.sofifa.org/players/4/19/177003.png,Croatia,https://cdn.sofifa.org/flags/10.png,91,91,Real Madrid,https://cdn.sofifa.org/teams/2/light/243.png,...,60.0,76.0,73.0,13.0,9.0,7.0,14.0,9.0,€137.4M,42
7,176580,L. Suárez,31,https://cdn.sofifa.org/players/4/19/176580.png,Uruguay,https://cdn.sofifa.org/flags/60.png,91,91,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,62.0,45.0,38.0,27.0,25.0,31.0,33.0,37.0,€164M,41
8,155862,Sergio Ramos,32,https://cdn.sofifa.org/players/4/19/155862.png,Spain,https://cdn.sofifa.org/flags/45.png,91,91,Real Madrid,https://cdn.sofifa.org/teams/2/light/243.png,...,87.0,92.0,91.0,11.0,8.0,9.0,7.0,11.0,€104.6M,42
9,200389,J. Oblak,25,https://cdn.sofifa.org/players/4/19/200389.png,Slovenia,https://cdn.sofifa.org/flags/44.png,90,93,Atlético Madrid,https://cdn.sofifa.org/teams/2/light/240.png,...,27.0,12.0,18.0,86.0,92.0,78.0,88.0,89.0,€144.5M,35


No entanto, muitas vezes precisamos fazer uso de funções mais complicadas. Se conseguirmos fazer essa operação como uma função `f(x)` em Python, podemos aplicar essa função em cada elemento da coluna usando o método `.apply(f)`. Por exemplo:

In [None]:
def funcao_complicada(overall):
    return (overall / 10) * ((overall + 2) ** 2)

data.Overall.apply(funcao_complicada)

##### Agrupando dados e tirando estatísticas

Muitas vezes precisamos agrupar e tirar informações de cada grupo na nossa tabela. Por exemplo, podemos querer saber a idade média por clube, o *Overall* médio por país, o número de clubes por país, o número de jogadores por país etc. Para extrair todas essas informações, precisamos agrupar os dados e tirar alguma informação de cada grupo. A biblioteca pandas facilita esse trabalho e dá maneiras simples de responder todas essas perguntas.

A agregação mais simples que podemos fazer em Pandas é a *quantidade de vezes que cada elemento aparece em uma coluna*, usando o método `.value_counts()`. Por exemplo, para encontrar a quantidade de jogadores por país, fazemos:

In [14]:
data.Nationality.value_counts()

England                1662
Germany                1198
Spain                  1072
Argentina               937
France                  914
                       ... 
Liberia                   1
São Tomé & Príncipe       1
Oman                      1
Malta                     1
Indonesia                 1
Name: Nationality, Length: 164, dtype: int64

Para agregar estatísticas mais complicadas, precisamos usar o método `.groupby()`. Por exemplo, para encontrar a média de *Overall* por clube, fazemos assim: fazemos um grupo por cada *Club* usando `.groupby("Club")`, depois pegamos a coluna `Overall` e tiramos a a média usando `.mean()`.

In [42]:
data.groupby("Club").Overall.mean().sort_values(ascending=False)[0:10]

Club
Juventus               82.280000
Napoli                 80.000000
Inter                  79.750000
Real Madrid            78.242424
Milan                  78.074074
FC Barcelona           78.030303
Paris Saint-Germain    77.433333
Roma                   77.423077
Manchester United      77.242424
SL Benfica             77.000000
Name: Overall, dtype: float64

In [45]:
data.groupby("Club").Overall.mean()

Club
 SSV Jahn Regensburg     65.586207
1. FC Heidenheim 1846    65.750000
1. FC Kaiserslautern     63.384615
1. FC Köln               70.785714
1. FC Magdeburg          65.615385
                           ...    
Zagłębie Sosnowiec       60.760000
Çaykur Rizespor          66.900000
Örebro SK                60.481481
Östersunds FK            63.545455
Śląsk Wrocław            62.200000
Name: Overall, Length: 651, dtype: float64

In [24]:
data[data.Club == "FC Barcelona"].Overall.mean()

78.03030303030303

Podemos pegar tirar a média de mais uma coluna, usando `[col1, col2]` para acessá-las. Por exemplo, para tirar a média de `Age` e de `Overall` para cada `Club`, fazemos:

In [50]:
data.groupby("Club")["Overall", "Age"].mean().sort_values(by="Age", ascending=True)

Unnamed: 0_level_0,Overall,Age
Club,Unnamed: 1_level_1,Unnamed: 2_level_1
FC Nordsjælland,60.962963,20.259259
FC Groningen,65.307692,21.423077
Bohemian FC,55.000000,21.480000
FC Sochaux-Montbéliard,62.642857,21.678571
FC Admira Wacker Mödling,62.185185,21.925926
LOSC Lille,69.640000,22.000000
Envigado FC,61.285714,22.035714
Stabæk Fotball,60.814815,22.074074
Barnsley,61.821429,22.107143
Derry City,55.777778,22.111111


<div class="alert alert-block alert-warning">
<b>Atenção:</b>

Note que a coluna que você agrupou, nesse caso `Club`, vira o índice das linhas no resultado final.
</div>

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Potencial não realizado é a diferença entre as colunas `Potential` (potencial que o jogador tem de chegar em termos de habilidade) e `Overall` (habilidade atual do jogador). Encontre o time de **maior média de potencial não realizado**. 
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [59]:
data["PoxaNaoRolou"] = data.Overall - data.Potential

In [65]:
data.groupby("Club")["Club", "PoxaNaoRolou"].mean().sort_values(by="PoxaNaoRolou",ascending=False)

Unnamed: 0_level_0,PoxaNaoRolou
Club,Unnamed: 1_level_1
Chapecoense,0.000000
Ceará Sporting Club,0.000000
Paraná,0.000000
Grêmio,0.000000
Atlético Mineiro,0.000000
Fluminense,0.000000
Santos,0.000000
Atlético Paranaense,0.000000
América FC (Minas Gerais),0.000000
Sport Club do Recife,0.000000


#### Dados ausentes ou nulos

Em muitos casos, os dados que um data scientist vai trabalhar não estão em perfeitas condições. Em muitos casos, várias colunas possuem, por exemplo, dados ausentes, seja por falhas no processo de capptura, por esses dados estarem indisponíveis, ou por esse dado não fazer sentido para aquele caso (por exemplo, na linha de um jogador novato, a coluna de "Clube anterior" pode estar vazia pois aquele é seu primeiro clube).

Para investigar se cada elemento de uma coluna é nulo ou não, podemos usar os métodos `.isnull()` ou `.notnull()`. Por exemplo, para vez quais elementos da coluna `Club` estão nulos:

In [66]:
data.Club.isnull()

0        False
1        False
2        False
3        False
4        False
         ...  
18202    False
18203    False
18204    False
18205    False
18206    False
Name: Club, Length: 18207, dtype: bool

Mas quantos deles são nulos? Para isso, basta somar todos os `True` que temos no resultado acima: 

In [67]:
data.Club.isnull().sum()

241

Então 241 jogadores estão sem clube! Podemos agora querer preencher esses valores nulos com a string `"No Club"`. Para fazer isso, usamos o método `.fillna()`:

In [69]:
data["Filled Club"] = data.Club.fillna("No Club")

In [70]:
data["Filled Club"].isnull().sum()

0

Note que a coluna `Filled Club` não tem mais valores nulos.

Outra operação muito comum em trabalho de data science é jogar fora colunas que tem algum valor nulo. Podemos fazer isso usando o método `dropna()`, assim:

In [73]:
data.dropna(axis="columns")

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club Logo,Value,Wage,Special,Age in 10 years,PoxaNaoRolou,Filled Club
0,158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,https://cdn.sofifa.org/teams/2/light/241.png,€110.5M,€565K,2202,41,0,FC Barcelona
1,20801,Cristiano Ronaldo,33,https://cdn.sofifa.org/players/4/19/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,https://cdn.sofifa.org/teams/2/light/45.png,€77M,€405K,2228,43,0,Juventus
2,190871,Neymar Jr,26,https://cdn.sofifa.org/players/4/19/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,https://cdn.sofifa.org/teams/2/light/73.png,€118.5M,€290K,2143,36,-1,Paris Saint-Germain
3,193080,De Gea,27,https://cdn.sofifa.org/players/4/19/193080.png,Spain,https://cdn.sofifa.org/flags/45.png,91,93,https://cdn.sofifa.org/teams/2/light/11.png,€72M,€260K,1471,37,-2,Manchester United
4,192985,K. De Bruyne,27,https://cdn.sofifa.org/players/4/19/192985.png,Belgium,https://cdn.sofifa.org/flags/7.png,91,92,https://cdn.sofifa.org/teams/2/light/10.png,€102M,€355K,2281,37,-1,Manchester City
5,183277,E. Hazard,27,https://cdn.sofifa.org/players/4/19/183277.png,Belgium,https://cdn.sofifa.org/flags/7.png,91,91,https://cdn.sofifa.org/teams/2/light/5.png,€93M,€340K,2142,37,0,Chelsea
6,177003,L. Modrić,32,https://cdn.sofifa.org/players/4/19/177003.png,Croatia,https://cdn.sofifa.org/flags/10.png,91,91,https://cdn.sofifa.org/teams/2/light/243.png,€67M,€420K,2280,42,0,Real Madrid
7,176580,L. Suárez,31,https://cdn.sofifa.org/players/4/19/176580.png,Uruguay,https://cdn.sofifa.org/flags/60.png,91,91,https://cdn.sofifa.org/teams/2/light/241.png,€80M,€455K,2346,41,0,FC Barcelona
8,155862,Sergio Ramos,32,https://cdn.sofifa.org/players/4/19/155862.png,Spain,https://cdn.sofifa.org/flags/45.png,91,91,https://cdn.sofifa.org/teams/2/light/243.png,€51M,€380K,2201,42,0,Real Madrid
9,200389,J. Oblak,25,https://cdn.sofifa.org/players/4/19/200389.png,Slovenia,https://cdn.sofifa.org/flags/44.png,90,93,https://cdn.sofifa.org/teams/2/light/240.png,€68M,€94K,1331,35,-3,Atlético Madrid


Veja que só sobraram 14 colunas. Se quisermos jogar todas as linhas que tenham algum valor nulo, basta colocar o parâmetro `axis="rows"` no método `.dropna()`

## Pandas ou numpy?

É importante saber alguns prós e contras do Numpy e Pandas para quando vamos escolher a melhor ferramenta para realizar alguma tarefa. 

Algumas dicas:

* Dados tabulares -> preferência a Pandas
* problema por estritamente um problema de algebra linear (como decomposição de matrizes ou manipulação de vetores) -> escolha Numpy 
* Performance: numpy é mais simples e sua simplicidade resulta em um código mais otimizado (com diversas partes internas escritas em C ao invés de Python). Se a performance das suas operações no pandas é um problema, troque para Numpy para fazer os cálculos mais pesados.
* **Usem SEMPRE a documentação e a comunidade (como Stack Overflow), pois essas são as principais vantagens de utilizar Python e essas bibliotecas mais "famosas".**

### Esse material foi produzido com base no material de Paulo Roberto de Oliveira Castro.