In [2]:
import pandas as pd
import numpy as np

In [3]:
pd.set_option('display.max_rows', 7)

# Introdução

Operações vetoriais e manipulação de dados tabulares são fundamentais na jornada de data science. No ciclo de desenolvimento de um produto de data science, é preciso manipular, tratar, sumarizar e visualizar dados para extrair a maior quantidade de informações relevantes para o negócio possível. Por exemplo, você pode precisar descrever seus dados, extrair insights rápidos deles, ccriar visualizações interessantes para pessoas menos técnicas e até tratar dados faltantes ou problemáticos.

Duas das principais ferramentas para realizar essas tarefas em Python são [Numpy](https://numpy.org/) e [Pandas](https://pandas.pydata.org). São bibliotecas (conjuntos de classes, funções e objetos) feitos para análise de dados. Enquanto Numpy foca em manipulação de vetores e matrizes, muito úteis para realizar operações de álgebra linear (como decomposição de matrizes, calculo de similaridade e distâncias, etc), o Pandas é focado em dados tabulares e manipulações de dados estruturados.

Nesta aula vamos:

* Apresentar conceitos de programação vetorial
* Praticar análise de dados com Numpy
* Discutir a importância e uso de Pandas na prática
* Praticar a importação, leitura, organização e manipulação de dados para usar o Pandas para análise
* Apresentar e aprofundar nos métodos e funções da biblioteca Pandas

# Listas

Em Python a lista é uma das mais importantes estruturas de dados. É capaz de conter diversos objetos em ordem. Listas são muito úteis quando precisamos guardas objetos de maneira ordenada para podermos processá-los mais para frente nos nossos programas.

As listas podem conter diversos tipos de elementos:

In [4]:
lista_de_ints = [1, 2, 3, 4]
lista_de_strings = ["um", "dois"]
lista_de_listas = [[1,2], [1,2,3,4]]

Elas também podem conter tipos diferentes. Dizemos que são listas *heterogêneas*.

In [5]:
outra_lista = [5, 5, "banana", 8]

No entanto, no geral, listas são pouco indicadas para fazer contas. Suponha que tenhamos duas listas para gerênciar uma compra em uma loja: uma contendo a quantidade de itens, outra o valor dos ítens.

In [6]:
quantidades = [1, 10, 0, 5, 2]
precos = [10.5, 20.3, 100.75, 0.5, 2.0]

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Calcule o preço total da compra do cliente, multiplicando a quantidade pedida do primeiro produto pelo seu preço, a quantidade pedida do segundo produto pelo seu preço e assim por diante.
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [7]:
resultado = 0
for i in range(len(precos)):
    resultado += quantidades[i] * precos[i]
        
resultado

220.0

Alternativamente, usando a função `sum` que soma todos os itens de uma lista:

In [8]:
sum([q * p for p, q in zip(quantidades, precos)])

220.0

<div class="alert alert-block alert-danger">
<b>Não funciona:</b>
</div>

In [9]:
pagtos = quantidades + precos

Soma de listas é o mesmo do que a *concatenação*

In [10]:
pagtos

[1, 10, 0, 5, 2, 10.5, 20.3, 100.75, 0.5, 2.0]

In [11]:
sum(pagtos)

152.05

#### Conclusão

Listas em geral funcionam muito bem para processamentos simples de dados, mas não provém uma usabilidade boa para fazer contas, além de possuírem performance muito ruim para esse tipo de operação.

# Numpy Arrays

![numpy](img/numpy.svg)

In [12]:
x = np.array([1, 2, 3])
y = np.array([5.2, 3.4, 1.0])

#### Operações entre arrays

Soma de arrays é tão fácil quanto somar dois números

In [13]:
x + y

array([6.2, 5.4, 4. ])

O mesmo vale se quisermos multiplicar os vetores termo a termo:

In [14]:
x * y

array([5.2, 6.8, 3. ])

Diversar operações estão disponíveis como *métodos* do array, ou seja, devemos chamar com `x.metodo()`. Exemplos disso são a soma, a média e o desvio padrão de um vetor:

In [15]:
x.sum()

6

In [16]:
x.mean()

2.0

In [17]:
x.std()

0.816496580927726

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Calcule o preço total da compra do cliente, multiplicando a quantidade pedida do primeiro produto pelo seu preço, a quantidade pedida do segundo produto pelo seu preço e assim por diante. Dessa vez, faça uso dos arrays do numpy.
</div>

In [18]:
quantidades = np.array([1, 10, 0, 5, 2])
precos = np.array([10.5, 20.3, 100.75, 0.5, 2.0])

In [19]:
quantidades

array([ 1, 10,  0,  5,  2])

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [20]:
pagtos = quantidades * precos
pagtos.sum()

220.0

Alternativamente

In [21]:
(quantidades * precos).sum()

220.0

## Acessando e mudando elementos do array

### Índices e slicing

Algumas vezes, precisamos acessar (por qualquer motivo que seja) um sub-conjunto de um array do numpy. Pode ser que queiramos usar apenas um elemento (ex.: precisamos mandar para alguém apenas o preço do segundo item). Outras vezes, precisamos de um pedaço maior do array, em outras palavras, um sub-array.

Para acessar apenas um elemento do array, podemos usar a sintaxe `a[i]`. No caso dos preços, por exemplo, podemos acessar o preço do terceiro item fazendo:

In [22]:
precos[2]

100.75

<div class="alert alert-block alert-warning">
<b>Atenção:</b>

Assim como nas listas, a contagem dos índices começa de zero. Ou seja, `0` é a posição do primeiro elemento, `1` é a posição do segundo etc.
</div>

Podemos também usar listas para acessar multiplos elementos de uma vez, fazendo `a[[1,2,3,4]]`. Por exemplo, se quisermos os preços dos três primeiros itens, podemos fazer: 

In [23]:
precos[[0,1,2]]

array([ 10.5 ,  20.3 , 100.75])

Para acessar elementos contíguos (ou seja, adjacentes) como no caso acima, podemos também usar o que é chamado de `slicing`. Slices são escritos como `i:j` e significam algo como "acessar os itens da posição `i` (inclusa) até a posição `j` (não inclusa)". Por exemplo, para pegar os preços dos três primeiros itens, faríamos:

In [24]:
precos[0:3]

array([ 10.5 ,  20.3 , 100.75])

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Sobre o array `x`, encontre:
    
* O décimo terceiro elemento
* Um sub-array com o primeiro, terceiro e décimo elemento
* Um sub-array com os 5 primeiros elementos
</div>

In [25]:
x = np.random.randint(0, 100, size=30)

In [26]:
x

array([73, 43, 38, 85,  3, 53, 11, 42, 97, 37, 94, 23, 33, 11,  2, 28, 58,
       59,  4, 49, 56, 16, 45, 73,  6, 31, 58, 41,  7, 85])

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [27]:
x[12]

33

In [28]:
x[[0, 2, 9]]

array([73, 38, 37])

In [29]:
x[0:5]

array([73, 43, 38, 85,  3])

### Máscaras

Para acessar elementos de um array, também podemos usar uma lista de Booleanos (`True` ou `False`) do mesmo tamanho do array. Esta lista é chamada de máscara.

A máscara representa quais elementos você quer preservar (representado por `True`) e quais você quer descartar (`False`) do seu resultado final. Por exemplo, para acessar os preços do primeiro e do terceiro item, fazemos:

In [30]:
precos[[True, False, True, False, False]]

array([ 10.5 , 100.75])

<div class="alert alert-block alert-warning">
<b>Atenção:</b>

Você também pode usar um np.array de booleanos se desejar. Usamos a lista por simplicidade.
</div>

O método da máscara pode parecer inútil, mas é muito útil quando você quer filtrar elementos de um array. Por exemplo, imagine que queremos somente os preços maiores que 10:

In [31]:
mascara = precos > 10

In [32]:
# A máscara é um np.array de booleanos
mascara

array([ True,  True,  True, False, False])

In [33]:
# Usamos então a máscara para acessar os elementos que queremos
precos[mascara]

array([ 10.5 ,  20.3 , 100.75])

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Alguns produtos tiveram mais de uma unidade pedida pelo usuário. Encontre os preços desse produtos.
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [34]:
mascara = quantidades > 1

In [35]:
precos[mascara]

array([20.3,  0.5,  2. ])

### Alterando elementos do array

Se você precisar, pode alterar elementos de um array. Para fazer isso é muito simples, para mudar o preço do terceiro para 90, fazemos:

In [36]:
precos[2] = 90

In [37]:
precos

array([10.5, 20.3, 90. ,  0.5,  2. ])

Mais do que isso, você pode alterar multiplos elementos de uma vez! Imagine que você queira dar um desconto de 50% nos três primeiros itens da lista. Basta fazer:

In [38]:
precos[0:3] = precos[0:3] / 2

In [39]:
precos

array([ 5.25, 10.15, 45.  ,  0.5 ,  2.  ])

## Numpy Arrays de multiplas dimensões

![title](img/arrays.png)

Numpy dá ferramentas excelentes para a manipulação de vetores (no sentido matemático). No entanto, também é ideal quando lidamos com dados de dimensionalidade mais alta, como matrizes ou arrays em 3D. Matrizes, por serem bidimensionais (altura e largura), são capazer de representar objetos como rotações e imagens preto e branco. Arrays 3D podem ser usados para representar imagens coloridas (onde a terceira dimensão é a cor), ou um vídeo (onde a terceira dimensão é o tempo).

Para criar uma matriz, basta fazer:

In [40]:
m1 = np.array([[1,2,3], [4,5,6]])

In [41]:
m1

array([[1, 2, 3],
       [4, 5, 6]])

Podemos também criar uma matriz aleatória, fazendo:

In [42]:
m2 = np.random.randint(0, 10, size=(3, 2))

In [43]:
m2

array([[8, 0],
       [8, 7],
       [8, 7]])

Como são matrizes, podemos fazer operações entre elas, como por exemplo a multiplicação matricial:

In [44]:
np.dot(m1, m2)

array([[ 48,  35],
       [120,  77]])

Você também consegue transpor uma matriz, fazendo simplesmente:

In [45]:
m1.T

array([[1, 4],
       [2, 5],
       [3, 6]])

Incrível! Diversas operação estão disponíveis no `numpy` e também em outras bibliotecas como `scipy`.

## Acessando dados

Para acessar os dados, basta usar `matriz[linha, coluna]` onde `linha` é a posição da linha e `coluna` é a posição da coluna. Por exemplo, para acessarmos a primeira linha e segunda coluna de uma matriz, fazemos:

In [46]:
m1[0, 1]

2

Técnicas para acessar dados que funcionam para arrays de 1 dimensão, também funcionam aqui. Um exemplo é usar slices:

In [47]:
m1[0:2, 0:2]

array([[1, 2],
       [4, 5]])

E também máscaras. Por exemplo, podemos querer só as linhas da matriz cuja segunda coluna tem valor superior a zero:

In [48]:
mascara = m2[:, 1] > 0  # mascara das linhas cuja segunda coluna é superior a zero
m2[mascara, :]

array([[8, 7],
       [8, 7]])

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Crie uma matriz do numpy com números aleatórios de 0 a 100. O tamanho da matriz deve ser 100 linhas por 50 colunas. Depois, use a técnica da máscara para selecionar só as linhas da matriz cujo valor da terceira coluna seja maior do que o da primeira coluna. Quantas linhas sobraram?
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [49]:
matriz = np.random.randint(0, 100, size=(100, 50))

In [50]:
mascara = matriz[:, 2] > matriz[:, 0]
matriz[mascara, :]

array([[26,  2, 58, ..., 60, 75, 34],
       [28, 10, 47, ..., 50, 53, 50],
       [62, 66, 83, ..., 80, 69, 15],
       ...,
       [18, 36, 54, ..., 16, 50, 12],
       [36, 59, 85, ..., 77, 37,  6],
       [42, 85, 65, ..., 29, 66, 91]])

In [51]:
matriz[mascara, :].shape

(48, 50)

## Operações de agregação

Com numpy, você consegue agregar dados com extrema facilidade. Por exemplo, é possível calcular soma, média, desvio padrão, etc. de uma matrix por linha, or coluna ou entre todos os elementos. Essas operações facilitam muito a computação de estatisticas de seus dados.

Por exemplo, muitos dos modelos de machine learning funcionam melhor se os dados estiverem normalizadas, ou seja, subtraído da sua média e divido pela variância. Isso (usualmente, dependendo da distribuição original) faz com que os dados tenham a média 0 e o desvio padrão 1.

![standardization](img/standardization.jpg)

 Em numpy, imagine que temos uma matriz cujas linhas representam pessoas, e uma coluna representa a altura (cms) e a outra coluna o peso da pessoa (em kgs). Para normalizar as alturas e os pesos, você poderia fazer:

In [52]:
# Criando alturas e pesos aleatórios 
alturas_pesos = np.concatenate([np.random.randint(140, 200, size=(30,1)), np.random.randint(60, 110, size=(30, 1))], axis=1)
alturas_pesos

array([[162,  96],
       [192,  84],
       [155,  64],
       [170, 104],
       [189,  64],
       [161, 104],
       [177,  60],
       [192,  71],
       [193,  89],
       [185, 100],
       [179,  68],
       [186, 102],
       [189, 106],
       [197,  72],
       [158,  60],
       [162,  80],
       [176,  89],
       [184, 109],
       [190,  71],
       [143,  77],
       [186, 108],
       [198,  64],
       [185,  61],
       [158, 102],
       [179,  69],
       [190,  99],
       [164,  86],
       [183,  68],
       [163,  85],
       [182,  76]])

In [53]:
# normalizando
(alturas_pesos - alturas_pesos.mean(axis=0)) / alturas_pesos.std(axis=0)

array([[-1.09822851,  0.79977352],
       [ 1.01374939,  0.06528763],
       [-1.59102336, -1.15885551],
       [-0.5350344 ,  1.28943078],
       [ 0.8025516 , -1.15885551],
       [-1.16862777,  1.28943078],
       [-0.04223956, -1.40368414],
       [ 1.01374939, -0.73040541],
       [ 1.08414866,  0.37132342],
       [ 0.52095455,  1.04460215],
       [ 0.09855897, -0.91402688],
       [ 0.59135381,  1.16701647],
       [ 0.8025516 ,  1.4118451 ],
       [ 1.36574571, -0.66919825],
       [-1.37982556, -1.40368414],
       [-1.09822851, -0.179541  ],
       [-0.11263882,  0.37132342],
       [ 0.45055529,  1.59546657],
       [ 0.87295087, -0.73040541],
       [-2.43581452, -0.36316247],
       [ 0.59135381,  1.53425941],
       [ 1.43614498, -1.15885551],
       [ 0.52095455, -1.34247699],
       [-1.37982556,  1.16701647],
       [ 0.09855897, -0.85281973],
       [ 0.87295087,  0.983395  ],
       [-0.95742998,  0.18770195],
       [ 0.38015602, -0.91402688],
       [-1.02782925,

O diagrama abaixo mostra como o parâmetro `axis` afeta o calculo da média e do desvio padrão. Mudar esse parâmetro permite você calcular a média por linha, por coluna, ou geral do seus dados.

![Eixos de Agregação](img/agregacao_numpy.png)

# Pandas

![pandas](img/pandas.jpeg)

Pandas é uma biblioteca para Python, desenvolvida para manipular dados tabulares. Essa biblioteca pode não só substituir o excel por uma alternativa mais flexível e programático, mas também é ideal para integras dados com bibliotecas de machine learning, como Sklearn e Tensorflow, que já estão preparados para lidar com dados carregados via pandas.

Para essa parte da aula, usaremos os dados do jogo FIFA 19. Esses dados contém informações sobre todos os jogadores presentes no jogo, de diversos clubes ao redor do mundo. Esses dados podem ser [encontrados no Kaggle](https://www.kaggle.com/karangadiya/fifa19). Apesar de lúdico, esses dados têm muitas das características de dados que encontramos normalmente como data scientists: são dados brutos de indivíduos, de onde queremos extrair informações e padrões.

![fifa](img/fifa.jpeg)

Nesta aula, usaremos a biblioteca Pandas para extrair informações básicas e responder perguntas sobre nossos dados.

Exemplos de uso deste dataset no futuro: *clustering* dos jogadores, previsão de sua habilidade geral (*Overall*) com base em suas estatísticas, visualização dos dados, etc. Muitas destas aplicações podem ser encontradas em [notebooks do Kaggle](https://www.kaggle.com/karangadiya/fifa19/kernels).

## Baixando e Carregando dados

In [55]:
data = pd.read_csv("data/data.csv", index_col=0)

In [56]:
data

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M
1,20801,Cristiano Ronaldo,33,https://cdn.sofifa.org/players/4/19/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,Juventus,https://cdn.sofifa.org/teams/2/light/45.png,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M
2,190871,Neymar Jr,26,https://cdn.sofifa.org/players/4/19/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,Paris Saint-Germain,https://cdn.sofifa.org/teams/2/light/73.png,...,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18204,241638,B. Worman,16,https://cdn.sofifa.org/players/4/19/241638.png,England,https://cdn.sofifa.org/flags/14.png,47,67,Cambridge United,https://cdn.sofifa.org/teams/2/light/1944.png,...,41.0,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0,€165K
18205,246268,D. Walker-Rice,17,https://cdn.sofifa.org/players/4/19/246268.png,England,https://cdn.sofifa.org/flags/14.png,47,66,Tranmere Rovers,https://cdn.sofifa.org/teams/2/light/15048.png,...,46.0,20.0,25.0,27.0,14.0,6.0,14.0,8.0,9.0,€143K
18206,246269,G. Nugent,16,https://cdn.sofifa.org/players/4/19/246269.png,England,https://cdn.sofifa.org/flags/14.png,46,66,Tranmere Rovers,https://cdn.sofifa.org/teams/2/light/15048.png,...,43.0,40.0,43.0,50.0,10.0,15.0,9.0,12.0,9.0,€165K


In [57]:
data.shape

(18207, 88)

In [58]:
data.columns

Index(['ID', 'Name', 'Age', 'Photo', 'Nationality', 'Flag', 'Overall',
       'Potential', 'Club', 'Club Logo', 'Value', 'Wage', 'Special',
       'Preferred Foot', 'International Reputation', 'Weak Foot',
       'Skill Moves', 'Work Rate', 'Body Type', 'Real Face', 'Position',
       'Jersey Number', 'Joined', 'Loaned From', 'Contract Valid Until',
       'Height', 'Weight', 'LS', 'ST', 'RS', 'LW', 'LF', 'CF', 'RF', 'RW',
       'LAM', 'CAM', 'RAM', 'LM', 'LCM', 'CM', 'RCM', 'RM', 'LWB', 'LDM',
       'CDM', 'RDM', 'RWB', 'LB', 'LCB', 'CB', 'RCB', 'RB', 'Crossing',
       'Finishing', 'HeadingAccuracy', 'ShortPassing', 'Volleys', 'Dribbling',
       'Curve', 'FKAccuracy', 'LongPassing', 'BallControl', 'Acceleration',
       'SprintSpeed', 'Agility', 'Reactions', 'Balance', 'ShotPower',
       'Jumping', 'Stamina', 'Strength', 'LongShots', 'Aggression',
       'Interceptions', 'Positioning', 'Vision', 'Penalties', 'Composure',
       'Marking', 'StandingTackle', 'SlidingTackle', 'GKDiv

In [59]:
data.describe()

Unnamed: 0,ID,Age,Overall,Potential,Special,International Reputation,Weak Foot,Skill Moves,Jersey Number,Crossing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
count,18207.000000,18207.000000,18207.000000,18207.000000,18207.000000,18159.000000,18159.000000,18159.000000,18147.000000,18159.000000,...,18159.000000,18159.000000,18159.000000,18159.000000,18159.000000,18159.000000,18159.000000,18159.000000,18159.000000,18159.000000
mean,214298.338606,25.122206,66.238699,71.307299,1597.809908,1.113222,2.947299,2.361308,19.546096,49.734181,...,48.548598,58.648274,47.281623,47.697836,45.661435,16.616223,16.391596,16.232061,16.388898,16.710887
std,29965.244204,4.669943,6.908930,6.136496,272.586016,0.394031,0.660456,0.756164,15.947765,18.364524,...,15.704053,11.436133,19.904397,21.664004,21.289135,17.695349,16.906900,16.502864,17.034669,17.955119
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
50%,221759.000000,25.000000,66.000000,71.000000,1635.000000,1.000000,3.000000,2.000000,17.000000,54.000000,...,49.000000,60.000000,53.000000,55.000000,52.000000,11.000000,11.000000,11.000000,11.000000,11.000000
75%,236529.500000,28.000000,71.000000,75.000000,1787.000000,1.000000,3.000000,3.000000,26.000000,64.000000,...,60.000000,67.000000,64.000000,66.000000,64.000000,14.000000,14.000000,14.000000,14.000000,14.000000
max,246620.000000,45.000000,94.000000,95.000000,2346.000000,5.000000,5.000000,5.000000,99.000000,93.000000,...,92.000000,96.000000,94.000000,93.000000,91.000000,90.000000,92.000000,91.000000,90.000000,94.000000


In [60]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18207 entries, 0 to 18206
Data columns (total 88 columns):
ID                          18207 non-null int64
Name                        18207 non-null object
Age                         18207 non-null int64
Photo                       18207 non-null object
Nationality                 18207 non-null object
Flag                        18207 non-null object
Overall                     18207 non-null int64
Potential                   18207 non-null int64
Club                        17966 non-null object
Club Logo                   18207 non-null object
Value                       18207 non-null object
Wage                        18207 non-null object
Special                     18207 non-null int64
Preferred Foot              18159 non-null object
International Reputation    18159 non-null float64
Weak Foot                   18159 non-null float64
Skill Moves                 18159 non-null float64
Work Rate                   18159 non-null 

![chacha](img/chacha.gif)

## Acessando dados de uma tabela

Você consegue acessar uma coluna inteira da tabela usando `df.nomeDaColuna`

In [61]:
data.Name

0                 L. Messi
1        Cristiano Ronaldo
2                Neymar Jr
               ...        
18204            B. Worman
18205       D. Walker-Rice
18206            G. Nugent
Name: Name, Length: 18207, dtype: object

<div class="alert alert-block alert-warning">
<b>Atenção:</b>

Dessa maneira não é possível acessar colunas cujos nomes contém espaços. Nesses casos, prefira o método `.loc`.
</div>


Além de usar o método acima de acessar, existem outras duas maneiras de acessar dados em pandas: uma usando o método `loc` (mais comum) e outra usando o método `iloc`. Em ambos os casos é possível acessar

* Um elemento da tabela (em geral um `int`, `float` ou `str`)
* Uma coluna (que em pandas é do tipo `pd.Series`)
* Uma sub-tabela (que também é do tipo `pd.DataFrame`, assim como a tabela original)

### .iloc

O método mais simples é o `iloc`, que deixa você acessar os elementos da tabela usando os números das posições das colunas e das linhas. Isso é chamado de **acesso posicional**. Você sempre usa esse método como `df.iloc[linhas, colunas]`, onde `linhas` e `colunas` podem ser:

* Inteiros, ex. 5.
* Uma lista de inteiros, ex. `[4, 3, 0]`.
* Um objeto slice com inteiros, ex. `1:7`.
* Um array de booleanos, ex `[false, true, false]`.

Por exemplo, se você quiser acessar a linha 0 e a coluna 1, você faz:

In [62]:
data.iloc[0, 1]

'L. Messi'

Agora, usando listas de inteiros, é possível acessar a linha 0 e 1, e as colunas 1 e 2:

In [63]:
data.iloc[[0, 1], [1, 2]]

Unnamed: 0,Name,Age
0,L. Messi,31
1,Cristiano Ronaldo,33


É possível selecionar multiplas linhas e colunas com `slices` usando ranges como `n:m` ao invés de números

In [64]:
data.iloc[0:5, 0:3]

Unnamed: 0,ID,Name,Age
0,158023,L. Messi,31
1,20801,Cristiano Ronaldo,33
2,190871,Neymar Jr,26
3,193080,De Gea,27
4,192985,K. De Bruyne,27


Podemos misturar também!

In [65]:
data.iloc[0:10, 1]

0             L. Messi
1    Cristiano Ronaldo
2            Neymar Jr
           ...        
7            L. Suárez
8         Sergio Ramos
9             J. Oblak
Name: Name, Length: 10, dtype: object

### .loc

Também é possível acessar dados partir dos `nomes de linhas e de colunas`, usando o método `loc`. Esse método usa os índices das linhas (que são basicamente os "nomes" das linhas, e os nomes das colunas como forma de acessar os dados da tabela. Esse método é usado como `df.loc[linhas, colunas]`, onde `linhas` e `colunas` podem ser:

* Um label único, como por exemplo `5` ou `'a'`, (note que 5 é interpretado como nome do índice nesse caso, e não como sua posição).
* Uma lista de labels, ex `['a', 'b', 'c']`.
* Um objeto slice com labels como `'a':'f'`.
* Um array de booleanos, ex `[false, true, false]`.

In [66]:
data.loc[1, "Name"]

'Cristiano Ronaldo'

Também é possível usar listas de nomes que você quer acessar:

In [67]:
data.loc[[0,1,3], ["Name", "Age"]]

Unnamed: 0,Name,Age
0,L. Messi,31
1,Cristiano Ronaldo,33
3,De Gea,27


Além de aceitar usar slicing

In [68]:
data.loc[0:5, "ID":"Age"]

Unnamed: 0,ID,Name,Age
0,158023,L. Messi,31
1,20801,Cristiano Ronaldo,33
2,190871,Neymar Jr,26
3,193080,De Gea,27
4,192985,K. De Bruyne,27
5,183277,E. Hazard,27


E também conseguir misturar:

In [69]:
data.loc[0:10, ["Name", "Age"]]

Unnamed: 0,Name,Age
0,L. Messi,31
1,Cristiano Ronaldo,33
2,Neymar Jr,26
...,...,...
8,Sergio Ramos,32
9,J. Oblak,25
10,R. Lewandowski,29


#### Acesso com array de booleanos

Tanto no caso de `iloc` como de `loc` é possível passar um array de booleanos. Funciona assim, cada booleano, `True` ou `False`, indica se você quer ou não, manter aquela linha/coluna na sua tabela. Por exemplo, se queremos apenas a segunda e a terceira linha da tabela podemos acessar usando um array de booleanos fazendo:

`df.loc[[False, True, True, False, False, False, False, ..., False], :]`

Pode não parecer muito útil a princípio (afinal, poderíamos fazer simplesmente `df.loc[[1,2], :]`, não é mesmo?) mas esta é a principal forma de filtrar dados de uma tabela, como veremos mais pra frente.

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Extraia da tabela o nome e a posição dos dez últimos jogadores da tabela.
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

Podemos fazer usando o `.loc`:

In [70]:
data.loc[18196:, ["Name", "Position"]]

Unnamed: 0,Name,Position
18196,K. Fujikawa,CM
18197,D. Holland,CM
18198,J. Livesey,GK
...,...,...
18204,B. Worman,ST
18205,D. Walker-Rice,RW
18206,G. Nugent,CM


E também com `.iloc`:

In [71]:
data.iloc[-10:, [1, 20]]

Unnamed: 0,Name,Position
18197,D. Holland,CM
18198,J. Livesey,GK
18199,M. Baldisimo,CM
...,...,...
18204,B. Worman,ST
18205,D. Walker-Rice,RW
18206,G. Nugent,CM


![big](img/big.gif)

## Operações lógicas e filtrando dados de uma tabela

Você pode fazer operações lógicas com elementos de uma dataframe. Suponha que vocês queiram ver quais jogadores tem mais de 27 anos:

In [72]:
data.Age >= 28

0         True
1         True
2        False
         ...  
18204    False
18205    False
18206    False
Name: Age, Length: 18207, dtype: bool

Você pode usar operações como `>`, `>=`, `==` para fazer esse tipo de comparação:

In [73]:
data.Club == "FC Barcelona"

0         True
1        False
2        False
         ...  
18204    False
18205    False
18206    False
Name: Club, Length: 18207, dtype: bool

Se você quiser saber quais jogadores são do Barcelona **E** têm mais de 28 anos, pode usar o operador `&` (que é basicamente um `and`, assim como `|` é um `or`):

In [74]:
(data.Age >= 28) & (data.Club == "FC Barcelona")

0         True
1        False
2        False
         ...  
18204    False
18205    False
18206    False
Length: 18207, dtype: bool

Podemos agora usar esses arrays  booleanos para **filtrar nossos dados**, usando `.loc` ou `.iloc`. Se quisermos filtrar a tabela e só manter as linhas dos jogadores do Barcelona, fazemos

In [75]:
data.loc[data.Club == "FC Barcelona", :]  # note que usamos array de booleanos para as linhas e slice para as colunas

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M
7,176580,L. Suárez,31,https://cdn.sofifa.org/players/4/19/176580.png,Uruguay,https://cdn.sofifa.org/flags/60.png,91,91,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,85.0,62.0,45.0,38.0,27.0,25.0,31.0,33.0,37.0,€164M
18,192448,M. ter Stegen,26,https://cdn.sofifa.org/players/4/19/192448.png,Germany,https://cdn.sofifa.org/flags/21.png,89,92,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,69.0,25.0,13.0,10.0,87.0,85.0,88.0,85.0,90.0,€123.3M
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11300,246599,Guillem Jaime,19,https://cdn.sofifa.org/players/4/19/246599.png,Spain,https://cdn.sofifa.org/flags/45.png,64,80,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,66.0,52.0,55.0,56.0,9.0,11.0,12.0,10.0,6.0,€2.6M
12502,225395,Ezkieta,21,https://cdn.sofifa.org/players/4/19/225395.png,Spain,https://cdn.sofifa.org/flags/45.png,63,75,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,33.0,13.0,17.0,15.0,65.0,58.0,59.0,59.0,64.0,€1.2M
14286,246139,Iñaki Peña,19,https://cdn.sofifa.org/players/4/19/246139.png,Spain,https://cdn.sofifa.org/flags/45.png,61,78,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,38.0,9.0,10.0,11.0,63.0,57.0,64.0,57.0,62.0,€1.2M


<div class="alert alert-block alert-info">
<b>Exercício:</b>

Filtre a tabela, mantendo somente os jogadores do barcelona **E** de nacionalidade espanhola.
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [76]:
data.loc[(data.Club == "FC Barcelona") & (data.Nationality == "Spain"), :]

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
20,189511,Sergio Busquets,29,https://cdn.sofifa.org/players/4/19/189511.png,Spain,https://cdn.sofifa.org/flags/45.png,89,89,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,90.0,90.0,86.0,80.0,5.0,8.0,13.0,9.0,13.0,€105.6M
49,189332,Jordi Alba,29,https://cdn.sofifa.org/players/4/19/189332.png,Spain,https://cdn.sofifa.org/flags/45.png,87,87,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,79.0,72.0,84.0,85.0,13.0,15.0,13.0,6.0,13.0,€77.9M
54,152729,Piqué,31,https://cdn.sofifa.org/players/4/19/152729.png,Spain,https://cdn.sofifa.org/flags/45.png,87,87,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,86.0,91.0,86.0,84.0,10.0,11.0,14.0,15.0,8.0,€69.7M
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11300,246599,Guillem Jaime,19,https://cdn.sofifa.org/players/4/19/246599.png,Spain,https://cdn.sofifa.org/flags/45.png,64,80,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,66.0,52.0,55.0,56.0,9.0,11.0,12.0,10.0,6.0,€2.6M
12502,225395,Ezkieta,21,https://cdn.sofifa.org/players/4/19/225395.png,Spain,https://cdn.sofifa.org/flags/45.png,63,75,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,33.0,13.0,17.0,15.0,65.0,58.0,59.0,59.0,64.0,€1.2M
14286,246139,Iñaki Peña,19,https://cdn.sofifa.org/players/4/19/246139.png,Spain,https://cdn.sofifa.org/flags/45.png,61,78,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,38.0,9.0,10.0,11.0,63.0,57.0,64.0,57.0,62.0,€1.2M


## Outras operações com pandas

Você também pode usar métodos de soma, média, desvio padrão para colunas (ou seja, objetos do tipo `pd.Series`) do pandas. Isso é muito simples, já que você precisa apenas usar métodos como `series.sum()`. Por exemplo, qual é a média de idade dos jogadores do Fifa? Podemos responder isso fazendo:

In [77]:
data.Age.mean()

25.122205745043114

Outros métodos são `.sum()`, `.min()`, `.max()`, `.stddev()`, mas diversos outros estão disponíveis na [documentação do pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html).

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Encontre a menor idade dentre os jogadores do Barcelona. Qual (ou quais) jogadores do barcelona possuem essa idade?
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [78]:
data.loc[data.Club == "FC Barcelona", "Age"].min()

18

In [79]:
data.loc[(data.Club == "FC Barcelona") & (data.Age == 18), :]

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
6102,242816,Riqui Puig,18,https://cdn.sofifa.org/players/4/19/242816.png,Spain,https://cdn.sofifa.org/flags/45.png,69,89,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,70.0,53.0,57.0,53.0,12.0,15.0,14.0,12.0,9.0,€6.5M
8289,239250,Abel Ruiz,18,https://cdn.sofifa.org/players/4/19/239250.png,Spain,https://cdn.sofifa.org/flags/45.png,67,83,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,57.0,45.0,12.0,12.0,6.0,10.0,10.0,10.0,8.0,€4.2M
8857,240915,Miranda,18,https://cdn.sofifa.org/players/4/19/240915.png,Spain,https://cdn.sofifa.org/flags/45.png,66,81,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,59.0,64.0,69.0,67.0,11.0,8.0,12.0,9.0,6.0,€3.2M
10777,237522,Jorge Cuenca,18,https://cdn.sofifa.org/players/4/19/237522.png,Spain,https://cdn.sofifa.org/flags/45.png,65,78,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,...,57.0,62.0,66.0,63.0,10.0,12.0,5.0,14.0,12.0,€2.3M


<div class="alert alert-block alert-info">
<b>Exercício:</b>

A habilidade do jogador, de maneira geral, está contida na coluna `Overall`. Qual time possui a maior média de habilidade, Barecelona ou Real Madrid? Qual dos dois times tem o melhor jogador?
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

In [80]:
data.loc[data.Club == "FC Barcelona", "Overall"].mean()

78.03030303030303

In [81]:
data.loc[data.Club == "Real Madrid", "Overall"].mean()

78.24242424242425

Aparentemente o Real Madrid tem uma média maior. Mas qual deles tem o melhor jogador?

In [82]:
data.loc[data.Club == "FC Barcelona", "Overall"].max()

94

In [83]:
data.loc[data.Club == "Real Madrid", "Overall"].max()

91

## Ordenando os dados

Nem sempre a tabela está ordenada da maneira ideal para resolver o seu problema. Por exemplo, você pode querer ver os jogadores do FIFA ordenados por idade. Para isso, usaremos o método `.sort_values()`:

In [84]:
data.sort_values(by="Age")

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
18206,246269,G. Nugent,16,https://cdn.sofifa.org/players/4/19/246269.png,England,https://cdn.sofifa.org/flags/14.png,46,66,Tranmere Rovers,https://cdn.sofifa.org/teams/2/light/15048.png,...,43.0,40.0,43.0,50.0,10.0,15.0,9.0,12.0,9.0,€165K
17743,244752,J. Olstad,16,https://cdn.sofifa.org/players/4/19/244752.png,Norway,https://cdn.sofifa.org/flags/36.png,52,69,Sarpsborg 08 FF,https://cdn.sofifa.org/teams/2/light/112199.png,...,42.0,13.0,19.0,20.0,7.0,8.0,9.0,11.0,8.0,€188K
13293,246594,H. Massengo,16,https://cdn.sofifa.org/players/4/19/246594.png,France,https://cdn.sofifa.org/flags/18.png,62,75,AS Monaco,https://cdn.sofifa.org/teams/2/light/69.png,...,50.0,52.0,62.0,65.0,8.0,14.0,12.0,9.0,15.0,€1.1M
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18183,53748,K. Pilkington,44,https://cdn.sofifa.org/players/4/19/53748.png,England,https://cdn.sofifa.org/flags/14.png,48,48,Cambridge United,https://cdn.sofifa.org/teams/2/light/1944.png,...,56.0,15.0,15.0,13.0,45.0,48.0,44.0,49.0,46.0,
17726,51963,T. Warner,44,https://cdn.sofifa.org/players/4/19/51963.png,Trinidad & Tobago,https://cdn.sofifa.org/flags/93.png,53,53,Accrington Stanley,https://cdn.sofifa.org/teams/2/light/110313.png,...,46.0,19.0,15.0,14.0,48.0,56.0,56.0,60.0,44.0,
4741,140029,O. Pérez,45,https://cdn.sofifa.org/players/4/19/140029.png,Mexico,https://cdn.sofifa.org/flags/83.png,71,71,Pachuca,https://cdn.sofifa.org/teams/2/light/110147.png,...,62.0,23.0,12.0,11.0,70.0,64.0,65.0,73.0,74.0,€272K


Se quisermos inverter a ordem, basta usar o parâmetro `ascending`:

In [85]:
data.sort_values(by="Age", ascending=False)

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
4741,140029,O. Pérez,45,https://cdn.sofifa.org/players/4/19/140029.png,Mexico,https://cdn.sofifa.org/flags/83.png,71,71,Pachuca,https://cdn.sofifa.org/teams/2/light/110147.png,...,62.0,23.0,12.0,11.0,70.0,64.0,65.0,73.0,74.0,€272K
18183,53748,K. Pilkington,44,https://cdn.sofifa.org/players/4/19/53748.png,England,https://cdn.sofifa.org/flags/14.png,48,48,Cambridge United,https://cdn.sofifa.org/teams/2/light/1944.png,...,56.0,15.0,15.0,13.0,45.0,48.0,44.0,49.0,46.0,
17726,51963,T. Warner,44,https://cdn.sofifa.org/players/4/19/51963.png,Trinidad & Tobago,https://cdn.sofifa.org/flags/93.png,53,53,Accrington Stanley,https://cdn.sofifa.org/teams/2/light/110313.png,...,46.0,19.0,15.0,14.0,48.0,56.0,56.0,60.0,44.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15363,245015,Y. Roemer,16,https://cdn.sofifa.org/players/4/19/245015.png,Netherlands,https://cdn.sofifa.org/flags/34.png,59,75,VVV-Venlo,https://cdn.sofifa.org/teams/2/light/100651.png,...,48.0,22.0,15.0,20.0,9.0,9.0,11.0,10.0,9.0,€623K
17881,242165,R. Hauge,16,https://cdn.sofifa.org/players/4/19/242165.png,Norway,https://cdn.sofifa.org/flags/36.png,52,67,FK Bodø/Glimt,https://cdn.sofifa.org/teams/2/light/918.png,...,48.0,48.0,50.0,47.0,6.0,9.0,11.0,11.0,9.0,€188K
18206,246269,G. Nugent,16,https://cdn.sofifa.org/players/4/19/246269.png,England,https://cdn.sofifa.org/flags/14.png,46,66,Tranmere Rovers,https://cdn.sofifa.org/teams/2/light/15048.png,...,43.0,40.0,43.0,50.0,10.0,15.0,9.0,12.0,9.0,€165K


Podemos ordenar por duas colunas. Quando você faz isso, o pandas ordena pela primeira, e quando há empate, ordena pela segunda:

In [86]:
data.sort_values(by=["Age", "Overall"], ascending=False)

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
4741,140029,O. Pérez,45,https://cdn.sofifa.org/players/4/19/140029.png,Mexico,https://cdn.sofifa.org/flags/83.png,71,71,Pachuca,https://cdn.sofifa.org/teams/2/light/110147.png,...,62.0,23.0,12.0,11.0,70.0,64.0,65.0,73.0,74.0,€272K
17726,51963,T. Warner,44,https://cdn.sofifa.org/players/4/19/51963.png,Trinidad & Tobago,https://cdn.sofifa.org/flags/93.png,53,53,Accrington Stanley,https://cdn.sofifa.org/teams/2/light/110313.png,...,46.0,19.0,15.0,14.0,48.0,56.0,56.0,60.0,44.0,
18183,53748,K. Pilkington,44,https://cdn.sofifa.org/players/4/19/53748.png,England,https://cdn.sofifa.org/flags/14.png,48,48,Cambridge United,https://cdn.sofifa.org/teams/2/light/1944.png,...,56.0,15.0,15.0,13.0,45.0,48.0,44.0,49.0,46.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18166,243621,N. Ayéva,16,https://cdn.sofifa.org/players/4/19/243621.png,Sweden,https://cdn.sofifa.org/flags/46.png,48,72,Örebro SK,https://cdn.sofifa.org/teams/2/light/705.png,...,44.0,14.0,19.0,16.0,10.0,9.0,8.0,7.0,6.0,€158K
18204,241638,B. Worman,16,https://cdn.sofifa.org/players/4/19/241638.png,England,https://cdn.sofifa.org/flags/14.png,47,67,Cambridge United,https://cdn.sofifa.org/teams/2/light/1944.png,...,41.0,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0,€165K
18206,246269,G. Nugent,16,https://cdn.sofifa.org/players/4/19/246269.png,England,https://cdn.sofifa.org/flags/14.png,46,66,Tranmere Rovers,https://cdn.sofifa.org/teams/2/light/15048.png,...,43.0,40.0,43.0,50.0,10.0,15.0,9.0,12.0,9.0,€165K


### Alterando dados e criando colunas novas

Em pandas, podemos manipular os dados de diversas maneiras. A operações mais comuns (como `+`, `-`, `==` etc), podem ser usadas diretamente, como qualquer outro objeto Python. No caso de uma coluna de um DataFrame, a operação é feita **termo a termo**:

In [87]:
data["Age"] + 10

0        41
1        43
2        36
         ..
18204    26
18205    27
18206    26
Name: Age, Length: 18207, dtype: int64

Podemos colocar os nossos resultados em colunas novas do DataFrame se desejarmos. Para fazer isso, simplesmente use um *assignment* do Python, assim:

In [88]:
data["Age in 10 years"] = data["Age"] + 10

No entanto, muitas vezes precisamos fazer uso de funções mais complicadas. Se conseguirmos fazer essa operação como uma função `f(x)` em Python, podemos aplicar essa função em cada elemento da coluna usando o método `.apply(f)`. Por exemplo:

In [89]:
def funcao_complicada(overall):
    return (overall / 10) * ((overall + 2) ** 2)

data.Overall.apply(funcao_complicada)

0        86630.4
1        86630.4
2        81291.2
          ...   
18204    11284.7
18205    11284.7
18206    10598.4
Name: Overall, Length: 18207, dtype: float64

![legs](img/legs.gif)

### Agrupando dados e tirando estatísticas

Muitas vezes precisamos agrupar e tirar informações de cada grupo na nossa tabela. Por exemplo, podemos querer saber a idade média por clube, o *Overall* médio por país, o número de clubes por país, o número de jogadores por país etc. Para extrair todas essas informações, precisamos agrupar os dados e tirar alguma informação de cada grupo. A biblioteca pandas facilita esse trabalho e dá maneiras simples de responder todas essas perguntas.

A agregação mais simples que podemos fazer em Pandas é a *quantidade de vezes que cada elemento aparece em uma coluna*, usando o método `.value_counts()`. Por exemplo, para encontrar a quantidade de jogadores por país, fazemos:

In [90]:
data.Nationality.value_counts()

England      1662
Germany      1198
Spain        1072
             ... 
Andorra         1
Rwanda          1
Indonesia       1
Name: Nationality, Length: 164, dtype: int64

Para agregar estatísticas mais complicadas, precisamos usar o método `.groupby()`. Por exemplo, para encontrar a média de *Overall* por clube, fazemos assim: fazemos um grupo por cada *Club* usando `.groupby("Club")`, depois pegamos a coluna `Overall` e tiramos a a média usando `.mean()`.

In [91]:
data.groupby("Club").Overall.mean()

Club
 SSV Jahn Regensburg     65.586207
1. FC Heidenheim 1846    65.750000
1. FC Kaiserslautern     63.384615
                           ...    
Örebro SK                60.481481
Östersunds FK            63.545455
Śląsk Wrocław            62.200000
Name: Overall, Length: 651, dtype: float64

Podemos pegar tirar a média de mais uma coluna, usando `[col1, col2]` para acessá-las. Por exemplo, para tirar a média de `Age` e de `Overall` para cada `Club`, fazemos:

In [92]:
data.groupby("Club")["Overall", "Age"].mean()

Unnamed: 0_level_0,Overall,Age
Club,Unnamed: 1_level_1,Unnamed: 2_level_1
SSV Jahn Regensburg,65.586207,25.655172
1. FC Heidenheim 1846,65.750000,24.000000
1. FC Kaiserslautern,63.384615,23.846154
...,...,...
Örebro SK,60.481481,24.037037
Östersunds FK,63.545455,23.863636
Śląsk Wrocław,62.200000,25.960000


<div class="alert alert-block alert-warning">
<b>Atenção:</b>

Note que a coluna que você agrupou, nesse caso `Club`, vira o índice das linhas no resultado final.
</div>

<div class="alert alert-block alert-info">
<b>Exercício:</b>

Potencial não realizado é a diferença entre as colunas `Potential` (potencial que o jogador tem de chegar em termos de habilidade) e `Overall` (habilidade atual do jogador). Encontre o time de **maior média de potencial não realizado**. 
</div>

<div class="alert alert-block alert-success">
<b>Solução:</b>
</div>

Primeiro criamos uma coluna representando o potencial não realizado de cada jogador

In [93]:
data["Unrealized Potential"] = data.Potential - data.Overall

Depois, agrupamos por `Club`, e tiramos a média dessa nova coluna. Por fim, ordenamos os valores para que o maior fique primeiro.

In [94]:
data.groupby("Club")["Unrealized Potential"].mean().sort_values(ascending=False)

Club
FC Nordsjælland    11.000000
Stabæk Fotball     10.888889
Envigado FC        10.178571
                     ...    
Grêmio              0.000000
Paraná              0.000000
Botafogo            0.000000
Name: Unrealized Potential, Length: 651, dtype: float64

Não supreendentemente, o `FC Nordsjælland` é o time com maior potencial não realizado. Não que você já não soubesse disso.

## Dados ausentes ou nulos

Em muitos casos, os dados que um data scientist vai trabalhar não estão em perfeitas condições. Em muitos casos, várias colunas possuem, por exemplo, dados ausentes, seja por falhas no processo de capptura, por esses dados estarem indisponíveis, ou por esse dado não fazer sentido para aquele caso (por exemplo, na linha de um jogador novato, a coluna de "Clube anterior" pode estar vazia pois aquele é seu primeiro clube).

Para investigar se cada elemento de uma coluna é nulo ou não, podemos usar os métodos `.isnull()` ou `.notnull()`. Por exemplo, para vez quais elementos da coluna `Club` estão nulos:

In [95]:
data.Club.isnull()

0        False
1        False
2        False
         ...  
18204    False
18205    False
18206    False
Name: Club, Length: 18207, dtype: bool

Mas quantos deles são nulos? Para isso, basta somar todos os `True` que temos no resultado acima: 

In [96]:
data.Club.isnull().sum()

241

Então 241 jogadores estão sem clube! Podemos agora querer preencher esses valores nulos com a string `"No Club"`. Para fazer isso, usamos o método `.fillna()`:

In [97]:
data["Filled Club"] = data.Club.fillna("No Club")

In [98]:
data["Filled Club"].isnull().sum()

0

Note que a coluna `Filled Club` não tem mais valores nulos.

Outra operação muito comum em trabalho de data science é jogar fora colunas que tem algum valor nulo. Podemos fazer isso usando o método `dropna()`, assim:

In [99]:
data.dropna(axis="columns")

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club Logo,Value,Wage,Special,Age in 10 years,Unrealized Potential,Filled Club
0,158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,https://cdn.sofifa.org/teams/2/light/241.png,€110.5M,€565K,2202,41,0,FC Barcelona
1,20801,Cristiano Ronaldo,33,https://cdn.sofifa.org/players/4/19/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,https://cdn.sofifa.org/teams/2/light/45.png,€77M,€405K,2228,43,0,Juventus
2,190871,Neymar Jr,26,https://cdn.sofifa.org/players/4/19/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,https://cdn.sofifa.org/teams/2/light/73.png,€118.5M,€290K,2143,36,1,Paris Saint-Germain
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18204,241638,B. Worman,16,https://cdn.sofifa.org/players/4/19/241638.png,England,https://cdn.sofifa.org/flags/14.png,47,67,https://cdn.sofifa.org/teams/2/light/1944.png,€60K,€1K,1189,26,20,Cambridge United
18205,246268,D. Walker-Rice,17,https://cdn.sofifa.org/players/4/19/246268.png,England,https://cdn.sofifa.org/flags/14.png,47,66,https://cdn.sofifa.org/teams/2/light/15048.png,€60K,€1K,1228,27,19,Tranmere Rovers
18206,246269,G. Nugent,16,https://cdn.sofifa.org/players/4/19/246269.png,England,https://cdn.sofifa.org/flags/14.png,46,66,https://cdn.sofifa.org/teams/2/light/15048.png,€60K,€1K,1321,26,20,Tranmere Rovers


Veja que só sobraram 14 colunas. Se quisermos jogar todas as linhas que tenham algum valor nulo, basta colocar o parâmetro `axis="rows"` no método `.dropna()`

# Conclusão

Por fim, é importante saber alguns prós e contras do Numpy e Pandas, principalmente quando vamos vamos escolher a melhor ferramenta para realizar alguma tarefa. Então aqui vão algumas dicas:

* Quando lidar com dados tabulares, dê preferência a Pandas, já que sua sintaxe é mais simples e poderosa, e resulta em códigos que são fáceis de ler e simples de debugar
* Escolha Numpy quando seu problema por estritamente um problema de algebra linear (como decomposição de matrizes ou manipulação de vetores)
* Numpy é mais simples em sua funcionalidade e sua simplicidade resulta em um código mais otimizado (com diversas partes internas escritas em C ao invés de Python). Portanto, se você chegar ao ponto de que a performance das suas operações no pandas são um problema, troque momentaneamente para Numpy para fazer os cálculos mais pesados.
* Numpy possue algumas operações que são executadas em paralelo (pelas bibliotecas `LAPACK` e `BLAS`), mas a maior parte de seu código roda em apenas um processador. O mesmo vale para Pandas. Se você chegar ao ponto de precisar de paralelismo, considere usar a bliboteca de `multithreading` do Python ou `joblib`. No entanto, isso tem limites pois Python não foi desenhado para rodar em paralelo. Em alguns casos, é preferível usar outras ferramentas, como Spark, que são desenhadas para paralelismo e computação distribuída entre várias máquinas.

![hart](img/hart.gif)