# Agenda

O objetivo dessa aula é explorar métodos de agrupamento a dataframes, aplicações de funções em colunas e linhas e também demonstrar a utilização de algumas funções específicas.


**Tópicos**:
 - Funções Úteis
 - Agregação de DataFrames (groupby e agg)
 - Apply, Applymap, map
 - Exercícios


In [2]:
import pandas as pd
import numpy as np

In [3]:
df_pokemons = pd.read_csv('pokemon_data.csv')
df_pokemons

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...
795,719,Diancie,Rock,Fairy,50,100,150,100,150,50,6,True
796,719,DiancieMega Diancie,Rock,Fairy,50,160,110,160,110,110,6,True
797,720,HoopaHoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,True


In [4]:
df_pokemons.head()

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False


# Pandas (Parte II)

## Funções Úteis 

Campos vazios podem surgir em nossos dados corriqueiramente. Eles têm diversas origens e, dependendo dessa origem, receberão diferentes tratamentos. De início vamos aprender a observar essas ocorrências e o tratamento mais simples para eles: Exclusão (nem sempre a mais indicada).

In [5]:
# Contagem de NULL 
# Ela vai pegar valores None e NaN
df_pokemons.isnull().sum()

#               0
Name            0
Type 1          0
Type 2        386
HP              0
Attack          0
Defense         0
Sp. Atk         0
Sp. Def         0
Speed           0
Generation      0
Legendary       0
dtype: int64

In [6]:
# Dropando NULL
# Dropna tem uma série de argumentos, sugiro olhar a documentação
df_pokemons_sem_na = df_pokemons.dropna()

<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html">Clique Aqui</a> para saber mais sobre o dropna()

In [7]:
# Checar se uma linha é duplicada
df_pokemons.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
795    False
796    False
797    False
798    False
799    False
Length: 800, dtype: bool

In [8]:
# Dropar linhas duplicadas, mantendo a primeira ocorrência
df_pokemons.drop_duplicates(keep='first')

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...
795,719,Diancie,Rock,Fairy,50,100,150,100,150,50,6,True
796,719,DiancieMega Diancie,Rock,Fairy,50,160,110,160,110,110,6,True
797,720,HoopaHoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,True


In [9]:
# Checar os elementos únicos de uma coluna (funciona muito bem quando a coluna é qualitiva/categórica)
df_pokemons['Type 1'].unique()

array(['Grass', 'Fire', 'Water', 'Bug', 'Normal', 'Poison', 'Electric',
       'Ground', 'Fairy', 'Fighting', 'Psychic', 'Rock', 'Ghost', 'Ice',
       'Dragon', 'Dark', 'Steel', 'Flying'], dtype=object)

In [10]:
# Replace (substituir um valor por outro), equivale ao localizar e substituir do excel
df_pokemons.replace({True:'Verdadeiro', False:'Falso'})

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Verdadeiro,Bulbasaur,Grass,Poison,45,49,49,65,65,45,Verdadeiro,Falso
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,Verdadeiro,Falso
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,Verdadeiro,Falso
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,Verdadeiro,Falso
4,4,Charmander,Fire,,39,52,43,60,50,65,Verdadeiro,Falso
...,...,...,...,...,...,...,...,...,...,...,...,...
795,719,Diancie,Rock,Fairy,50,100,150,100,150,50,6,Verdadeiro
796,719,DiancieMega Diancie,Rock,Fairy,50,160,110,160,110,110,6,Verdadeiro
797,720,HoopaHoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,Verdadeiro
798,720,HoopaHoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,Verdadeiro


##  Agregação (Group By & Aggregate)

A agregação é simplesmente a ação de olhar as estatísticas sob a perspectiva de grupos.

<img src="https://jakevdp.github.io/PythonDataScienceHandbook/figures/03.08-split-apply-combine.png" height=600 width=600>

Basicamente, os dados vão ser separados de acordo com um ou mais grups em comum ```(etapa de split)```. Então, a partir da separação desses grupos uma função vai ser aplicada ```(apply (sum))``` em cada subconjunto. No nosso exemplo essa função de soma. No final, ele combina o resultado agrupad ```(combine)```.

<img src="https://www.softwaretestingclass.com/wp-content/uploads/2013/06/sql_group_by_with_aggregate_function.gif" height=450 width=450>

Aqui vemos os grupos de departamento e extraímos a soma do salário por departamento.

In [24]:
df2 = df_pokemons.groupby(['Name','Type 1','Type 2']).sum()
df2 = df2.reset_index()
df2 = df2[['Name','Type 1','Type 2','HP']].sort_values('Type 1')
df2

Unnamed: 0,Name,Type 1,Type 2,HP
92,Dwebble,Bug,Rock,50
376,Venipede,Bug,Poison,30
223,Masquerain,Bug,Flying,70
91,Dustox,Bug,Poison,60
43,Butterfree,Bug,Flying,60
...,...,...,...,...
352,Swanna,Water,Flying,75
351,SwampertMega Swampert,Water,Ground,100
350,Swampert,Water,Ground,100
358,Tentacool,Water,Poison,40


In [None]:
# Soma de HP agrupada por Type 1
df_pokemons.groupby('Type 1').sum()

In [None]:
df_pokemons.groupby('Type 1').get_group('Bug')

In [None]:
# Média de HP agrupada por Type 1
df_pokemons.groupby('Type 1').mean()

In [None]:
# Agrupando por mais de um grupo
df_pokemons.groupby(['Type 1', 'Legendary']).mean()

# E se quisermos aplicar mais funções ? E se quisermos aplicar funções diferentes para colunas diferentes?1

In [None]:
df.groupby('key').aggregate(['min', np.median, max])

In [None]:
# Agrupando por Type 1 e aplicando várias funções para todas as coluna
# Note que as funções são passadas dentro de uma lista
df_pokemons.groupby('Type 1').agg(['min', np.median, 'max'])

In [None]:
# Agrupando por Type 1 e aplicando várias funções diferentes para diferentes colunas
df_pokemons.groupby('Type 1').agg({'HP':['max', 'min'],
                                   'Sp. Atk':[np.std, np.median]})

## Apply, Apply map, map

Suponha que precisamos alterar o nome dos pokémons, adicionando o pré-fixo "Pokémon" em seus nomes, separando por underline.
**Ex.: Pokémon_Bulbasaur**

### Revisão Relâmpago de Funções

Uma função é um bloco de código que recebe alguns parâmetros e retorna um valor. Ex.: Podemos receber a quantidade de horas trabalhadas e o valor da hora de um funcionário e retornar por meio da função o salário daquele mês.

Para definir uma função precisamos da palavra-chave ```def``` . Além da ```def```, precisamos dar um nome a nossa função. No nosso caso ela irá se chamar calcular_salário. Por fim, ela irá receber 2 parâmetros: quantidade de horas trabalhadas e valor da hora, e então retornar o valor calculado através da palavra-chave ```return```.



In [11]:
def calcular_salario(valor_da_hora, horas_trabalhadas):
    salario_do_mes = valor_da_hora*horas_trabalhadas
    return salario_do_mes

In [None]:
calcular_salario(100, 10)

Vamos usar uma função para adicionar o pré-fixo "Pokémon" a qualquer string e return a nova string.

In [16]:
def adicionar_pokemon(string):
    nova_string = "Pokémon_"+string
    return nova_string

In [None]:
adicionar_pokemon('Bulbasaur')

Agora, basta nós aplicarmos essa função para todos os pokémons do nosso data frame. Como faríamos isso? 

Uma opção seria por meio de um ```for```.  Mas a opção mais legal seria utilizar o método ```map```.

In [None]:
df_pokemons['Name'].map(adicionar_pokemon)

### Map

Para o método ```map``` passamos:

O método map irá percorrer item por item e aplicar a função desejada. Exemplo: Tirar a raíz quadrada de cada elemento. Note que já existe uma função que realiza essa tarefa. A criação de funções com ```def``` será para apenas para o caso de funções bem personalizadas. No Numpy temos o ```np.sqrt```.

In [None]:
# Tirar a raíz  de cada elemento da coluna HP
df_pokemons['HP'].map(np.sqrt)

### Apply

Se quisermos aplicar uma determinada função em todas as linhas de uma vez? Ou em todas as colunas?.<br>
Use o ```apply```.

In [18]:
# APlicando a função max para cada coluna
df_pokemons.max()

#                          721
Name          Zygarde50% Forme
Type 1                   Water
HP                         255
Attack                     190
Defense                    230
Sp. Atk                    194
Sp. Def                    230
Speed                      180
Generation                   6
Legendary                 True
dtype: object

In [None]:
# APlicando a função max para cada linha
df_pokemons.max(axis=1)

Note que o valor máximo de cada linha foi retornado.

Porém, existem funções que não têm esse comportamento. Suponha que queiramos saber a diferença entre o máximo e o mínmo de cada atributo do nosso dataframe. 

In [34]:
def max_min(x):
    diferenca = x.max() - x.min()
    return diferenca

No nosso exemplo, o x é uma coluna do dataframe. Pra aplicar essa lógica de cálculo em uma coluna, usamos o ```apply```.

In [None]:
# Aplicando o método para algumas colunas
df_pokemons.loc[:, ['HP', 'Sp. Atk']].apply(max_min)

In [None]:
df_pokemons[['HP', 'Sp. Atk']].apply(max_min)

In [28]:
# Checando
max_HP = df_pokemons['HP'].max()
min_HP = df_pokemons['HP'].min()
max_SP_Atk = df_pokemons['Sp. Atk'].max()
min_SP_Atk = df_pokemons['Sp. Atk'].min()

In [None]:
# Diferença entre o máximo e mínimo HP
max_HP - min_HP

In [None]:
# Diferença entre o máximo e o mínimo HP
max_SP_Atk - min_SP_Atk

## Applymap

E se quisermos aplicar alguma transformação para cada elemento do dataframe de uma única vez? <br>
Use applymap.

In [None]:
# Aplicar a raíz quadrada em todos os elementos
df_pokemons.loc[:, ['HP', 'Sp. Atk', 'Attack', 'Defense']].applymap(np.sqrt)

# Exercícios

**Quizz:**
* Retorne na tela quantos pokémons de cada Type 2 existem (use o group by).
* Retorne o máximo de HP, o máximo de Attack e o mínimo de Defesa de Cada Type 1 de pokémon (use agg)