In [1]:
import pandas as pd

# Contando valores com o método `value_counts()`
- É possível contar a quantidade de cada uma das entradas numa série

In [3]:
pokemon = pd.read_csv("../data/pokemon.csv", index_col="Pokemon").squeeze()
pokemon

Pokemon
Bulbasaur       Grass
Ivysaur         Grass
Venusaur        Grass
Charmander       Fire
Charmeleon       Fire
               ...   
Yveltal          Dark
Zygarde        Dragon
Diancie          Rock
Hoopa         Psychic
Volcanion        Fire
Name: Type, Length: 721, dtype: object

In [4]:
pokemon.value_counts()

Type
Water       105
Normal       93
Grass        66
Bug          63
Fire         47
Psychic      47
Rock         41
Electric     36
Ground       30
Poison       28
Dark         28
Fighting     25
Dragon       24
Ice          23
Ghost        23
Steel        22
Fairy        17
Flying        3
Name: count, dtype: int64

- Perceba que o método retornou a quantidade de cada tipo da série
- Obviamente, a soma do resultado tem que ser igual ao total de pokemons

In [5]:
print(f"Soma: {pokemon.value_counts().sum()}")
print(f"Total: {pokemon.count()}")

Soma: 721
Total: 721


- O método `value_counts()` tem alguns parâmetros que podem ser utilizados (sempre interessante consultar a documentação)

In [6]:
pokemon.value_counts(normalize=True)

Type
Water       0.145631
Normal      0.128988
Grass       0.091540
Bug         0.087379
Fire        0.065187
Psychic     0.065187
Rock        0.056865
Electric    0.049931
Ground      0.041609
Poison      0.038835
Dark        0.038835
Fighting    0.034674
Dragon      0.033287
Ice         0.031900
Ghost       0.031900
Steel       0.030513
Fairy       0.023578
Flying      0.004161
Name: proportion, dtype: float64

In [7]:
pokemon.value_counts(ascending=True, dropna=True)

Type
Flying        3
Fairy        17
Steel        22
Ghost        23
Ice          23
Dragon       24
Fighting     25
Poison       28
Dark         28
Ground       30
Electric     36
Rock         41
Fire         47
Psychic      47
Bug          63
Grass        66
Normal       93
Water       105
Name: count, dtype: int64

# Usando método `apply()`
- Esse método é utilizado para aplicar alguma operação customizada (ou função) em todos os elementos da série
- Obviamente, o pandas nao vai cobrir tudo o que você quer operar em cima de uma série
- Esse método espera receber uma função (que pode ser uma lambda) para operar em cima da série

In [9]:
google = pd.read_csv("../data/google_stock_price.csv").squeeze()
google.head()

0    50.12
1    54.10
2    54.65
3    52.38
4    52.95
Name: Stock Price, dtype: float64

- Vamos definir uma função para ser aplicada na série

In [10]:
def classifica_preco(preco):
    if preco < 300:
        return "Baixo"
    elif preco < 650:
        return "Medio"
    else:
        return "Caro"

- Agora vamos aplicar a função

In [11]:
google.apply(classifica_preco)

0       Baixo
1       Baixo
2       Baixo
3       Baixo
4       Baixo
        ...  
3007     Caro
3008     Caro
3009     Caro
3010     Caro
3011     Caro
Name: Stock Price, Length: 3012, dtype: object

- Observe que recebemos uma nova série com o resultado da operação customizada que definimos
- Além disso, o método nao modifica a seria original, ele cria outra
- A função precisa receber um parametro apenas e retornar um valor

- Como disse antes, podemos usar uma função `lambda` (ou função anonima) quando temos uma operação bem simples para fazer
- Vamos supor que eu quero converter todos os valores de USD para BRL
- Para isso, podemos fazer

In [12]:
google.apply(lambda preco: preco*4.7)

0        235.564
1        254.270
2        256.855
3        246.186
4        248.865
          ...   
3007    3632.536
3008    3624.029
3009    3633.946
3010    3626.567
3011    3676.434
Name: Stock Price, Length: 3012, dtype: float64

# Usando o método `map()`
- Esse método serve para mapear duas séries (ou uma série e um dicionário) que possuem alguma chave em comum
- funciona para achar interseção entre duas séries

In [13]:
pokemon = pd.read_csv("../data/pokemon.csv", usecols=["Pokemon"]).squeeze()
pokemon_types = pd.read_csv("../data/pokemon.csv", index_col="Pokemon").squeeze()

In [14]:
pokemon

0       Bulbasaur
1         Ivysaur
2        Venusaur
3      Charmander
4      Charmeleon
          ...    
716       Yveltal
717       Zygarde
718       Diancie
719         Hoopa
720     Volcanion
Name: Pokemon, Length: 721, dtype: object

In [15]:
pokemon_types.head()

Pokemon
Bulbasaur     Grass
Ivysaur       Grass
Venusaur      Grass
Charmander     Fire
Charmeleon     Fire
Name: Type, dtype: object

- Agora podemos mapear uma série com a outra. Aquelas que possuem chaves iguals são mantidos
    - Nesse caso vai manter tudo porque estamos carregando o mesmo arquivo

In [16]:
pokemon.map(pokemon_types)

0        Grass
1        Grass
2        Grass
3         Fire
4         Fire
        ...   
716       Dark
717     Dragon
718       Rock
719    Psychic
720       Fire
Name: Pokemon, Length: 721, dtype: object

- Também é possivel usar um dicionario para mapeamento

In [17]:
pokemon_dict = {
    "Bulbasaur": "Grass",
    "Ivysaur": "Grass",
    "Venusaur": "Grass",
    "Jesimon": "God",
    "Digimon": "other"    
}

pokemon.map(pokemon_dict)

0      Grass
1      Grass
2      Grass
3        NaN
4        NaN
       ...  
716      NaN
717      NaN
718      NaN
719      NaN
720      NaN
Name: Pokemon, Length: 721, dtype: object

- Observe que aqueles valores que nao tem interseção, são colocados como `NaN`
- Podemos remover eles do resultado

In [18]:
pokemon.map(pokemon_dict).dropna()

0    Grass
1    Grass
2    Grass
Name: Pokemon, dtype: object