## value_counts()

In [2]:
import pandas as pd

BASE = "../datasets/Pokemon.csv"

df = pd.read_csv(BASE)

Já vimos que o .value_counts() faz contagem de valores de um determinado conjunto de dados, no cenário abaixo estamos obtendo o total de
Pokemons por tipo:

In [7]:
df["type1"].value_counts()

type1
Water        136
Normal       117
Grass         94
Bug           83
Psychic       80
Fire          67
Electric      63
Rock          60
Dark          48
Fighting      45
Ghost         43
Poison        42
Ground        42
Dragon        41
Steel         39
Ice           38
Fairy         23
Flying         9
Blastoise      1
Graass         1
Name: count, dtype: int64

Mas podemos passar alguns argumentos para a função que vai alterar o retorno do nosso método. No exemplo abaixo vamos fazer a contagem da coluna "speed", algo que por si só não faz muito sentido, mas seria interessante obtermos o total de registros por um determinado range de valores e para isso podemos usar o `bins` como argumento do nosso `value_counts`.

In [10]:
df["speed"].value_counts(bins=10)

(44.0, 63.5]                 243
(63.5, 83.0]                 238
(83.0, 102.5]                208
(24.5, 44.0]                 198
(102.5, 122.0]                93
(4.803999999999999, 24.5]     46
(122.0, 141.5]                31
(141.5, 161.0]                13
(161.0, 180.5]                 1
(180.5, 200.0]                 1
Name: count, dtype: int64

Na prática o `Pandas` pegou o valor mínimo e máximo da Series `speed`, e dividiu os dados em **10** grupos iguais (o valor que passamos como argumento) e fez a contagem de quantos valores correspondem para cada range, ou seja, para: 

Existem 243 pokemons com velocidade entre 44 e 63.5 <br/>
Existem 238 pokemons com velocidade entre 63.5 e 83.0 <br/>
Existem 208 pokemons com velocidade entre 83.0 e 102.5 <br/>
etc...

**Adicionando o sort_index() para ordenar os valores**

In [11]:
df["speed"].value_counts(bins=10).sort_index()

(4.803999999999999, 24.5]     46
(24.5, 44.0]                 198
(44.0, 63.5]                 243
(63.5, 83.0]                 238
(83.0, 102.5]                208
(102.5, 122.0]                93
(122.0, 141.5]                31
(141.5, 161.0]                13
(161.0, 180.5]                 1
(180.5, 200.0]                 1
Name: count, dtype: int64

Um ponto interessante por de trás da simbologia do retorno, temos o formato: 

(valor inicial, valor final]  --> Abre com parenteses e fecha com conchetes, isso indica que o valor inicial não está incluído na busca, mas o valor final está. 

## Podemos obter o percentual de valores para cada range com o "normalize":

In [13]:
df["speed"].value_counts(bins=10, normalize=True).sort_index()

(4.803999999999999, 24.5]    0.042910
(24.5, 44.0]                 0.184701
(44.0, 63.5]                 0.226679
(63.5, 83.0]                 0.222015
(83.0, 102.5]                0.194030
(102.5, 122.0]               0.086754
(122.0, 141.5]               0.028918
(141.5, 161.0]               0.012127
(161.0, 180.5]               0.000933
(180.5, 200.0]               0.000933
Name: proportion, dtype: float64

Vimos que por padrão ele nos retorna dados entre 0 e 1, mas podemos multiplicar por 100 para termos uma visualização mais coerente.

In [16]:
df["speed"].value_counts(bins=10, normalize=True).sort_index().mul(100).round(2)

(4.803999999999999, 24.5]     4.29
(24.5, 44.0]                 18.47
(44.0, 63.5]                 22.67
(63.5, 83.0]                 22.20
(83.0, 102.5]                19.40
(102.5, 122.0]                8.68
(122.0, 141.5]                2.89
(141.5, 161.0]                1.21
(161.0, 180.5]                0.09
(180.5, 200.0]                0.09
Name: proportion, dtype: float64