### **5 - Obtener cantidad de categorias (Frecuencia)**

In [1]:
import pandas as pd
import numpy as np

### **`SERIE`**

#### **`>` value_counts()**

- Devuelve una Serie que contiene recuentos de valores únicos.
- El objeto resultante estará en orden descendente, de forma que el primer elemento sea el más frecuente. Excluye los valores NA por defecto.

**`Parámetros:`**

- **`normalize`**: bool, por defecto False
Si es True, el objeto devuelto contendrá las frecuencias relativas de los valores únicos.

- **`sort`**: bool, por defecto True
Ordena por frecuencias cuando es True. Conserva el orden de los datos cuando es False.

- **`ascending`**: bool, por defecto False
Ordenar en orden ascendente.

- **`bins`**: int, opcional
En lugar de contar los valores, agruparlos en bins semiabiertos, una conveniencia para pd.cut, sólo funciona con datos numéricos.

- **`dropna`**: bool, por defecto True
No incluye conteos de NaN.

**`Devuelve`**: 
- Serie

##### Ejemplo 1

In [None]:
df = pd.read_csv('flights.csv')
df

In [3]:
# Obtener la frecuencia de meses
df['month'].value_counts()

January      12
February     12
March        12
April        12
May          12
June         12
July         12
August       12
September    12
October      12
November     12
December     12
Name: month, dtype: int64

In [3]:
df.month.value_counts()

January      12
February     12
March        12
April        12
May          12
June         12
July         12
August       12
September    12
October      12
November     12
December     12
Name: month, dtype: int64

In [5]:
# Forma 1
# Calcula el total de c/u con respecto al total (NO contabiliza los NaN de la columna). Es decir: 12/144 = 0,083333
df['month'].value_counts(normalize=True)

January      0.083333
February     0.083333
March        0.083333
April        0.083333
May          0.083333
June         0.083333
July         0.083333
August       0.083333
September    0.083333
October      0.083333
November     0.083333
December     0.083333
Name: month, dtype: float64

In [7]:
# Forma 2
df['month'].value_counts('%')

January      0.083333
February     0.083333
March        0.083333
April        0.083333
May          0.083333
June         0.083333
July         0.083333
August       0.083333
September    0.083333
October      0.083333
November     0.083333
December     0.083333
Name: month, dtype: float64

In [4]:
# Los bins pueden ser útiles para pasar de una variable continua a una variable categórica; en lugar de contar apariciones 
# únicas de valores, divida el índice en el número especificado de bins semiabiertos.
df['passengers'].value_counts(bins=3)

(103.481, 276.667]    78
(276.667, 449.333]    51
(449.333, 622.0]      15
Name: passengers, dtype: int64

##### Ejemplo 2

In [5]:
dk = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [np.nan, 3, np.nan, 4]],
                  columns=list("ABCD"))
dk

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [12]:
len(dk)

4

In [11]:
# Con dropna en False también podemos ver valores de índice NaN.
dk['D'].value_counts(dropna=False)

0.0    1
1.0    1
NaN    1
4.0    1
Name: D, dtype: int64

In [10]:
# Calcula el total de c/u con respecto al total (NO contabiliza los NaN de la columna). Es decir: 1/3 = 0,33333
# dk['D'].value_counts('%')
dk['D'].value_counts(normalize=True)

0.0    0.333333
1.0    0.333333
4.0    0.333333
Name: D, dtype: float64