#### Discretizando variables

Otra transformación típica de datos es la _discretización_ o agrupación en rangos de valores de una determinada variable. Para ello en Pandas disponemos de la función `pd.cut()`.

Por ejemplo, vamos a clasificar el año de estreno de las peliculas de nuestro _dataset_ por decadas (más o menos).

In [None]:
# Tomamos el año de estreno de las películas
peliculas['year'].head()

title
Snatch                 2000.0
Alice in Wonderland    2010.0
District B13           2004.0
Metropolis             1927.0
The Puffy Chair        2005.0
Name: year, dtype: float64

In [None]:
# Utilizamos `pd.cut()` para dividir en intervalos
pd.cut(peliculas['year'], bins=[1900, 1980, 1990, 2000, 2010, np.Inf]).head()

title
Snatch                 (1990.0, 2000.0]
Alice in Wonderland    (2000.0, 2010.0]
District B13           (2000.0, 2010.0]
Metropolis             (1900.0, 1980.0]
The Puffy Chair        (2000.0, 2010.0]
Name: year, dtype: category
Categories (5, interval[float64]): [(1900.0, 1980.0] < (1980.0, 1990.0] < (1990.0, 2000.0] < (2000.0, 2010.0] < (2010.0, inf]]

Para cada valor de la serie, `pd.cut()` devuelve la etiqueta de la categoría o rango correspondiente. En este caso, vemos que hay cinco categorías, cuyos límites están comprendidos entre cada par de valores de la lista que hemos indicado en el argumento `bins`. Si queremos cambiar las etiquetas que se crean por defecto, podemos pasar una lista o un array de nombres en el argumento `labels`.

Una vez que tenemos nuestra variable _discretizada_, podemos contar cuántos casos hay en cada rango con la función `pd.value_counts()`.

In [None]:
decadas = pd.cut(peliculas['year'], 
                 bins=[1900, 1980, 1990, 2000, 2010, np.Inf], 
                 labels = ['<1980', '1980s', '1990s', '2000s', '>2010'])

pd.value_counts(decadas)

2000s    14
>2010     2
1990s     2
1980s     1
<1980     1
Name: year, dtype: int64