# Categorización

En algunos casos, dado el volumen de datos a analizar, resulta conveniente realizar una simplificación de los mismos antes de proceder al análisis. Por ejemplo, definiendo categorías o clases y distribuyendo los datos en dichas categorías. Un ejemplo muy típico es agrupar las edades por rangos, las fechas por meses o años, etc.
Una de las ventajas de la agrupación de los datos en distintas categorías es que es posible realizar un estudio estadístico posterior e indipendiente para cada categoría.

El Fichero [./datos/infertilidad.csv](./datos/infertilidad.csv) recoge información de datos de fertilidad de mujeres con distintas edades. 

In [15]:
import numpy as np
import pandas as pd


Realizamos la lectura de datos usando la función  `pd.read_csv` de Pandas.

In [16]:
fer = pd.read_csv("./datos/infertilidad.csv", sep = ';')
fer.describe()

Unnamed: 0,edad,partos,abortos espontaneos
count,14.0,14.0,14.0
mean,31.571429,2.857143,0.428571
std,6.034698,1.74784,0.646206
min,21.0,1.0,0.0
25%,28.25,1.25,0.0
50%,31.5,2.5,0.0
75%,35.75,4.0,1.0
max,42.0,6.0,2.0


Las edades oscilan entre los 21 y 42 años. Podemos dividir los datos en intervaloes de edades, por ejemplo en 4 intervalos. El primer intervalo con valores menores a 25 años, el segundo con valores entre 26 y 36, el tercero con valores entre 31 y 35 años, y el último con valores a partir de 36 años. Para construir dichos intervalos, creamos en primer lugar una lista con los límites superiores de cada intervalo.


In [17]:
lim = [0, 25, 30, 35, 100] 

Para dividir los valores de `edad`  en intervalos utilizamos la función `pd.cut` de Pandas.

In [18]:
cat = pd.cut(fer.edad, lim)
cat

0      (25, 30]
1     (35, 100]
2     (35, 100]
3      (30, 35]
4      (30, 35]
5     (35, 100]
6       (0, 25]
7      (30, 35]
8       (0, 25]
9      (25, 30]
10     (25, 30]
11    (35, 100]
12     (30, 35]
13     (25, 30]
Name: edad, dtype: category
Categories (4, interval[int64]): [(0, 25] < (25, 30] < (30, 35] < (35, 100]]

En este caso, el resultado devuelto por la función `pd.cut` es un objeto de tipo `Series`. Los valores se corresponden con el nombre de la categoría. El índice de la serie coincide con el índice del dataframe `fer`. 

El método `value_counts` devuelve la frecuencia de cada valor de la serie.

In [19]:
cat.value_counts()

(35, 100]    4
(30, 35]     4
(25, 30]     4
(0, 25]      2
Name: edad, dtype: int64

La función `groupby` con la serie `cat` como argumento permite dividir las filas en función de la catagoría a la que pertenece. 

In [20]:
gcat = fer.groupby(cat)
for nombre, contenido in gcat:
    print(nombre)
    print(contenido)    

(0, 25]
   edad  partos  abortos espontaneos
6    23       1                    0
8    21       1                    1
(25, 30]
    edad  partos  abortos espontaneos
0     26       6                    2
9     28       2                    0
10    29       2                    0
13    29       3                    0
(30, 35]
    edad  partos  abortos espontaneos
3     34       4                    0
4     35       3                    1
7     32       2                    0
12    31       1                    0
(35, 100]
    edad  partos  abortos espontaneos
1     42       1                    0
2     39       6                    0
5     36       4                    1
11    37       4                    1


Una vez divididos los datos del dataframe en grupos, es posible aplicar funciones de agregación.

In [21]:
fer.groupby(cat).partos.agg([np.min, np.max, np.mean])

Unnamed: 0_level_0,amin,amax,mean
edad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(0, 25]",1,1,1.0
"(25, 30]",2,6,3.25
"(30, 35]",1,4,2.5
"(35, 100]",1,6,3.75


Como alternativa a la función `cut`, Pandas proporciona la `qcut`, que realiza una división de los datos basada en cuantiles. Como resultado de aplicar `qcut`, se obtienen intervalos con la misma frecuencia de valores. El número de cuantiles se indica como argumento de la función (4 para cuartiles, 10 para deciles, etc.). 

In [22]:
cat = pd.qcut(fer.edad, 4)
cat

0     (20.999, 28.25]
1       (35.75, 42.0]
2       (35.75, 42.0]
3       (31.5, 35.75]
4       (31.5, 35.75]
5       (35.75, 42.0]
6     (20.999, 28.25]
7       (31.5, 35.75]
8     (20.999, 28.25]
9     (20.999, 28.25]
10      (28.25, 31.5]
11      (35.75, 42.0]
12      (28.25, 31.5]
13      (28.25, 31.5]
Name: edad, dtype: category
Categories (4, interval[float64]): [(20.999, 28.25] < (28.25, 31.5] < (31.5, 35.75] < (35.75, 42.0]]

Podemos etiquetar cada intervalo usando el argumento `labels` en la función `qcut`.

In [23]:
cat = pd.qcut(fer.edad, 3, labels=["Joven","Mediana edad","Madura"])
cat

0            Joven
1           Madura
2           Madura
3     Mediana edad
4           Madura
5           Madura
6            Joven
7     Mediana edad
8            Joven
9            Joven
10           Joven
11          Madura
12    Mediana edad
13           Joven
Name: edad, dtype: category
Categories (3, object): [Joven < Mediana edad < Madura]

In [24]:
cat.value_counts()

Joven           6
Madura          5
Mediana edad    3
Name: edad, dtype: int64

In [25]:
fer.groupby(cat).partos.agg([np.min, np.max, np.mean])

Unnamed: 0_level_0,amin,amax,mean
edad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Joven,1,6,2.5
Mediana edad,1,4,2.333333
Madura,1,6,3.6
