# Unterteilen und Kategorisieren von Daten

Kontinuierliche Daten werden häufig in Bereiche unterteilt oder auf andere Weise für die Analyse gruppiert.

Angenommen, ihr habt Daten über eine Gruppe von Personen in einer Studie, die ihr in diskrete Altersgruppen einteilen möchtet. Hierfür generieren wir uns einen Dataframe mit 250 Einträgen zwischen `0` und `99`:

In [1]:
import pandas as pd
import numpy as np

ages = np.random.randint(0, 99, 250)
df = pd.DataFrame({"Age": ages})

df

Unnamed: 0,Age
0,34
1,61
2,2
3,41
4,35
...,...
245,27
246,13
247,28
248,28


Anschließend bietet uns pandas mit [pandas.cut](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html) eine einfache Möglichkeit, die Ergebnisse in zehn Bereiche aufzuteilen. Um nur ganze Jahre zu erhalten, setzen wir zusätzlich `precision=0`:

In [2]:
cats = pd.cut(ages, 10, precision=0)

cats

[(29.0, 39.0], (59.0, 69.0], (-0.1, 10.0], (39.0, 49.0], (29.0, 39.0], ..., (20.0, 29.0], (10.0, 20.0], (20.0, 29.0], (20.0, 29.0], (69.0, 78.0]]
Length: 250
Categories (10, interval[float64, right]): [(-0.1, 10.0] < (10.0, 20.0] < (20.0, 29.0] < (29.0, 39.0] ... (59.0, 69.0] < (69.0, 78.0] < (78.0, 88.0] < (88.0, 98.0]]

Mit [pandas.Categorical.categories](https://pandas.pydata.org/docs/reference/api/pandas.Categorical.categories.html) könnt ihr euch die Kategorien anzeigen lassen:

In [3]:
cats.categories

IntervalIndex([(-0.1, 10.0], (10.0, 20.0], (20.0, 29.0], (29.0, 39.0], (39.0, 49.0], (49.0, 59.0], (59.0, 69.0], (69.0, 78.0], (78.0, 88.0], (88.0, 98.0]], dtype='interval[float64, right]')

…oder auch nur eine einzelne Kategorie:

In [4]:
cats.categories[0]

Interval(-0.1, 10.0, closed='right')

Mit [pandas.Categorical.codes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Categorical.codes.html) könnt ihr euch ein Array anzeigen lassen, in dem für jeden Wert die zugehörige Kategorie angezeigt wird:

In [5]:
cats.codes

array([3, 6, 0, 4, 3, 5, 6, 5, 1, 5, 0, 4, 0, 6, 8, 1, 5, 8, 7, 8, 1, 9,
       2, 9, 5, 4, 8, 3, 4, 6, 5, 0, 9, 1, 1, 6, 4, 0, 7, 7, 4, 7, 4, 8,
       7, 9, 0, 7, 3, 3, 0, 1, 0, 9, 3, 7, 0, 2, 5, 3, 1, 6, 9, 4, 2, 4,
       6, 3, 1, 1, 6, 1, 4, 7, 4, 8, 4, 3, 7, 7, 9, 6, 0, 6, 3, 6, 8, 5,
       0, 5, 9, 8, 6, 6, 9, 5, 4, 6, 7, 6, 2, 1, 6, 6, 3, 2, 5, 7, 3, 4,
       7, 8, 2, 7, 8, 8, 4, 5, 9, 7, 3, 3, 7, 2, 8, 9, 3, 0, 1, 5, 2, 0,
       7, 1, 8, 0, 3, 5, 1, 4, 8, 5, 1, 0, 2, 1, 3, 3, 9, 7, 0, 0, 0, 4,
       9, 0, 8, 0, 0, 4, 1, 0, 0, 7, 0, 1, 0, 5, 2, 9, 3, 6, 0, 8, 2, 3,
       0, 7, 9, 0, 8, 5, 2, 2, 1, 6, 8, 9, 1, 6, 2, 1, 7, 2, 7, 5, 5, 4,
       9, 8, 7, 4, 6, 8, 8, 4, 9, 1, 3, 6, 6, 1, 8, 2, 0, 1, 3, 2, 8, 9,
       4, 7, 8, 9, 8, 5, 1, 2, 3, 8, 6, 0, 5, 4, 7, 4, 1, 0, 4, 1, 7, 4,
       0, 6, 9, 2, 1, 2, 2, 7], dtype=int8)

Mit `value_counts` können wir uns nun anschauen, wie sich die Anzahl auf die einzelnen Bereiche verteilt:

In [6]:
pd.value_counts(cats)

(-0.1, 10.0]    32
(10.0, 20.0]    28
(69.0, 78.0]    27
(39.0, 49.0]    26
(78.0, 88.0]    26
(59.0, 69.0]    25
(29.0, 39.0]    23
(20.0, 29.0]    21
(49.0, 59.0]    21
(88.0, 98.0]    21
dtype: int64

Auffallend ist, dass die Altersbereiche nicht gleich viele Jahre enthalten, sondern mit `20.0, 29.0` und `69.0, 78.0` zwei Bereiche nur 9 Jahre umfassen. Dies hängt damit zusammen, dass der Altersumfang nur von `0`bis `98` reicht:

In [7]:
df.min()

Age    0
dtype: int64

In [8]:
df.max()

Age    98
dtype: int64

Mit [pandas.qcut](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.qcut.html) wird die Menge hingegen in Bereiche unterteilt, die annähernd gleich groß sind:

In [9]:
cats = pd.qcut(ages, 10, precision=0)

In [10]:
pd.value_counts(cats)

(-1.0, 7.0]     27
(7.0, 16.0]     27
(38.0, 48.0]    26
(58.0, 68.0]    25
(77.0, 86.0]    25
(86.0, 98.0]    25
(16.0, 28.0]    24
(48.0, 58.0]    24
(68.0, 77.0]    24
(28.0, 38.0]    23
dtype: int64

Wollen wir gewährleisten, dass jede Altersgruppe tatsächlich genau zehn Jahre umfasst, können wir dies mit [pandas.Categorical](https://pandas.pydata.org/docs/reference/api/pandas.Categorical.html) direkt angeben:

In [14]:
age_groups = ["{0} - {1}".format(i, i + 9) for i in range(0, 99, 10)]
cats = pd.Categorical(age_groups)

cats.categories

Index(['0 - 9', '10 - 19', '20 - 29', '30 - 39', '40 - 49', '50 - 59',
       '60 - 69', '70 - 79', '80 - 89', '90 - 99'],
      dtype='object')

Für die Gruppierung können wir nun [pandas.cut](https://pandas.pydata.org/docs/reference/api/pandas.cut.html) verwenden. Dabei muss jedoch die Anzahl der Label um eins geringer sein als die Anzahl der Ränder:

In [15]:
df["Age group"] = pd.cut(df.Age, range(0, 101, 10), right=False, labels=cats)

df

Unnamed: 0,Age,Age group
0,34,30 - 39
1,61,60 - 69
2,2,0 - 9
3,41,40 - 49
4,35,30 - 39
...,...,...
245,27,20 - 29
246,13,10 - 19
247,28,20 - 29
248,28,20 - 29
