# Numerische Daten in Kategorien einteilen

- cut-Funktion

Hintergrund/Zweck/Anwendung: Beim Plotten können nur kategorische Daten als Gruppierung angezeigt werden. Folglich müssen numerische Daten in kategorische Daten umgewwandelt werden
Da Kategorien mit Aliassen arbeitet wird Arbeitsspeichernutzung reduziert.
Macht nur Sinn, wenn wenige Werte in einer (Object) Spalte sind. So ist die Speicherersparnis am Größten.

Bsp Plot: pairplot(hue=kategorische Daten)


- Kategorien automatisch festlegen lassen
- Kategorien selbst festlegen

### Was ist der kategoriale Datentyp?


https://www.data-science-architect.de/categorial-pandas/

In [1]:
import pandas as pd 
import seaborn as sns 

### Kategorien automatisch festlegen lassen

In [2]:
# anhand eines Beispiels

df_mpg = sns.load_dataset('mpg')
df_mpg

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger


Die Spalte Beschleunigung soll in 5 Kategorien eingeteilt werden. Bei der cut-Funktion kann man die Anzahl der Kategorien mitgeben. In dem Fall teilt sich die Cut-Funktion von selbst ein, welche Bandbreite sie verwendet für die Einteilung. 

In [3]:
# je höher der wert, desto langsamer die Beschleugnigung
# kleine Zahl --> schnell; größere Zahlen --> langsamer
 
kategorien = ['super-schnell','schnell','normal','langsam','schneckentempo']

df_mpg['Beschleunigung'] = pd.cut(df_mpg['acceleration'], 5, labels=kategorien)
df_mpg.values[0]

array([18.0, 8, 307.0, 130.0, 3504, 12.0, 70, 'usa',
       'chevrolet chevelle malibu', 'schnell'], dtype=object)

In [4]:
df_mpg['Beschleunigung'].unique()
#df_mpg['horsepower'].unique()

['schnell', 'super-schnell', 'normal', 'langsam', 'schneckentempo']
Categories (5, object): ['super-schnell' < 'schnell' < 'normal' < 'langsam' < 'schneckentempo']

In [5]:
df_mpg.dtypes 

mpg                float64
cylinders            int64
displacement       float64
horsepower         float64
weight               int64
acceleration       float64
model_year           int64
origin              object
name                object
Beschleunigung    category
dtype: object

In [7]:
df_mpg.memory_usage(deep=True)

Index               128
mpg                3184
cylinders          3184
displacement       3184
horsepower         3184
weight             3184
acceleration       3184
model_year         3184
origin            24248
name              29092
Beschleunigung      902
dtype: int64

In [8]:
df_mpg.memory_usage()

Index              128
mpg               3184
cylinders         3184
displacement      3184
horsepower        3184
weight            3184
acceleration      3184
model_year        3184
origin            3184
name              3184
Beschleunigung     610
dtype: int64

In [20]:
#df_mpg['Beschleunigung'].value_counts()
df_mpg['horsepower'].value_counts()


150.0    22
90.0     20
88.0     19
110.0    18
100.0    17
         ..
61.0      1
93.0      1
148.0     1
152.0     1
82.0      1
Name: horsepower, Length: 93, dtype: int64

## Kategorien selbst festlegen

In [25]:
# je höher der wert, desto langsamer die Beschleugnigung

kategorien = ['super-schnell','schnell','normal','langsam','schneckentempo']

max_value = df_mpg['acceleration'].max()
min_value = df_mpg['acceleration'].min()
print(max_value, min_value)
einteilung = [0,min_value+1,10,15,20,max_value] # 1 Wert mehr, da mit Bereichen gearbeitet wird(z.B: 0 bis min_value,...)

df_mpg['Beschleunigung2'] = pd.cut(df_mpg['acceleration'], bins=einteilung, labels=kategorien)
df_mpg

24.8 8.0


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name,Beschleunigung,Beschleunigung2
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu,schnell,normal
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320,schnell,normal
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite,super-schnell,normal
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst,schnell,normal
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino,super-schnell,normal
...,...,...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl,normal,langsam
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup,schneckentempo,schneckentempo
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage,schnell,normal
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger,langsam,langsam


In [23]:
df_mpg['Beschleunigung2'].unique()

['normal', 'schnell', 'super-schnell', 'langsam', 'schneckentempo']
Categories (5, object): ['super-schnell' < 'schnell' < 'normal' < 'langsam' < 'schneckentempo']

In [26]:
df_mpg['Beschleunigung2'].value_counts()

langsam           194
normal            171
schneckentempo     23
schnell             6
super-schnell       4
Name: Beschleunigung2, dtype: int64