<p>Für die Lösung von Maschine Learning Probleme wird vorausgesetzt , dass numerische Daten in einem übersichtlichem Form vorliegen .Aber in der realen Welt kommt diese Form von Daten sehr selten vor . Daher muss in solchen Fällen in der Praxis ein wichtiger Schritt zur Aufbereitung von Daten durchgeführt werden.<br> Dieser Schritt wird in Machine Learning als Feature Engineering benannt.
Es geht in diesem Schritt darum , die Informationen über das vorliegende Problem zu analysieren , anzupassen  oder in einer verständlichen Form umzuwandeln z.b in Zahlen umwandeln. </p>
<b> Quelle :  https://jakevdp.github.io/PythonDataScienceHandbook/05.04-feature-engineering.html </b>

<b><i>Feature zum Darstellen <a> Kategorialer Daten </a></i></b>

In [1]:
import pathlib
from typing import List
import pandas as pd
import os

#print (next(os.walk('Datasets/')))
paths = list()
for pathname , _ , filenames in os.walk('Datasets/'):
    for filename in filenames:
         paths.append(os.path.join(pathname,filename))
           
##Get the Dataset ---> German_credit_data.csv 
df = pd.read_csv(paths[0])
df.head(40)


Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose
0,0,67,male,2,own,,little,1169,6,radio/TV
1,1,22,female,2,own,little,moderate,5951,48,radio/TV
2,2,49,male,1,own,little,,2096,12,education
3,3,45,male,2,free,little,little,7882,42,furniture/equipment
4,4,53,male,2,free,little,little,4870,24,car
5,5,35,male,1,free,,,9055,36,education
6,6,53,male,2,own,quite rich,,2835,24,furniture/equipment
7,7,35,male,3,rent,little,moderate,6948,36,car
8,8,61,male,1,own,rich,,3059,12,radio/TV
9,9,28,male,3,own,little,moderate,5234,30,car


In [2]:
df.info()
print(df.columns)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Unnamed: 0        1000 non-null   int64 
 1   Age               1000 non-null   int64 
 2   Sex               1000 non-null   object
 3   Job               1000 non-null   int64 
 4   Housing           1000 non-null   object
 5   Saving accounts   817 non-null    object
 6   Checking account  606 non-null    object
 7   Credit amount     1000 non-null   int64 
 8   Duration          1000 non-null   int64 
 9   Purpose           1000 non-null   object
dtypes: int64(5), object(5)
memory usage: 78.2+ KB
Index(['Unnamed: 0', 'Age', 'Sex', 'Job', 'Housing', 'Saving accounts',
       'Checking account', 'Credit amount', 'Duration', 'Purpose'],
      dtype='object')


<p> Die Feature Housing , Saving accounts , Checking account und Purpose  können tatsächlich mit einfachen numerische Werten gemappt werden aber Scikit learn bietet uns eine schönere Lösung : *One Hot Codierung* . In Machine Learning besteht immer den Wunsch algebraische Größen zu haben und zwar weil diese einfach zu verstehen sind: z.b :  1: False   0: True  oder 1 : male  0: female oder 1: vorhanden 0:nicht vorhanden </p>
<p> In der One Hot Codierung geht es darum , zusätzliche Spalten in der vorliegende Dataset zu erstellen , die das Vorhandensein oder Fehlen einer Categorie mit einem Wert von 1 bzw. 0 anzeigen. Dazu wird die Klasse <b> DictVectorizer </b> bzw. die funktion <b> fit_transform </b> , welche als argument eine liste von Worterbücher bzw. worterbücher annimmt. </p>

In [3]:
#Vor bereinigung 
print('Vor reingung des Datasets: ')
df.isna().sum()

Vor reingung des Datasets: 


Unnamed: 0            0
Age                   0
Sex                   0
Job                   0
Housing               0
Saving accounts     183
Checking account    394
Credit amount         0
Duration              0
Purpose               0
dtype: int64

In [4]:
# Bereinigung des Datasets 
print('Nach Bereinigung des Datasets: ')
df = df.dropna(axis=0)
df = df.drop(axis=1 , columns=['Unnamed: 0'])
df.isna().sum()
df.head(40)

Nach Bereinigung des Datasets: 


Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose
1,22,female,2,own,little,moderate,5951,48,radio/TV
3,45,male,2,free,little,little,7882,42,furniture/equipment
4,53,male,2,free,little,little,4870,24,car
7,35,male,3,rent,little,moderate,6948,36,car
9,28,male,3,own,little,moderate,5234,30,car
10,25,female,2,rent,little,moderate,1295,12,car
11,24,female,2,rent,little,little,4308,48,business
12,22,female,2,own,little,moderate,1567,12,radio/TV
13,60,male,1,own,little,little,1199,24,car
14,28,female,2,rent,little,little,1403,15,car


In [5]:
# Dataframe to Dictionary 
df = df.to_dict(orient='records')

# Jetzt haben wir ein verständliches format des Datasets erschaffen und kann jetzt effizienz nutzen 
# Da wir aber die Größe des Datasets erheblich erhört haben , könnte man das Problem einfach lösen , indem man das Argument sparse auf True setzt.
from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse=True , dtype=int)
array2d = vec.fit_transform(df)

print('##############')
print(vec.feature_names_)

['Age', 'Checking account=little', 'Checking account=moderate', 'Checking account=rich', 'Credit amount', 'Duration', 'Housing=free', 'Housing=own', 'Housing=rent', 'Job', 'Purpose=business', 'Purpose=car', 'Purpose=domestic appliances', 'Purpose=education', 'Purpose=furniture/equipment', 'Purpose=radio/TV', 'Purpose=repairs', 'Purpose=vacation/others', 'Saving accounts=little', 'Saving accounts=moderate', 'Saving accounts=quite rich', 'Saving accounts=rich', 'Sex=female', 'Sex=male']


<p> Es sind noch mehr Scikit-Learn Klassen , die uns dabei helfen können , Kategoriale Merkmale  zu encodieren :
     <li> <ul> Sklearn.Preprocessing.OneHotEncoder </ul>
           <ul>sklearn.feature_extraction.FeatureHasher</ul>
           <ul>sklearn.Preprocessing.OrdinalEncoder</ul>
           <ul>sklearn.Preprocessing.LabelBinarizer</ul>
     </li>