<p>Für die Lösung von Maschine Learning Probleme wird vorausgesetzt , dass numerische Daten in einem übersichtlichem Form vorliegen .Aber in der realen Welt kommt diese Form von Daten sehr selten vor . Daher muss in solchen Fällen in der Praxis ein wichtiger Schritt zur Aufbereitung von Daten durchgeführt werden.<br> Dieser Schritt wird in Machine Learning als Feature Engineering benannt.
Es geht in diesem Schritt darum , die Informationen über das vorliegende Problem zu analysieren , anzupassen  oder in einer verständlichen Form umzuwandeln z.b in Zahlen umwandeln. </p>
<b> Quelle :  https://jakevdp.github.io/PythonDataScienceHandbook/05.04-feature-engineering.html </b>

<b><i>Feature zum Darstellen <a> Kategorialer Daten </a></i></b>

In [47]:
import pathlib
from typing import List
import pandas as pd
import os

#print (next(os.walk('Datasets/')))
paths = list()
for pathname , _ , filenames in os.walk('Datasets/'):
    for filename in filenames:
         paths.append(os.path.join(pathname,filename))
           
##Get the Dataset ---> German_credit_data.csv 
df = pd.read_csv(paths[0])
df.head(40)


Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose
0,0,67,male,2,own,,little,1169,6,radio/TV
1,1,22,female,2,own,little,moderate,5951,48,radio/TV
2,2,49,male,1,own,little,,2096,12,education
3,3,45,male,2,free,little,little,7882,42,furniture/equipment
4,4,53,male,2,free,little,little,4870,24,car
5,5,35,male,1,free,,,9055,36,education
6,6,53,male,2,own,quite rich,,2835,24,furniture/equipment
7,7,35,male,3,rent,little,moderate,6948,36,car
8,8,61,male,1,own,rich,,3059,12,radio/TV
9,9,28,male,3,own,little,moderate,5234,30,car


In [48]:
df.info()
print(df.columns)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Unnamed: 0        1000 non-null   int64 
 1   Age               1000 non-null   int64 
 2   Sex               1000 non-null   object
 3   Job               1000 non-null   int64 
 4   Housing           1000 non-null   object
 5   Saving accounts   817 non-null    object
 6   Checking account  606 non-null    object
 7   Credit amount     1000 non-null   int64 
 8   Duration          1000 non-null   int64 
 9   Purpose           1000 non-null   object
dtypes: int64(5), object(5)
memory usage: 78.2+ KB
Index(['Unnamed: 0', 'Age', 'Sex', 'Job', 'Housing', 'Saving accounts',
       'Checking account', 'Credit amount', 'Duration', 'Purpose'],
      dtype='object')


<p> Die Feature Housing , Saving accounts , Checking account und Purpose  können tatsächlich mit einfachen numerische Werten gemappt werden aber Scikit learn bietet uns eine schönere Lösung : *One Hot Codierung* . In Machine Learning besteht immer den Wunsch algebraische Größen zu haben und zwar weil diese einfach zu verstehen sind: z.b :  1: False   0: True  oder 1 : male  0: female oder 1: vorhanden 0:nicht vorhanden </p>
<p> In der One Hot Codierung geht es darum , zusätzliche Spalten in der vorliegende Dataset zu erstellen , die das Vorhandensein oder Fehlen einer Categorie mit einem Wert von 1 bzw. 0 anzeigen. Dazu wird die Klasse <b> DictVectorizer </b> bzw. die funktion <b> fit_transform </b> , welche als argument eine liste von Worterbücher bzw. worterbücher annimmt. </p>

In [49]:
#Vor bereinigung 
print('Vor reingung des Datasets: ')
df.isna().sum()

Vor reingung des Datasets: 


Unnamed: 0            0
Age                   0
Sex                   0
Job                   0
Housing               0
Saving accounts     183
Checking account    394
Credit amount         0
Duration              0
Purpose               0
dtype: int64

In [50]:
# Bereinigung des Datasets 
print('Nach Bereinigung des Datasets: ')
df = df.dropna(axis=0)
df = df.drop(axis=1 , columns=['Unnamed: 0'])
df.isna().sum()
df.head(40)

Nach Bereinigung des Datasets: 


Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose
1,22,female,2,own,little,moderate,5951,48,radio/TV
3,45,male,2,free,little,little,7882,42,furniture/equipment
4,53,male,2,free,little,little,4870,24,car
7,35,male,3,rent,little,moderate,6948,36,car
9,28,male,3,own,little,moderate,5234,30,car
10,25,female,2,rent,little,moderate,1295,12,car
11,24,female,2,rent,little,little,4308,48,business
12,22,female,2,own,little,moderate,1567,12,radio/TV
13,60,male,1,own,little,little,1199,24,car
14,28,female,2,rent,little,little,1403,15,car


In [51]:
# Dataframe to Dictionary 
df = df.to_dict(orient='records')

from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse=False , dtype=int)
vec.fit_transform(df)


TypeError: Unsupported value Type <class 'dict'> for Age: {1: 22, 3: 45, 4: 53, 7: 35, 9: 28, 10: 25, 11: 24, 12: 22, 13: 60, 14: 28, 15: 32, 18: 44, 21: 44, 22: 48, 23: 44, 25: 36, 27: 42, 28: 34, 29: 63, 30: 36, 31: 27, 32: 30, 34: 33, 35: 25, 37: 37, 38: 37, 39: 24, 41: 26, 42: 44, 43: 24, 44: 58, 47: 23, 51: 30, 54: 57, 58: 23, 59: 23, 60: 27, 62: 61, 63: 25, 67: 22, 72: 51, 73: 41, 75: 66, 76: 34, 77: 51, 79: 22, 83: 58, 84: 52, 86: 27, 87: 47, 88: 30, 89: 28, 91: 54, 94: 54, 95: 58, 97: 34, 98: 36, 101: 24, 103: 35, 105: 39, 107: 32, 109: 35, 110: 31, 111: 23, 112: 28, 114: 35, 118: 23, 119: 36, 120: 25, 123: 63, 125: 30, 126: 40, 127: 30, 128: 34, 129: 29, 131: 29, 137: 66, 139: 44, 140: 27, 141: 30, 142: 27, 143: 22, 145: 30, 146: 39, 148: 28, 152: 24, 153: 29, 154: 36, 155: 20, 156: 48, 157: 45, 158: 38, 163: 70, 166: 33, 167: 20, 169: 31, 170: 33, 172: 34, 173: 33, 174: 26, 176: 42, 177: 52, 179: 65, 181: 30, 184: 36, 186: 74, 187: 68, 188: 20, 189: 33, 191: 34, 192: 36, 194: 21, 195: 34, 197: 27, 199: 40, 201: 27, 203: 21, 205: 38, 207: 26, 208: 21, 212: 50, 213: 66, 216: 31, 217: 23, 218: 24, 220: 26, 226: 27, 227: 53, 229: 22, 230: 26, 233: 25, 235: 30, 237: 61, 239: 39, 242: 24, 248: 26, 250: 39, 251: 46, 252: 24, 257: 29, 260: 27, 261: 55, 262: 36, 265: 37, 268: 45, 273: 28, 274: 34, 284: 37, 285: 35, 286: 26, 287: 31, 288: 49, 289: 48, 291: 28, 292: 44, 293: 56, 295: 26, 299: 32, 301: 42, 303: 49, 307: 33, 308: 24, 309: 22, 312: 26, 313: 25, 315: 31, 316: 38, 319: 27, 320: 28, 321: 32, 322: 34, 323: 28, 325: 39, 328: 31, 329: 28, 330: 75, 332: 24, 334: 23, 335: 44, 336: 23, 338: 28, 339: 31, 340: 24, 341: 26, 342: 25, 343: 33, 344: 37, 346: 23, 347: 23, 349: 32, 351: 29, 353: 28, 355: 23, 359: 23, 362: 36, 364: 25, 367: 22, 368: 42, 369: 40, 374: 60, 375: 37, 378: 57, 381: 38, 383: 26, 387: 40, 388: 27, 391: 19, 392: 39, 393: 31, 395: 32, 396: 55, 397: 46, 398: 46, 405: 22, 407: 27, 409: 28, 410: 20, 416: 33, 422: 47, 425: 21, 429: 55, 431: 29, 432: 36, 434: 25, 438: 65, 439: 26, 441: 30, 442: 29, 444: 30, 446: 34, 447: 35, 449: 61, 454: 31, 456: 36, 457: 35, 458: 27, 460: 37, 461: 36, 462: 34, 465: 63, 466: 29, 470: 22, 471: 23, 472: 28, 474: 33, 475: 26, 477: 25, 478: 39, 479: 44, 480: 23, 481: 26, 482: 57, 485: 47, 491: 42, 494: 39, 496: 29, 498: 32, 499: 28, 500: 27, 501: 42, 502: 49, 503: 38, 504: 24, 506: 36, 507: 34, 510: 26, 512: 26, 513: 20, 515: 37, 516: 40, 518: 43, 521: 24, 522: 53, 524: 26, 525: 30, 528: 31, 529: 41, 530: 32, 531: 28, 535: 33, 537: 37, 538: 42, 539: 45, 540: 23, 543: 34, 545: 43, 548: 24, 552: 34, 553: 27, 554: 67, 555: 22, 556: 28, 558: 27, 559: 31, 561: 24, 562: 29, 565: 23, 566: 36, 569: 31, 570: 23, 573: 22, 574: 27, 576: 27, 578: 27, 580: 30, 581: 49, 583: 33, 585: 20, 586: 36, 587: 21, 588: 47, 589: 60, 590: 58, 593: 20, 595: 32, 596: 23, 597: 36, 600: 45, 601: 30, 602: 34, 604: 23, 605: 22, 607: 50, 610: 22, 611: 48, 612: 29, 613: 22, 617: 37, 618: 21, 620: 27, 623: 22, 624: 65, 626: 41, 627: 29, 630: 28, 631: 44, 634: 25, 639: 26, 640: 27, 641: 38, 644: 32, 646: 32, 648: 38, 649: 40, 650: 50, 651: 37, 652: 45, 653: 42, 655: 22, 656: 41, 658: 28, 659: 41, 660: 23, 663: 35, 664: 50, 666: 34, 668: 43, 669: 47, 677: 24, 678: 64, 684: 31, 687: 30, 689: 31, 690: 25, 691: 25, 692: 29, 696: 29, 699: 40, 701: 46, 702: 47, 703: 41, 704: 32, 706: 24, 707: 25, 708: 25, 709: 37, 711: 35, 713: 25, 714: 27, 719: 31, 720: 34, 721: 24, 722: 24, 723: 66, 727: 25, 728: 59, 729: 36, 730: 33, 731: 21, 732: 44, 736: 23, 737: 35, 739: 26, 740: 32, 741: 23, 743: 22, 745: 28, 746: 23, 747: 37, 750: 49, 751: 23, 752: 23, 756: 74, 759: 35, 761: 24, 762: 24, 765: 40, 766: 31, 768: 28, 771: 25, 774: 66, 777: 25, 779: 67, 780: 25, 782: 31, 783: 23, 785: 35, 788: 50, 789: 27, 790: 39, 793: 51, 801: 48, 802: 24, 805: 24, 806: 26, 808: 55, 809: 26, 810: 26, 811: 28, 812: 24, 813: 54, 814: 46, 815: 54, 818: 43, 819: 26, 821: 24, 822: 41, 823: 47, 825: 30, 826: 33, 831: 23, 832: 29, 834: 25, 835: 48, 838: 63, 840: 29, 848: 59, 849: 57, 850: 33, 853: 32, 858: 29, 862: 35, 866: 27, 869: 24, 871: 46, 872: 26, 874: 29, 875: 40, 876: 36, 878: 27, 884: 43, 885: 53, 887: 23, 890: 43, 892: 38, 893: 34, 896: 28, 899: 42, 900: 43, 905: 20, 911: 25, 914: 31, 915: 32, 917: 68, 918: 33, 919: 39, 922: 22, 923: 30, 924: 55, 925: 46, 926: 21, 927: 39, 929: 43, 930: 24, 931: 22, 934: 23, 935: 30, 936: 28, 937: 30, 938: 42, 944: 46, 945: 30, 946: 30, 950: 40, 951: 24, 952: 28, 954: 29, 955: 57, 957: 37, 958: 45, 959: 30, 961: 47, 964: 22, 966: 23, 969: 40, 970: 22, 972: 29, 973: 36, 975: 57, 976: 64, 979: 25, 980: 49, 982: 28, 983: 26, 985: 25, 986: 33, 988: 29, 989: 48, 993: 30, 996: 40, 998: 23, 999: 27}.
<class 'dict'> objects are not supported.