## Use Case Preprocessing - Fehlwerte erkennen
Im Machine Learning Umfeld kann Datenqualität einen entscheidenden Faktor darstellen. Fehlwerte und besonders pseudo-Fehlwerte können die Datenqualität Ihres Datasets deutlich verschlechtern.

Im folgenden Use Case werden Sie sich selbst mit Fehlwerten beschäftigen und diese identifizieren.

In [3]:
## imports
import pandas as pd
import numpy as np
import missingno as msno

In [9]:
## Laden des Datasets
df = pd.read_csv("../Datasets/airbnb.csv")

In [10]:
# Datumsumformungen
df['date_account_created'] = pd.to_datetime(df.date_account_created)
df['date_first_booking'] = pd.to_datetime(df.date_first_booking)
df['timestamp_first_active'] = pd.to_datetime(df.timestamp_first_active, format = "%Y%m%d%H%M%S")

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 213451 entries, 0 to 213450
Data columns (total 16 columns):
 #   Column                   Non-Null Count   Dtype         
---  ------                   --------------   -----         
 0   id                       213451 non-null  object        
 1   date_account_created     213451 non-null  datetime64[ns]
 2   timestamp_first_active   213451 non-null  datetime64[ns]
 3   date_first_booking       88908 non-null   datetime64[ns]
 4   gender                   213451 non-null  object        
 5   age                      125461 non-null  float64       
 6   signup_method            213451 non-null  object        
 7   signup_flow              213451 non-null  int64         
 8   language                 213451 non-null  object        
 9   affiliate_channel        213451 non-null  object        
 10  affiliate_provider       213451 non-null  object        
 11  first_affiliate_tracked  207386 non-null  object        
 12  signup_app      

In [12]:
df.loc[df.gender=='-unknown-', 'gender'] = np.NaN # replacement

Wie Sie bereits in der Vorschau gesehen haben, sind im Feature 'gender' versteckte Fehlwerte hinterlegt. Es gibt ein weiteres Feature, welches pseudo-Fehlwerte enthält. Finden Sie es? Ersetzen Sie daraufhin alle Fehlwerte mit nan's wie zuvor dargestellt.

In [None]:
df.head()

In [None]:
## Ihr Code

In [None]:
msno.matrix(df)

Sie können natürlich auch ihr Dataset oder bestimmte Variablen nach Fehlwerten filtern. Dies geht mit der df.isna()-Methode. Diese gibt Ihnen eine Maske zurück.

In [13]:
df.gender.isna()

0          True
1         False
2         False
3         False
4          True
          ...  
213446    False
213447     True
213448     True
213449     True
213450     True
Name: gender, Length: 213451, dtype: bool

In [15]:
df.loc[df.gender.isna(),:] # Alle Zeilen mit allen Spalten bei denen gender fehlt.

Unnamed: 0,id,date_account_created,timestamp_first_active,date_first_booking,gender,age,signup_method,signup_flow,language,affiliate_channel,affiliate_provider,first_affiliate_tracked,signup_app,first_device_type,first_browser,country_destination
0,gxn3p5htnn,2010-06-28,2009-03-19 04:32:55,NaT,,,facebook,0,en,direct,direct,untracked,Web,Mac Desktop,Chrome,NDF
4,87mebub9p4,2010-09-14,2009-12-08 06:11:05,2010-02-18,,41.0,basic,0,en,direct,direct,untracked,Web,Mac Desktop,Chrome,US
5,osr2jwljor,2010-01-01,2010-01-01 21:56:19,2010-01-02,,,basic,0,en,other,other,omg,Web,Mac Desktop,Chrome,US
9,6uh8zyj2gn,2010-01-04,2010-01-04 02:37:58,2010-01-04,,46.0,basic,0,en,other,craigslist,omg,Web,Mac Desktop,Firefox,US
12,k6np330cm1,2010-01-05,2010-01-05 06:08:59,2010-01-18,,,basic,0,en,direct,direct,,Web,Other/Unknown,-unknown-,FR
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
213444,40o1ivh6cb,2014-06-30,2014-06-30 23:53:52,NaT,,,basic,0,en,direct,direct,linked,Web,Windows Desktop,Chrome,NDF
213447,mhewnxesx9,2014-06-30,2014-06-30 23:57:19,NaT,,,basic,0,en,direct,direct,linked,Web,Windows Desktop,Chrome,NDF
213448,6o3arsjbb4,2014-06-30,2014-06-30 23:57:54,NaT,,32.0,basic,0,en,direct,direct,untracked,Web,Mac Desktop,Firefox,NDF
213449,jh95kwisub,2014-06-30,2014-06-30 23:58:22,NaT,,,basic,25,en,other,other,tracked-other,iOS,iPhone,Mobile Safari,NDF


Probieren Sie es ebenfalls mit der eben gerade von Ihnen bereinigten Variable.

In [None]:
## Ihr Code

Eine weiteres Datenqualitätsproblem sind falsche Angaben. Diese Müssen herausgefiltert werden und je nach Anwendungsfall neu zugeordnet, oder gelöscht werden. Finden Sie das Feature indem möglicherweise falsche Angaben gemacht wurden?
Tipp: verwenden Sie die describe()-Methode

In [None]:
## Ihr Code

Ersetzen Sie alle potenziellen Falschangaben durch nan's

In [None]:
## Ihr Code