# Bereinigung von Daten

Video zu diesem Thema: https://youtu.be/KdmPHEnPJPs

## <span style="color:#7030A0">Unser Setup</span>

In [24]:
import pandas as pd
import numpy as np

In [25]:
# Beispieldaten vorbereiten
people = {
    'first': ['Corey', 'Jane', 'John', 'Chris', np.nan, None, 'NA'],
    'last':  ['Schafer', 'Doe', 'Doe', 'Schafer', np.nan, np.nan, 'Missing'],
    'email': ['CoreySchafer@mail.com', 'JaneDoe@email.com', 'JohnDoe@carlsen.com', None, np.nan, 'Anonymous@mail.com', 'NA'],
    'age':   ['33', '55', '63', '36', None, None, 'Missing']
}

In [53]:
# dictionary zu Dataframe konvertieren
people_df = pd.DataFrame(people)

In [34]:
# Custom-Null-Werte (Hier: Strings) durch echte Null-Werte ersetzen
people_df.replace('NA', np.nan, inplace=True)
people_df.replace('Missing', np.nan, inplace=True)

In [55]:
# Stack Overflow Survey-Daten vorbereiten
na_vals = ['NA', 'Missing']
survey_df = pd.read_csv('../data/survey_results_public.csv', index_col='Respondent', na_values=na_vals)
schema_df = pd.read_csv('../data/survey_results_schema.csv', index_col='Column')
pd.set_option('display.max_columns', 85) # konkatenierte Informationen mit vollständigen Spalten anzeigen
pd.set_option('display.max_rows', 85)    # konkatenierte Informationen mit vollständigen Zeilen anzeigen

In [28]:
people_df

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreySchafer@mail.com,33.0
1,Jane,Doe,JaneDoe@email.com,55.0
2,John,Doe,JohnDoe@carlsen.com,63.0
3,Chris,Schafer,,36.0
4,,,,
5,,,Anonymous@mail.com,
6,,,,


## <span style="color:#7030A0">NA-Werte behandeln</span>

Mit der Methode ```dropna()``` werden standardmäßig alle Zeilen entfernt, die einen fehlenden Wert besitzen. 

In [29]:
people_df.dropna()

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreySchafer@mail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@carlsen.com,63


In [30]:
people_df.dropna(axis='index', how='any') # gleiches Ergebnis wie ohne Parameter, löscht alle Zeilen, bei denen mind.
                                          # ein Wert fehlt.

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreySchafer@mail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@carlsen.com,63


In [31]:
people_df.dropna(axis='index', how='all') # löscht alle Zeilen, bei denen alle Werte fehlen

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreySchafer@mail.com,33.0
1,Jane,Doe,JaneDoe@email.com,55.0
2,John,Doe,JohnDoe@carlsen.com,63.0
3,Chris,Schafer,,36.0
5,,,Anonymous@mail.com,


In [32]:
people_df.dropna(axis='index', how='any', subset=['email']) # entfernt alle Zeilen, die keine E-Mail haben

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreySchafer@mail.com,33.0
1,Jane,Doe,JaneDoe@email.com,55.0
2,John,Doe,JohnDoe@carlsen.com,63.0
5,,,Anonymous@mail.com,


In [33]:
people_df.dropna(axis='index', how='all', subset=['last', 'email']) # entfernt alle Zeilen, die sowohl keinen Nachnamen
                                                                    # als auch keine E-Mail haben

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreySchafer@mail.com,33.0
1,Jane,Doe,JaneDoe@email.com,55.0
2,John,Doe,JohnDoe@carlsen.com,63.0
3,Chris,Schafer,,36.0
5,,,Anonymous@mail.com,


In [36]:
people_df.isna() # Welche Werte sind na-Werte und welche nicht?

Unnamed: 0,first,last,email,age
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,True,False
4,True,True,True,True
5,True,True,False,True
6,True,True,True,True


In [38]:
people_df.fillna('MISSING') # Alle na-Werte durch 'MISSING' ersetzen

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreySchafer@mail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@carlsen.com,63
3,Chris,Schafer,MISSING,36
4,MISSING,MISSING,MISSING,MISSING
5,MISSING,MISSING,Anonymous@mail.com,MISSING
6,MISSING,MISSING,MISSING,MISSING


In [40]:
people_df.fillna(0)

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreySchafer@mail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@carlsen.com,63
3,Chris,Schafer,0,36
4,0,0,0,0
5,0,0,Anonymous@mail.com,0
6,0,0,0,0


## <span style="color:#7030A0">Datentypen casten</span>

In [43]:
people_df.dtypes

first    object
last     object
email    object
age      object
dtype: object

In [45]:
people_df['age'].mean() # funktioniert nicht, da unsere age-Daten Strings sind, wir müssen sie also casten

TypeError: can only concatenate str (not "int") to str

Wenn wir Zahlen casten und dabei nan-Werte in unseren Daten haben, müssen wir diese immer zu Float-Werten umwandeln. Der Wert ```nan``` aus Numpy ist eigentlich ein Float.

In [46]:
type(np.nan)

float

In [47]:
people_df['age'] = people_df['age'].astype(float)
people_df.dtypes

first     object
last      object
email     object
age      float64
dtype: object

In [49]:
people_df['age'].mean() # Durchschnittliches Alter berechnen

46.75

## <span style="color:#7030A0">Anwendungsbeispiel</span>

In [56]:
survey_df['YearsCode'].head(10)

Respondent
1       4
2     NaN
3       3
4       3
5      16
6      13
7       6
8       8
9      12
10     12
Name: YearsCode, dtype: object

In [59]:
survey_df['YearsCode'].unique() # Alle einzigartigen Werte dieser Spalte ausgeben

array(['4', nan, '3', '16', '13', '6', '8', '12', '2', '5', '17', '10',
       '14', '35', '7', 'Less than 1 year', '30', '9', '26', '40', '19',
       '15', '20', '28', '25', '1', '22', '11', '33', '50', '41', '18',
       '34', '24', '23', '42', '27', '21', '36', '32', '39', '38', '31',
       '37', 'More than 50 years', '29', '44', '45', '48', '46', '43',
       '47', '49'], dtype=object)

In [60]:
survey_df['YearsCode'].replace('Less than 1 year', 0, inplace=True)
survey_df['YearsCode'].replace('More than 50 years', 51, inplace=True)

In [61]:
survey_df['YearsCode'] = survey_df['YearsCode'].astype(float)

In [62]:
survey_df['YearsCode'].mean()

11.662114216834588

In [63]:
survey_df['YearsCode'].median()

9.0