# Updating von Rows und Colums

Video zu diesem Thema: https://youtu.be/DCDe29sIKcE

## <span style="color:#7030A0">Unser Setup</span>

In [2]:
import pandas as pd

# Beispieldaten vorbereiten

people = {
    'first': ['Gordon', 'Morgan', 'Naruto'],
    'last': ['Freeman', 'Freeman', 'Uzumaki'],
    'email': ['gordonfreeman@valve.com', 'morganFreeman@email.com', 'narutoUzumaki@carlsen.com']
}

people_df = pd.DataFrame(people)

# Stack Overflow Survey-Daten vorbereiten

survey_df = pd.read_csv('../data/survey_results_public.csv', index_col='Respondent')
schema_df = pd.read_csv('../data/survey_results_schema.csv', index_col='Column')
pd.set_option('display.max_columns', 85) # konkatenierte Informationen mit vollständigen Spalten anzeigen
pd.set_option('display.max_rows', 85)    # konkatenierte Informationen mit vollständigen Zeilen anzeigen

In [3]:
people_df

Unnamed: 0,first,last,email
0,Gordon,Freeman,gordonfreeman@valve.com
1,Morgan,Freeman,morganFreeman@email.com
2,Naruto,Uzumaki,narutoUzumaki@carlsen.com


## <span style="color:#7030A0">Spaltennamen verändern</span>

In [4]:
people_df.columns

Index(['first', 'last', 'email'], dtype='object')

Wir können unsere Spalten auch umbenennen:

In [5]:
people_df.columns = ['first_name','last_name', 'email']
people_df.columns

Index(['first_name', 'last_name', 'email'], dtype='object')

Wir können die Spaltennamen auch mit einer for-Schleife manipulieren:

In [6]:
people_df.columns = [x.lower() for x in people_df.columns]
people_df.columns

Index(['first_name', 'last_name', 'email'], dtype='object')

Falls wir Leerzeichen durch "_" ersetzen möchten:

In [7]:
people_df.columns = people_df.columns.str.replace(' ', '_')

Wir können auch nur bestimmte Spalten umbenennen, indem wir ein dictionary verwenden:

In [8]:
people_df.rename(columns={'first_name': 'first', 'last_name': 'last'}, inplace=True)
people_df

Unnamed: 0,first,last,email
0,Gordon,Freeman,gordonfreeman@valve.com
1,Morgan,Freeman,morganFreeman@email.com
2,Naruto,Uzumaki,narutoUzumaki@carlsen.com


## <span style="color:#7030A0">Zeilen manipulieren</span>

Wir können alle Werte in einer Zeile neu zuweisen:

In [9]:
people_df.loc[1] = ['Morgan', 'Smith', 'morganSmith@email.com']
people_df

Unnamed: 0,first,last,email
0,Gordon,Freeman,gordonfreeman@valve.com
1,Morgan,Smith,morganSmith@email.com
2,Naruto,Uzumaki,narutoUzumaki@carlsen.com


Wir können nur bestimmte Werte in einer Zeile neu zuweisen:

In [10]:
people_df.loc[1, ['last', 'email']] = ['Doe', 'morganDoe@email.com']
people_df

Unnamed: 0,first,last,email
0,Gordon,Freeman,gordonfreeman@valve.com
1,Morgan,Doe,morganDoe@email.com
2,Naruto,Uzumaki,narutoUzumaki@carlsen.com


Wir können einen bestimmten Wert in einer Zeile neu zuweisen:

In [11]:
people_df.loc[1, 'last'] = 'Smith'
people_df

Unnamed: 0,first,last,email
0,Gordon,Freeman,gordonfreeman@valve.com
1,Morgan,Smith,morganDoe@email.com
2,Naruto,Uzumaki,narutoUzumaki@carlsen.com


### <span style="color:#4472C4">Beispiel mit Filter</span>

In [12]:
filt = (people_df['email'] == 'morganDoe@email.com')
people_df.loc[filt, 'last'] = 'Doe'
people_df

Unnamed: 0,first,last,email
0,Gordon,Freeman,gordonfreeman@valve.com
1,Morgan,Doe,morganDoe@email.com
2,Naruto,Uzumaki,narutoUzumaki@carlsen.com


In [13]:
people_df['email'] = people_df['email'].str.lower()
people_df

Unnamed: 0,first,last,email
0,Gordon,Freeman,gordonfreeman@valve.com
1,Morgan,Doe,morgandoe@email.com
2,Naruto,Uzumaki,narutouzumaki@carlsen.com


## <span style="color:#7030A0">apply</span>

Die ```apply```-Methode wird dafür genutzt, um eine Funktion auf Werte einer Zeile anzuwenden. 
Diese kann entweder auf ein Dataframe oder eine Series angewendet werden.

### <span style="color:#4472C4">apply auf eine Series</span>

In [14]:
people_df['email'] # liefert eine Series zurück

0      gordonfreeman@valve.com
1          morgandoe@email.com
2    narutouzumaki@carlsen.com
Name: email, dtype: object

In [15]:
people_df['email'].apply(len) # Zeige die String-Länge der Spalte "email" an

0    23
1    19
2    25
Name: email, dtype: int64

Wir können auch eigene Funktionen definieren und auf unser Dataframe anwenden:

In [16]:
def update_email(email):
    return email.upper()

In [17]:
people_df['email'].apply(update_email) # ACHTUNG: HIER SIND DIE ÄNDERUNGEN NICHT PERMANENT!

0      GORDONFREEMAN@VALVE.COM
1          MORGANDOE@EMAIL.COM
2    NARUTOUZUMAKI@CARLSEN.COM
Name: email, dtype: object

In [18]:
people_df['email'] = people_df['email'].apply(update_email)
people_df

Unnamed: 0,first,last,email
0,Gordon,Freeman,GORDONFREEMAN@VALVE.COM
1,Morgan,Doe,MORGANDOE@EMAIL.COM
2,Naruto,Uzumaki,NARUTOUZUMAKI@CARLSEN.COM


Wir können auch Lambda-Funktionen benutzen:

In [19]:
people_df['email'] = people_df['email'].apply(lambda x: x.lower())
people_df

Unnamed: 0,first,last,email
0,Gordon,Freeman,gordonfreeman@valve.com
1,Morgan,Doe,morgandoe@email.com
2,Naruto,Uzumaki,narutouzumaki@carlsen.com


### <span style="color:#4472C4">apply auf Dataframes</span>
Wenn wir die ```apply```-Methode auf ein Dataframe anwenden, wird diese Funktion auf jede Zeile und Spalte angewendet. Im folgenden Beispiel wird die ```len```-Funktion nicht für jeden Wert des Dataframes aufgerufen, sondern für jede Series bzw. Spalte. Wir sehen also die Anzahl der Zeilen in jeder Spalte.

In [20]:
people_df.apply(len)

first    3
last     3
email    3
dtype: int64

Es wird also folgendes für jede Spalte aufgerufen:

In [21]:
len(people_df['email'])

3

In [22]:
people_df.apply(pd.Series.min) # alphabetisch gesehen erste Zeile finden

first                     Gordon
last                         Doe
email    gordonfreeman@valve.com
dtype: object

In [23]:
people_df.apply(lambda x: x.min())

first                     Gordon
last                         Doe
email    gordonfreeman@valve.com
dtype: object

## <span style="color:#7030A0">applymap</span>
Die ```len```-Methode wird auf jeden einzelnen Wert des Dataframes angewendet.

In [24]:
people_df.applymap(len)

Unnamed: 0,first,last,email
0,6,7,23
1,6,3,19
2,6,7,25


In [25]:
people_df.applymap(str.lower)

Unnamed: 0,first,last,email
0,gordon,freeman,gordonfreeman@valve.com
1,morgan,doe,morgandoe@email.com
2,naruto,uzumaki,narutouzumaki@carlsen.com


## <span style="color:#7030A0">map</span>
Die ```map```-Methode funktioniert nur auf Series. Sie wird genutzt, um jeden Wert in einer Series durch einen anderen zu ersetzen. Die Werte, die nicht geändert werden, werden zu "Not-A-Number"-Werte konvertiert.

In [26]:
people_df['first'].map({'Morgan': 'Chris', 'Naruto': 'Nagato'})

0       NaN
1     Chris
2    Nagato
Name: first, dtype: object

In [27]:
people_df['first'] = people_df['first'].replace({'Morgan': 'Chris', 'Naruto': 'Nagato'})
people_df

Unnamed: 0,first,last,email
0,Gordon,Freeman,gordonfreeman@valve.com
1,Chris,Doe,morgandoe@email.com
2,Nagato,Uzumaki,narutouzumaki@carlsen.com


## <span style="color:#7030A0">Anwendungsbeispiele</span>

In [28]:
survey_df.rename(columns={'ConvertedComp': 'SalaryUSD'}, inplace=True)
survey_df['SalaryUSD']

Respondent
1            NaN
2            NaN
3         8820.0
4        61000.0
5            NaN
          ...   
88377        NaN
88601        NaN
88802        NaN
88816        NaN
88863        NaN
Name: SalaryUSD, Length: 88883, dtype: float64

In [29]:
survey_df['Hobbyist']

Respondent
1        Yes
2         No
3        Yes
4         No
5        Yes
        ... 
88377    Yes
88601     No
88802     No
88816     No
88863    Yes
Name: Hobbyist, Length: 88883, dtype: object

In [30]:
survey_df['Hobbyist'].map({'Yes': True, 'No': False})

Respondent
1         True
2        False
3         True
4        False
5         True
         ...  
88377     True
88601    False
88802    False
88816    False
88863     True
Name: Hobbyist, Length: 88883, dtype: bool

In [31]:
survey_df['Hobbyist'] = survey_df['Hobbyist'].map({'Yes': True, 'No': False}) # Änderung permanent machen