### Übungsaufgaben Kapitel 3 - Datenmanipulation und Datenanalyse

In [None]:
# Im Gegensatz zu `pandas` ist `openpyxl` noch nicht vorinstalliert
!pip install openpyxl

In [1]:
import pandas as pd

**Hinweis:** Wir benennen die Spaltennamen des *CEO dissmissal* Datensatzes beim Datenimport um, um uns nachfolgend die Verarbeitung zu erleichtern:

```python
{'dismissal_dataset_id': 'id'
 'coname': 'firm_name'
 'gvkey': 'firm_id'
 'year': 'year'
 'co_per_rol': 'ceo_id'
 'exec_fullname': 'ceo_name'
 'Departure Code': 'depart_code'
 'ceo_dismissal': 'ceo_dismi'
 'Interim & Co-CEO': 'interim_or_co'
 'tenure_no': 'tenure_no'
 'max_tenure_ceodb': 'max_tenure'
 'The fiscal year during which the CEO exited - for clarity': 'fy_gone'
 'leftofc': 'date_gone'
 'Still There': 'still_active'
 'Notes and Thoughts': 'notes1'
 'Notes 2': 'notes2'}
```

In [None]:
col_names = ['id', 'firm_name' , 'firm_id', 'year', 'ceo_id', 'ceo_name', 'depart_code', 'ceo_dismi', 'interim_or_co',
             'tenure_no', 'max_tenure', 'fy_gone', 'date_gone', 'still_active', 'notes1', 'notes2']

url = 'https://zenodo.org/record/4543893/files/CEO%20Dismissal%20Data%202021.02.03.xlsx?download=1'

df = pd.read_excel(url, 'Sheet1', engine='openpyxl', index_col=0, names=col_names)

df.head(n=5)

##### 3.4 Operationen auf Zeilen

*Hinweis: Durch klick auf das kleine `+` in der oberen Toolbar oder durch selektieren einer Code Zelle und klicken der Tasten `a` (above) oder `b` (below) können neue Code Zellen eingefügt werden.*

1. Selektiere die ersten 3 Beobachtungen des Datensatzes.

2. Selektiere die letzten 100 Beobachtungen des Datensatzes.

3. Selektiere alle Beobachtungen aus dem Jahr 2000 und früher (Spalte `year`).

4. Selektiere alle Beobachtungen aus dem Jahr 2000 und früher oder 2010 und später (Spalte `year`).

5. Selektiere alle CEOs, denen in der zweiten Amtszeit (`tenure_no == 2`) gekündigt wurde (`ceo_dismi == 1`).

6. Selektiere alle Beobachtungen, zu denen es denen es keine Notizen gibt (d.h. `notes1` enthält keinen Eintrag).

7. Selektiere alle Beobachtungen, zu denen es denen es Notizen gibt (d.h. `notes1` enthält einen Eintrag).

8. Sortiere den Datensatz nach dem `year` in absteigender Reihenfolge und speichere das Resultat in der Variable `df_sorted`.

9. Sortiere den Datensatz nach dem `year` in absteigender Reihenfolge und überschreibe den original Datensatz unter Verwendung des `inplace` Arguments.

10. Sortiere den Datensatz nun wieder nach dem ursprünglichen Index unter Verwendung des `inplace` Arguments.

11. Ziehe eine zufällige Stichprobe (mit Zurücklegen), deren Größe 40% des originalen Datensatzes entspricht. Verwende dafür die *Seed* 2023 (d.h. setze `random_state=2023`).

12. Selektiere alle CEOs, die eine 3. oder sogar 4. Amtszeit (`tenure_no`) angetreten haben (=potenzielle Ausreißer?).

13. Selektiere alle CEOs, deren `ceo_name` mit einem `L` beginnt. (*Tipp: Wirf einen Blick in die [`pandas` Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.startswith.html)*)

##### 3.5 Operationen auf Spalten

*Hinweis: Durch klick auf das kleine `+` in der oberen Toolbar oder durch selektieren einer Code Zelle und klicken der Tasten `a` (above) oder `b` (below) können neue Code Zellen eingefügt werden.*

1. Selektiere die ersten 3 Spalten und letzten 100 Zeilen des Datensatzes.

2. Selektiere den Firmennamen, den CEO-Namen und die Information, ob diese/r immer noch im Amt ist. (*Achtung: Variablen aus dem Data Dictionary wurden umbenannt beim Datenimport!*)

3. Selektiere alle Spalten außer die Spalten `max_tenure` und `date_gone` (d.h. diese sollen entfernt werden).

4. Ersetze die Beobachtungen mit Index `1`, `10` und `100` in der Spalte `ceo_dismi` durch ein `None` (*missing value*).

5. Füge für alle leeren Einträge in der Variable `ceo_dismi` den Code `3` ein. Verwende dafür zusätzlich das `inplace` Argument.

6. Nun nehmen wir an, dass bei der Kodierung (d.h. der Erhebung der Gründe für ein Ausscheiden eines CEOs (`depart_code`)) ein Fehler gemacht wurde. Der/die Kodierer:in ist in der Zeile verrutscht und hat stets einen um 1 zu niedrigen Code eingetragen. Erhöhe `depart_code` nachträglich um 1, um den Fehler zu korrigieren, und ersetz dabei die alte Spalte.

7. Benenne die angepasste Spalte `depart_code` in `depart_code_new` um.

8. Erzeuge einen zweiten DataFrame der das Jahr (`year`), den CEO-Namen (`ceo_name`) und die Anzahl der Amtszeiten (`tenure_no`) enthält. Nenne diesen neuen DataFrame `df2`.

##### 3.6 Datenaggregation auf Spalten

*Hinweis: Durch klick auf das kleine `+` in der oberen Toolbar oder durch selektieren einer Code Zelle und klicken der Tasten `a` (above) oder `b` (below) können neue Code Zellen eingefügt werden.*

1. Ermittle die maximale und minimale Anzahl an Amtszeiten (`tenure_no`) sowie das durchschnittliche `year` aller Beobachtungen im Datensatz. Ermittle zudem das Median-`year`. Was fällt dir auf?

2. Ermittle die Korrelation zwischen `year` und `year_gone`. Warum beobachten wir eine Korrelation < 1?

3. Was sind die top 5 Unternehmen mit den meisten Events (d.h. Beobachtungen) im Datensatz?

4. Führe eine *Z-Standardisierung* der Variable `tenure_no` durch.

5. Selektiere alle *einzigartigen* Firmen, für die Beobachtungen in den Jahren 2000 oder früher vorliegen (d.h. keine Duplikate).

6. Liste alle CEOs, die mindestens drei Mal ihr Amt niedergelegt haben.

##### Übungsaufgaben Kapitel 3.7 - Operationen auf Gruppen

*Hinweis: Durch klick auf das kleine `+` in der oberen Toolbar oder durch selektieren einer Code Zelle und klicken der Tasten `a` (above) oder `b` (below) können neue Code Zellen eingefügt werden.*

1. Gruppiere die Daten nach dem Jahr und zähle die Anzahl der Beobachtungen pro Jahr mittels `.size()`.

2. Gruppiere die Daten nach dem Jahr und berechne den `mean` sowie `median` für `max_tenure` pro Jahr.

3. Gruppiere die Daten nach dem Jahr und berechne den `mean` sowie `median` für `max_tenure` pro Jahr. Nenne die neu entstehenden Spalten `Mittelwert` sowie `Median`.

4. Gruppiere die Daten nach dem Jahr und filter für Jahre mit mehr als 250 Beobachtungen. *Hinweis: Die Größe eines `DataFrame`, d.h. die Anzahl der Beobachtungen, kann mittels `len(df)` ermittelt werden.*

5. Gruppiere die Daten nach dem Jahr und zähle die Anzahl der Beobachtungen pro Jahr für CEOs in der zweiten Amtszeit.