# Datenanalyse in Python für Einsteiger

## Die Absoluten Basics
Ich habe versucht, Anweisungen so detailliert wie möglich für absolute Anfänger bereitzustellen. Wenn du bereits mit Python & Jupyter Notebooks vertraut bist, kannst du diesen Abschnitt gerne schneller durchgehen oder ihn ganz überspringen.









### Layout
Dieses Tutorial ist in einem sogenannten Jupyter-Notebook (Dateityp .ipynb) angelegt. Es enthält zwei Arten von "Zellen":
- Markdown-Zellen (wie diese hier) enthalten Text und Anweisungen
- Code-Zellen (siehe unten) enthalten... nun ja... Code. Du kannst sie ausführen, indem du auf ein kleines Dreieck klickst oder in sie hinein klickst und SHIFT+ENTER oder CTRL+ENTER drückst.

Was schön an Jupyter Notebooks ist, ist dass Markdown-Zellen es uns ermöglichen, Code einfach zu erklären, aber noch wichtiger ist, dass jede Code-Zelle individuell ausgeführt werden kann. Auf diese Weise kannst du deinen Code Stück für Stück schreiben und testen, deine Ausgabe (oder Fehlermeldung) sofort sehen. Das ermöglicht uns, einfach zu debuggen und zu lernen.

**Probiere es aus, indem du den Codeblock unten ausführst.**






In [None]:
print("Hello World!")

Du wirst die gedruckte Ausgabe unterhalb der Code-Zelle sehen.

**Verwende die leere Zelle unten, um die print-Funktion selbst auszuprobieren.**


### Variablen definieren

Python - und alle anderen Programmiersprachen - verlassen sich auf Variablen oder "Objekte" für Berechnungen. Vereinfacht ausgedrückt hat jede Variable einen *Wert* und einen *Typ*. In Python wird der Typ implizit abgeleitet, was es zu einer zugänglicheren Sprache für Anfänger macht, da du den Datentyp jedes Objekts nicht explizit angeben musst.

Im Folgenden definieren wir zwei Variablen `a` und `b`.

`a` ist eine *ganze Zahl* mit dem Wert 5 und `b` ist ein *String* (=Text) mit dem Wert "sieben".

**Führe die untenstehenden Zellen aus**


In [None]:
a = 5
b = "seven"

### Variablen abrufen

Wir haben nun die Werte 5 und "sieben" in die Variablen `a` und `b` gespeichert. Diese gespeicherten Variablen können wir abrufen, indem wir sie *aufrufen*.

**Führe die Zelle unten aus, um `a` aufzurufen und dessen Wert auf dem Bildschirm anzuzeigen.**


In [None]:
a

Jetzt möchten wir auch die Variable `b` aufrufen.

**Erstelle eine neue Code-Zelle direkt unter dieser und rufe die Variable `b` auf.**

Du kannst neue Zellen erstellen, indem du auf die Plus-Schaltfläche auf dem Bildschirm klickst.


Wir können neue Variablen basierend auf bereits zuvor definierten Variablen definieren. Zum Beispiel können wir c = a + 10 definieren.

In [None]:
c = a + 10
c

Gut gemacht! Du hast dich nun mit den Grundlagen der Jupyter-Benutzeroberfläche vertraut gemacht und weißt, wie man Variablen definiert.

### Umgang mit Fehlern
Python ist vielleicht eine verzeihende Programmiersprache, aber es ist dennoch eine Programmiersprache. Das bedeutet, wenn du seine Regeln nicht befolgst, gibt es einen Fehler zurück und führt deinen Code nicht aus.

Das kann knifflig sein, wenn man anfängt, denn schon ein einziger Tippfehler kann dazu führen, dass dein Code nicht funktioniert. Glücklicherweise gibt Python einige Hinweise darauf, warum dein Code fehlgeschlagen ist. Also, wenn du auf einen Fehler stößt, versuche diese Schritte zu befolgen:
- Entspanne dich. Fehler passieren die ganze Zeit, sogar den Besten von uns.
- Lies die Fehlermeldung (besonders der Anfang und das Ende der Meldung liefern hilfreiche Hinweise).
- Versuche, die Ursache des Fehlers zu lokalisieren
  - Manchmal sagt dir die Fehlermeldung vielleicht etwas
  - Manchmal musst du einfach genau hinsehen
  - Manchmal kann es hilfreich sein, eine komplexere Abfolge von Schritten auseinanderzunehmen, um genau zu sehen, wo dein Code fehlschlägt
- Wenn du den Code nicht selbst reparieren kannst, dann ist Stackoverflow.com dein Freund. Gib deinen Fehler bei Google ein und schau, welche Ratschläge du auf Stackoverflow bekommst. Jeder macht das.
- In letzter Zeit ist auch ChatGPT ein ausgezeichnetes Debugging-Werkzeug geworden. Du kannst Code einfügen, es bitten zu erklären, was jede Zeile macht, oder es deinen Code automatisch korrigieren lassen.
  - Aber beachte, während es großartig ist, Code mit ChatGPT zu schreiben, stelle sicher, dass du nicht einfach nur kopierst und einfügst, sondern versuche tatsächlich zu verstehen, was den Code funktionieren lässt und was nicht.
- Wenn alles andere fehlschlägt, versuche, eine andere Person um Hilfe zu bitten. Manchmal reicht schon ein frischer Blick.

**Jetzt sieh nach, was mit dem folgenden Code falsch ist und behebe es.**




In [None]:
print("This is a really important message. Unfortunately, it won't execute.)

Lass uns ein etwas kniffligeres Beispiel versuchen. Erinnerst du dich an deine Variablen `a` und `b`, die du oben definiert hast?

**Rufe sie erneut auf, um dich an ihre Werte zu erinnern.**


**Definiere jetzt die Variable `d = a + b`.**

Warum wird sie nicht ausgeführt? Was kannst du tun, um das Problem zu beheben?


### Verwenden von Code-Kommentaren
Manchmal ist es hilfreich, kleine Notizen in deinem Code zu schreiben, um zu erklären, was passiert. Um dies zu tun, tippe "#" am Anfang deiner Zeile. Solche Zeilen werden nicht als Code ausgeführt.


In [None]:
# This line is just a comment and will not be executed
print("This line will be printed")

Du kannst auch Kommentare verwenden, um ganze Codeblöcke auszukommentieren.
Das kann auch beim Debuggen hilfreich sein.


In [None]:
#print("Line 1")
#print("Line 2")
print("Line 3")
#print("Line 4")

### Juhu!
Du hast die grundlegenden Schritte gemeistert. Lass uns jetzt etwas Interessanteres machen, jetzt wo du dich eingelebt hast.


## Datenanalyse in Python
Der einfachste und häufigste Anwendungsfall für Datenanalysen in Python sind *tabellarische Daten*. Damit meine ich Daten, die in einer *Excel* oder *CSV* Tabelle vorliegen. Diese haben üblicherweise eine Zeile pro Beobachtung und eine Spalte pro Eigenschaft oder Attribut dieser Beobachtung.

Beispielsweise könnte eine medizinische Studie alle Probanden auf je einer eigenen Zeile festhalten und deren Körpergröße, Gewicht, Geschlecht, Medikamentenwirkung, etc. auf unterschiedlichen Spalten.

Eine Buchhaltungsfirma könnte jede Transaktion auf einer eigenen Zeile festhalten und den Absender, Empfänger sowie Betrag in drei Spalten schreiben.

In unserem Beispiel arbeiten wir zunächst mit einem Datensatz von Filmen sowie deren Bewertungen, welchen wir von iMDB bekommen haben. Runterladen kann man diesen von [Kaggle](https://www.kaggle.com/datasets/harshitshankhdhar/imdb-dataset-of-top-1000-movies-and-tv-shows/data). Da hierfür ein Account notwendig ist, habe ich euch den Datensatz ebenfalls zur Verfügung gestellt.

## Ein paar Worte zu Pandas
Datenanalyse ist in Python so verbreitet, dass es dafür eine Sammlung speziell dafür ausgerichteter Funktionen gibt. Diese Sammlungen nennt man auch *Packages* oder *Libraries*. Davon gibt es in Python sehr viele, alle für einen unterschiedlichen Zweck. Selbst für Datenanalyse gibt es einige verschiedene. Wir nutzen in diesem Einsteigerkurs das verbreitetste dieser Pakete namens *Pandas*.

Ein *Package* muss immer erst importiert werden bevor wir die darin enthaltenen Funktionen verwenden können. Das machen wir gleich zu Beginn unseres Codes und vergeben gleich einen Alias damit wir später nicht immer `pandas` ausschreiben müssen, sondern einfach die übliche Abkürzung `pd` verwenden können.

In [18]:
import pandas as pd

### Einlesen von Daten
Einlesen von Daten ist sehr einfach. Man nutzt einfach die entsprechende Funktion `pd.read_excel(...)` oder `pd.read_csv(...)` und gibt den Pfad der Datei an, die man einlesen möchte. Schon hat man die Tabelle als Python Objekt geladen. Tabellen, welche so mit `pandas` eingelesen werden, nennt man *pandas Dataframes* und kürzt die Variablen oft mit `df` für *dataframe* ab.

Sobald du die Zelle unten ausführst, erscheint eine Übersicht der ersten und letzten Einträge des Dataframes.

In [19]:
# Achte darauf, dass die Datei im gleichen Verzeichnis liegt wie dieses Skript
# Eventuell musst du die Datei erst hochladen indem du sie in den Bereich links im Browser ziehst
# Passe den Dateipfad notfalls an (z.B. "C:/Users/mein Name/Pythonkurs/Datenanalyse/imdb_top_1000.csv")
pd.read_csv("imdb_top_1000.csv")


Wie sonst auch müssen wir den Wert aber einer *Variable* zuweisen, damit wir das Dataframe später im Code wiederverwenden können.

**Lade die Tabelle in der Code-Zelle unten erneut. Diesmal weisen wir es der Variable `df` zu.**

In [None]:
df = # Vervollständige den Code hier

Wenn alles geklappt hat, kannst du das Dataframe nun erneut aufrufen, indem du `df` ausführst.

In [None]:
df

## Erste Pandas Operationen: Head, Tail, Shape & Columns
Ein `pandas.DataFrame` hat viele eingebaute *Funktionen* und *Attribute*, die wir uns zu nutze machen können.

Wenn wir nur die ersten oder letzten Zeilen des Dataframes sehen wollen, nutzen wir `head()` oder `tail()`. Das ist oft hilfreich, wenn man ein Gefühl für einen neuen Datensatz erhalten möchte.

In [None]:
df.head()

Standardmäßig zeigt `head()` die ersten 5 Zeilen an. Wir können aber auch eine Zahl als *Argument* mitgeben. Damit können wir bestimmen wie viele der ersten Zeilen wir ansehen wollen.

**Lass dir die ersten 3 Zeilen anzeigen**

**Finde nun heraus, wer die Stars im sechst-letzten Film in dem Datensatz sind**

Hinweis: Man kennt die Jungs eher für ihr musikalisches Talent 😊🎵

Oft wollen wir zu Beginn auch wissen, wie groß der Datensatz ist. Das können wir mit `.shape` machen. Bedenke, dass `.shape` ein *Attribut* des Dataframes ist und keine Methode. Daher nutzen wir hier im Gegensatz zu `head()` keine Klammern.

In [None]:
df.shape

(1000, 16)

**Falls du nicht weißt wie du die Zahlen oben interpretieren sollst, Frage deinen Nachbarn oder mich um Hilfe 😊**

Die Spaltenbezeichnung erhalten wir durch `.columns` (auch hier ohne Klammern).

In [None]:
df.columns

Index(['Poster_Link', 'Series_Title', 'Released_Year', 'Certificate',
       'Runtime', 'Genre', 'IMDB_Rating', 'Overview', 'Meta_score', 'Director',
       'Star1', 'Star2', 'Star3', 'Star4', 'No_of_Votes', 'Gross'],
      dtype='object')

## Filtern
Einen Datensatz zu filtern ist mit das gängiste was man mit tabellarischen Daten macht. Leider gibt es dafür mehrere Methoden, was es für Anfänger etwas verwirrend machen kann. Wir versuchen uns Schritt für Schritt an die verschiedenen Szenarien ranzutasten.

### Auf Spalten filtern
Das ist der einfache Fall. Vielleicht wollen wir nur eine oder ein paar Spalten des Datensatzen ansehen. Dazu nutzen wir am besten den Spaltennamen (siehe oben)

In [None]:
df.Series_Title

Unnamed: 0,Series_Title
0,The Shawshank Redemption
1,The Godfather
2,The Dark Knight
3,The Godfather: Part II
4,12 Angry Men
...,...
995,Breakfast at Tiffany's
996,Giant
997,From Here to Eternity
998,Lifeboat


In `pandas` gibt es zwei gängige Möglichkeiten Spalten zu filtern. Entweder so wie oben, mit `.Spaltenname` oder wie unten:

In [None]:
df["Series_Title"]

Unnamed: 0,Series_Title
0,The Shawshank Redemption
1,The Godfather
2,The Dark Knight
3,The Godfather: Part II
4,12 Angry Men
...,...
995,Breakfast at Tiffany's
996,Giant
997,From Here to Eternity
998,Lifeboat


Diese Methoden sind im Ergebnis äquivalent und persönliche Präferenz. Zwei wichtige Unterschiede gibt es:
- Wenn eine Spalte ein Leerzeichen hat, dann muss man die zweite Methode verwenden (oder die Spalte umbenennen)
- Wenn man mehrere Spalten auswählen möchte, muss man die zweite Methode verwenden

Da die erste Methode (`.Spaltenname`) etwas schneller geschrieben ist, versuche ich wo möglich diese zu nutzen, in Onlinetutorials werdet ihr aber beides verbreitet sehen.

Möchten wir mehrere Spalten auswählen, dann machen wir das so:

In [None]:
df[["Series_Title", "Released_Year"]]

Unnamed: 0,Series_Title,Released_Year
0,The Shawshank Redemption,1994
1,The Godfather,1972
2,The Dark Knight,2008
3,The Godfather: Part II,1974
4,12 Angry Men,1957
...,...,...
995,Breakfast at Tiffany's,1961
996,Giant,1956
997,From Here to Eternity,1953
998,Lifeboat,1944


**Versuche selbst das Dataframe auf verschiedene einzelne Spalten sowie auf mehrere Spalten zu filtern, um dich mit der Syntax vertraut zu machen**

### Filtern auf Zeilen
Filtern auf Zeilen ist etwas komplierter. Lass uns mit dem einfachen case anfangen: Wir wollen schlicht auf eine bestimmte Zeilen-Spanne filtern.

In [None]:
# Gibt uns die erste Zeile im Dataframe aus
df.iloc[0]

Unnamed: 0,0
Poster_Link,https://m.media-amazon.com/images/M/MV5BMDFkYT...
Series_Title,The Shawshank Redemption
Released_Year,1994
Certificate,A
Runtime,142 min
Genre,Drama
IMDB_Rating,9.3
Overview,Two imprisoned men bond over a number of years...
Meta_score,80.0
Director,Frank Darabont


In [None]:
# Gibt uns die Zeilen Nummer 10 bis 15 aus.
df.iloc[10:15]

Unnamed: 0,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
10,https://m.media-amazon.com/images/M/MV5BN2EyZj...,The Lord of the Rings: The Fellowship of the Ring,2001,U,178 min,"Action, Adventure, Drama",8.8,A meek Hobbit from the Shire and eight compani...,92.0,Peter Jackson,Elijah Wood,Ian McKellen,Orlando Bloom,Sean Bean,1661481,315544750
11,https://m.media-amazon.com/images/M/MV5BNWIwOD...,Forrest Gump,1994,UA,142 min,"Drama, Romance",8.8,"The presidencies of Kennedy and Johnson, the e...",82.0,Robert Zemeckis,Tom Hanks,Robin Wright,Gary Sinise,Sally Field,1809221,330252182
12,https://m.media-amazon.com/images/M/MV5BOTQ5ND...,"Il buono, il brutto, il cattivo",1966,A,161 min,Western,8.8,A bounty hunting scam joins two men in an unea...,90.0,Sergio Leone,Clint Eastwood,Eli Wallach,Lee Van Cleef,Aldo Giuffrè,688390,6100000
13,https://m.media-amazon.com/images/M/MV5BZGMxZT...,The Lord of the Rings: The Two Towers,2002,UA,179 min,"Action, Adventure, Drama",8.7,While Frodo and Sam edge closer to Mordor with...,87.0,Peter Jackson,Elijah Wood,Ian McKellen,Viggo Mortensen,Orlando Bloom,1485555,342551365
14,https://m.media-amazon.com/images/M/MV5BNzQzOT...,The Matrix,1999,A,136 min,"Action, Sci-Fi",8.7,When a beautiful stranger leads computer hacke...,73.0,Lana Wachowski,Lilly Wachowski,Keanu Reeves,Laurence Fishburne,Carrie-Anne Moss,1676426,171479930


**Probiere selbst aus, auf verschiedene Zeilen zu filtern**

### Filtern mit Bedingungen

Spannender wird es, wenn wir beim Filtern auf Zeilen, bestimmte *Bedingungen* berücksichtigen wollen. Zum Beispiel wollen wir nur Filme mit einem bestimmten Meta-Score anzeigen. Hier ist die Syntax ein bisschen ähnlich wie bei *If-Statements* die ihr bereits in einem anderen Tutorial kennengelernt habt: `df[MEINE_BEDINGUNG]`

In [None]:
df[df.Meta_score > 95]

Unnamed: 0,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411.0
4,https://m.media-amazon.com/images/M/MV5BMWU4N2...,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000.0
19,https://m.media-amazon.com/images/M/MV5BYWZjMj...,Gisaengchung,2019,A,132 min,"Comedy, Drama, Thriller",8.6,Greed and class discrimination threaten the ne...,96.0,Bong Joon Ho,Kang-ho Song,Lee Sun-kyun,Cho Yeo-jeong,Choi Woo-sik,552778,53367844.0
23,https://m.media-amazon.com/images/M/MV5BMjlmZm...,Sen to Chihiro no kamikakushi,2001,U,125 min,"Animation, Adventure, Family",8.6,"During her family's move to the suburbs, a sul...",96.0,Hayao Miyazaki,Daveigh Chase,Suzanne Pleshette,Miyu Irino,Rumi Hiiragi,651376,10055859.0
31,https://m.media-amazon.com/images/M/MV5BOWE4ZD...,Shichinin no samurai,1954,U,207 min,"Action, Adventure, Drama",8.6,A poor village under attack by bandits recruit...,98.0,Akira Kurosawa,Toshirô Mifune,Takashi Shimura,Keiko Tsushima,Yukiko Shimazaki,315744,269061.0
49,https://m.media-amazon.com/images/M/MV5BNTQwND...,Psycho,1960,A,109 min,"Horror, Mystery, Thriller",8.5,"A Phoenix secretary embezzles $40,000 from her...",97.0,Alfred Hitchcock,Anthony Perkins,Janet Leigh,Vera Miles,John Gavin,604211,32000000.0
50,https://m.media-amazon.com/images/M/MV5BY2IzZG...,Casablanca,1942,U,102 min,"Drama, Romance, War",8.5,A cynical expatriate American cafe owner strug...,100.0,Michael Curtiz,Humphrey Bogart,Ingrid Bergman,Paul Henreid,Claude Rains,522093,1024560.0
51,https://m.media-amazon.com/images/M/MV5BYjJiZj...,Modern Times,1936,G,87 min,"Comedy, Drama, Family",8.5,The Tramp struggles to live in modern industri...,96.0,Charles Chaplin,Charles Chaplin,Paulette Goddard,Henry Bergman,Tiny Sandford,217881,163245.0
52,https://m.media-amazon.com/images/M/MV5BY2I4Mm...,City Lights,1931,G,87 min,"Comedy, Drama, Romance",8.5,"With the aid of a wealthy erratic tippler, a d...",99.0,Charles Chaplin,Charles Chaplin,Virginia Cherrill,Florence Lee,Harry Myers,167839,19181.0
78,https://m.media-amazon.com/images/M/MV5BZWI3ZT...,Dr. Strangelove or: How I Learned to Stop Worr...,1964,A,95 min,Comedy,8.4,An insane general triggers a path to nuclear h...,97.0,Stanley Kubrick,Peter Sellers,George C. Scott,Sterling Hayden,Keenan Wynn,450474,275902.0


Alternativ können wir nach einem Film mit einer bestimmten Jugendfreigabe suchen. Die Freigaben hier nochmal von ChatGPT erklärt, falls es dich interessiert:

- **nan**: Not a Number, wahrscheinlich fehlende oder undefinierte Daten.
- **Unrated**: Nicht zur Bewertung eingereicht oder nicht offiziell bewertet.
- **U**: Universal, geeignet für alle Altersgruppen.
- **G**: Allgemeines Publikum, geeignet für alle Altersgruppen.
- **Passed**: Genehmigt von der Production Code Administration (historisch).
- **Approved**: Genehmigt von der Production Code Administration (historisch).
- **GP**: Allgemeines Publikum, elterliche Begleitung empfohlen (historisch).
- **PG**: Elterliche Begleitung, einige Inhalte möglicherweise ungeeignet für Kinder.
- **TV-PG**: Elterliche Begleitung, einige Inhalte möglicherweise ungeeignet für Kinder.
- **TV-14**: Eltern dringend gewarnt, ungeeignet für Kinder unter 14 Jahren.
- **PG-13**: Eltern dringend gewarnt, einige Inhalte möglicherweise ungeeignet für Kinder unter 13 Jahren.
- **UA**: Universal Adult, geeignet für Kinder über 12 Jahre mit elterlicher Begleitung.
- **U/A**: Universal Adult, geeignet für Kinder über 12 Jahre mit elterlicher Begleitung.
- **16**: Geeignet für Zuschauer ab 16 Jahren.
- **R**: Beschränkt, Zuschauer unter 17 Jahren benötigen die Begleitung eines Elternteils oder eines erwachsenen Vormunds.
- **TV-MA**: Reifes Publikum, ungeeignet für Kinder unter 17 Jahren.
- **A**: Nur für Erwachsene.



In [None]:
df[df.Certificate == "U"].head(3)

Unnamed: 0,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
4,https://m.media-amazon.com/images/M/MV5BMWU4N2...,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000
5,https://m.media-amazon.com/images/M/MV5BNzA5ZD...,The Lord of the Rings: The Return of the King,2003,U,201 min,"Action, Adventure, Drama",8.9,Gandalf and Aragorn lead the World of Men agai...,94.0,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom,1642758,377845905
10,https://m.media-amazon.com/images/M/MV5BN2EyZj...,The Lord of the Rings: The Fellowship of the Ring,2001,U,178 min,"Action, Adventure, Drama",8.8,A meek Hobbit from the Shire and eight compani...,92.0,Peter Jackson,Elijah Wood,Ian McKellen,Orlando Bloom,Sean Bean,1661481,315544750


Oder wir wollen nur Filme aus meinem Geburtsjahr sehen.

In [None]:
# Die Syntax meines Filters ist korrekt, allerdings muss ich berücksichten, dass das Jahr in der Tabelle als String gespeichert ist.
# Daher werden bei diesem Filter keine Filme angezeigt.
df[df.Released_Year == 1996]

Unnamed: 0,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross


**Versuche den Filter so anzupassen, dass Filme aus dem Jahr 1996 angezeigt werden. Wie viele Filme gibt es in diesem Jahr?**

### Einschub: Datentypen von Spalten ändern
Das Erscheinungsjahr eines Filmes sollte eine Zahl sein und kein String, damit wir auch Vergleiche anstellen können wie `>` oder `<`. Daher wandeln wir die Spalte für zukünftige Arbeiten am Dataframe in einen *Integer* (=Ganzzahl) um.

Es ist nicht schlimm, wenn ihr nicht jeden Teil der nächsten Schritte versteht.

In [None]:
# Offenbar gibt es mindestens einen Eintrag "PG", welcher nicht in eine Zahl umgewandelt werden kann
# Das ist ein Fehler im Datensatz (sowas kommt in der echten Welt sehr oft vor)
df["Released_Year"].astype(int)

ValueError: invalid literal for int() with base 10: 'PG'

In [None]:
# In der Tat ist es nur ein einzelner Fehler, den können wir schnell beheben.
df[df.Released_Year == "PG"]

Unnamed: 0,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
966,https://m.media-amazon.com/images/M/MV5BNjEzYj...,Apollo 13,PG,U,140 min,"Adventure, Drama, History",7.6,NASA must devise a strategy to return Apollo 1...,77.0,Ron Howard,Tom Hanks,Bill Paxton,Kevin Bacon,Gary Sinise,269197,173837933


In [20]:
# Nach einer kurzen Internetrecherche können wir das Jahr auf den richtigen (string) Wert setzen.
df.loc[966, "Released_Year"] = "1995"

In [21]:
# Jetzt können wir die Spalte zu einem Integer machen
# Bedenkt, dass ich dabei die Variable neu zugewiesen habe
df["Released_Year"] = df.Released_Year.astype(int)

### Zeilen mit mehreren Bedingungen filtern
Oft wollen wir mehrere Bedingungen gleichzeitig anwenden. Dabei ist es wichtig zu unterscheiden ob wir möchten, dass Bedingung A **UND** Bedingung B gilt oder ob wir möchten, dass Bedingung A **ODER** Bedingung B gilt.

In den folgenden Beispielen sehen wir die Konjunktionen **UND**, **ODER** und **NICHT**. Diese drei Konjunktionen reichen aus, um beliebig komplexe Filter zu bauen.

In [None]:
df.columns

Index(['Poster_Link', 'Series_Title', 'Released_Year', 'Certificate',
       'Runtime', 'Genre', 'IMDB_Rating', 'Overview', 'Meta_score', 'Director',
       'Star1', 'Star2', 'Star3', 'Star4', 'No_of_Votes', 'Gross'],
      dtype='object')

In [None]:
# Wir lassen uns alle Filme anzeigen die zwischen 2012 (exklusive) und 2015 (inklusive) erschienen sind
# Wir nutzen runde Klammern für jede Teilbedingung und verknüpfen Teilbedigungen durch '&'
df[(df.Released_Year > 2012) & (df.Released_Year <= 2015)]

Unnamed: 0,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
21,https://m.media-amazon.com/images/M/MV5BZjdkOT...,Interstellar,2014,UA,169 min,"Adventure, Drama, Sci-Fi",8.6,A team of explorers travel through a wormhole ...,74.0,Christopher Nolan,Matthew McConaughey,Anne Hathaway,Jessica Chastain,Mackenzie Foy,1512360,188020017
34,https://m.media-amazon.com/images/M/MV5BOTA5ND...,Whiplash,2014,A,106 min,"Drama, Music",8.5,A promising young drummer enrolls at a cut-thr...,88.0,Damien Chazelle,Miles Teller,J.K. Simmons,Melissa Benoist,Paul Reiser,717585,13092000
87,https://m.media-amazon.com/images/M/MV5BYmY3Mz...,Drishyam,2013,U,160 min,"Crime, Drama, Thriller",8.3,A man goes to extreme lengths to save his fami...,,Jeethu Joseph,Mohanlal,Meena,Asha Sharath,Ansiba,30722,
133,https://m.media-amazon.com/images/M/MV5BMTYzOD...,Talvar,2015,UA,132 min,"Crime, Drama, Mystery",8.2,An experienced investigator confronts several ...,,Meghna Gulzar,Irrfan Khan,Konkona Sen Sharma,Neeraj Kabi,Sohum Shah,31142,342370
136,https://m.media-amazon.com/images/M/MV5BYmJhZm...,Drishyam,2015,UA,163 min,"Crime, Drama, Mystery",8.2,Desperate measures are taken by a man who trie...,,Nishikant Kamat,Ajay Devgn,Shriya Saran,Tabu,Rajat Kapoor,70367,739478
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
893,https://m.media-amazon.com/images/M/MV5BMjA5Nj...,Sicario,2015,A,121 min,"Action, Crime, Drama",7.6,An idealistic FBI agent is enlisted by a gover...,82.0,Denis Villeneuve,Emily Blunt,Josh Brolin,Benicio Del Toro,Jon Bernthal,371291,46889293
894,https://m.media-amazon.com/images/M/MV5BNmZkYj...,Creed,2015,A,133 min,"Drama, Sport",7.6,The former World Heavyweight Champion Rocky Ba...,82.0,Ryan Coogler,Michael B. Jordan,Sylvester Stallone,Tessa Thompson,Phylicia Rashad,247666,109767581
895,https://m.media-amazon.com/images/M/MV5BYTYxZj...,Leviafan,2014,R,140 min,"Crime, Drama",7.6,"In a Russian coastal town, Kolya is forced to ...",92.0,Andrey Zvyagintsev,Aleksey Serebryakov,Elena Lyadova,Roman Madyanov,Vladimir Vdovichenkov,49397,1092800
897,https://m.media-amazon.com/images/M/MV5BMjA5OD...,Philomena,2013,PG-13,98 min,"Biography, Comedy, Drama",7.6,A world-weary political journalist picks up th...,77.0,Stephen Frears,Judi Dench,Steve Coogan,Sophie Kennedy Clark,Mare Winningham,94212,37707719


Vielleicht wollen wir nun einen Film finden, der für Kinder geeignet ist. Wir möchten also einen Film, dessen Certificate U *oder* G ist.

In [None]:
# Die vertikale Linie für die *ODER* Konjuktion findest du vermutlich links unten auf der Tastatur
# neben deiner Y-Taste. Halte dafür alt-gr gedrückt (rechts von der Leertaste)
df[(df.Certificate == "U") | (df.Certificate == "G")]

Unnamed: 0,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
4,https://m.media-amazon.com/images/M/MV5BMWU4N2...,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000
5,https://m.media-amazon.com/images/M/MV5BNzA5ZD...,The Lord of the Rings: The Return of the King,2003,U,201 min,"Action, Adventure, Drama",8.9,Gandalf and Aragorn lead the World of Men agai...,94.0,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom,1642758,377845905
10,https://m.media-amazon.com/images/M/MV5BN2EyZj...,The Lord of the Rings: The Fellowship of the Ring,2001,U,178 min,"Action, Adventure, Drama",8.8,A meek Hobbit from the Shire and eight compani...,92.0,Peter Jackson,Elijah Wood,Ian McKellen,Orlando Bloom,Sean Bean,1661481,315544750
20,https://m.media-amazon.com/images/M/MV5BOTc2ZT...,Soorarai Pottru,2020,U,153 min,Drama,8.6,"Nedumaaran Rajangam ""Maara"" sets out to make t...",,Sudha Kongara,Suriya,Madhavan,Paresh Rawal,Aparna Balamurali,54995,
23,https://m.media-amazon.com/images/M/MV5BMjlmZm...,Sen to Chihiro no kamikakushi,2001,U,125 min,"Animation, Adventure, Family",8.6,"During her family's move to the suburbs, a sul...",96.0,Hayao Miyazaki,Daveigh Chase,Suzanne Pleshette,Miyu Irino,Rumi Hiiragi,651376,10055859
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
986,https://m.media-amazon.com/images/M/MV5BMzZiOD...,Watership Down,1978,U,91 min,"Animation, Adventure, Drama",7.6,Hoping to escape destruction by human develope...,64.0,Martin Rosen,John Hubley,John Hurt,Richard Briers,Ralph Richardson,33656,
988,https://m.media-amazon.com/images/M/MV5BMjM1Nj...,Close Encounters of the Third Kind,1977,U,138 min,"Drama, Sci-Fi",7.6,"Roy Neary, an electric lineman, watches how hi...",90.0,Steven Spielberg,Richard Dreyfuss,François Truffaut,Teri Garr,Melinda Dillon,184966,132088635
992,https://m.media-amazon.com/images/M/MV5BMjAwMT...,The Jungle Book,1967,U,78 min,"Animation, Adventure, Family",7.6,Bagheera the Panther and Baloo the Bear have a...,65.0,Wolfgang Reitherman,Phil Harris,Sebastian Cabot,Louis Prima,Bruce Reitherman,166409,141843612
994,https://m.media-amazon.com/images/M/MV5BZjQyMG...,A Hard Day's Night,1964,U,87 min,"Comedy, Music, Musical",7.6,"Over two ""typical"" days in the life of The Bea...",96.0,Richard Lester,John Lennon,Paul McCartney,George Harrison,Ringo Starr,40351,13780024


Zu guter Letzt zeige ich euch die **NICHT** Konjunktion (=`~`) zusammen mit einem etwas komplexeren Filter.

**Versuche nachzuvollziehen welche Bedingung ich hier definiert habe**

In [16]:
df[~(df.Genre.str.contains("Drama")) & (df.Meta_score > 85) & (df.Released_Year >= 2015)]

Unnamed: 0,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
58,https://m.media-amazon.com/images/M/MV5BMjMwND...,Spider-Man: Into the Spider-Verse,2018,U,117 min,"Animation, Action, Adventure",8.4,Teen Miles Morales becomes the Spider-Man of h...,87.0,Bob Persichetti,Peter Ramsey,Rodney Rothman,Shameik Moore,Jake Johnson,375110,190241310
213,https://m.media-amazon.com/images/M/MV5BOTgxMD...,Inside Out,2015,U,95 min,"Animation, Adventure, Comedy",8.1,After young Riley is uprooted from her Midwest...,94.0,Pete Docter,Ronnie Del Carmen,Amy Poehler,Bill Hader,Lewis Black,616228,356461711
223,https://m.media-amazon.com/images/M/MV5BN2EwM2...,Mad Max: Fury Road,2015,UA,120 min,"Action, Adventure, Sci-Fi",8.1,"In a post-apocalyptic wasteland, a woman rebel...",90.0,George Miller,Tom Hardy,Charlize Theron,Nicholas Hoult,Zoë Kravitz,882316,154058340
576,https://m.media-amazon.com/images/M/MV5BMmYwNW...,Paddington 2,2017,U,103 min,"Adventure, Comedy, Family",7.8,"Paddington (Ben Whishaw), now happily settled ...",88.0,Paul King,Ben Whishaw,Hugh Grant,Hugh Bonneville,Sally Hawkins,61594,40442052
725,https://m.media-amazon.com/images/M/MV5BNjRlZm...,Mission: Impossible - Fallout,2018,UA,147 min,"Action, Adventure, Thriller",7.7,"Ethan Hunt and his IMF team, along with some f...",86.0,Christopher McQuarrie,Tom Cruise,Henry Cavill,Ving Rhames,Simon Pegg,291257,220159104


Das ist eine sehr wichtige Lektion.

**Probiere selbst verschiedene Filter aus. Setze dir dabei eine bestimmte Fragestellung zum Ziel und versuche dann den passenden Filter zu bauen.**

**Fang beispielsweise mit folgenden Fragen an:**

- **Welche Filme aus den 90ern haben ein IMDB Rating über 8.0 und sind keine Sci-Fi Filme.**
- **Ich suche einen Actionfilm mit IMDB Rating über 8.0 oder Meta_score über 85**

Hinweis: Manche Spalten sind noch falsch formatiert. Falls du also mit `Runtime` oder `Gross` (=Ticketerlös) arbeiten möchtest, müssen wir diese Spalten erst etwas umformen. Das ist ein Bonuskapitel, welches ich unten vorbereitet habe.

In [None]:
# Probiere hier verschiedene Filter aus

In [None]:
# Probiere hier verschiedene Filter aus

In [None]:
# Probiere hier verschiedene Filter aus

## Spalten umwandeln: Datentypen anpassen Daten säubern

Erstmal können wir die Datentypen der Spalten anzeigen lassen. Dafür nutzen wir `.dtypes`.

Hinweis: `object` bedeutet in diesem Fall string, `int64` ist ein integer, `float64` ist ein float, also eine Kommazahl.

In [24]:
df.dtypes

Unnamed: 0,0
Poster_Link,object
Series_Title,object
Released_Year,int64
Certificate,object
Runtime,object
Genre,object
IMDB_Rating,float64
Overview,object
Meta_score,float64
Director,object


Idealerweise, wollen wir die `Runtime` als `int` codieren. Dafür müssen wir aber zunächst die Zahl von den Minuten trennen. Es gibt viele Möglichkeiten das zu tun, eine davon ist einfach " min" durch einen leeren String zu ersetzen.

In [25]:
df.head(2)

Unnamed: 0,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411


In [32]:
# Wir machen gleich zwei Operationen in einer Zeile (erst replace und dann astype(int))
# Das Ergebnis weisen wir dann der Spalte "Runtime" zu und überschreiben diese mit dem neuen Ergebnis
df["Runtime"] = df.Runtime.str.replace(" min", "").astype(int)

Jetzt sehen wir, dass bei `Runtime` lediglich die Zahl übrig bleibt.

In [34]:
df.head(3)

Unnamed: 0,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444


**Prüfe, dass auch der Datentyp nun ein integer ist**

**Versuche nun, die Spalte `Gross` (also den Ticketerlös des Films) zu einem `float` zu transformieren.**

Hinweis: Du musst eine Lösung für die Kommas in den Zahlen finden.

## Spielwiese
Gut gemacht! 🥳🎉

Du hast alles gelernt, was ich in dieser Lektion vermitteln wollte. Jetzt ist es wichtig, das Gelernte zu anzuwenden und zu üben.

**Versuche die Inhalte dieser Lektion nach belieben anzuwenden.**

**Bonusaufgabe: Erstelle eine neue Spalte `Rating_difference`, welche den Unterschied zwischen dem `IMDB_Rating` und dem `Meta_score` festhält. Wichtig: IMDB Rating geht von 0-10, Meta_score aber von 0-100. Bringe die zwei Werte also zunächst auf die gleiche Skala**

Hinweis: Das ist eine Transferaufgabe, weil wir bislang immer nur bestehende Spalten überschrieben haben. Falls du feststeckst, suche Hilfe im Internet oder von ChatGPT / Bing Copilot / Google Gemini.