In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import seaborn as sns
import matplotlib.pyplot as plt

# Daten einlesen

In [None]:
movie_data = pd.read_csv("../input/imdb-extensive-dataset/IMDb movies.csv")
movie_ratings = pd.read_csv("../input/imdb-extensive-dataset/IMDb ratings.csv")

In [None]:
#Top10 Filmtitel mit der durchschnittlich besten Bewertungen ohne Land

In [None]:
filmtitle_top10_data = movie_data.groupby(["title"])["avg_vote"].max().sort_values(ascending=False)[:10]
filmtitle_top10_data

## Überblick über die einzelnen Kategorien movie data

In [None]:
movie_data.hist(figsize=(15,10))

## Überblick über die Kategorien von movie ratings

In [None]:
movie_ratings.hist(figsize=(20,30))

# Datentypen der einzelnen Tabelleneinträge in der movie_data
* Object
* int64
* float64

In [None]:
movie_data.info()

# Datentypen der einzelnen Tabelleneinträge in der movie_ratings
* Object
* int64
* float64

In [None]:
movie_ratings.info()

## Zusammenfassung der Datenbanken movie und ratings

In [None]:
full_df = pd.merge(movie_data, movie_ratings, on="imdb_title_id") #zusammenfassen von movies und ratings csv

## Mehrere Einträge in der genre Zelle, daher soll hier nur mehr ein genre stehen.

In [None]:
full_df["genre"]

In [None]:
full_df["genre_main"] = full_df["genre"].apply(lambda x: x.split(",")[0])

In [None]:
full_df["genre_main"]

## Gesamtüberlick der Zusammengeführten Datenbanken movie und ratings

In [None]:
full_df.info()

In [None]:
full_df.shape

In [None]:
movie_data.isna().sum()

In [None]:
movie_ratings.isna().sum()

## Fehlende Werte bei country, language, director, production_company, actors, description

In [None]:
import missingno

missingno.matrix(movie_data)

## Daten vorbereiten
* fehlende Werte:
* country,
* director,
* language, 
* production_company,
* actors,
* descripton mit **missing** aufgefüllt

In [None]:
movie_data["country"].fillna("missing", inplace=True)
movie_data["director"].fillna("missing", inplace=True)
movie_data["language"].fillna("missing", inplace=True)
movie_data["production_company"].fillna("missing", inplace=True)
movie_data["actors"].fillna("missing", inplace=True)
movie_data["description"].fillna("missing", inplace=True)

In [None]:
import missingno

missingno.matrix(movie_data)

In [None]:
movie_data.isna().sum()

## Genre/Auswahl

In [None]:
full_df["genre_main"].unique()

## Genre nach Bewertungen Durchschnitt und Gesamt

In [None]:
avgvote_genre = full_df.groupby(["genre_main"])["avg_vote"].mean()
avgvote_genre

## Durchschnittliche Bewertung der Filme nach Genre im Gesamtüberblick

In [None]:
plt.figure(figsize=(20,10))
sns.barplot(x="avg_vote", y="genre_main", data=full_df, ci=False, palette="cool")
plt.xticks(rotation=90)
plt.show()

## Die Durchschnittsbewertung von Männern um 30ig Jahre

In [None]:
avgvote_genre_male_30_age_vote = full_df.groupby(["genre_main"])["males_30age_avg_vote"].mean()
avgvote_genre_male_30_age_vote

In [None]:
plt.figure(figsize=(20,10))
sns.barplot(x="males_30age_avg_vote", y="genre_main", data=full_df, ci=False, palette="cool")
plt.xticks(rotation=90)
plt.show()

## Bewertung der Männer um die 30 Jahre maximal

In [None]:
male_30_age_vote = full_df.groupby(["genre_main"])["males_30age_votes"].max()
male_30_age_vote

In [None]:
plt.figure(figsize=(30,10))
sns.lineplot(x=male_30_age_vote.index, y=male_30_age_vote.values)

## Die Durchschnittsbewertung von Frauen um 30ig Jahre

In [None]:
avgvote_genre_female_30_age_vote = full_df.groupby(["genre_main"])["females_30age_avg_vote"].mean()
avgvote_genre_female_30_age_vote

In [None]:
plt.figure(figsize=(20,10))
sns.barplot(x="females_30age_avg_vote", y="genre_main", data=full_df, ci=False, palette="cool")
plt.xticks(rotation=90)
plt.show()

## Die Durchschnittsbewertung von Frauen um 18 Jahre

In [None]:
avgvote_genre_female_18_age_vote = full_df.groupby(["genre_main"])["females_18age_avg_vote"].mean()
avgvote_genre_female_18_age_vote

In [None]:
plt.figure(figsize=(20,10))
sns.barplot(x="females_18age_avg_vote", y="genre_main", data=full_df, ci=False, palette="cool")
plt.xticks(rotation=90)
plt.show()

In [None]:
female_18_age_vote = full_df.groupby(["genre_main"])["females_18age_votes"].max()
female_18_age_vote

# Welche Genres wurden am meisten bewertet von Frauen um die 18 Jahre

In [None]:
plt.figure(figsize=(30,10))
sns.lineplot(x=female_18_age_vote.index, y=female_18_age_vote.values)

In [None]:
male_18_age_vote = full_df.groupby(["genre_main"])["males_18age_votes"].max()
male_18_age_vote

# Welche Genres wurden am meisten bewertet von Männern um die 18 Jahre

In [None]:
plt.figure(figsize=(30,10))
sns.lineplot(x=male_18_age_vote.index, y=male_18_age_vote.values)

# Welche Genres wurden am meisten bewertet von Männern um die 30 Jahre

In [None]:
plt.figure(figsize=(30,10))
sns.lineplot(x=avgvote_genre_male_30_age_vote.index, y=avgvote_genre_male_30_age_vote.values)

In [None]:
plt.figure(figsize=(7,15))
sns.countplot(y="genre_main", data=full_df)

In [None]:
full_df["genre_main"].value_counts()[:10]

# Filme nach Länge

In [None]:
top_20_movie = full_df.sort_values(by="duration", ascending=False)[0:20]
plt.figure(figsize=(15,7))
sns.barplot(x="title", y="duration", data=top_20_movie)
plt.xticks(rotation=90)
plt.show()

# Der kürzeste und längste Film

In [None]:
duration_min = full_df["duration"].min()
duration_max = full_df["duration"].max()

print(duration_min, duration_max)

In [None]:
full_df[full_df["duration"] == duration_min]

In [None]:
full_df[full_df["duration"] == duration_max]

In [None]:
movie_data["duration"].hist(bins=25)

In [None]:
movie_data["duration"].min()

In [None]:
movie_data["duration"].max()

## Entwicklung der durchschnittlichen Filmlänge seit 1894

In [None]:
duration_year = movie_data.groupby(["year"])["duration"].mean()
duration_year

## Fazit Team: David Baier, Gregor Tizhar

* Die meistbewertesten Genres in der Filmdatenbank von Frauen und Männern zwischen 18 Jahren und 30 Jahren sind:

* Action
* Drama
* Crime

### Die Länge der aktuellen Filme liegt zwischen 102 und 108 Minuten.

* Dadurch geben wir die Empfehlung ab, dass Netflix Filme in den Genres Action, Drama und Crime produzieren soll.
* Mit einer Filmlänge zwischen 102 und 108 Minuten.