# Filme basierend auf der Sprache des Films Klassifizieren

## 01_Daten_Abrufen

In diesem Abschnitt werden die Daten aus der Filmdatenbank abgerufen. Die Daten enthalten eine Liste von Filmen aus den Jahren 2015 bis 2023

### Importieren wichtiger Bibliotheken

In [9]:
import pandas as pd
import requests
import time
import matplotlib.pyplot as plt
import seaborn as sns


Filmdaten abrufen und speichern

In [10]:
# TMDb-API-Schlüssel
api_key = '8fd8f41e872ddd873838d1f0f571e31b'

# Basis-URL für die API-Anfragen
base_url = 'https://api.themoviedb.org/3/discover/movie'

# Parameter für die Anfrage
params = {
    'api_key': api_key,
    'language': 'en-US',
    'sort_by': 'popularity.desc',
    'include_adult': 'false',
    'include_video': 'false',
    'page': 1,
    'primary_release_date.gte': '2015-01-01',
    'primary_release_date.lte': '2023-12-31',
    'with_original_language': None
}

# Funktion, um Filme von einer bestimmten Seite abzurufen
def get_movies(page):
    params['page'] = page
    response = requests.get(base_url, params=params)
    if response.status_code == 200:
        return response.json().get('results', [])
    else:
        print(f"Fehler beim Abrufen der Seite {page}: {response.status_code}")
        return []

# Filmdaten speichern
movies = []

# Erhöhe die Anzahl der Seiten
total_pages = 100  # Anzahl der Seiten, die man abrufen möchte

# Erweiterte Sprachenliste
languages = {
    'hi': 'Indisch',
    'en': 'Amerikanisch',
    'de': 'Deutsch',
    'fr': 'Französisch',
    'es': 'Spanisch',
    'it': 'Italienisch'
}

# Filme für jede Sprache sammeln
for lang_code, lang_name in languages.items():
    params['with_original_language'] = lang_code
    for page in range(1, total_pages + 1):
        # print(f"Verarbeite Seite {page} für Sprache: {lang_name}")
        movies_on_page = get_movies(page)
        for movie in movies_on_page:
            movies.append({
                'title': movie.get('title'),
                'release_year': movie.get('release_date', '')[:4],
                'language': lang_name,
                'overview': movie.get('overview', ''),
                'vote_average': movie.get('vote_average', 0),
                'vote_count': movie.get('vote_count', 0),
                'popularity': movie.get('popularity', 0),
            })
        time.sleep(0.2)

# Speichern in einer CSV-Datei
df = pd.DataFrame(movies)
df.to_csv('data/movies_2015_2023.csv', index=False)
#print(f"Gesamtanzahl der Filme: {len(df)}")


In [11]:
# Die Filmdaten Zeigen
# CSV-Datei in pandas DataFrame laden
df = pd.read_csv('data/movies_2015_2023.csv')

# Zeige die ersten Zeilen an (optional)

df

Unnamed: 0,title,release_year,language,overview,vote_average,vote_count,popularity
0,Uri: The Surgical Strike,2019,Indisch,Following the roguish terrorist attacks at Uri...,7.067,420,76.363
1,Attack,2022,Indisch,"With the Parliament under siege, India’s first...",6.735,204,68.613
2,Jawan,2023,Indisch,"An emotional journey of a prison warden, drive...",7.200,241,58.234
3,Tumbbad,2018,Indisch,"India, 1918. On the outskirts of Tumbbad, a cu...",7.492,241,57.667
4,Animal,2023,Indisch,The hardened son of a powerful industrialist r...,6.466,104,40.951
...,...,...,...,...,...,...,...
11995,Torve Fantasie,2019,Italienisch,,0.000,0,0.839
11996,When Nuvolari Runs: The Flying Mantuan,2018,Italienisch,Tazio Giorgio Nuvolari (16 November 1892 - 11 ...,5.667,6,0.838
11997,Baldus,2022,Italienisch,,0.000,0,0.837
11998,Pastime,2019,Italienisch,A retired teacher is sitting at a table outsid...,0.000,0,0.837


In [12]:
# Anzahl der Filme (Zeilen) ermitteln
print(f"Die Gesamtanzahl der Filme: {len(df)}")


Die Gesamtanzahl der Filme: 12000


In [13]:
df = df.dropna(subset=['overview'])

# Überprüfe, ob noch NaN-Werte vorhanden sind
print(df.isna().sum())


title           0
release_year    0
language        0
overview        0
vote_average    0
vote_count      0
popularity      0
dtype: int64


In [14]:
df

Unnamed: 0,title,release_year,language,overview,vote_average,vote_count,popularity
0,Uri: The Surgical Strike,2019,Indisch,Following the roguish terrorist attacks at Uri...,7.067,420,76.363
1,Attack,2022,Indisch,"With the Parliament under siege, India’s first...",6.735,204,68.613
2,Jawan,2023,Indisch,"An emotional journey of a prison warden, drive...",7.200,241,58.234
3,Tumbbad,2018,Indisch,"India, 1918. On the outskirts of Tumbbad, a cu...",7.492,241,57.667
4,Animal,2023,Indisch,The hardened son of a powerful industrialist r...,6.466,104,40.951
...,...,...,...,...,...,...,...
11991,Odissea nell'ospizio,2019,Italienisch,Four sixty-something disgraced comedians - who...,5.500,1,0.841
11992,Walls,2023,Italienisch,"For her debut film, model-actor turned filmmak...",6.100,4,0.840
11993,L'ultima bottega,2023,Italienisch,An almost eighty -year -old man works in his w...,0.000,0,0.839
11996,When Nuvolari Runs: The Flying Mantuan,2018,Italienisch,Tazio Giorgio Nuvolari (16 November 1892 - 11 ...,5.667,6,0.838


In [15]:
# Anzahl der Filme (Zeilen) ermitteln
print(f"Die Gesamtanzahl der Filme: {len(df)}")

Die Gesamtanzahl der Filme: 10579
