# **Lotr_scripts.csv**

**Vorgehensweise:**

Für diese Analyse wurde der Datensatz lotr_scripts.csv verwendet, der Dialogzeilen aus den “Herr der Ringe”-Filmen enthält. Ziel ist es, den Datensatz zu bereinigen, die Daten zu analysieren und auf vier relevante Fragen zu untersuchen.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [7]:
import pandas as pd
import re

## **Datensatz Überblick**

In [8]:
# Pfad zur Datei
file_lotr = '/content/drive/MyDrive/lotr_scripts.csv'

# CSV-Datei einlesen
lotr_data = pd.read_csv(file_lotr)

# Überblick
lotr_data.head()

Unnamed: 0.1,Unnamed: 0,char,dialog,movie
0,0,DEAGOL,"Oh Smeagol Ive got one! , Ive got a fish Smeag...",The Return of the King
1,1,SMEAGOL,"Pull it in! Go on, go on, go on, pull it in!",The Return of the King
2,2,DEAGOL,Arrghh!,The Return of the King
3,3,SMEAGOL,Deagol!,The Return of the King
4,4,SMEAGOL,Deagol!,The Return of the King


**Datenfelder:**

In [9]:
lotr_data.columns

Index(['Unnamed: 0', 'char', 'dialog', 'movie'], dtype='object')



* Unnamed: Index
* char: Charakter der spricht
* dialog: gesprochener Dialog
* movie: Aus welchem Film



**Datenbereinigung**

1. Index entfernen da er keine richtige Funktion erfüllt
2. Schreibweise vereinheitlichen
3. Filmtitel bereinigen
4. Dialog bereinigen

In [10]:
# 1. Index-Spalte entfernen
if 'Unnamed: 0' in lotr_data.columns:
    lotr_data = lotr_data.drop(columns=['Unnamed: 0'])

# 2. Schreibweise vereinheitlichen
lotr_data['char'] = lotr_data['char'].str.strip().str.title()

# 3. Dialog bereinigen
lotr_data['dialog'] = lotr_data['dialog'].fillna('').astype(str)  # NaN zu leeren Strings
lotr_data['dialog'] = lotr_data['dialog'].apply(lambda x: re.sub(r'[^\w\s.,?!]', '', x))

# 4. Filmtitel bereinigen
lotr_data['movie'] = lotr_data['movie'].str.strip()

# 5. Exportieren des berinigten Datensatzes
cleaned_file_path = '/content/drive/My Drive/lotr_scripts_clean.csv'
lotr_data.to_csv(cleaned_file_path, index=False)

## **bereinigter Datensatz Überblick**

In [11]:
# Pfad zur Datei
file_lotr_clean = '/content/drive/MyDrive/lotr_scripts_clean.csv'

# CSV-Datei einlesen
lotr_data_clean = pd.read_csv(file_lotr_clean)

# Überblick
lotr_data_clean.head()

Unnamed: 0,char,dialog,movie
0,Deagol,"Oh Smeagol Ive got one! , Ive got a fish Smeag...",The Return of the King
1,Smeagol,"Pull it in! Go on, go on, go on, pull it in!",The Return of the King
2,Deagol,Arrghh!,The Return of the King
3,Smeagol,Deagol!,The Return of the King
4,Smeagol,Deagol!,The Return of the King


## **Analyse**

1. Find the total number of lines and unique words used in the dialogs.

In [23]:
# Sicherstellen, dass alle Werte in der 'dialog'-Spalte Strings sind
lotr_data_clean['dialog'] = lotr_data_clean['dialog'].fillna('').astype(str)

# Sicherstellen, dass alle Werte in der 'movie'-Spalte Strings sind und keine falschen Werte vorhanden sind
lotr_data_clean['movie'] = lotr_data_clean['movie'].fillna('').astype(str).str.strip()

# Sicherstellen, dass alle Werte in der 'char'-Spalte Strings sind und keine falschen Werte vorhanden sind
lotr_data_clean['char'] = lotr_data_clean['char'].fillna('').astype(str).str.strip()

# Sicherstellen, dass alle Werte in den Spalten 'char' und 'dialog' gültig sind
lotr_data_clean['char'] = lotr_data_clean['char'].fillna('').astype(str).str.strip()
lotr_data_clean['dialog'] = lotr_data_clean['dialog'].fillna('').astype(str).str.strip()

In [15]:
# 1. Gesamtanzahl der Zeilen
total_lines = len(lotr_data_clean)

# Alle Dialoge in einen String zusammenfügen
all_dialogs = ' '.join(lotr_data_clean['dialog'])

# Wörter extrahieren (Regex für Wortgrenzen)
unique_words = set(re.findall(r'\b\w+\b', all_dialogs))

# Anzahl der eindeutigen Wörter
total_unique_words = len(unique_words)

# Ergebnisse ausgeben
print(f"Gesamtanzahl der Zeilen: {total_lines}")
print(f"Anzahl der eindeutigen Wörter: {total_unique_words}")

Gesamtanzahl der Zeilen: 2390
Anzahl der eindeutigen Wörter: 3938


2. What is the distribution on the three different films?

In [19]:
# Verteilung der Dialoge auf die Filme berechnen
film_distribution = lotr_data_clean['movie'].value_counts()

# Ergebnisse ausgeben
print("Verteilung der Dialoge auf die Filme:")
print(film_distribution)

Verteilung der Dialoge auf die Filme:
movie
The Two Towers                1010
The Return of the King         873
The Fellowship of the Ring     507
Name: count, dtype: int64


3. What are the top 5 characters in the char column?

In [27]:
# Top-5-Charaktere basierend auf der Häufigkeit berechnen
top_5_characters = lotr_data_clean['char'].value_counts().head(5)

# Ergebnisse ausgeben
print("Top 5 Charaktere in der Spalte 'char':")
print(top_5_characters)

Top 5 Charaktere in der Spalte 'char':
char
Frodo      226
Sam        217
Gandalf    205
Aragorn    187
Pippin     163
Name: count, dtype: int64


4. What are the top 5 characters in the dialogues?

In [26]:
# Spalte hinzufügen: Anzahl der Wörter im Dialog
lotr_data_clean['word_count'] = lotr_data_clean['dialog'].apply(lambda x: len(re.findall(r'\b\w+\b', x)))

# Top-5-Charaktere basierend auf der Gesamtanzahl der Wörter in ihren Dialogen
top_5_characters_dialogues = (
    lotr_data_clean.groupby('char')['word_count']
    .sum()
    .sort_values(ascending=False)
    .head(5)
)

# Ergebnisse ausgeben
print("Top 5 Charaktere basierend auf der Anzahl der Wörter in den Dialogen:")
print(top_5_characters_dialogues)

Top 5 Charaktere basierend auf der Anzahl der Wörter in den Dialogen:
char
Gandalf    3178
Sam        2103
Frodo      1744
Aragorn    1449
Gollum     1402
Name: word_count, dtype: int64
