# Alternative Vorgehensweise: Data2CSV und Datenbereinigung

## Vorgehen

1. Webscraping (HTML in pre-Tag)
2. b-Tags (und andere Tags) löschen d.h. alles zwischen Spitzklammern <>
3. Aufsplitten des Texts in Textblöcke anhand von Leerzeilen (2x \n nacheinander), Textblöcke als Array speichern
4. Textblöcke kategorisieren, typische Merkmale identifizieren, Verarbeitungsanweisungen für die einzelnen Textblöcke definieren
5. in CSV umwandeln, dabei die Verarbeitungsanweisungen als if-Bedingungen umsetzen (jeden Textblocktyp einzeln verarbeiten)
6. weitere automatisierte Datenbereinigungsschritte: Fragezeichen ersetzen, bestimmte Textteile löschen z.B. (V.O.) etc.
7. händische Datenbereinigung (restliche Fragezeichen ersetzen, Regieanweisungen die direkt am Sprechertext kleben ausfindig machen und in eine eigene Regie-Zeile auslagern
8. Zusammenführen der 3 CSV-Dateien in eine (zusätzliche Spalte für Film-Nummer)

Beispiel für Textblöcke:

**1.) Textblock vom Typ "Sprechertext"**

>**GALADRIEL (V.O.) (CONT'D)**

          But the power of the Ring could not be
          undone.
          

typisches Merkmal: beginnt mittig (x Leerzeichen Abstand vom Rand, genaue Anzahl der Leerzeichen variiert je nach Filmskritpt!)

Verarbeitung: Text in erster Zeile (Name des Sprechers) wird in linke Spalte gepackt, Text ab zweiter Zeile wird in rechte Spalte gepackt

**2.) Textblock vom Typ "Regieanweisung"** (Skript 1 und 3)

>IMAGES: THE HUGE, DARK FIGURE OF SARURON, bearing the ONE
RING on his finger, looms over the field of battle...

typisches Merkmal: beginnt linksbündig (! ausgenommen Textblöcke, in denen nur **CONTINUED:** steht)

Verarbeitung: in linke Spalte wird "Regie" geschrieben, Text kommt in rechte Spalte, (Wörter vorm Doppelpunkt werden später gelöscht)

**3.) Textblock vom Typ "Regieanweisung"** (Skript 2)

>[The hall is shown to be filled with 
                         light again, as everyone marvels at 
                         the rejuvenation of the king.]

typisches Merkmal: steht in []

Verarbeitung: wie 2. (linke Spalte: "Regie", rechte Spalte: Text ohne Klammern)

**Vorteil: alle Textteile, für die keine Verarbeitungsanweisung definiert wird, werden auch nicht mit ins CSV aufgenommen.** Man zieht sich nur die Teile raus, die man braucht. z.B. werden Seitenzahlen nicht berücksichtigt, weil sie rechtsbündig stehen

## Ziel: CSV-Datei in folgendem Format

| Nr. | Regie/Sprecher | Text | Film-Nr. |


| 1 | Gollum | My precious! | 1 |

| 2 | Regie | Gollum looks at the ring. | 1 |

## 1.) Regieanweisungen aus Skript 1 und 3

**Datenquelle:** Webscraping von imsdb.com

In [1]:
from bs4 import BeautifulSoup
import requests
import os
import re
import pandas as pd
import numpy as np

In [2]:
lotr_1 = requests.get('https://imsdb.com/scripts/Lord-of-the-Rings-Fellowship-of-the-Ring,-The.html')
#lotr_2 = requests.get('https://imsdb.com/scripts/Lord-of-the-Rings-The-Two-Towers.html')
lotr_3 = requests.get('https://imsdb.com/scripts/Lord-of-the-Rings-Return-of-the-King.html')

In [27]:
# Liste mit Regieanweisungen, die im Sprechertext vorkommen
# ToDo: weitere ergänzen
regieInSpeakertext= ["Bilbo stands gazing out of the kitchen window."]


In [57]:
def get_regieanweisungen(script, filmNr):
            # webscrape text
            soup = BeautifulSoup(script.text, 'lxml')
            all_character_tags = soup.find('pre')

            # convert scraped bs4 element tags to string
            text = str(all_character_tags)

            # delete all tags
            text = re.sub(r'</?[a-zA-Z]+>', '', text)       

            # whitespace in names
            text = re.sub(r'A RW EN','ARWEN', text)
            text = re.sub(r'DEN ETH OR','DENETHOR', text)
            text = re.sub(r'SME AGO L', 'SMEAGOL', text)

            # split to text blocs (Trenner: Leerzeilen = 2x new line = \r\n\r\n)
            blocs = re.split(r'\r\n\r\n', text)

            # Dateiname festlegen
            filename = f'lotr_skript_{filmNr}_regie.csv'

            # Datei löschen, falls sie existiert:
            if os.path.exists(f'data/{filename}'):
                os.remove(f'data/{filename}')

            # TO CSV

            with open(f'data/{filename}', 'a') as f:
                # Spaltenüberschriften
                f.write(f'Nr.|Sprecher/Regie|Text|Filmnr.\n')
                print(f'Nr.|Sprecher/Regie|Text|Filmnr.\n')

                # Blöcke durchgehen
                for num, bloc in enumerate(blocs):
                    # Leerzeichen entfernen und Fragezeichen/Asterisk ersetzen (in Skript 1 und 3 können alle Fragezeichen durch Leerzeichen ersetzt werden)
                    bloc = bloc.replace("�", " ")
                    bloc = bloc.replace("*", " ")

                    # match Sprechertext (wenn mehr als ein Leerzeichen am Anfang des Blocks)
                    if(re.match(r'^\s+[A-Z]', bloc)):    
                        sprechertext = bloc
                        # remove whitespace
                        sprechertext = re.sub(r'\r\n', ' ', sprechertext) # Zeilenumbrüche innerhalb des Texts
                        sprechertext = re.sub(r'\s+', ' ', sprechertext) # mehrfache Leerzeichen werden zu einem

                        # wenn in einem Block ein Satz aus der Liste regieInSpeakertext vorkommt, dann wird der Satz ausgegeben (nur! der Satz)
                        for count, regietext in enumerate(regieInSpeakertext):
                            if (regietext in sprechertext):
                                print(f'{num}|Regie aus Sprechertext|{regietext}|Filmnr.\n')
                                #print(num, sprechertext)

                    # match Regieanweisungen (wenn kein Leerzeichen am Anfang des Blocks)
                    elif (not re.match(r'^\s+[A-Z]', bloc)):
                        # remove whitespace
                        regietext = bloc.strip()
                        regietext = re.sub(r'\r\n', ' ', regietext) # Zeilenumbrüche innerhalb des Texts
                        regietext = re.sub(r'\s+', ' ', regietext) # mehrfache Leerzeichen werden zu einem

                        # löschen bestimmter Blöcke (Blöcke mit CONTINUED, mit Ortsangaben Int. oder Ext.)
                        if ('CONTINUED' in regietext):
                            regietext = ''
                        elif('EXT.' in regietext):
                            regietext = ''
                        elif('EX.' in regietext):
                            regietext = ''
                        elif('INT.' in regietext):
                            regietext = ''
                        elif('CUT TO' in regietext):
                            regietext = ''


                        # löschen von Kameraanweisungen und Ähnlichem
                        regietext = re.sub(r'We SLOWLY FADE TO BLACK ...', '', regietext)
                        regietext = re.sub(r'FADE TO BLACK.?', '', regietext)
                        regietext = re.sub(r'FADE UP:', '', regietext)

                        regietext = re.sub(r'ANGLE ON::', '', regietext)
                        regietext = re.sub(r'ANGLES ON:', '', regietext)
                        regietext = re.sub(r'ANGLE ON:', '', regietext)

                        regietext = re.sub(r'IMAGES:', '', regietext)
                        regietext = re.sub(r'IMAGE:', '', regietext)

                        regietext = re.sub(r'CLOSE ON:', '', regietext)
                        regietext = re.sub(r'Close on:', '', regietext)

                        regietext = re.sub(r'\sSUPER:\s.+TRACKS\sTO:', '', regietext)

                        regietext = re.sub(r'TEASING SHOTS:', '', regietext)

                        regietext = re.sub(r'WIDE ON:', '', regietext)
                        regietext = re.sub(r'Wide on:', '', regietext)

                        regietext = re.sub(r'MONTAGE:', '', regietext)

                        regietext = re.sub(r'SLOW MOTION:?', '', regietext)
                        regietext = re.sub(r'NORMAL SPEED', '', regietext)

                        regietext = re.sub(r'ON THE SOUNDTRACK:', '', regietext)
                        regietext = re.sub(r'ON SOUNDTRACK:', '', regietext)
                        regietext = re.sub(r'SOUNDTRACK:', '', regietext)           

                        regietext = re.sub(r'TILT DOWN:', '', regietext)

                        regietext = re.sub(r'Low angle:', '', regietext)
                        regietext = re.sub(r'QUICK ANGLES:', '', regietext)
                        regietext = re.sub(r'LOW ANGLE:', '', regietext)
                        regietext = re.sub(r'HIGH WIDE ANGLE:', '', regietext)
                        regietext = re.sub(r'HIGH ANGLE:', '', regietext)


                        regietext = re.sub(r'HIGH WIDE:', '', regietext)
                        regietext = re.sub(r'WIDER:', '', regietext)
                        regietext = re.sub(r'Wider:', '', regietext)
                        regietext = re.sub(r'WIDE SHOT:', '', regietext)
                        regietext = re.sub(r'WIDE PROFILE:?', '', regietext)
                        regietext = re.sub(r'WIDE:', '', regietext) 

                        regietext = re.sub(r'QUICK INSERT:', '', regietext)
                        regietext = re.sub(r'FLASH INSERT:', '', regietext)
                        regietext = re.sub(r'INSERTS:', '', regietext)
                        regietext = re.sub(r'INSERT:', '', regietext)

                        regietext = re.sub(r'Aerial on:', '', regietext)
                        regietext = re.sub(r'AERIAL SHOT:', '', regietext)
                        regietext = re.sub(r'AERIAL:', '', regietext)

                        regietext = re.sub(r'SAM POV:', '', regietext)
                        regietext = re.sub(r'LOW ANGLE POV:', '', regietext)
                        regietext = re.sub(r'ARAGORN POV', '', regietext)
                        regietext = re.sub(r'ARWEN\'S POV:', '', regietext)
                        regietext = re.sub(r'Frodo\'s half- conscious POV:', '', regietext)
                        regietext = re.sub(r'Frodo\'s POV:', '', regietext)
                        regietext = re.sub(r'SURREAL SLOW MOTION POV:', '', regietext)
                        regietext = re.sub(r'SPEEDING POV:', '', regietext)
                        regietext = re.sub(r'Rushing POV:', '', regietext)
                        regietext = re.sub(r'LOW ANGLE POV:', '', regietext)
                        regietext = re.sub(r'POV:', '', regietext)

                        regietext = re.sub(r'CAMERA CIRCLES SUMMIT:', '', regietext)
                        regietext = re.sub(r'CAMERA CRANES to REVEAL:', '', regietext)

                        regietext = re.sub(r'PAN ONTO:', '', regietext)
                        regietext = re.sub(r'PAN OFF:', '', regietext)

                        regietext = re.sub(r'CRANE DOWN:', '', regietext)

                        regietext = re.sub(r'Slow motion:', '', regietext)

                        regietext = re.sub(r'QUICK CUTS:', '', regietext)

                        regietext = re.sub(r'BLACK SCREEN:', '', regietext)
                        regietext = re.sub(r'BLACK SCREEN . . .', '', regietext)
                        regietext = re.sub(r'BLACK SCREEN', '', regietext)

                        regietext = re.sub(r'SETTLE ON:', '', regietext)
                        regietext = re.sub(r'PUSH IN:', '', regietext)
                        regietext = re.sub(r'PULL BACK:', '', regietext)
                        regietext = re.sub(r'QUICK BEAT:', '', regietext)
                        regietext = re.sub(r'TRACKING BACK:', '', regietext)
                        regietext = re.sub(r'TRACKING:', '', regietext)
                        regietext = re.sub(r'REVEAL ON:', '', regietext)
                        regietext = re.sub(r'SOARING UP:', '', regietext)
                        regietext = re.sub(r'MATCHING MOVE:', '', regietext)
                        regietext = re.sub(r'Screenplay by: Fran Walsh, Philippa Boyens, Peter Jackson', '', regietext)

                        regietext = re.sub(r'\(CON TINUED \)', '', regietext)
                        regietext = re.sub(r'\(C ON T IN U ED \)', '', regietext)
                        regietext = re.sub(r'\(C O N TI N U ED \)', '', regietext)


                        # Seitenzahlen löschen
                        regietext = re.sub(r'\d+\.', '', regietext)
                        
                        # auf dem Bildschirm eingeblendeten Text löschen
                        if ('SUPER:' in regietext):
                            regietext = ''

                        # Sonstige Texte löschen, die keine Regieanweisungen sind
                        regietext = re.sub(r'MRS. SACKVILLE BAGGINS \(O.S.\)', '', regietext)
                        regietext = re.sub(r'SAURON \(V.O.\)', '', regietext)
                        regietext = re.sub(r'\(IN BLACK SPEECH\)', '', regietext)

                        # Sätze mit zu viel Whitespace
                        regietext = re.sub(r'A s t h e G R E A T B O U LD E R S l a n d a m o ng t h em \^ t he O R C s t a rt t o P A N IC ', 'As the great bloulders land among them the Orc start to panic', regietext)

                        # komische Zeichenfolgen löschen
                        regietext = re.sub(r'::\.\. \. \. \.', '.', regietext) # GOLLUM quickly turns and BOLTS::.. . . .
                        regietext = re.sub(r';?:?', '', regietext)               # H e looks up as GOLLUM lunges at him. ;:
                        regietext = re.sub(r'\/', '', regietext)
                        regietext = re.sub(r"\. \. ' '", '', regietext)

                        # Zeichen ersetzen
                        # &amp durch and
                        regietext = re.sub(r'&amp', 'and', regietext)
                        # ! durch .
                        regietext = re.sub(r'!', '.', regietext)

                        # remove whitespace
                        regietext = regietext.strip()
                        regietext = re.sub(r'\s+', ' ', regietext) # mehrfache Leerzeichen werden zu einem

                        # Auslassungspunkte
                        # am Anfang: löschen 
                        # am Ende: durch einfachen Punkt ersetzen
                        # in der Mitte: durch Leerzeichen ersetzen (passt leider nicht immer, aber keine bessere Möglichkeit)
                        # Anfang
                        regietext = re.sub(r'^\s?\.\.\.*\s', '', regietext) # ohne Leerzeichen zwischen Punkten
                        regietext = re.sub(r'^\s?\. \.( \.)*\s?', '', regietext) # mit Leerzeichen zwischen Punkten
                        # Ende
                        regietext = re.sub(r'\s?\.\.(\.)*$', '.', regietext)
                        regietext = re.sub(r'\s?\. \.( \.)*$', '.', regietext)
                        # Mitte (alle, die jetzt noch übrig sind, müssen in der Mitte stehen)
                        regietext = re.sub(r'\s?\. \.( \.)*\s?', ' ', regietext)
                        regietext = re.sub(r'\s?\.\.(\.)*\s?', ' ', regietext)

                        # write to csv (only if text column not empty)
                        if(regietext != ""):
                            f.write(f'{num}|Regie|{regietext}|{filmNr}\n')
                        # print
                        if(regietext != ""):
                            print(f'{num}|Regie|{regietext}|{filmNr}\n')

get_regieanweisungen(lotr_1, 1)
get_regieanweisungen(lotr_3, 3)

Nr.|Sprecher/Regie|Text|Filmnr.

3|Regie|BLACK CONTINUES ELVISH SINGING A WOMAN'S VOICE IS whispering, tinged with SADNESS and REGRET|1

7|Regie|FLICKERING FIRELIGHT. The NOLDORIN FORGE in EREGION. MOLTEN GOLD POURS from the lip of an IRON LADLE.|1

9|Regie|THREE RINGS, each set with a single GEM, are received by the HIGH ELVES-GALADRIEL, GIL-GALAD and CIRDAN.|1

11|Regie|SEVEN RINGS held aloft in triumph by the DWARF LORDS.|1

13|Regie|NINE RINGS clutched tightly by the KINGS OF MEN as if holding-close a precious secret.|1

20|Regie|An ancient PARCHMENT MAP of MIDDLE EARTH moving slowly across the MAP as if drawn by an unseen force the CAMERA closes in on a PLACE NAME MORDOR.|1

22|Regie|SAURON forging the ONE RING in the CHAMBERS of SAMMATH NAUR.|1

26|Regie|THE ONE RING falls through SPACE and into flames.|1

28|Regie|A GREAT SHADOW falls across the MAP closing in around the realm of GONDOR.|1

29|Regie|SCREAMING VILLAGERS, MEN, WOMEN, AND CHILDREN, RUN|1

30|Regie|from their homes,

1366|Regie|Boromir thrusts, catching Pippin on the hand. Pippin throws down his sword, kicks and lunges at Boromir, tackling him to the ground. Much laughter. Legolas' eyes are fixed on a distant Dark Patch which darts about the sky, like flying smoke in the wind.|1

1376|Regie|there is as a regiment of Large crows fly low overhead at Great speed, wheeling and circling above. As their dark shadow passes over the fellowship, a single harsh croak is heard and the crows suddenly wheel away, back towards the south. Gandalf staggers to his feet.|1

1378|Regie|Gandalf looks at Aragorn, turns to the others gesturing towards a high mountain pass.|1

1383|Regie|The Fellowship clamber through Rock and Snow. Frodo slips on some shale as he scrambles to his feet, the Ring falls on the ground the ring gleaming in the snow. Boromir's Hand picks it up by the chain he stands, the ring dangling before his eyes. He seems to grow in stature, as if absorbing its power. Aragorn warily approaches Boromir Bo

502|Regie|PIPPIN is carefully laying out a SMALL UNIFORM of the ROYAL GUARD on a bed.|3

504|Regie|GANDALF STANDING QUIETLY on a BALCONY that overlooks the GREAT CITY.|3

507|Regie|PIPPIN as he stares up at the vast NIGHT SKY.,|3

509|Regie|GANDALF watches the young HOBBIT.|3

513|Regie|GANDALF joins PIPPIN as they look towards the distant, jagged MOUNTAINS of MORDOR.|3

517|Regie|PIPPIN looks up at him, unnerved. GANDALF gives him a small self-deprecating smile.|3

519|Regie|GANDALF and PIPPIN share a quiet moment as they stare out towards the FIERY SKY over MORDOR.|3

521|Regie|INSERT GIANT MUMAKIL carrying ARMIES upon their backs|3

523|Regie|INSERT CORSAIR SHIPS sail up the RIVER.|3

525|Regie|GANDALF he is almost talking to himself now like a man unable to prevent a sure disaster.|3

527|Regie|INSERT The BATTLE-SCARRED CITY of OSGILIATH - last bastion between MINAS TIRITH and MORDOR.|3

533|Regie|GANDALF looks down at PIPPIN, he says nothing.|3

535|Regie|GANDALF stares into the d

2089|Regie|ARAGORN raises ANDURIL in the BROAD SWEEP as he walks forward he turns to FACE the OTHERS.|3

2090|Regie|QUIET RESOLVE written on ARAGORN's face as he looks into the EYES of the remaining members of the FELLOWSHIP.|3

2092|Regie|ARAGORN turning, SWORD-raised, he CHARGES FORWARD.|3

2093|Regie|There is a moment of SILENCE no-one else moves SUDDENLY a SHOUT goes up.|3

2094|Regie|PIPPIN and MERRY charging forward The rest of the MEN following.|3

2095|Regie|ARAGORN crashing head on into a line of ORCS.|3

2096|Regie|The blade of ANDURIL flashing as ARAGORN HACKS at ORCS.|3

2101|Regie|Like a small grey insect, SAM creeps up the slope with FRODO on his back foot by foot.|3

2102|Regie|The mantling CLOUD swirls, revealing the cruel pinnacles and iron crown of BARAD-DUR, the Dark Tower, in the distance.|3

2103|Regie|SAM staggering under FRODO'S weight STRONG ash- laden WINDS are buffeting him as he slowly CLIMBS MOUNT DOOM.|3

2104|Regie|The PLAIN of GORGOROTH lies 1000 FEET BEL

### Regieanweisungen als zusammenhängender Text

In [81]:
# Tabellen mit Regieanweisungen laden
regie_1 = pd.read_csv('data/lotr_skript_1_regie.csv', sep='|')
regie_3 = pd.read_csv('data/lotr_skript_3_regie.csv', sep='|')

In [85]:
# Funktion um Regieanweisungen als zusammenhängenden Text aus der Tabelle zu extrahieren
def get_regie_text(regie_df, filmNr):

    # Anzahl der Rows
    length = len(regie_df)

    # Range
    range = np.arange(0, length, 1)

    # empty Textvariable
    text = ""

    # Text als String
    for index in range:
        rowText = regie_df["Text"].values[index]
        text = text + f'{rowText} '

    # save to file
    filename = f'lotr_skript_{filmNr}_regie.txt'
    # Datei löschen, falls sie existiert:
    if os.path.exists(f'data/{filename}'):
        os.remove(f'data/{filename}')

    with open(f'data/{filename}', 'a') as f:
        f.write(text)
        # text in lower case
        # f.write(text.lower())
        print(f'File {filename} saved.')

In [86]:
# Regieanweisungen zu Skript 1 als Text
get_regie_text(regie_1, 1)

# Regieanweisungen zu Skript 3 als Text
get_regie_text(regie_3, 3)

File lotr_skript_1_regie.txt saved.
File lotr_skript_3_regie.txt saved.


## 2.) Dialogtexte zu Skript 1 und 3

**Datenquelle:** bearbeitete (reduzierte) Tabelle von James Tauber

**Was wurde geändert?** (händisch in Excel)
* i-Tags gelöscht
* eckige Klammern gelöscht
* "VO" in Speaker-Spalte gelöscht
* Passagen auf Elbisch
    * wenn ÜS hintendran in runden Klammern: Elbisch gelöscht, aber Übersetzung aus Klammern behalten 
    * wenn ÜS in Spalte Translation: Elbischer Text in Subtitle-Spalte durch ÜS aus Translations-Spalte ersetzt
* Spalte "Spoken text if different from subtitles" wurde übernommen, d.h. Text in Subtitle-Spalte wurde durch den Text aus dieser Spalte ersetzt
* sonstige Anweisungen in runden Klammern gelöscht
* Spalten "START" und "END" mit den Time Codes wurden gelöscht
* Rows mit "TITLE" in der Sprecherspalte

In [13]:
# load reduced data of film 1
df_dialog_film_1 = pd.read_csv("C:/Users/Marina/Documents/Studium/Master Mainz/MA Digitale Methodik/Ü NLP/Daten von James Tauber/LOTR Subtitles reduced film 1.csv", sep=";")
df_dialog_film_1

Unnamed: 0,ORIG ID,SPEAKER,SUBTITLE TEXT,SCENE,ITUNES CHAPTER
0,,,,,1.0
1,2,Galadriel VO,The world is changed.,,
2,4,Galadriel VO,I feel it in the water.,,
3,6,Galadriel VO,I feel it in the earth.,,
4,8,Galadriel VO,I smell it in the air.,,
...,...,...,...,...,...
1968,1779,Frodo,I don’t suppose we’ll ever see them again.,,
1969,1780,Sam,"We may yet, Mr. Frodo.",,
1970,1781,Sam,We may.,,
1971,1782,Frodo,Sam...,,


In [14]:
# load dialog data of script 2
df_dialog_film_2 = pd.read_csv("C:/Users/Marina/Documents/Studium/Master Mainz/MA Digitale Methodik/Ü NLP/Daten von James Tauber/LOTR Subtitles reduced film 2.csv", sep=";")
df_dialog_film_2

Unnamed: 0,ORG ID,SPEAKER,SUBTITLE TEXT,SCENE,ITUNES CHAPTER
0,,,,,1.0
1,1.0,Gandalf,You cannot pass!,,
2,1.0,Frodo,Gandalf!,,
3,2.0,Gandalf,"I am a servant of the Secret Fire, wielder of ...",,
4,3.0,Gandalf,Go back to the Shadow.,,
...,...,...,...,...,...
2191,2064.0,Gollum,And then we takes it once they're dead.,,
2192,2065.0,Smeagol,Once they're dead.,,
2193,2066.0,Smeagol,"Come on, Hobbits. Long ways to go yet.",,
2194,2067.0,Smeagol,Smeagol will show you the way.,,


In [15]:
# load dialog data of script 3
df_dialog_film_3 = pd.read_csv("C:/Users/Marina/Documents/Studium/Master Mainz/MA Digitale Methodik/Ü NLP/Daten von James Tauber/LOTR Subtitles reduced film 3.csv", sep=";")
df_dialog_film_3

Unnamed: 0,ORG ID,SPEAKER,SUBTITLE TEXT,SCENE,ITUNES CHAPTER
0,,,,,1.0
1,1.0,Deagol,Sméagol!,,
2,2.0,Deagol,I've got one!,,
3,3.0,Deagol,"I've got a fish, Smeag. Smeagol!",,
4,4.0,Smeagol,Pull it in. Go on. Go on. Go on. Pull it in.,,
...,...,...,...,...,...
1871,1811.0,Frodo,You will have to be one and whole for many years.,,
1872,1812.0,Frodo,You have so much to enjoy and to be and to do.,,
1873,1813.0,Frodo,Your part in the story will go on.,,
1874,1814.0,Sam,Well...,,


### Helper functions

#### Get complete dialog data of a single film

In [6]:
def getDialogOfFilm(dfFilm):
    film = dfFilm["SUBTITLE TEXT"]
    film_text = ""
    for text in film:
        if (not pd.isna(text)):
            film_text = f'{film_text} {text}'
            # replaces "... ..." or "..." (and variations with whitespace) with one single space character
            film_text = re.sub(r'\s?\.\.\.\s?\.?\.?\.?\s?', " ", film_text)
    return film_text

In [8]:
# dialog text of film 1
film_1_text = getDialogOfFilm(df_dialog_film_1)
film_1_text



#### Get text data of specific character

In [76]:
# takes the name of a character (exactly as spelled in the data frame) and returns all dialog of this character
def getTextOfCharacter(dfFilm, character):
    character = dfFilm[dfFilm["SPEAKER"] == character]
    character_text = ""
    for text in character["SUBTITLE TEXT"]:
        if (not pd.isna(text)):
            character_text = f'{character_text} {text}'
            # replaces "... ..." with space character
            character_text = re.sub(r'\s?\.\.\.\s?\.?\.?\.?\s?', " ", character_text)
    return character_text

In [83]:
# Frodo's dialog text
frodo = getTextOfCharacter(df_dialog_film_1, "Frodo")
frodo

" No. It isn't. It isn't midday yet. The days are growing darker. What about you? Sam. For what? No, Sam! Leave him alone! Sam! You scare him off, we're lost! I'm not sending him away. We can't do this by ourselves, Sam. Not without a guide. I need you on my side. I know, Sam. I know. Trust me. Come, Smeagol. It's just a feeling. I don't think I'll be coming back. I think these lands were once part of the kingdom of Gondor. Long ago, when there was a king. They're calling me. I can feel his blade. What was that about? It's dark still. What? That's all we have left. He doesn't eat it. He can't have taken it. Sam! Stop it! Sam! Sam! No! I'm all right. Get away! No, Sam. It's you. I'm sorry, Sam. You can't help me anymore. Go home. What is this place? Now that I'm here, I don't think I want to. I can't go back. What's that smell? Smeagol? It's sticky. What is it? Smeagol? Smeagol! Smeagol! Sam. Hail Earendil brightest of the Stars! No! I have to destroy it, Smeagol. I have to destroy it f

In [73]:
# Gandalf's dialog text
gandalf = getTextOfCharacter(df_dialog_film_1, "Gandalf")
gandalf

' Down from the door where it began And I must follow if I can The road goes ever on and on Down from the door where it began Now far ahead the road has gone And I must follow if I can A wizard is never late, Frodo Baggins. Nor is he early. He arrives precisely when he means to. You didn’t think I’d miss your Uncle Bilbo’s birthday? So how is the old rascal? I hear it’s going to be a party of special magnificence. Well, that should please him. What? Good gracious me. Indeed. If you’re referring to the incident with the dragon. I was barely involved. All I did was give your uncle a little nudge out of the door. Oh, really? So am I, dear boy. So am I. Whoa, whoa. And what about very old friends? Bilbo Baggins. Good to see you. 111 years old! Who would believe it? You haven’t aged a day. Just tea, thank you. Just tea, thank you. No, not at all. So you mean to go through with your plan? Frodo suspects something. You will tell him, won’t you? He’s very fond of you. Whoa Up they go! Meriadoc

### Alter Code zu Skript 2

In [14]:
#lotr_1 = requests.get('https://imsdb.com/scripts/Lord-of-the-Rings-Fellowship-of-the-Ring,-The.html')
lotr_2 = requests.get('https://imsdb.com/scripts/Lord-of-the-Rings-The-Two-Towers.html')
#lotr_3 = requests.get('https://imsdb.com/scripts/Lord-of-the-Rings-Return-of-the-King.html')

scripts_2 = [lotr_2]

In [94]:
def get_scripts():
    # Schleife für jedes Script
    for movie, script in enumerate(scripts_2, 1):
        # webscrape text
        soup = BeautifulSoup(script.text, 'lxml')
        all_character_tags = soup.find('pre')
        
        # convert scraped bs4 element tags to string
        text= str(all_character_tags)
        
        # delete all tags
        text= re.sub(r'</?[a-zA-Z]+>', '', text)
        
        # split intoTextblocs 
        # Problem: mehrere Trenner - \r\n\r\n und \r\n \r\n)
        blocs = re.split(r'(\r\n\s?\r\n)', text)
        
        # delete empty blocs (does not work yet!!!!)
        # nice to have, but not necessarily needed
        # blocs = [i for i in blocs if i != '\r\n \r\n' or i != '\r\n\r\n']

        # print(blocs)
        
        # PRINT ALL BLOCS
        #for num, bloc in enumerate(blocs):
         #   print(num, bloc)
        
        # PRINT ONLY REGIEANWEISUNGEN
        #counter = 0
        #for num, bloc in enumerate(blocs):
            # matches Regieanweisungen, d.h. alle Blöcke, die direkt mit [ beginnen
            #if(re.match(r'^\s*\[', bloc)):
               # counter += 1
               # print(num, bloc)
        #print(f'Anzahl der Regieanweisungen: {counter}')
        # Ergenbis: 363 (ohne die Regieanweisungen, die direkt hinter demTextstehen!)
        # Gesamtzahl an Regieanweisungen: 671 (Ergebnis der Suche nach [ in Skript 2)
        
        # PRINT ONLY SPRECHERTEXT
        #counter = 0
        #for num, bloc in enumerate(blocs):
           #  matches Sprechertext, d.h. alle Blöcke, die nicht mit [ beginnen
            #if(not re.match(r'^\s*\[', bloc)):
               # counter += 1
                # Sprechername ausgeben
                #if (re.match(r'^.*(?=(\r\n))', bloc)):
                   # name = re.match(r'^.*(?=(\r\n))', bloc).group(0)
                   # print(f'Name: {name}')
                # Sprechertext ausgeben
               # print(num, bloc)
                
       # print(f'Anzahl der Sprechertexte: {counter}')
        
        # WRITE TO CSV
        
        # Dateiname festlegen
        filename = f'lotr_skript2_test.csv'

        # Datei löschen, falls sie existiert:
        if os.path.exists(f'data/{filename}'):
            os.remove(f'data/{filename}')
            
            
        with open(f'data/{filename}', 'a') as f:
            # Spaltenüberschriften
            f.write(f'Nr.|Sprecher/Regie|Text|Filmnr.\n')
            print(f'Nr.|Sprecher/Regie|Text|Filmnr.\n')
                
            # Blöcke durchgehen
            for num, bloc in enumerate(blocs):
                # Leerzeichen entfernen und Fragezeichen ersetzen (erzeugt beim Ausführen sonst Unicode-Error)
                bloc = bloc.replace("�", "%")   
                
                # match Regieanweisungen d.h. alle Blöcke, die direkt mit [ beginnen
                if(re.match(r'^\s*\[', bloc)):
                    # remove whitespace
                    regieText = bloc.strip()
                    regieText = re.sub(r'\r\n', '', regieText) # Zeilenumbrüche innerhalb des Texts
                    regieText = re.sub(r'\s+', ' ', regieText) # mehrfache Leerzeichen werden zu einem
                    
                    # write to CSV
                    # Bsp: 1 | Regie | Frodo jumps. |                  
                    f.write(f'{num}|Regie|{regieText}|2\n')
                    print(f'{num}|Regie|{regieText}|2\n')
                    
                # match Sprechertext, d.h. alle Blöcke, die NICHT direkt mit [ beginnen
                elif(not re.match(r'^\s*\[', bloc)):
                    # überflüssiger whitespace vor dem Namen entfernen
                    # positives Lookahead, matched jegliche Art whitespace vor dem ersten Buchstaben
                    sprecherText = re.sub(r'^\s*(?=([a-zA-Z]))', "", bloc)
                    
                    # matched alles vor dem ersten Zeilenumbruch, d.h. den Sprechernamen
                    if (re.match(r'^.*(?=(\r\n))', sprecherText)):
                        # Name ohne Whitespace aus demTextherausziehen
                        # group(0) wird benötigt, um auf denTextim Match-Objekt zuzugreifen, das von re.match zurückgegeben wird
                        name = re.match(r'^.*(?=(\r\n))', sprecherText).group(0).strip()
                        
                        # alles vor dem ersten Zeilenumbruch (inkl. Name wird gelöscht)
                        sprecherText = re.sub(r'^.*\r\n', '', sprecherText)
                        sprecherText = sprecherText.strip()
                        sprecherText = re.sub(r'\r\n', '', sprecherText) # Zeilenumbrüche innerhalb des Texts
                        sprecherText = re.sub(r'\s+', ' ', sprecherText) # mehrfache Leerzeichen werden zu einem
                        
                        # write to CSV
                        # only write if name is not empty (otherwise there will be empty rows in between)
                        if(name != ""):
                            f.write(f'{num}|{name}|{sprecherText}|2\n')
                            print(f'{num}|{name}|{sprecherText}|2\n')
                    else:
                        f.write(f'{num}|Sprechertext|{sprecherText}|2 \n')
                        print(f'{num}|Sprechertext|{sprecherText}|2\n')
                
get_scripts()

NameError: name 'scripts_2' is not defined

### Alte Codeschnipsel

In [97]:
# replacement notes - examples 

 # 930 CAMERA CIRCLES SUMMIT:
                # CAMERA CIRCLES SUMMIT: MORE AND MORE TREES are hauled down and
                
                # 1067 PAN ONTO:
                # ringwraiths close behind PAN ONTO: 2 more ringwrait
                
                # 1709 PAN OFF:
                # PAN OFF: DENETHOR'S DEATH PLUNGE to the ROHIRRIM
                
                # 1071 CRANE DOWN:
                # CRANE DOWN: As the White Horse races towards Camera, 
                
                # 1622 Slow motion:
                # Slow motion: As the Balrog falls, he lashes out with his whip of fire... Slow motion: The thongs of the whip lash 
                
                # 1743 QUICK CUTS:
                # QUICK CUTS: LURTZ is quickly armored...
                
                # BLACK SCREEN: und BLACK SCREEN und BLACK SCREEN . . . (3 und 6 Skript 3)
                
                # 44 SETTLE ON:
                # SETTLE ON: FRODO and SAM in a FILTHY CULVERT. 
                
                # 122 PUSH IN:
                # PUSH IN: EOWYN standing alone outside the GOLDEN HALL
                
                # 660 PULL BACK:
                # PULL BACK: GANDALF hurries to the BATTLEMENT
                
                # 977 CAMERA CRANES to REVEAL:
                # CAMERA CRANES to REVEAL: THOUSANDS of MEN and HORSES!
                
                # 1224 QUICK BEAT:
                # QUICK BEAT: ARAGORN RAISES ANDURIL
                
                # 1437 TRACKING BACK: 
                # TRACKING BACK: with FRODO as he careers blindly 
                
                # 2397 TRACKING:
                # TRACKING: Passing under a beautiful ELVEN ARCHWAY 
                
                # 1533 REVEAL ON:
                # REVEAL ON: SAMWISE GAMGEE stands before the GIANT SPIDER 
                
                # 2294 SOARING UP:
                # SOARING UP: to REVEAL the COURT OF THE KINGS
                
                # 2332 MATCHING MOVE:
                # MATCHING MOVE: Revealing HOBBITON bathed in a WARM SUNSET 
                
                # 2450 Screenplay by: Fran Walsh, Philippa Boyens, Peter Jackson

In [98]:
# delete irrelevant information
        # voice over and cont'd
        #text = re.sub(r'\s*\(V.O.\)\s*\(cont\'d\)', '', text)
        #text = re.sub(r'\s*V/0', '', text)
        #text = re.sub(r'\s*\( V .O .\)\s*\(c on t\' d \)', '', text)
        #text = re.sub(r'\s*\(cont\'d\)', '', text)
        #text = re.sub(r'\s*\(c ont \'d \)', '', text)
        #text = re.sub(r'\s*\(c ont\' d\)','', text)
        #text = re.sub(r'\s*\(V.O.\)\s*\(CONT\'D\)', '', text)
        #text = re.sub(r'\s*\(CONT\'D\)', '', text)
        #text = re.sub(r'\s*\(V.O.\)', '', text)
        #text = re.sub(r'\s*\(0.S.\)', '', text)
        #text = re.sub(r'\s*\( O . S . \)', '', text)
        #text = re.sub(r'\s*\(O.S.\)', '', text)

In [37]:
# info related to page turns
        #text = re.sub(r'\s*Final Revision - October, 2003 [0-9]+.', '', text)
        #text = re.sub(r'\s*\(CONTINUED\)\s*[0-9]*\.?', '', text)
        #text = re.sub(r'\s*\(M�RE\)', '', text)
        #text = re.sub(r'\s*\(MORE\)', '', text)
    
        #text = re.sub(r'CONTINUED:\s\(\s?[0-9]\s?\)', '\n', text)
        #text = re.sub(r'CONTINUED:', '\r\n\r\n', text)
        
        # matches page numbers (that do not have "continued" before or after it)
        # but does not match the only number in the text: "1296...a very good year" by only matching if there is not more than one .
        #text = re.sub(r'\s*[0-9]{1,3}\.[^\.]\s*', '\r\n\r\n', text) 

In [None]:
# Sätze zusammenführen (wenn Text in Zelle auf "..." endet und nächste Zelle mit "..." beginnt)
subtitle_column = dialog_1["SUBTITLE TEXT"]
for num, element in enumerate(subtitle_column.array):
        if(not pd.isna(element) and num < 1793):
                nextElement = subtitle_column.array[num+1]
                if(re.search(r'\.\.\.$', element)and re.search(r'^\.\.\.', nextElement)):
                    element = f'{element} {nextElement}'
                #print(num, subtitle_column.array[num], subtitle_column.array[num+1])
        # re.search takes all lines of input string into account, re.match only the first line
        # check if string ends with "..."
        #thisElement = str(dialog_1["SUBTITLE TEXT"].iloc[[num]])
        #nextElement = str(dialog_1["SUBTITLE TEXT"].iloc[[num +1]])
        #if(re.search(r'\.\.\.$', thisElement) and re.search(r'^\.\.\.', nextElement)):
        #if(re.search(r'\.\.\.$', thisElement)):
            #print(dialog_1["SUBTITLE TEXT"].iloc[[num, num +1]])
# check if next x rows start with "..."
# concat all those rows
#data["Name"]= data["Name"].str.cat(new, sep =", ")