# Notebook: Filter Sentences from Reviews to create Dataset for Annotation

## Packages

In [1]:
from bs4 import BeautifulSoup
from langdetect import detect, DetectorFactory
import pandas as pd
import json
import nltk
import uuid
from nltk.tokenize import sent_tokenize
import re

## Constants

In [2]:
REVIEWS_PATH = "reviews_dataset/reviews.csv"
RANDOM_STATE = 43

## Settings

In [3]:
DetectorFactory.seed = RANDOM_STATE

In [4]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/nils_hellwig/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Code

### Load Dataset

In [5]:
df_reviews = pd.read_csv(REVIEWS_PATH)

In [6]:
len(df_reviews)

3212

In [7]:
# Höchstes Datum
max_date = df_reviews['date'].max()

# Niedrigstes Datum
min_date = df_reviews['date'].min()

print("Höchstes Datum:", max_date)
print("Niedrigstes Datum:", min_date)


Höchstes Datum: 2023-10-15
Niedrigstes Datum: 2022-10-15


### Filter Sentences

In [8]:
df_reviews_sentences = pd.DataFrame(columns=list(df_reviews.columns) + ['sentence_idx', "id"])

for idx, row in df_reviews.iterrows():
    sentences = sent_tokenize(row['text'], language="german")
    sentence_index = 0
    for sentence in sentences:
        if len(sentence) > 1:
            new_row = row.copy() 
            new_row['text'] = sentence 
            new_row['id'] = str(uuid.uuid4())
            new_row['sentence_idx'] = sentence_index
            df_reviews_sentences.loc[len(df_reviews_sentences)] = new_row
            sentence_index += 1

In [9]:
df_reviews_sentences

Unnamed: 0.1,Unnamed: 0,review_id,restaurant_id,page_index,title,date,author_name,author_location,text,rating,city,restaurant_name,language_code,text_noanonymization,sentence_idx,id
0,0,921348897,2005104,0,Bayrisches Bier mitten in Berlin,2023-10-15,wolfganga300,Erlangen,Bayrisches Bier mitten in LOC.Das kann man im ...,5.0,berlin,Augustiner am Gendarmenmarkt,de,Bayrisches Bier mitten in Berlin.Das kann man ...,0,c5458035-8879-4ac0-a0c1-24926950a300
1,0,921348897,2005104,0,Bayrisches Bier mitten in Berlin,2023-10-15,wolfganga300,Erlangen,"Das Lokal ist immer voll, eine Reservierung is...",5.0,berlin,Augustiner am Gendarmenmarkt,de,Bayrisches Bier mitten in Berlin.Das kann man ...,1,6655679c-02f1-41b5-91f8-9c781e54d1bb
2,0,921348897,2005104,0,Bayrisches Bier mitten in Berlin,2023-10-15,wolfganga300,Erlangen,Innen ist es gemütlich aber auch laut.,5.0,berlin,Augustiner am Gendarmenmarkt,de,Bayrisches Bier mitten in Berlin.Das kann man ...,2,0d9ad391-fc84-49ca-a034-5437f0b329e5
3,0,921348897,2005104,0,Bayrisches Bier mitten in Berlin,2023-10-15,wolfganga300,Erlangen,Ein Teil des Personals versucht sich südbayeri...,5.0,berlin,Augustiner am Gendarmenmarkt,de,Bayrisches Bier mitten in Berlin.Das kann man ...,3,0c7476fe-72f2-49b1-b81a-11fad91def24
4,1,921129385,2005104,0,Denn Sie wissen nicht was Sie tun!!!,2023-10-13,Maximilian-62,"Freiburg, Deutschland",Bayrisch Essen und Gastfreundschaft geht anders.,2.0,berlin,Augustiner am Gendarmenmarkt,de,Bayrisch Essen und Gastfreundschaft geht ander...,0,823531e0-4eed-40b1-aba1-fd4ce897af6c
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13421,3211,865168700,5207419,0,Ich liebe diese Haxe,2022-10-19,BibiH41366,,Haxe wo man noch nicht mal ein Messer braucht.,5.0,mönchengladbach,Brauerei zum Stefanus,de,Wir sind nicht zum ersten Mal aber auch defini...,1,f80e944d-86cb-46f3-8606-f19930781c65
13422,3211,865168700,5207419,0,Ich liebe diese Haxe,2022-10-19,BibiH41366,,Und ich weiß dass ich niemals irgendwo anders ...,5.0,mönchengladbach,Brauerei zum Stefanus,de,Wir sind nicht zum ersten Mal aber auch defini...,2,e3b11bdd-aefb-49fa-ac2e-5a635307fb28
13423,3211,865168700,5207419,0,Ich liebe diese Haxe,2022-10-19,BibiH41366,,Super nettes aufmerksames Personal.,5.0,mönchengladbach,Brauerei zum Stefanus,de,Wir sind nicht zum ersten Mal aber auch defini...,3,eafe0285-8cd7-42a7-9522-e218b800afc4
13424,3211,865168700,5207419,0,Ich liebe diese Haxe,2022-10-19,BibiH41366,,Chef kommt auch selber an den Tisch und ist se...,5.0,mönchengladbach,Brauerei zum Stefanus,de,Wir sind nicht zum ersten Mal aber auch defini...,4,976f3c26-c327-4b8c-bd82-89c09b8a9ef7


### Filter Non-German Sentences

Even if the language code = "de", we have observed that some sentences are in other languagesthan german. These are excluded as well with the help of Google's language-detection.

In [10]:
def detect_language(text):
    try:
        return detect(text)
    except:
        return 'Unknown'

df_reviews_sentences['detected_language'] = df_reviews_sentences['text'].apply(detect_language)
df_reviews_sentences[df_reviews_sentences['detected_language'] != 'de']

Unnamed: 0.1,Unnamed: 0,review_id,restaurant_id,page_index,title,date,author_name,author_location,text,rating,city,restaurant_name,language_code,text_noanonymization,sentence_idx,id,detected_language
21,3,918788541,2005104,0,Nicht zu empfehlen! Zero Dienstleistungsverstä...,2023-09-28,cariocadagema74,"Berlin, Deutschland",Kein Cent!,1.0,berlin,Augustiner am Gendarmenmarkt,de,Dieser Laden macht den Ruhm Berlins als Servic...,10,57363510-5310-4886-8e8b-3c39e7bda6b3,nl
54,9,890917149,2005104,0,schlecht verwaltetes Chaos,2023-05-18,Harald F,"Berlin, Deutschland",Es war viel los.,1.0,berlin,Augustiner am Gendarmenmarkt,de,ich hätte gerne etwas zum Essen gesagt. Aber e...,3,ca6ce2f3-7def-43fa-b99c-3bebe6beb0be,es
103,18,866452621,2005104,1,Mind this touri-gap,2022-10-29,452stephand,"Nürnberg, Deutschland",Fazit: mind this touri-gap,1.0,berlin,Augustiner am Gendarmenmarkt,de,Wunderschöne Location mit mangelhafter Leitung...,1,14795597-f60c-439d-93cc-1a79d768fb32,en
111,21,883653345,947082,0,Tolle Burger!,2023-03-26,dittelbrunn,"Lübeck, Deutschland",Ketchup.,5.0,berlin,Burgermeister,de,Wir waren in der Filiale am S-Bahnhof Eberswal...,2,c85f5898-db34-4058-8c8b-8f314a393a0e,id
115,22,883285244,947082,0,Ganz gut,2023-03-23,Mawenabert,,Ansonsten alles gut,4.0,berlin,Burgermeister,de,Hatte einen Hausmeister Burger mit Pommes Baco...,2,bdb68a25-e228-4003-94bd-7fd62e23e177,fr
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13318,3180,873342513,13144674,5,Wie immer super,2022-12-30,nelala79,,Service super.,5.0,mönchengladbach,Frenzen Restaurant & Event,de,Salat mit Genüsenuggets gegessen. Wie man es h...,2,3bc9869b-c969-4602-b321-1964b368ec73,en
13319,3180,873342513,13144674,5,Wie immer super,2022-12-30,nelala79,,Essen super.,5.0,mönchengladbach,Frenzen Restaurant & Event,de,Salat mit Genüsenuggets gegessen. Wie man es h...,3,95ea5423-b3c3-4df6-94fb-cad132554211,ca
13322,3180,873342513,13144674,5,Wie immer super,2022-12-30,nelala79,,Klar!,5.0,mönchengladbach,Frenzen Restaurant & Event,de,Salat mit Genüsenuggets gegessen. Wie man es h...,6,b7d73c77-64f2-4e24-a0a3-66113d78b264,tr
13356,3195,866578862,13144674,6,Leckeres Essen in Mönchengladbach,2022-10-30,marcelbF2818DO,,Ein tolles Restaurant!,5.0,mönchengladbach,Frenzen Restaurant & Event,de,Ein tolles Restaurant! Ambiente und Empfang su...,0,35e990f1-29c0-48ca-922b-38c456f78eb7,fr


In [11]:
df_reviews_sentences = df_reviews_sentences[df_reviews_sentences['detected_language'] == 'de']

In [12]:
df_reviews_sentences

Unnamed: 0.1,Unnamed: 0,review_id,restaurant_id,page_index,title,date,author_name,author_location,text,rating,city,restaurant_name,language_code,text_noanonymization,sentence_idx,id,detected_language
0,0,921348897,2005104,0,Bayrisches Bier mitten in Berlin,2023-10-15,wolfganga300,Erlangen,Bayrisches Bier mitten in LOC.Das kann man im ...,5.0,berlin,Augustiner am Gendarmenmarkt,de,Bayrisches Bier mitten in Berlin.Das kann man ...,0,c5458035-8879-4ac0-a0c1-24926950a300,de
1,0,921348897,2005104,0,Bayrisches Bier mitten in Berlin,2023-10-15,wolfganga300,Erlangen,"Das Lokal ist immer voll, eine Reservierung is...",5.0,berlin,Augustiner am Gendarmenmarkt,de,Bayrisches Bier mitten in Berlin.Das kann man ...,1,6655679c-02f1-41b5-91f8-9c781e54d1bb,de
2,0,921348897,2005104,0,Bayrisches Bier mitten in Berlin,2023-10-15,wolfganga300,Erlangen,Innen ist es gemütlich aber auch laut.,5.0,berlin,Augustiner am Gendarmenmarkt,de,Bayrisches Bier mitten in Berlin.Das kann man ...,2,0d9ad391-fc84-49ca-a034-5437f0b329e5,de
3,0,921348897,2005104,0,Bayrisches Bier mitten in Berlin,2023-10-15,wolfganga300,Erlangen,Ein Teil des Personals versucht sich südbayeri...,5.0,berlin,Augustiner am Gendarmenmarkt,de,Bayrisches Bier mitten in Berlin.Das kann man ...,3,0c7476fe-72f2-49b1-b81a-11fad91def24,de
4,1,921129385,2005104,0,Denn Sie wissen nicht was Sie tun!!!,2023-10-13,Maximilian-62,"Freiburg, Deutschland",Bayrisch Essen und Gastfreundschaft geht anders.,2.0,berlin,Augustiner am Gendarmenmarkt,de,Bayrisch Essen und Gastfreundschaft geht ander...,0,823531e0-4eed-40b1-aba1-fd4ce897af6c,de
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13421,3211,865168700,5207419,0,Ich liebe diese Haxe,2022-10-19,BibiH41366,,Haxe wo man noch nicht mal ein Messer braucht.,5.0,mönchengladbach,Brauerei zum Stefanus,de,Wir sind nicht zum ersten Mal aber auch defini...,1,f80e944d-86cb-46f3-8606-f19930781c65,de
13422,3211,865168700,5207419,0,Ich liebe diese Haxe,2022-10-19,BibiH41366,,Und ich weiß dass ich niemals irgendwo anders ...,5.0,mönchengladbach,Brauerei zum Stefanus,de,Wir sind nicht zum ersten Mal aber auch defini...,2,e3b11bdd-aefb-49fa-ac2e-5a635307fb28,de
13423,3211,865168700,5207419,0,Ich liebe diese Haxe,2022-10-19,BibiH41366,,Super nettes aufmerksames Personal.,5.0,mönchengladbach,Brauerei zum Stefanus,de,Wir sind nicht zum ersten Mal aber auch defini...,3,eafe0285-8cd7-42a7-9522-e218b800afc4,de
13424,3211,865168700,5207419,0,Ich liebe diese Haxe,2022-10-19,BibiH41366,,Chef kommt auch selber an den Tisch und ist se...,5.0,mönchengladbach,Brauerei zum Stefanus,de,Wir sind nicht zum ersten Mal aber auch defini...,4,976f3c26-c327-4b8c-bd82-89c09b8a9ef7,de


### Balancing

In [13]:
df_balanced_reviews_sentences = df_reviews_sentences.groupby(['rating'], group_keys=False).apply(lambda x: x.sample(800, replace=False, random_state=RANDOM_STATE))
df_balanced_reviews_sentences.reset_index(drop=True, inplace=True)

### Randomisierung

In [14]:
df_balanced_reviews_sentences = df_balanced_reviews_sentences.sample(frac=1, random_state=RANDOM_STATE)  # 'frac=1' mischt den gesamten DataFrame
df_balanced_reviews_sentences.reset_index(drop=True, inplace=True)

### Check If Sentences are Unique

In [15]:
df_balanced_reviews_sentences.groupby(["review_id", "sentence_idx"]).size().reset_index(name="count")

Unnamed: 0,review_id,sentence_idx,count
0,864582525,2,1
1,864598719,0,1
2,864598719,1,1
3,864598719,2,1
4,864598719,3,1
...,...,...,...
3995,921389449,3,1
3996,921404419,4,1
3997,921404419,6,1
3998,921404419,8,1


### Alternate examples based on rating

In [16]:
df_balanced_reviews_sentences["rating"].value_counts()

rating
1.0    800
3.0    800
5.0    800
2.0    800
4.0    800
Name: count, dtype: int64

In [17]:
dfs = [df_balanced_reviews_sentences[df_balanced_reviews_sentences["rating"] == i] for i in range(1, 6)]
df_alternating = pd.DataFrame(columns=df_balanced_reviews_sentences.columns)

max_rows = max(len(df) for df in dfs)
for i in range(max_rows):
    for k in range(5):
        if i < len(dfs[k]):
            df_alternating = pd.concat([df_alternating, dfs[k].iloc[[i]]])

df_balanced_reviews_sentences = df_alternating.reset_index(drop=True)

In [18]:
df_balanced_reviews_sentences

Unnamed: 0.1,Unnamed: 0,review_id,restaurant_id,page_index,title,date,author_name,author_location,text,rating,city,restaurant_name,language_code,text_noanonymization,sentence_idx,id,detected_language
0,901,868199195,1190751,13,Unfassbar schlechter Service. Macht einen Boge...,2022-11-12,829ingos,"Frankfurt am Main, Deutschland","Dass man aber 5 Minuten warten muss, bis jeman...",1.0,frankfurt,Trattoria i Siciliani,de,Unfassbar unfreundlicher Service. Obwohl wir r...,3,95780fbd-ddf8-47eb-9c9c-ef2a55da2cd7,de
1,3048,912583402,1005252,0,Routinierte Langeweile,2023-08-24,P6002SFpetram,,Die kostenpflichtige Schinkennummer wird auch ...,2.0,wiesbaden,BENNER´s Bistronomie,de,"Die Karte enthält keine Überraschung, der Serv...",1,23a36652-a15e-43bd-b196-f360d1a56c61,de
2,210,892418807,2271294,1,Enttäuscht aber noch ok,2023-05-29,Simi E,,Unten war alles frei.,3.0,hamburg,Hard Rock Cafe,de,"Lange drauf gefreut, sehr enttäuscht. Obwohl M...",2,40cf1a21-d056-4316-aeb9-a20f08383d83,de
3,1654,895902732,1343851,0,Solide und ehrlich bei akzeptablen Preisen,2023-06-19,volkers542,"Sindelfingen, Deutschland",Auch für die anderen Begleiter war das Essen ok.,4.0,bremen,Bremer Ratskeller,de,Vor der geführten Besichtigung des Rathauses h...,5,e16ae0ed-3869-415f-86a2-d76d09ee8332,de
4,2916,885457754,7322855,8,Perfekte Steaks und sehr aufmerksamer Service,2023-04-09,Pioneer63807824059,,"Vielen Dank, wir kommen sehr gerne wieder !",5.0,augsburg,SteakManufaktur,de,Sehr leckeres Essen und toller Service von Tih...,1,61b7a355-4191-40a3-a3e5-a94eca03e404,de
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3995,1141,880698268,984093,0,Speisekarte liest sich besser als serviertes E...,2023-03-02,C4049YQmelanies,,und Convenience-Produkte.,1.0,düsseldorf,Im Füchschen,de,Im Füchschen hat man die Preise stark angehobe...,2,d3e086c4-6a3a-4581-8792-fe1e5a2fcf74,de
3996,3129,864869547,6541566,1,Bewirtung Katastrophe!,2022-10-17,Simon E,,"Essen war ok, aber sowas verdirbt einem nur di...",2.0,mönchengladbach,L'Osteria Mönchengladbach,de,Leider wurden wir gar nicht bedient. Wir haben...,4,fed48323-bdd4-4809-9367-94aa39ebe10a,de
3997,3015,880194942,2640161,0,Essen Flop👎 Ambiente/Service/Bier Top👍,2023-02-26,Vegasmann,"Rosenheim, Deutschland","Der Service war schnell, freundlich und Aufmer...",3.0,augsburg,Riegele Wirtshaus,de,Wir waren zum Abendessen im Riegele Wirtshaus....,1,7c8d104a-fffc-41ee-992b-7657d1ce8edf,de
3998,1654,895902732,1343851,0,Solide und ehrlich bei akzeptablen Preisen,2023-06-19,volkers542,"Sindelfingen, Deutschland",Das Ambiente ist natürlich besonders.,4.0,bremen,Bremer Ratskeller,de,Vor der geführten Besichtigung des Rathauses h...,6,38e89bc7-a7ed-4b1f-8180-b5d091f52c81,de


### Store as .csv 

In [19]:
df_reviews_sentences.to_csv("reviews_dataset/reviews_sentences.csv")

In [20]:
df_balanced_reviews_sentences.to_csv("reviews_dataset/balanced_reviews_sentences.csv")

In [21]:
df_balanced_reviews_sentences

Unnamed: 0.1,Unnamed: 0,review_id,restaurant_id,page_index,title,date,author_name,author_location,text,rating,city,restaurant_name,language_code,text_noanonymization,sentence_idx,id,detected_language
0,901,868199195,1190751,13,Unfassbar schlechter Service. Macht einen Boge...,2022-11-12,829ingos,"Frankfurt am Main, Deutschland","Dass man aber 5 Minuten warten muss, bis jeman...",1.0,frankfurt,Trattoria i Siciliani,de,Unfassbar unfreundlicher Service. Obwohl wir r...,3,95780fbd-ddf8-47eb-9c9c-ef2a55da2cd7,de
1,3048,912583402,1005252,0,Routinierte Langeweile,2023-08-24,P6002SFpetram,,Die kostenpflichtige Schinkennummer wird auch ...,2.0,wiesbaden,BENNER´s Bistronomie,de,"Die Karte enthält keine Überraschung, der Serv...",1,23a36652-a15e-43bd-b196-f360d1a56c61,de
2,210,892418807,2271294,1,Enttäuscht aber noch ok,2023-05-29,Simi E,,Unten war alles frei.,3.0,hamburg,Hard Rock Cafe,de,"Lange drauf gefreut, sehr enttäuscht. Obwohl M...",2,40cf1a21-d056-4316-aeb9-a20f08383d83,de
3,1654,895902732,1343851,0,Solide und ehrlich bei akzeptablen Preisen,2023-06-19,volkers542,"Sindelfingen, Deutschland",Auch für die anderen Begleiter war das Essen ok.,4.0,bremen,Bremer Ratskeller,de,Vor der geführten Besichtigung des Rathauses h...,5,e16ae0ed-3869-415f-86a2-d76d09ee8332,de
4,2916,885457754,7322855,8,Perfekte Steaks und sehr aufmerksamer Service,2023-04-09,Pioneer63807824059,,"Vielen Dank, wir kommen sehr gerne wieder !",5.0,augsburg,SteakManufaktur,de,Sehr leckeres Essen und toller Service von Tih...,1,61b7a355-4191-40a3-a3e5-a94eca03e404,de
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3995,1141,880698268,984093,0,Speisekarte liest sich besser als serviertes E...,2023-03-02,C4049YQmelanies,,und Convenience-Produkte.,1.0,düsseldorf,Im Füchschen,de,Im Füchschen hat man die Preise stark angehobe...,2,d3e086c4-6a3a-4581-8792-fe1e5a2fcf74,de
3996,3129,864869547,6541566,1,Bewirtung Katastrophe!,2022-10-17,Simon E,,"Essen war ok, aber sowas verdirbt einem nur di...",2.0,mönchengladbach,L'Osteria Mönchengladbach,de,Leider wurden wir gar nicht bedient. Wir haben...,4,fed48323-bdd4-4809-9367-94aa39ebe10a,de
3997,3015,880194942,2640161,0,Essen Flop👎 Ambiente/Service/Bier Top👍,2023-02-26,Vegasmann,"Rosenheim, Deutschland","Der Service war schnell, freundlich und Aufmer...",3.0,augsburg,Riegele Wirtshaus,de,Wir waren zum Abendessen im Riegele Wirtshaus....,1,7c8d104a-fffc-41ee-992b-7657d1ce8edf,de
3998,1654,895902732,1343851,0,Solide und ehrlich bei akzeptablen Preisen,2023-06-19,volkers542,"Sindelfingen, Deutschland",Das Ambiente ist natürlich besonders.,4.0,bremen,Bremer Ratskeller,de,Vor der geführten Besichtigung des Rathauses h...,6,38e89bc7-a7ed-4b1f-8180-b5d091f52c81,de


In [22]:
df_balanced_reviews_sentences["rating"].value_counts()

rating
1.0    800
2.0    800
3.0    800
4.0    800
5.0    800
Name: count, dtype: int64