In [56]:
import pandas as pd
import ast
from langdetect import detect

df = pd.read_csv('../data/airbnb_rental_prices_combined.csv', sep=';')

In [57]:
#only use rating_overall & comments
df = df[['rating_overall', 'comments']]
df.head()

Unnamed: 0,rating_overall,comments
0,4.28,['Zum Übernachten optimal für eine Person.\nFü...
1,0.0,[]
2,4.67,['The house is perfectly connected to the cent...
3,0.0,[]
4,0.0,[]


In [58]:
# only use rows with a rating_overall
df = df[df['rating_overall'] != 0.0]

In [59]:
# reset index
df.reset_index(drop=True, inplace=True)
#df['id'] = df.index

# convert string array into actual array
df['comments'] = df['comments'].apply(lambda x: ast.literal_eval(x))
# create a row for each string in string array
df = df.explode('comments')
print(df)

     rating_overall                                           comments
0              4.28  Zum Übernachten optimal für eine Person.\nFür ...
0              4.28  Super Gastgeber!\nStudio für das Geld absolut ...
0              4.28  Gut gelegene und günstige Unterkunft mitten in...
0              4.28  Für Kurzübernachtungen gut, sauber sowohl Zimm...
0              4.28                                               naja
..              ...                                                ...
503            4.97  An exceptionally stylish and comfortable apart...
503            4.97  Dear Nick and family, it was a pleasure to hos...
503            4.97  Lucas and Claudio are wonderful hosts, very at...
503            4.97  Dear Tina, it was a true pleasure to host you,...
503            4.97  Thoroughly enjoyed my stay at Lucas’ property....

[4497 rows x 2 columns]


In [60]:
# detect if comment is german
def is_german(text):
    try:
        lang = detect(text)
    except:
        return False
    return lang == 'de'

# only use comments that are in german
df = df[df['comments'].apply(is_german)]
print(df)

     rating_overall                                           comments
0              4.28  Zum Übernachten optimal für eine Person.\nFür ...
0              4.28  Super Gastgeber!\nStudio für das Geld absolut ...
0              4.28  Gut gelegene und günstige Unterkunft mitten in...
0              4.28  Für Kurzübernachtungen gut, sauber sowohl Zimm...
0              4.28  Freundliche Hausbewohner und ich konnte auf de...
..              ...                                                ...
501            5.00  Simons Haus war wirklich ein toller Aufenthalt...
501            5.00  Simons Haus hatte viel Platz für unsere Gruppe...
501            5.00  Simon war der großartige Gastgeber, tolle Gast...
503            4.97  Wir haben uns direkt total willkommen gefühlt!...
503            4.97  Danke Stefan, es war mir eine grosse Freude eu...

[3717 rows x 2 columns]


In [61]:
# drop null values
df = df.dropna(subset=['comments'])
print(df)

     rating_overall                                           comments
0              4.28  Zum Übernachten optimal für eine Person.\nFür ...
0              4.28  Super Gastgeber!\nStudio für das Geld absolut ...
0              4.28  Gut gelegene und günstige Unterkunft mitten in...
0              4.28  Für Kurzübernachtungen gut, sauber sowohl Zimm...
0              4.28  Freundliche Hausbewohner und ich konnte auf de...
..              ...                                                ...
501            5.00  Simons Haus war wirklich ein toller Aufenthalt...
501            5.00  Simons Haus hatte viel Platz für unsere Gruppe...
501            5.00  Simon war der großartige Gastgeber, tolle Gast...
503            4.97  Wir haben uns direkt total willkommen gefühlt!...
503            4.97  Danke Stefan, es war mir eine grosse Freude eu...

[3717 rows x 2 columns]


In [62]:
# move col id to first place in df
#cols = ['id'] + [col for col in df.columns if col != 'id']
#df = df[cols]
df.head()

Unnamed: 0,rating_overall,comments
0,4.28,Zum Übernachten optimal für eine Person.\nFür ...
0,4.28,Super Gastgeber!\nStudio für das Geld absolut ...
0,4.28,Gut gelegene und günstige Unterkunft mitten in...
0,4.28,"Für Kurzübernachtungen gut, sauber sowohl Zimm..."
0,4.28,Freundliche Hausbewohner und ich konnte auf de...


In [63]:
df.to_csv('../data/raw_comments.csv', sep=';')