# Sentiment analysis

In [62]:
from textblob_de import TextBlobDE
import pandas as pd
import nltk 

In [63]:
df = pd.read_csv("../data/raw_comments.csv", sep=';', index_col="Unnamed: 0")
df

Unnamed: 0,comments
0,Zum Übernachten optimal für eine Person.\nFür ...
0,Super Gastgeber!\nStudio für das Geld absolut ...
0,Gut gelegene und günstige Unterkunft mitten in...
0,"Für Kurzübernachtungen gut, sauber sowohl Zimm..."
0,naja
...,...
959,Eine außergewöhnlich stilvolle und komfortable...
959,"Lieber Nick und Familie, es war mir eine Freud..."
959,"Lucas und Claudio sind wundervolle Gastgeber, ..."
959,"Liebe Tina, es war mir eine wahre Freude, Sie ..."


In [64]:
# load NLTK resources
nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/andreas/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [65]:
def getSubjectivity(text):
   try:
      return TextBlobDE(text).sentiment.subjectivity # type: ignore
   except:
      return None
  
#Create a function to get the polarity
def getPolarity(text):
   try:
      return TextBlobDE(text).sentiment.polarity # type: ignore
   except:
      return None

In [66]:
TextBlobDE(df[:1:1].values[0][0]).sentiment

Sentiment(polarity=0.39999999999999997, subjectivity=0.0)

In [67]:
getPolarity(df[:1:1].values[0][0])

0.39999999999999997

In [68]:
getSubjectivity(df[:1:1].values[0][0])

0.0

In [69]:
# Create two new columns ‘Subjectivity’ & ‘Polarity’
df["Subjectivity"] = df["comments"].apply(getSubjectivity)
df["Polarity"] = df["comments"].apply(getPolarity)

In [70]:
df.isnull().sum()

comments        12
Subjectivity    12
Polarity        12
dtype: int64

In [71]:
df.dropna(inplace=True)

In [72]:
df.loc[0:1]

Unnamed: 0,comments,Subjectivity,Polarity
0,Zum Übernachten optimal für eine Person.\nFür ...,0.0,0.4
0,Super Gastgeber!\nStudio für das Geld absolut ...,0.0,0.333333
0,Gut gelegene und günstige Unterkunft mitten in...,0.0,0.8
0,"Für Kurzübernachtungen gut, sauber sowohl Zimm...",0.0,0.5
0,naja,0.0,0.0
0,Freundliche Hausbewohner und ich konnte auf de...,0.0,0.85
0,Zum Übernachten optimal für eine Person.\nFür ...,0.0,0.4
0,Super Gastgeber!\nStudio für das Geld absolut ...,0.0,0.333333
0,Gut gelegene und günstige Unterkunft mitten in...,0.0,0.8
0,"Für Kurzübernachtungen gut, sauber sowohl Zimm...",0.0,0.5


#### prepare merging with existing data

In [73]:
medians = df.groupby(df.index).median(numeric_only=True)
medians

Unnamed: 0,Subjectivity,Polarity
0,0.000,0.450000
6,0.000,0.478571
13,0.000,0.416667
15,0.000,0.900000
19,0.000,0.567708
...,...,...
946,0.000,0.633333
949,0.000,-0.095455
957,0.125,0.662500
958,0.000,0.500000


In [74]:
medians.columns = [str(col) + '_median' for col in medians.columns]
medians

Unnamed: 0,Subjectivity_median,Polarity_median
0,0.000,0.450000
6,0.000,0.478571
13,0.000,0.416667
15,0.000,0.900000
19,0.000,0.567708
...,...,...
946,0.000,0.633333
949,0.000,-0.095455
957,0.125,0.662500
958,0.000,0.500000


In [75]:
df = df.join(medians, how='left', on=df.index.name)
df

Unnamed: 0,comments,Subjectivity,Polarity,Subjectivity_median,Polarity_median
0,Zum Übernachten optimal für eine Person.\nFür ...,0.000000,0.400000,0.0,0.450
0,Super Gastgeber!\nStudio für das Geld absolut ...,0.000000,0.333333,0.0,0.450
0,Gut gelegene und günstige Unterkunft mitten in...,0.000000,0.800000,0.0,0.450
0,"Für Kurzübernachtungen gut, sauber sowohl Zimm...",0.000000,0.500000,0.0,0.450
0,naja,0.000000,0.000000,0.0,0.450
...,...,...,...,...,...
959,Eine außergewöhnlich stilvolle und komfortable...,0.000000,0.933333,0.0,0.755
959,"Lieber Nick und Familie, es war mir eine Freud...",0.000000,0.900000,0.0,0.755
959,"Lucas und Claudio sind wundervolle Gastgeber, ...",0.166667,0.666667,0.0,0.755
959,"Liebe Tina, es war mir eine wahre Freude, Sie ...",0.166667,0.783333,0.0,0.755


In [76]:
df.drop(columns=["Subjectivity","Polarity"], inplace=True)
df

Unnamed: 0,comments,Subjectivity_median,Polarity_median
0,Zum Übernachten optimal für eine Person.\nFür ...,0.0,0.450
0,Super Gastgeber!\nStudio für das Geld absolut ...,0.0,0.450
0,Gut gelegene und günstige Unterkunft mitten in...,0.0,0.450
0,"Für Kurzübernachtungen gut, sauber sowohl Zimm...",0.0,0.450
0,naja,0.0,0.450
...,...,...,...
959,Eine außergewöhnlich stilvolle und komfortable...,0.0,0.755
959,"Lieber Nick und Familie, es war mir eine Freud...",0.0,0.755
959,"Lucas und Claudio sind wundervolle Gastgeber, ...",0.0,0.755
959,"Liebe Tina, es war mir eine wahre Freude, Sie ...",0.0,0.755


In [77]:
df_grouped = df.groupby(df.index).agg(lambda x: x.tolist())
df_grouped.head()

Unnamed: 0,comments,Subjectivity_median,Polarity_median
0,[Zum Übernachten optimal für eine Person.\nFür...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.44999999999999996, 0.44999999999999996, 0.4..."
6,[Das Haus ist perfekt an das Zentrum von Züric...,"[0.0, 0.0, 0.0]","[0.47857142857142854, 0.47857142857142854, 0.4..."
13,"[Ganze wohnung zu verfügung, alles was man bra...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.41666666666666663, 0.41666666666666663, 0.4..."
15,[Ich hatte schöne und stille Tage am Rande der...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, ..."
19,[Ruhige Gegend und Ruhiges Studio nicht weit v...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.5677083333333334, 0.5677083333333334, 0.567..."


In [78]:
df_grouped.columns = [str(col) + '_list' for col in df_grouped.columns]
df_grouped

Unnamed: 0,comments_list,Subjectivity_median_list,Polarity_median_list
0,[Zum Übernachten optimal für eine Person.\nFür...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.44999999999999996, 0.44999999999999996, 0.4..."
6,[Das Haus ist perfekt an das Zentrum von Züric...,"[0.0, 0.0, 0.0]","[0.47857142857142854, 0.47857142857142854, 0.4..."
13,"[Ganze wohnung zu verfügung, alles was man bra...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.41666666666666663, 0.41666666666666663, 0.4..."
15,[Ich hatte schöne und stille Tage am Rande der...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, ..."
19,[Ruhige Gegend und Ruhiges Studio nicht weit v...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.5677083333333334, 0.5677083333333334, 0.567..."
...,...,...,...
946,[Fantastisches Haus und sehr freundlicher Gast...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.6333333333333333, 0.6333333333333333, 0.633..."
949,[Die Wohnung befand sich in Gehweite zum Bahnh...,[0.0],[-0.09545454545454546]
957,[Sehr gemütlich eingerichtet und tolle Locatio...,"[0.125, 0.125]","[0.6625, 0.6625]"
958,[Wir haben uns in Ramons und Ivans Wohnung wie...,[0.0],[0.5]


In [79]:
df_grouped.drop(columns=["Subjectivity_median_list","Polarity_median_list"], inplace=True)
df_grouped

Unnamed: 0,comments_list
0,[Zum Übernachten optimal für eine Person.\nFür...
6,[Das Haus ist perfekt an das Zentrum von Züric...
13,"[Ganze wohnung zu verfügung, alles was man bra..."
15,[Ich hatte schöne und stille Tage am Rande der...
19,[Ruhige Gegend und Ruhiges Studio nicht weit v...
...,...
946,[Fantastisches Haus und sehr freundlicher Gast...
949,[Die Wohnung befand sich in Gehweite zum Bahnh...
957,[Sehr gemütlich eingerichtet und tolle Locatio...
958,[Wir haben uns in Ramons und Ivans Wohnung wie...


### merge with existing airbnbn_rental_prices_combinded

In [80]:
df_airbnb_rental_prices = pd.read_csv("../data/airbnb_rental_prices_combined.csv",sep=";", index_col="Unnamed: 0")
df_airbnb_rental_prices[:5]

Unnamed: 0,name,price,price_reduced,guests,bedrooms,beds,bathrooms,lat,lng,nr_of_ratings,...,rating_location,rating_checkin,rating_communication,rating_cleanliness,rating_data_accuracy,comments,rooms,price_y,district,mean_rental_price
0,Serviced Studio Zürich City #B,44.0,0.0,2,1,1,1.0,47.40581,8.55173,36,...,0.0,0.0,0.0,0.0,0.0,['Zum Übernachten optimal für eine Person.\nFü...,2,44.0,Unterstrass,1522.0
1,2.5 Zimmerwohnung mit Garten,40.0,0.0,2,1,1,1.0,47.36336,8.46183,0,...,0.0,0.0,0.0,0.0,0.0,[],2,40.0,Albisrieden,1573.0
6,Spannende Wohnung in Zürich Örlikon,62.0,0.0,2,1,1,1.0,47.40388,8.54967,3,...,5.0,5.0,5.0,4.7,5.0,['The house is perfectly connected to the cent...,2,62.0,Unterstrass,1522.0
8,Geschätzt einfache Wohnung,66.0,0.0,2,1,1,1.0,47.4014,8.499,0,...,0.0,0.0,0.0,0.0,0.0,[],2,66.0,Höngg,1518.0
11,leider die Wohnung ist nicht verfügbar,64.0,0.0,2,1,1,0.0,47.426,8.5449,0,...,0.0,0.0,0.0,0.0,0.0,[],2,64.0,Seebach,1445.0


In [81]:
df_airbnb_rental_prices = df_airbnb_rental_prices.join(medians, how="left", on=df_airbnb_rental_prices.index.name)

In [82]:
df_airbnb_rental_prices.tail()

Unnamed: 0,name,price,price_reduced,guests,bedrooms,beds,bathrooms,lat,lng,nr_of_ratings,...,rating_communication,rating_cleanliness,rating_data_accuracy,comments,rooms,price_y,district,mean_rental_price,Subjectivity_median,Polarity_median
951,Unterkunft mit 4 Schlafzimmern in der Nähe von...,480.0,0.0,6,4,5,1.5,47.3551,8.5078,0,...,0.0,0.0,0.0,[],6,480.0,Friesenberg,,,
952,Kleine Studio für 4 Personen Zürich City,500.0,0.0,4,1,2,1.0,47.3741,8.54472,0,...,0.0,0.0,0.0,[],4,500.0,Hottingen,2964.0,,
957,Kinder- und hundefreundliche Wohnung für bis z...,500.0,0.0,8,4,5,1.0,47.39976,8.48344,0,...,0.0,0.0,0.0,['Sehr gemütlich eingerichtet und tolle Locati...,8,500.0,Höngg,,0.125,0.6625
958,Wohnung voll ausgestattet mit Aussicht in der ...,600.0,0.0,4,2,2,1.0,47.39464,8.5472,0,...,0.0,0.0,0.0,['Wir haben uns in Ramons und Ivans Wohnung wi...,4,600.0,Unterstrass,2206.0,0.0,0.5
959,*Luxus-Penthouse im Herzen des trendigen Zürich*,650.0,0.0,3,2,2,1.5,47.3894,8.5188,30,...,4.9,4.9,5.0,['Very nice and comfortable apartment in a gre...,3,650.0,Höngg,1830.0,0.0,0.755


In [83]:
# we need to include the translated comments
import ast
ast.literal_eval(df_airbnb_rental_prices.tail().iloc[4]["comments"])

['Very nice and comfortable apartment in a great location',
 'Very good place with good mobility around,lucas is fantastic with fast answers and availability!',
 'An exceptionally stylish and comfortable apartment in a great location. Lucas and Claudio were great hosts, quick to respond and always helpful. We spent a great week there.',
 'Lucas and Claudio are wonderful hosts, very attentive! And Lucas’ apartment is wonderful! We especially enjoyed the steam shower and the Italian expresso maker before work everyday! It is obvious that Lucas put much thought into his home, we are thankful he shared it with us! We will return next time we’re in the city with our family!',
 'Wir haben uns direkt total willkommen gefühlt! Leider haben wir eine Woche mit schlechtem Wetter erwischt, aber die Wohnung, die unsere Erwartungen übertroffen hat, hat alles wettgemacht. Sowohl die Lage (coole Spots in der Nähe und alles zentral erreichbar) als auch die Ausstattung der Wohnung waren optimal!!!\nDie 

In [84]:
df_airbnb_rental_prices = df_airbnb_rental_prices.join(df_grouped, how="left", on=df_airbnb_rental_prices.index.name)
df_airbnb_rental_prices.drop(columns=["comments"], inplace=True)
df_airbnb_rental_prices.tail()

Unnamed: 0,name,price,price_reduced,guests,bedrooms,beds,bathrooms,lat,lng,nr_of_ratings,...,rating_communication,rating_cleanliness,rating_data_accuracy,rooms,price_y,district,mean_rental_price,Subjectivity_median,Polarity_median,comments_list
951,Unterkunft mit 4 Schlafzimmern in der Nähe von...,480.0,0.0,6,4,5,1.5,47.3551,8.5078,0,...,0.0,0.0,0.0,6,480.0,Friesenberg,,,,
952,Kleine Studio für 4 Personen Zürich City,500.0,0.0,4,1,2,1.0,47.3741,8.54472,0,...,0.0,0.0,0.0,4,500.0,Hottingen,2964.0,,,
957,Kinder- und hundefreundliche Wohnung für bis z...,500.0,0.0,8,4,5,1.0,47.39976,8.48344,0,...,0.0,0.0,0.0,8,500.0,Höngg,,0.125,0.6625,[Sehr gemütlich eingerichtet und tolle Locatio...
958,Wohnung voll ausgestattet mit Aussicht in der ...,600.0,0.0,4,2,2,1.0,47.39464,8.5472,0,...,0.0,0.0,0.0,4,600.0,Unterstrass,2206.0,0.0,0.5,[Wir haben uns in Ramons und Ivans Wohnung wie...
959,*Luxus-Penthouse im Herzen des trendigen Zürich*,650.0,0.0,3,2,2,1.5,47.3894,8.5188,30,...,4.9,4.9,5.0,3,650.0,Höngg,1830.0,0.0,0.755,[Sehr schöne und komfortable Wohnung in toller...


In [85]:
# now we have the translated comments
df_airbnb_rental_prices.tail().iloc[4]["comments_list"]

['Sehr schöne und komfortable Wohnung in toller Lage',
 'Sehr guter Ort mit guter Mobilität, Lucas ist fantastisch mit schnellen Antworten und Verfügbarkeit!',
 'Eine außergewöhnlich stilvolle und komfortable Wohnung in toller Lage. Lucas und Claudio waren tolle Gastgeber, reagierten schnell und waren immer hilfsbereit. Wir haben dort eine tolle Woche verbracht.',
 'Lucas und Claudio sind wundervolle Gastgeber, sehr aufmerksam! Und Lucas‘ Wohnung ist wunderbar! Besonders gut gefallen haben uns die Dampfdusche und die italienische Espressomaschine jeden Tag vor der Arbeit! Es ist offensichtlich, dass Lucas viel über sein Zuhause nachgedacht hat. Wir sind dankbar, dass er es mit uns geteilt hat! Wir werden das nächste Mal wiederkommen, wenn wir mit unserer Familie in der Stadt sind!',
 'Wir haben uns direkt total willkommen gefühlt! Leider haben wir eine Woche mit schlechtem Wetter erwischt, aber die Wohnung, die unsere Erwartungen übertroffen hat, hat alles wettgemacht. Sowohl die Lage 

In [86]:
print("Polarirty", df_airbnb_rental_prices.tail().iloc[4]["Polarity_median"])
print("Subjectivity", df_airbnb_rental_prices.tail().iloc[4]["Subjectivity_median"])

Polarirty 0.7550000000000001
Subjectivity 0.0


In [87]:
df_airbnb_rental_prices.info()

<class 'pandas.core.frame.DataFrame'>
Index: 701 entries, 0 to 959
Data columns (total 24 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   name                  701 non-null    object 
 1   price                 701 non-null    float64
 2   price_reduced         701 non-null    float64
 3   guests                701 non-null    int64  
 4   bedrooms              701 non-null    int64  
 5   beds                  701 non-null    int64  
 6   bathrooms             701 non-null    float64
 7   lat                   701 non-null    float64
 8   lng                   701 non-null    float64
 9   nr_of_ratings         701 non-null    int64  
 10  rating_overall        701 non-null    float64
 11  rating_valueformoney  701 non-null    float64
 12  rating_location       701 non-null    float64
 13  rating_checkin        701 non-null    float64
 14  rating_communication  701 non-null    float64
 15  rating_cleanliness    701 no

In [61]:
df_airbnb_rental_prices.to_csv('/home/jovyan/airbnb_rental_prices_combined_sentiment.csv', sep=';')