# ADS Project Gruppe 12

## Calling WebApi from Google for Restaurants near Zurich and Save the Data in a CSV File

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import requests
import json
import psycopg2
import time
import folium

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from sqlalchemy import create_engine

final_data = []

# Parameters
coordinates = ['47.36667,8.55']  
keywords = ['restaurant']
radius = '10000'
api_key = 'AIzaSyBCHz76l1D5ZJ-R9K7tawuL9aOR4Yz5fco'

for coordinate in coordinates:
    for keyword in keywords:
        url = 'https://maps.googleapis.com/maps/api/place/nearbysearch/json?location=' + coordinate + '&radius=' + str(radius) + '&keyword=' + str(keyword) + '&key=' + str(api_key)
        while True:
            print(url)
            response = requests.get(url)
            jj = json.loads(response.text)
            results = jj['results']
            for result in results:
                name = result['name']
                place_id = result['place_id']
                lat = result['geometry']['location']['lat']
                lng = result['geometry']['location']['lng']
                rating = result.get('rating', 'N/A')
                user_ratings_total = result['user_ratings_total']
                types = result['types']
                vicinity = result['vicinity']
                price_level = result.get('price_level',0)
                data = [name, place_id, lat, lng, rating, user_ratings_total, types, price_level, vicinity]
                final_data.append(data)
            time.sleep(5)
            
            if 'next_page_token' not in jj:
                break
            else:
                next_page_token = jj['next_page_token']
                time.sleep(5)
                url = 'https://maps.googleapis.com/maps/api/place/nearbysearch/json?key=' + str(api_key) + '&pagetoken=' + str(next_page_token)

labels = ['Place Name', 'Place ID', 'Latitude', 'Longitude', 'Rating','User Ratings Total','Types','Price Level', 'Vicinity']
export_dataframe_1_medium = pd.DataFrame.from_records(final_data, columns=labels)
export_dataframe_1_medium.to_csv('export_restaurants_near_zurich.csv')
print("finish")

In [None]:
SSL_VERIFY = False
# evtl. SSL_VERIFY auf False setzen wenn die Verbindung zu https://www.zuerich.com nicht klappt (z.B. wegen Proxy)
# Um die SSL Verifikation auszustellen, bitte die nächste Zeile einkommentieren ("#" entfernen)
# SSL_VERIFY = False
if not SSL_VERIFY:
    import urllib3
    urllib3.disable_warnings()
    
def get_de(field):
    try:
        return field['de']
    except (KeyError, TypeError):
        try:
            return field['en']
        except (KeyError, TypeError):
            return field



headers = {'Accept': 'application/json'}
r = requests.get('https://www.zuerich.com/en/api/v2/data?id=101', headers=headers, verify=SSL_VERIFY)


data = r.json()

de_data = [{k: get_de(v) for (k,v) in f.items()} for f in data]
de_data


df = pd.DataFrame(de_data)
df.to_csv('export_restaurants_near_zurich_STADTzuerich.csv')



## Web Scrapping Trip Advisor Review Restaurant Zeughauskeller

In [None]:
from bs4 import BeautifulSoup
import requests
import re
import csv


base_url = 'https://www.tripadvisor.ch/Restaurant_Review-g188113-d697919-Reviews-Restaurant_Zeughauskeller-Zurich.html'

# Erstelle eine Session und akzeptiere Cookies
session = requests.Session()
session.headers.update({
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123 Safari/537.36',
    'Accept-Language': 'en-US,en;q=0.9',
})

# Liste für die Bewertungen
reviews = []

# Starte die Schleife für die Abfragen
for i in range(0, 100):  # Hier kannst du die Anzahl der Abfragen anpassen (in diesem Fall 4)
    if i == 0:
        url = base_url
    else:
        offset = i * 10
        url = base_url.replace('Reviews-', 'Reviews-or{}-'.format(offset))

    # Lade den HTML-Code der Webseite herunter
    response = session.get(url)
    html_content = response.text

    soup = BeautifulSoup(html_content, 'html.parser')
    review_elements = soup.find_all('div', class_='reviewSelector')

    for review_element in review_elements:
        # Restaurant
        restaurant = 'Zeughauskeller'

        # Review
        review_text_element = review_element.find('p', class_='partial_entry')
        if review_text_element:
            review_text = re.sub('<.*?>', '', str(review_text_element))
            review_text = review_text.strip()
        else:
            review_text = ''

        # Points
        points_element = review_element.find('span', class_=re.compile('bubble_([0-9]+)'))
        if points_element:
            points_class = points_element.get('class')[1]
            points = int(re.search(r'\d+', points_class).group())/10
        else:
            points = None
            
        sentiment = 1 if points > 2 else 0

        reviews.append({'Restaurant': restaurant, 'Review': review_text, 'Points': points, 'Sentiment':sentiment})

# Schreibe die Bewertungen in eine CSV-Datei
filename = 'tripadvisor_reviews.csv'

with open(filename, 'w', newline='', encoding='utf-8') as file:
    writer = csv.DictWriter(file, fieldnames=['Restaurant', 'Review', 'Points', 'Sentiment'])
    writer.writeheader()
    writer.writerows(reviews)

print('Die Bewertungen wurden in die Datei', filename, 'geschrieben.')

## Create database connection, read data and write to database

In [None]:
conn = psycopg2.connect("host=db dbname=postgres user=admin password=secret")

df = pd.read_csv('export_restaurants_near_zurich.csv', sep=',')
df.head(5)

engine = create_engine('postgresql://admin:secret@db:5432/postgres')
df.to_sql('restaurants_table', engine, if_exists='replace')

df_sub = pd.read_sql_query('''SELECT
                             "Place Name",
                             "Place ID"
                             FROM restaurants_table''', 
                          con=engine)
df_sub.head()

## Data preparation Restaurants Data near Zurich

In [None]:
#Überprüfen Sie die Daten auf fehlende Werte:
df.isnull().sum()

#Entfernen Duplikate basierend auf der Place ID:
df = df.drop_duplicates(subset='Place ID', keep='first')

#Extrahieren den Ort und Distrikt aus der Spalte "Vicinity":
df['Location'] = df['Vicinity'].str.split(',', expand=True)[0]
df['District'] = df['Vicinity'].str.split(',', expand=True)[1]


df = df[df['User Ratings Total'] >= 10]

df.to_csv('cleaned_places_data.csv', index=False)

## Explorative Datenanalyse (EDA)

In [None]:
df.info()

df.head()

df.describe()

sns.histplot(df['Rating'], bins=10)
plt.xlabel('Rating')
plt.ylabel('Count')
plt.title('Distribution of Ratings')
plt.show()

top_10_places = df.nlargest(10, 'User Ratings Total')
sns.barplot(x='User Ratings Total', y='Place Name', data=top_10_places, orient='h')
plt.xlabel('User Ratings Total')
plt.ylabel('Place Name')
plt.title('Top 10 Places by User Ratings Total')
plt.show()


# Zürich-Koordinaten für die Kartenzentrierung
zurich_coords = [47.3769, 8.5417]

# Erstellen der Karte
map_zurich = folium.Map(location=zurich_coords, zoom_start=13)

# Markieren der Orte auf der Karte
for index, row in df.iterrows():
    folium.Marker([row['Latitude'], row['Longitude']], popup=row['Place Name']).add_to(map_zurich)

# Anzeigen der Karte
map_zurich

## Verwendung eines ML Frameworks/Library.

In [None]:
## Create Regression Model on basis of User Ratings Total, Rating to Price Level

In [None]:
# Features auswählen
features = df[['User Ratings Total', "Rating"]]
label = df['Price Level']

# Kategorische Features in numerische Features umwandeln (z.B. One-Hot-Encoding)
features_encoded = pd.get_dummies(features)

# Aufteilen der Daten in Trainings- und Testsets
X_train, X_test, y_train, y_test = train_test_split(features_encoded, label, test_size=0.2, random_state=42)

# Skalieren der Features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Erstellen und Trainieren des Modells
model = LinearRegression()
model.fit(X_train_scaled, y_train)

# Evaluieren des Modells auf dem Testset
score = model.score(X_test_scaled, y_test)
print('R-squared Score:', score)

In [None]:
## Create Classification Price Level from the Rating and User Ratings Total

In [None]:
# # Aufteilen der Daten in Features und Labels
X = df[['Rating', 'User Ratings Total']]
y = pd.get_dummies(df['Price Level'])

# Aufteilen der Daten in Trainings- und Testsets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Skalieren der Features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Erstellen des Modells
model = Sequential()
model.add(Dense(16, activation='relu', input_shape=(2,)))
model.add(Dense(16, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(y.shape[1], activation='softmax'))

# Kompilieren und Trainieren des Modells
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
model.fit(X_train_scaled, y_train, epochs=10, batch_size=32)

# Vorhersagen auf dem Testset
predicted_labels = model.predict(X_test_scaled)

# Umkehren der One-Hot-Kodierung der Labels
y_test_original = pd.get_dummies(df['Price Level']).columns[y_test.values.argmax(axis=1)]
predicted_labels_original = pd.get_dummies(df['Price Level']).columns[predicted_labels.argmax(axis=1)]

# Berechnung der Confusion Matrix
cm = confusion_matrix(y_test_original, predicted_labels_original)
print('Confusion Matrix:')
print(cm)

# Berechnung des Klassifikationsberichts
classification_rep = classification_report(y_test_original, predicted_labels_original, zero_division=1)
print('Classification Report:')
print(classification_rep)

## Sentimentanalyse mit einem Convolutional Neural Network (CNN) zur Textanalyse für deutsche Reviews

In [None]:
import pandas as pd
import numpy as np
import nltk
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer
from sklearn.model_selection import train_test_split
from tensorflow.keras.layers import Dropout
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense


# Laden der Daten
data = pd.read_csv('tripadvisor_reviews.csv')

# Vorverarbeitung der Daten
nltk.download('stopwords')
nltk.download('punkt')
stop_words = set(stopwords.words('german'))

def preprocess_text(text):
    # Konvertierung in Kleinbuchstaben
    text = text.lower()
    
    # Entfernung von Satzzeichen und Sonderzeichen
    text = re.sub(r"[^a-zA-Z0-9äöüß]", " ", text)
    
    # Tokenisierung
    tokens = word_tokenize(text, language='german')
    
    # Entfernung von Stoppwörtern
    filtered_tokens = [token for token in tokens if token.lower() not in stop_words]
    
    # Stemming
    stemmer = SnowballStemmer("german")
    stemmed_tokens = [stemmer.stem(token) for token in filtered_tokens]
    
    # Zusammenfügen der verbleibenden Tokens zu einem Text
    preprocessed_text = ' '.join(stemmed_tokens)
    return preprocessed_text

# Anwendung der Vorverarbeitungsfunktion auf die 'Review'-Spalte
data['processed_text'] = data['Review'].apply(preprocess_text)

# Aufteilung in Trainings- und Testdaten
X = data['processed_text'].values
y = data['Sentiment'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Tokenisierung und Vektorisierung der Textdaten
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)
X_train_sequences = tokenizer.texts_to_sequences(X_train)
X_test_sequences = tokenizer.texts_to_sequences(X_test)
vocab_size = len(tokenizer.word_index) + 1

# Padding der Sequenzen
max_length = max(len(sequence) for sequence in X_train_sequences)
X_train_padded = pad_sequences(X_train_sequences, maxlen=max_length, padding='post')
X_test_padded = pad_sequences(X_test_sequences, maxlen=max_length, padding='post')

# Definition und Training des erweiterten CNN-Modells
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=128, input_length=max_length))
model.add(Conv1D(128, 5, activation='relu'))
model.add(Conv1D(128, 5, activation='relu'))
model.add(GlobalMaxPooling1D())
model.add(Dense(128, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(X_train_padded, y_train, epochs=10, batch_size=32)

# Auswertung des Modells
loss, accuracy = model.evaluate(X_test_padded, y_test)
print("Loss:", loss)
print("Accuracy:", accuracy)

# Vorhersage auf neuen Texten
new_texts = ["Das Essen in diesem Restaurant hat mir sehr gut geschmeckt.",
             "Der Service war schrecklich und das Essen war kalt. Katastrophe! es war miserabel, scheisse und schlecht. Ecklig, Kacke, nie wieder!"]
new_texts_sequences = tokenizer.texts_to_sequences(new_texts)
new_texts_padded = pad_sequences(new_texts_sequences, maxlen=max_length, padding='post')
predictions = model.predict(new_texts_padded)
print(predictions)
sentiments = ['positiv' if prediction >= 0.5 else 'negativ' for prediction in predictions]
for text, sentiment in zip(new_texts, sentiments):
    print("Text:", text)
    print("Sentiment:", sentiment)
    print()

Modellierungshypothese: Das CNN-Modell kann sprachliche Muster und Wortzusammenhänge in den Bewertungen erkennen und daraus Rückschlüsse auf bestimmte Eigenschaften des Restaurants ziehen.
Überprüfungsansatz: Untersuchen Sie die Gewichte der Conv1D-Schicht, um herauszufinden, welche Wortmuster oder n-gramme das Modell als besonders relevant für positive oder negative Bewertungen erachtet.

Modellierungshypothese: Das CNN-Modell kann Schlüsselaspekte der Restauranterfahrung identifizieren, indem es die häufigsten Wörter oder Phrasen in den Bewertungen analysiert.
Überprüfungsansatz: Extrahieren Sie die Top-N-Wörter oder n-gramme aus den Trainingsdaten und vergleichen Sie sie mit den Bewertungen, um festzustellen, ob die vom Modell als wichtig erachteten Wörter tatsächlich relevante Aspekte des Restaurants darstellen.

Modellierungshypothese: Bestimmte Eigenschaften des Restaurants, wie die Preisklasse oder die Öffnungszeiten, korrelieren mit positiven oder negativen Bewertungen.
Überprüfungsansatz: Fügen Sie zusätzliche Merkmale des Restaurants zu den Trainingsdaten hinzu und überprüfen Sie, ob das Modell diese Merkmale in Bezug auf die Bewertungen gewichtet. Führen Sie eine statistische Analyse durch, um die Korrelation zwischen den Merkmalen und den Bewertungen zu ermitteln.