<h1>Inhaltsverzeichnis</h1>

<ol>
    <li><a href="#einleitung">Einleitung</a>
    </li>
    <li><a href="#eigenständig">Eigenständigkeitserklärung</a>
    </li>
    <li><a href="#genutzter-datensatz">Genutzter Datensatz</a>
        <ul>
            <li><a href='#datensatz-anpassung'>Datensatz Anpassung</a></li>
            <li><a href="#was-bilden-die-daten-ab">Was bilden die Daten ab</a></li>
            <li><a href="#aufbau-des-datensatzes">Aufbau des Datensatzes</a></li> 
                <ul>
                    <li><a href="#variablen">Variablen</a></li>
                </ul>   
        </ul>
    </li>
    <li><a href="#analysen">Analysen</a>
        <ul>
            <li><a href="#ziel-der-analysen">Ziel der Analysen</a></li>
            <li><a href="#kmeans">KMeans</a></li>
            <li><a href="#hierarchisch">Hierarchisch</a></li>
        </ul>
    </li>
    <li><a href="#auswertung">Auswertung</a>
</ol>

<h1 id=einleitung>Einleitung</h1>

Im Rahmen des Moduls Datamining and Machine Learning werden wir einen, von uns ausgewählten, Datensatz mit der Clustering Methode statischtisch analysieren und auswerten. Dabei wählen wir geeigneten Methoden des Clustering-Algorithmen an, um Muster und Strukturen in den Daten zu identifizieren. Durch diese statistische Analyse erhalten wir Einblicke in die zugrunde liegenden Zusammenhänge und können die Daten entsprechend interpretieren. Die Ergebnisse unserer Auswertung ermöglichen es uns, Erkenntnisse zu gewinnen und möglicherweise Trends oder Gruppierungen in den Daten zu erkennen, die für weitere Entscheidungen oder Analysen relevant sein könnten.

<h1 id=eigenständig>Eigenständigkeitserklärung</h1>

Hiermit erkläre/n ich/wir, dass ich/wir die vorliegende Arbeit eigenständig und ohne fremde Hilfe angefertigt habe/n. Textpassagen, die wörtlich oder dem Sinn nach auf Publikationen oder Vorträgen anderer Autoren beruhen, sind als solche kenntlich gemacht.

<h1 id=genutzter-datensatz>Genutzter Datensatz</h1>

<h2 id=datensatz-anpassung>Datensatz Anpassung</h2>

In [None]:
import os
import random
import csv

# Specify the path to the CSV files
input_file = './tripadvisor_review.csv'
output_file = './output.csv'
# Read the input CSV file
with open(input_file, 'r') as file:
    reader = csv.reader(file)
    data = list(reader)
# Remove the first column from the data (it contains the user IDs)
data = [row[1:] for row in data]
# Keep the first row in the data for the header
header = data[0]
# Filter out possible duplicates from the data
input_file = list(set(tuple(row) for row in input_file))
# Calculate the number of rows to keep (90% of the total rows)
num_rows = int(len(data) * 0.9)
# Select random num_rows rows from the data
selected_data = random.sample(data[1:], num_rows)
# Add the header back to the selected data
selected_data.insert(0, header)
# Write the selected data to the output CSV file
with open(output_file, 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerows(selected_data)

<h2 id=was-bilden-die-daten-ab>Was bilden die Daten ab</h2>
Die Daten bilden das User Feedback zu verschiedenen Angeboten an Ferien Resorts in Asien auf einer Skala von 0 bis 4 ab. Diese werden dann mit der Durchschnittsbewertung des Resorts verglichen.

<h2 id=aufbau-des-datensatzes>Aufbau des Datensatzes</h2>

<h3 id=variablen>Variablen</h3>

Attribute 1 : Unique user id  
Attribute 2 : Average user feedback on art galleries  
Attribute 3 : Average user feedback on dance clubs  
Attribute 4 : Average user feedback on juice bars  
Attribute 5 : Average user feedback on restaurants   
Attribute 6 : Average user feedback on museums    
Attribute 7 : Average user feedback on resorts    
Attribute 8 : Average user feedback on parks/picnic spots    
Attribute 9 : Average user feedback on beaches   
Attribute 10 : Average user feedback on theaters   
Attribute 11 : Average user feedback on religious   


<h1 id=analysen>Analysen</h1>

<h2 id=ziel-der-analysen>Ziel der Analysen</h2>

Das Ziel der Analysen ist es, die User zu clustern und die Cluster zu analysieren. Dadurch können die Resorts besser auf die Bedürfnisse der User angepasst werden.


<h2 id=kmeans>KMeans</h2>

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

In [None]:
df = pd.read_csv('./output.csv')
df

In [None]:
df.describe()

In [None]:
scaler = StandardScaler()

df[['Category 1_T','Category 2_T','Category 3_T','Category 4_T','Category 5_T','Category 6_T','Category 7_T','Category 8_T','Category 9_T','Category 10_T'
]] = scaler.fit_transform(df[['Category 1','Category 2','Category 3','Category 4','Category 5','Category 6','Category 7','Category 8','Category 9','Category 10'
]])
df

In [None]:
def optimise_k_means(data, max_k):
    means = []
    inertias = []

    for k in range(1, max_k):
        kmeans = KMeans(n_clusters=k)
        kmeans.fit(data)

        means.append(k)
        inertias.append(kmeans.inertia_)

    fig = plt.subplots(figsize=(10, 5))
    plt.plot(means, inertias, 'o-')
    plt.xlabel('Number of Clusters')
    plt.ylabel('Inertia')
    plt.grid(True)
    plt.show()

In [None]:
optimise_k_means(df[['Category 1_T','Category 2_T']], 10)

kmeans = KMeans(n_clusters=5)
kmeans.fit(df[['Category 1_T','Category 2_T']])
df['kmeans_5'] = kmeans.labels_
df

In [None]:
plt.scatter(df['Category 1_T'], df['Category 2_T'], c=df['kmeans_5'],)
plt.xlabel('Category 1')
plt.ylabel('Category 2')
plt.show()

<h2 id=hierarchisch>Hierarchisch</h2>

<h1 id=auswertung>Auswertung</h1>
