## Datensätze und Integration

### Recommender / Kosinus Ähnlichkeit


Cosine similarity is a metric used to measure the similarity between two vectors in a multi-dimensional space. It is commonly used in machine learning and information retrieval to determine how similar two pieces of text or sets of features are. Cosine similarity is particularly useful when the magnitude of the vectors is not important, and you are interested in the direction or orientation of the vectors.

For two vectors A and B, the cosine similarity (cos θ) is calculated as the cosine of the angle between them. It's defined as:

[ \text{cosine similarity}(\mathbf{A}, \mathbf{B}) = \frac{\mathbf{A} \cdot \mathbf{B}}{|\mathbf{A}| |\mathbf{B}|} ]

Where:

(\mathbf{A} \cdot \mathbf{B}) is the dot product of vectors (\mathbf{A}) and (\mathbf{B}),
(|\mathbf{A}|) is the Euclidean norm (magnitude) of vector (\mathbf{A}),
(|\mathbf{B}|) is the Euclidean norm (magnitude) of vector (\mathbf{B}).
The cosine similarity ranges from -1 to 1, where:

1 indicates that the vectors are identical (point in the same direction),
0 indicates orthogonality (the vectors are perpendicular),
-1 indicates that the vectors point in opposite directions.
In the context of your recommender system, cosine similarity is used to find districts with feature values that are directionally similar to the user's input, indicating similarity in the feature space.

Detailliertere Erläuterung für unser Beispiel auf deutsch
Cosine Similarity, oder Kosinus-Ähnlichkeit, ist eine Metrik, die in der Informatik und im maschinellen Lernen verwendet wird, um die Ähnlichkeit zwischen zwei Vektoren in einem mehrdimensionalen Raum zu messen. In Ihrem Anwendungsfall, der Empfehlung von Stadtteilen basierend auf bestimmten Merkmalen, kann dies hilfreich sein, um Stadtteile zu finden, die den Eingabekriterien des Benutzers am ähnlichsten sind.

Hier ist eine detaillierte Erklärung:

Repräsentation der Daten:

Ihre Daten werden als Vektoren dargestellt, wobei jedes Merkmal eines Stadtteils einen Wert im Vektor darstellt. Zum Beispiel könnte ein Vektor für einen Stadtteil so aussehen: (\mathbf{V} = [Mietpreis, Gruenfläche, AQI, ...]).
Benutzereingabe:

Der Benutzer gibt bestimmte Werte für Merkmale ein, die für ihn wichtig sind. Angenommen, der Benutzer gibt Werte für Mietpreis, Grünfläche und Luftqualität (AQI) ein.
Berechnung der Kosinus-Ähnlichkeit:

Die Kosinus-Ähnlichkeit wird verwendet, um die Ähnlichkeit zwischen dem vom Benutzer eingegebenen Vektor und den Vektoren aller Stadtteile in Ihrem Datensatz zu berechnen. Je näher der Kosinus der Ähnlichkeit bei 1 liegt, desto ähnlicher sind die Vektoren.
Auswahl der ähnlichsten Stadtteile:

Die Stadtteile mit den höchsten Kosinus-Ähnlichkeitswerten werden als diejenigen ausgewählt, die den Eingabekriterien des Benutzers am besten entsprechen. Diese Stadtteile haben ähnliche Merkmalswerte wie der vom Benutzer angegebene Vektor.
Warum ist das nützlich?

Personalisierte Empfehlungen: Cosine Similarity ermöglicht es, Stadtteile zu finden, die den persönlichen Vorlieben des Benutzers nahekommen. Wenn ein Benutzer beispielsweise angibt, dass er niedrige Mietpreise, viel Grünfläche und gute Luftqualität bevorzugt, werden ihm Stadtteile empfohlen, die diesen Kriterien ähneln.

Flexibilität bei der Eingabe: Die Kosinus-Ähnlichkeit erlaubt es Benutzern, nur für diejenigen Merkmale Werte anzugeben, die ihnen wichtig sind, ohne dass Werte für alle Merkmale erforderlich sind. Dies erhöht die Benutzerfreundlichkeit.

Berücksichtigung aller Merkmale: Selbst wenn der Benutzer nur Werte für einige Merkmale angibt, berücksichtigt die Kosinus-Ähnlichkeit implizit alle verfügbaren Merkmale, um ähnliche Stadtteile zu finden.

Insgesamt ermöglicht die Anwendung von Cosine Similarity eine effektive und flexible Empfehlung von Stadtteilen, die den Präferenzen der Benutzer entsprechen.

In [None]:
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity

# Load your data
data = pd.read_csv('files/out/merged_featureset_nonan.csv')

# User input (replace with actual user input)
user_input = {'Mietpreis pro qm': 15, 'Gruenflaeche': 2, 'AQI': 2.4}

# Extract features with user input
user_input_features = list(user_input.keys())

# Extract user input values and normalize (optional)
user_input_values = [user_input[feature] for feature in user_input_features]
user_input_array = [user_input_values]

# Extract data for the selected features and normalize (optional)
selected_data = data[user_input_features].values

# Calculate cosine similarity between user input and district data
similarity_scores = cosine_similarity(user_input_array, selected_data)

# Get the top 3 districts with the highest similarity scores
top_districts_indices = similarity_scores.argsort()[0][-3:][::-1]
top_districts = data.loc[top_districts_indices, 'Stadtteil']

print(f'Top 3 recommended districts: {list(top_districts)}')