In [None]:
# Importera os pga felmeddelanden
import os
os.environ["OMP_NUM_THREADS"] = "1"

# Importera nödvändiga bibliotek
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Läs in datasetet från en CSV-fil
file_path = "customerdata4.csv"
data = pd.read_csv(file_path)

# Visa de första raderna av data och statistisk sammanfattning
print(data.head())  # Visa första 5 raderna för att förstå strukturen
print(data.describe())  # Beskriv data: min, max, medelvärde, std, etc.

In [None]:
# Boxplot för att analysera åldersfördelningen per kön
plt.subplot(1, 3, 1)  # Första subplotten
sns.boxplot(x="Gender", y="Age", data=data, hue="Gender", palette={"Male": "lightblue", "Female": "pink"}, dodge=False)
plt.title("Boxplot of Age by Gender")  # Titel för plotten
plt.xlabel("Gender")  # Etikett för x-axeln
plt.ylabel("Age")  # Etikett för y-axeln
plt.legend([], [], frameon=False)  # Dölj legend eftersom färgerna är uppenbara
plt.show()

In [None]:
# Boxplot för att analysera årlig inkomst per kön
plt.subplot(1, 3, 2)  # Andra subplotten
sns.boxplot(x="Gender", y="Annual Income (10kkr)", data=data, hue="Gender", palette={"Male": "lightblue", "Female": "pink"}, dodge=False)
plt.title("Boxplot of Annual Income by Gender")
plt.xlabel("Gender")
plt.ylabel("Annual Income (10kkr)")
plt.legend([], [], frameon=False)
plt.show()

In [None]:
# Boxplot för att analysera spending score per kön
plt.subplot(1, 3, 3)  # Tredje subplotten
sns.boxplot(x="Gender", y="Spending Score (1-100)", data=data, hue="Gender", palette={"Male": "lightblue", "Female": "pink"}, dodge=False)
plt.title("Boxplot of Spending Score by Gender")
plt.xlabel("Gender")
plt.ylabel("Spending Score (1-100)")
plt.legend([], [], frameon=False)
plt.show()

In [None]:
# Skapa datapunkter för Age och Spending Score
point = data[["Age", "Spending Score (1-100)"]].values  # Extrahera endast relevanta kolumner

# Separera x- och y-koordinater för scatter plot
xCoord = point[:, 0]  # Ålder
yCoord = point[:, 1]  # Spending Score

# Visa koordinater för kontroll
print(xCoord)
print(yCoord)

In [None]:
# Skapa scatter plot för datapunkterna
labels = range(1, len(point) + 1)  # Skapa etiketter för varje punkt
plt.figure(figsize=(8, 8))  # Definiera storleken på figuren
plt.scatter(xCoord, yCoord, label='True Position')  # Rita scatter plot
plt.title("Data Points")  # Titel för plotten
plt.xlabel("Age")  # Etikett för x-axeln
plt.ylabel("Spending Score (1-100)")  # Etikett för y-axeln
plt.show()

In [None]:
# Elbow-metoden för att hitta optimalt antal kluster
def elbow_method(data, max_clusters=10):
    inertia = []  # Lista för att lagra inertia-värden
    cluster_range = range(1, max_clusters + 1)

    for k in cluster_range:
        kmeans = KMeans(n_clusters=k, random_state=42)
        kmeans.fit(data)
        inertia.append(kmeans.inertia_)

    # Plot för Elbow-metoden
    plt.figure(figsize=(8, 5))
    plt.plot(cluster_range, inertia, marker='o')
    plt.title('Elbow Method: Optimalt antal Clusters')
    plt.xlabel('Antal Clusters')
    plt.ylabel('Inertia')
    plt.xticks(cluster_range)
    plt.grid(True)
    plt.show()

# Skala data om det behövs och kör Elbow-metoden
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaled_data = scaler.fit_transform(data[["Age", "Spending Score (1-100)"]])  # Justera kolumnerna efter dina behov

elbow_method(scaled_data)

In [None]:
# K-means-klustring för Age och Spending Score
k = 4  # Antal kluster
kmeans = KMeans(n_clusters=k, random_state=42).fit(point)  # Träna modellen

# Hämta centroid-koordinater och klusteretiketter
centroids = kmeans.cluster_centers_  # Koordinater för klustermedelvärden
labels = kmeans.labels_  # Kluster för varje datapunkt

# Visa centroid-koordinater för kontroll
print("Centroids:")
print(centroids)

# Visualisera k-means-klustringen
plt.figure(figsize=(8, 8))
plt.scatter(point[:, 0], point[:, 1], c=labels.astype(float), s=50, alpha=0.5, cmap="viridis")  # Datapunkter med färg baserat på kluster
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', s=200, marker='x', label="Centroids")  # Centroidmarkeringar
plt.title("K-means Clustering")  # Titel
plt.xlabel("Age")  # Etikett för x-axeln
plt.ylabel("Spending Score (1-100)")  # Etikett för y-axeln
plt.legend()  # Visa legend
plt.show()

In [None]:
# K-means-klustring för Annual Income och Spending Score
point = data[["Annual Income (10kkr)", "Spending Score (1-100)"]].values  # Extrahera relevanta kolumner
xCoord = point[:, 0]  # Årlig inkomst
yCoord = point[:, 1]  # Spending Score

# Visa koordinater för kontroll
print(xCoord)
print(yCoord)

In [None]:
# Skapa scatter plot för datapunkterna
labels = range(1, len(point) + 1)  # Skapa etiketter för varje punkt
plt.figure(figsize=(8, 8))
plt.scatter(xCoord, yCoord, label='True Position')  # Rita scatter plot
plt.title("Data Points")  # Titel
plt.xlabel("Annual Income (10kkr)")  # Etikett för x-axeln
plt.ylabel("Spending Score (1-100)")  # Etikett för y-axeln
plt.show()

In [None]:
# Elbow-metoden för att hitta optimalt antal kluster
def elbow_method(data, max_clusters=10):
    inertia = []  # Lista för att lagra inertia-värden
    cluster_range = range(1, max_clusters + 1)

    for k in cluster_range:
        kmeans = KMeans(n_clusters=k, random_state=42)
        kmeans.fit(data)
        inertia.append(kmeans.inertia_)

    # Plot för Elbow-metoden
    plt.figure(figsize=(8, 5))
    plt.plot(cluster_range, inertia, marker='o')
    plt.title('Elbow Method: Optimalt antal Clusters')
    plt.xlabel('Antal Clusters')
    plt.ylabel('Inertia')
    plt.xticks(cluster_range)
    plt.grid(True)
    plt.show()

# Skala data om det behövs och kör Elbow-metoden
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaled_data = scaler.fit_transform(data[["Spending Score (1-100)", "Annual Income (10kkr)"]])

elbow_method(scaled_data)

In [None]:
# K-means-klustring för Annual Income och Spending Score
k = 5  # Antal kluster
kmeans = KMeans(n_clusters=k, random_state=42).fit(point)  # Träna modellen

# Hämta centroid-koordinater och klusteretiketter
centroids = kmeans.cluster_centers_
labels = kmeans.labels_

# Visa centroid-koordinater för kontroll
print("Centroids:")
print(centroids)

# Visualisera k-means-klustringen
plt.figure(figsize=(8, 8))
plt.scatter(point[:, 0], point[:, 1], c=labels.astype(float), s=50, alpha=0.5, cmap="viridis")  # Datapunkter med färg baserat på kluster
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', s=200, marker='x', label="Centroids")  # Centroidmarkeringar
plt.title("K-means Clustering")  # Titel
plt.xlabel("Annual Income (10kkr)")  # Etikett för x-axeln
plt.ylabel("Spending Score (1-100)")  # Etikett för y-axeln
plt.legend()  # Visa legend
plt.show()