# ΚΑΘΟΡΙΣΜΟΣ ΤΟΥ DIRECTORY ΟΠΟΥ ΒΡΙΣΚΕΤΑΙ ΤΟ ΑΡΧΕΙΟ

In [None]:
pwd #Καθορίζει το path file του αρχείου που εκτελείται

# ΕΙΣΑΓΩΓΗ ΤΩΝ ΑΠΑΡΑΙΤΡΗΤΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΓΙΑ ΤΗΝ ΕΚΤΕΛΕΣΗ ΤΟΥ ΚΩΔΙΚΑ

In [None]:
#Βιβλιοθήκες για την εισαγωγή και επεξεργασία των δεδομένων
import pandas as pd
import numpy as np
import warnings



#Βιβλιοθήκες για την εκτύπωση των διαγραμμάτων
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.cm as cm
import seaborn as sns

#Βιβλιοθήκες για την εκτύπωση διαδραστικών διαγραμμάτων
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go

#Βιβλιοθήκη scikit learn για την εκπαίδευση του μοντέλου
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

#Βιβλιοθήκη silhouette metric για την εκτίμηση της ποιότητας του μοντέλου
from sklearn.metrics import silhouette_samples, silhouette_score

# ΚΑΘΟΡΙΣΜΟΣ ΑΚΡΙΒΕΙΑΣ ΤΟΥ ΜΟΝΤΕΛΟΥ


In [None]:
#Καθορισμός ακριβείας του μοντέλου
pd.set_option("display.precision", 2)


# ΕΙΣΑΓΩΓΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΤΟΥ ΑΡΧΕΙΟΥ ΠΟΥ ΕΙΝΑΙ ΑΠΑΡΑΙΤΗΤΟ ΓΙΑ ΤΗΝ ΕΚΤΕΛΕΣΗ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ


In [None]:
#Αναγνώριση του αρχείου και εισαγωγή του στο πρόγραμμα
df = pd.read_csv('data/Wholesale customers data.csv')

#Δημιουργία DataFrame
df.head() 

#Δίνει την εκτύπωση των πέντε πρώτων στηλών των δεδομένων
print(df.head())

# ΣΥΝΟΠΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΠΡΙΝ ΑΠΟ ΤΗΝ ΑΦΑΙΡΕΣΗ ΤΟΝ ΤΙΜΩΝ ΠΟΥ ΤΕΙΝΟΥΝ ΣΤΟ ΑΠΕΙΡΟ ΚΑΙ ΤΩΝ ΤΙΜΩΝ NaN


In [None]:
#Επιστρέφει το σύνολο των γραμμών του αρχείου στο οποίο βρίσκονται τα δεδομένα
len(df)

In [None]:
#Επιστρέφει τα ονόματα των στηλών του αρχείου στο οποίο βρίσκονται τα δεδομένα
df.columns

In [None]:
 #Δίνει τον τύπο των δεδομένων που περιέχονται στις στήλες του αρχείου. To dataset αποτελείται από 7 στήλες οι οποίες περιέχουν αριθμητικά δεδομένα  
df.dtypes


In [None]:
# Εκτυπώνει το όνομα των στηλών και τον τύπο των δεδομένων που περιέχουν
df.info()

In [None]:
# Υπολογισμός του πίνακα συσχέτισης για όλα τα χαρακτηριστικά
correlation_matrix = df.corr()

# Σχεδίαση του πίνακα συσχέτισης
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Πίνακας Συσχέτισης Δεδομένων Χονδρικών Πελατών')
plt.show()

# ΕΠΕΞΕΡΓΑΣΙΑ ΤΟΥ DATASET ΚΑΙ ΕΚΑΘΑΡΙΣΜΟΣ ΤΩΝ ΤΙΜΩΝ ΠΟΥ ΤΕΙΝΟΥΝ ΣΤΟ ΑΠΕΙΡΟ ΚΑΙ ΤΩΝ ΤΙΜΩΝ NaN


In [None]:
# Ελέγχει αν υπάρχουν τιμές στο dataset που τείνουν στο άπειρο
if np.any(np.isinf(df)):
    print("Data contains infinite values. Replacing them with NaN.")
    df.replace([np.inf, -np.inf], np.nan, inplace=True)

In [None]:
# Ελέγχει αν υπάρχουν τιμές NaN στο dataset. 
if df.isnull().values.any():
    print("Data contains NaN values. Please handle missing data before proceeding.")
    df.dropna(inplace=True)
    # Print original DataFrame
print("Original DataFrame:")
print(df)

# ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ

In [None]:
# Εκτυπώνει τα περιγραφικά στατιστικά των αριθμητικών μεταβλητών
df.describe()

In [None]:
#Μετρά το σύνολο των παρατηρήσεων σε μια συγκεκριμένη στήλη του dataset. Το ίδιο μπορεί να γίνει και για όλες τις άλλες στήλες.
num_observations = df['Milk'].count()
print("Number of observations in 'Milk' column:", num_observations)

# EXPLORATORY DATA ANALYSIS

Ιστογράμματα

In [None]:
# Δημιουργία ιστογραμμάτων για όλες τις μεταβλητές
for column in df.columns:
    plt.figure(figsize=(10, 6))
    plt.hist(df[column], bins=30, edgecolor='k', alpha=0.7)
    plt.title(f'Ιστόγραμμα της {column}')
    plt.xlabel(column)
    plt.ylabel('Συχνότητα')
    plt.grid(True)
    plt.show()

Διαγράμματα διασποράς με τη βιβλιοθήκη matplotlib

In [None]:
#Χρησιμοποιείται αυτή η εντολή για να μη δημιουργούνται ξεχωριστές εντολές για κάθε διάγραμμα διασποράς.
variables = df.columns

#Δημιουργία διαγραμμάτων διασποράς ανά ζεύγος μεταβλητών
for i in range(len(variables)):
    for j in range(i+1, len(variables)):
        plt.scatter(df[variables[i]], df[variables[j]], color='yellow')

    #Προσαρμογή των ονομάτων των αξόνων
        plt.xlabel(variables[i])
        plt.ylabel(variables[j])

        plt.show()
        
        

Διαγράμματα διασποράς με τη βιβλιοθήκη seaborn

In [None]:
#Χρησιμοποιείται αυτή η εντολή για να μη δημιουργούνται ξεχωριστές εντολές για κάθε διάγραμμα διασποράς.
variables = df.columns

#Δημιουργία διαγραμμάτων διασποράς ανά ζεύγος μεταβλητών
for i in range(len(variables)):
    for j in range(i+1, len(variables)):
        sns.scatterplot(data=df, x=variables[i], y=variables[j])

        #Προσαρμογή των ονομάτων των αξόνων
        plt.xlabel(variables[i])
        plt.ylabel(variables[j])

        plt.show()

In [None]:
# Δημιουργία διαγραμμάτων διασποράς χωρίς τα ιστογράμματα
sns.set(style="ticks")
sns.pairplot(df, diag_kind="none")
plt.show()

plt.savefig('plot.png')

Διαγράμματα διασποράς με τη βιβλιοθήκη plotly 

In [None]:
#Χρησιμοποιείται αυτή η εντολή για να μη δημιουργούνται ξεχωριστές εντολές για κάθε διάγραμμα διασποράς.
variables = df.columns

#Δημιουργία διαγραμμάτων διασποράς ανά ζεύγος μεταβλητών
for i in range(len(variables)):
    for j in range(i+1, len(variables)):
        fig = px.scatter(df, x=variables[i], y=variables[j], title=f"Correlation between {variables[i]} and {variables[j]}")
        fig.show()

Ανάλυση Σημαντικών Συσχετίσεων
 
Θετικές Συσχετίσεις:
1. Γάλα και Παντοπωλείο:
-Τιμή Συσχέτισης: 0.73
-Σχέση: Ισχυρή θετική συσχέτιση.
-Ερμηνεία: Οι πελάτες που ξοδεύουν περισσότερο σε Γάλα τείνουν να ξοδεύουν περισσότερο και σε είδη Παντοπωλείου. Αυτό υποδηλώνει ότι αυτές οι δύο κατηγορίες συχνά αγοράζονται μαζί.
 
2. Γάλα και Απορρυπαντικά_Χαρτιά:
-Τιμή Συσχέτισης: 0.72
-Σχέση: Ισχυρή θετική συσχέτιση.
-Ερμηνεία: Η υψηλότερη δαπάνη σε Γάλα συσχετίζεται με την υψηλότερη δαπάνη σε Απορρυπαντικά και Χαρτικά. Αυτό δείχνει ότι αυτά τα αντικείμενα μπορεί να αποτελούν μέρος των κανονικών αγορών νοικοκυριού.
 
3. Παντοπωλείο και Απορρυπαντικά_Χαρτιά:
-Τιμή Συσχέτισης: 0.92
-Σχέση: Πολύ ισχυρή θετική συσχέτιση.
-Ερμηνεία: Τα πρότυπα δαπανών για τα είδη Παντοπωλείου και Απορρυπαντικά_Χαρτιά είναι πολύ στενά συνδεδεμένα. Οι πελάτες που αγοράζουν περισσότερα είδη παντοπωλείου τείνουν επίσης να αγοράζουν περισσότερα απορρυπαντικά και χαρτικά, πιθανώς υποδηλώνοντας αγορές χονδρικής.

4. Παντοπωλείο και Ντελικατέσεν:
-Τιμή Συσχέτισης: 0.60
-Σχέση: Μέτρια θετική συσχέτιση.
-Ερμηνεία: Υπάρχει μια μέτρια σχέση μεταξύ των δαπανών για τα είδη Παντοπωλείου και τα προϊόντα Ντελικατέσεν. Οι πελάτες που ξοδεύουν περισσότερο σε είδη παντοπωλείου τείνουν επίσης να ξοδεύουν περισσότερο σε προϊόντα ντελικατέσεν.
 
Αρνητικές Συσχετίσεις:
Δεν βρέθηκαν ισχυρές αρνητικές ή στατιστικά σημαντικές συσχετίσεις μεταξύ των μεταβλητών σε αυτό το σύνολο δεδομένων.
 
Σύνοψη:
-Προϊόντα Νοικοκυριού: Υπάρχει σαφής σχέση μεταξύ των δαπανών σε Γάλα, Παντοπωλείο και Απορρυπαντικά_Χαρτιά, υποδηλώνοντας ότι αυτά τα αντικείμενα αγοράζονται συχνά μαζί.
-Προϊόντα Ντελικατέσεν: Οι δαπάνες σε είδη Παντοπωλείου σχετίζονται μέτρια με τις δαπάνες σε προϊόντα Ντελικατέσεν, δείχνοντας ότι οι πελάτες που αγοράζουν περισσότερα είδη παντοπωλείου τείνουν επίσης να αγοράζουν προϊόντα ντελικατέσεν.
 
Αυτή η ανάλυση αναδεικνύει τις διασυνδεδεμένες συμπεριφορές αγορών των χονδρικών πελατών, ιδιαίτερα για προϊόντα νοικοκυριού και παντοπωλείου. Η κατανόηση αυτών των σχέσεων μπορεί να βοηθήσει τις επιχειρήσεις στη βελτιστοποίηση της διαχείρισης αποθεμάτων, στις στρατηγικές μάρκετινγκ και στην τμηματοποίηση πελατών.


# Περιγραφικά στατιστικά του μέσου και του διάμεσου των μεταβλητών ομαδοποιημένα με βάση μια συγκεκριμενη μεταβλητη αναφορας.

In [None]:
# Υπολογισμός περιγραφικών στατιστικών του μέσου όρου και της διάμεσου ομαδοποιημένα με βάση το region
grouped = df.groupby('Region').agg(['mean', 'median'])

# Εμφάνιση των αποτελεσμάτων
print(grouped)

# Μέσος και Διάμεσος:
#Για κάθε περιοχή, το σενάριο θα εχουμε τις τιμές του μέσου όρου και της διάμεσου των μεταβλητών (Fresh, Milk, Grocery, Frozen, Detergents_Paper, Delicassen).
#Ομαδοποιημένα κατά Περιοχή:
#Τα στατιστικά στοιχεία είναι ομαδοποιημένα με βάση τη στήλη Region, επιτρέποντάς σας να συγκρίνουμε την κεντρική τάση των μεταβλητών μεταξύ διαφορετικών περιοχών. Δηλαδη ποσο γαλα, κατεψυγμενα προιντα κτλπ. καταναλωθηκαν στιςς περιοχες που μελεταει το δειγμα

In [None]:
# Αντιστοιχα πια ειναι η μεση καταναλωση των υπολοιπων προιντων για αγορες που περιλαμβανουν γαλα, οπως και ποιος ειναι ο μεσος ορος της καθε περιοχης σε αγορες που περιλαμβανουν γαλα.
# Αντιστοιχα θα δουμε ποιο channel προτιματε περισσοτερο για την αγορα γαλατος.

# Υπολογισμός περιγραφικών στατιστικών του μέσου όρου και της διάμεσου ομαδοποιημένα με βάση το region
grouped = df.groupby('Milk').agg(['mean', 'median'])

# Εμφάνιση των αποτελεσμάτων
print(grouped)

# Αντιστοιχη λογικη ακολουθουμε και για τις υπολοιπες μεταβλητες

In [None]:
#Η εντολή εξαλείφει οποιοδήποτε warning που εμφανίζεται κατά την εκτέλεση του προγράμματος 
warnings.filterwarnings('ignore', category=FutureWarning)

#Δίνει όλα τα διαγράμματα διασποράς για τα ζεύγη μεταβλητών που έχουν το region ή το milk ως κριτηριο ομαδοποιησης
sns.pairplot(data=df, hue='Region', palette=['Blue', 'Red', 'Green','Yellow', 'Purple', 'Orange', 'Pink', 'Brown']);

# Εναλλακτικά
sns.pairplot(data=df, hue='Milk', palette=['Blue', 'Red', 'Green', 'Yellow', 'Purple', 'Orange', 'Pink', 'Brown']);

In [None]:
#Δημιουργία ενός διαγράμματος 3D scatter με τη βιβλιοθήκη plotly (Milk, Region, Grocery)
fig = go.Figure(data=[go.Scatter3d(
    x=df['Milk'], #Ορίζει τον άξονα x με τις τιμές της στήλης 'Milk'
    y=df['Region'], #Ορίζει τον άξονα y με τις τιμές της στήλης 'Region'
    z=df['Grocery'], #Ορίζει τον άξονα z με τις τιμές της στήλης 'Grocery'
   
    mode='markers', #Ορίζει τον τρόπο παρουσίασης των δεδομένων ως σημεία
    marker=dict(
        size=12, #Ορίζει το μέγεθος των σημείων
        color=df['Region'], #Ορίζει το χρώμα των σημείων με βάση τις τιμές της στήλης 'Region'
        colorscale='Viridis', #Ορίζει το χρωματικό εύρος των σημείων
        opacity=0.9 #Ορίζει τη διαφάνεια των σημείων
    )
)])

#Ρύθμιση της διάταξης του διαγράμματος
fig.update_layout(margin=dict(l=0, r=0, b=0, t=0))

#Εμφάνιση του διαγράμματος
fig.show()

# K-Means Clustering

In [None]:
# Δημιουργεί τον πίνακα X με τις μεταβλητές που θα χρησιμοποιηθούν για τον αλγόριθμο K-Means
X = df[['Channel', 'Region', 'Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen']]

In [None]:
# Εμφανίζει τις πρώτες 3 γραμμές του πίνακα X
X.head(3)

In [None]:
# Εκτυπώνει τον πίνακα X
model = KMeans(n_clusters=4, random_state=42)

In [None]:
# Εμφανίζει το μοντέλο που δημιουργήθηκε
model

In [None]:
#Εκπαίδευση του μοντέλου
model.fit(X)
y_pred = model.predict(X)

In [None]:
fitted_kmeans= model.fit(X)

In [None]:
# Αυτή η εντολή χρησιμοποιεί το εκπαιδευμένο μοντέλο K-Means για να προβλέψει την ομάδα στην οποία ανήκει κάθε δείγμα στον πίνακα X
y_pred = fitted_kmeans.predict(X)

In [None]:
# Δημιουργεί ένα μοντέλο K-Means με 4 συστάδες, το εκπαιδεύει στα δεδομένα που περιέχονται στον πίνακα X και ταυτόχρονα προβλέπει τη συστάδα στην οποία ανήκει κάθε δείγμα. Το αποτέλεσμα της πρόβλεψης αποθηκεύεται στη μεταβλητή y_pred.
y_pred = KMeans(n_clusters=4).fit_predict(X)

In [None]:
# Εκτυπώνει τον πίνακα y_pred
y_pred

In [None]:
#Ένταξη μιας καινούριας παρατήρησης στο μοντέλο
new_observation = pd.DataFrame([[1, 3, 2176, 810, 3456, 120, 8763, 9]], 
                               columns=['Channel', 'Region', 'Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen'])

#Εισαγωγή της νέας παρατήρησης στο μοντέλο
new_observation_pred = fitted_kmeans.predict(new_observation)

#Μετατροπή της νέας παρατήρησης σε DataFrame
new_observation_as_a_df = pd.DataFrame(
    new_observation, columns=['Channel', 'Region', 'Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen'])

# Εισαγωγή της νέας παρατήρησης στο αρχικό DataFrame
df = pd.concat([df, new_observation_as_a_df], ignore_index=True)

#Εμφάνιση του cluster στο οποίο ανήκει η νέα παρατήρηση
new_observation_pred

In [None]:
#Δημιουργία μιας νέας στήλης 'cluster' στον πίνακα df που περιέχει τις προβλέψεις του μοντέλου K-Means
df["cluster"] = pd.DataFrame(y_pred, columns=["cluster"])

#Θέτει τη στήλη 'cluster' ως κατηγορική
df["cluster"] = df["cluster"].astype('category')

#Εκτυπώνει τις πρώτες 10 γραμμές του πίνακα df
df.head(10)

In [None]:
#Εμφανίζει τον αριθμό των παρατηρήσεων που ανήκουν σε κάθε συστάδα
print(df.groupby('cluster', observed=True).size())

#  Διαγράμματα της μεθόδου K-Means 

In [None]:
# Εξαγωγή των κεντροειδών από το μοντέλο K-Means
centroids = model.cluster_centers_

# Σχεδιασμός των clusters με τα κεντροειδή
plt.figure(figsize=(10, 6))

# Χρησιμοποιούμε τις πρώτες δύο διαστάσεις (για παράδειγμα 'Milk' και 'Grocery') για την απεικόνιση
sns.scatterplot(data=df, x='Milk', y='Grocery', hue='cluster', palette='viridis', style='cluster', markers=True)

# Προσθήκη των κεντροειδών στο διάγραμμα
plt.scatter(centroids[:, df.columns.get_loc('Milk')], centroids[:, df.columns.get_loc('Grocery')], 
            s=300, c='red', label='Centroids', marker='X')

plt.title('Clusters and their Centroids')
plt.xlabel('Milk')
plt.ylabel('Grocery')
plt.legend()
plt.show()

In [None]:
#Τρισδιάστατο διάγραμμα με τα clusters
# Δημιουργία του 3D scatter plot
three_dim_clusters = px.scatter_3d(
    df, 
    x='Milk', 
    y='Grocery', 
    z='Fresh', 
    color='cluster', 
    title='3D Scatter Plot of Clusters',
    labels={'cluster': 'Cluster'}
)

# Εμφάνιση του διαγράμματος
three_dim_clusters.show()

# Η μέθοδος Elbow

In [None]:
# Υπολογισμός του WCSS για διαφορετικούς αριθμούς clusters
wcss = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, random_state=42)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

# Σχεδιασμός του Elbow plot
plt.figure(figsize=(10, 6))
plt.plot(range(1, 11), wcss, marker='o')
plt.title('Elbow Method For Optimal Number of Clusters')
plt.xlabel('Number of Clusters')
plt.ylabel('WCSS')
plt.show()

# Εύρεση του βέλτιστου αριθμού clusters χρησιμοποιώντας την δευτερη παραγωγο
# Υπολογισμός του δεύτερου παραγώγου (2η παράγωγος) της καμπύλης WCSS για την εύρεση του σημείου καμπής (elbow)
wcss_diff1 = np.diff(wcss)
wcss_diff2 = np.diff(wcss_diff1)

# Εύρεση του βέλτιστου αριθμού clusters ως το σημείο καμπής της καμπύλης WCSS
optimal_k = np.argmax(wcss_diff2) + 2  # Η δεύτερη παράγωγος βοηθά στον εντοπισμό του σημείου μέγιστης καμπυλότητας στο διάγραμμα, το οποίο αντιστοιχεί στον «αγκώνα».

# Εμφάνιση του βέλτιστου αριθμού clusters
print(f'Ο βέλτιστος αριθμός clusters σύμφωνα με την μέθοδο Elbow είναι: {optimal_k}')


# Mέθοοδος Silouette για τον προσδιορισμό του ιδανικού αριθμού των clusters

In [None]:
# Υπολογισμός του WCSS για διαφορετικούς αριθμούς clusters
wcss = []
silhouette_scores = []
K = range(2, 11)  # Silhouette score is not defined for a single cluster, so we start from 2

for k in K:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)
    score = silhouette_score(X, kmeans.labels_)
    silhouette_scores.append(score)

# Σχεδιασμός του Silhouette plot
plt.figure(figsize=(10, 6))
plt.plot(K, silhouette_scores, marker='o', color='r')
plt.title('Silhouette Scores For Optimal Number of Clusters')
plt.xlabel('Number of Clusters')
plt.ylabel('Silhouette Score')
plt.xticks(K)
plt.grid(True)
plt.show()

# Εύρεση του βέλτιστου αριθμού clusters χρησιμοποιώντας το Silhouette Score
optimal_k_silhouette = K[np.argmax(silhouette_scores)]

# Εμφάνιση του βέλτιστου αριθμού clusters
print(f'Ο βέλτιστος αριθμός clusters σύμφωνα με την μέθοδο Elbow είναι: {optimal_k}')
print(f'Ο βέλτιστος αριθμός clusters σύμφωνα με το Silhouette Score είναι: {optimal_k_silhouette}')



# Εφαρμογή του Κ-Means με τον ιδανικό αριθμό των clusters απο τη μέθοδο Elbow

In [None]:
# Εμφανίζει τις πρώτες 3 γραμμές του πίνακα X
X.head(3)

In [None]:
#Εκπαίδευση του μοντέλου
fitted_kmeans = model.fit(X)

In [None]:
# Αυτή η εντολή χρησιμοποιεί το εκπαιδευμένο μοντέλο K-Means για να προβλέψει την ομάδα στην οποία ανήκει κάθε δείγμα στον πίνακα X
y_pred = fitted_kmeans.predict(X)

In [None]:
# Δημιουργεί ένα μοντέλο K-Means με 3 συστάδες, το εκπαιδεύει στα δεδομένα που περιέχονται στον πίνακα X και ταυτόχρονα προβλέπει τη συστάδα στην οποία ανήκει κάθε δείγμα. Το αποτέλεσμα της πρόβλεψης αποθηκεύεται στη μεταβλητή y_pred.
y_pred = KMeans(n_clusters=3).fit_predict(X)

In [None]:
#Δημιουργία μιας νέας στήλης 'cluster' στον πίνακα df που περιέχει τις προβλέψεις του μοντέλου K-Means
df["cluster"] = pd.DataFrame(y_pred, columns=["cluster"])

#Θέτει τη στήλη 'cluster' ως κατηγορική
df["cluster"] = df["cluster"].astype('category')

# Εκτυπώνει τον πίνακα y_pred
y_pred

In [None]:
#Εμφανίζει τον αριθμό των παρατηρήσεων που ανήκουν σε κάθε cluster
print(df.groupby('cluster', observed=True).size())

In [None]:
# Ανάκτηση των μοναδικών ετικετών clusters από το DataFrame
cluster_labels = df['cluster'].unique()

# Δημιουργία ενός διαγράμματος για κάθε cluster
fig = plt.figure(figsize=(10, 7))
ax = fig.add_subplot(111, projection='3d')

# Δημιουργία διαγραμμάτων διασποράς για κάθε cluster
for label in cluster_labels:
    df_cluster = df[df['cluster'] == label]
    ax.scatter(df_cluster['Fresh'], df_cluster['Milk'], df_cluster['Grocery'], label=f'Cluster {label}')

# Ρυθμίσεις άξονα και υπόμνημα
ax.set_xlabel('Fresh')
ax.set_ylabel('Milk')
ax.set_zlabel('Grocery')
ax.legend()
plt.title('3D Scatter Plot of Clusters')
plt.show()

# Ανάλυση των clusters μια προς μια

In [None]:
# Η ανάλυση κάθε συστάδας ξεχωριστά περιλαμβάνει την εξέταση των χαρακτηριστικών και των στατιστικών στοιχείων κάθε συστάδας για την κατανόηση
# των διαφορών και των ομοιοτήτων μεταξύ τους. Μπορούμε να προχωρήσουμε με αναλύσεις οπως περιγραφικά στατιστικά στοιχεία, οπτικοποιήσεις 
# και συγκρίσεις για κάθε συστάδα.

In [None]:
# Δεν ξερω γιατι μου δινει cluster NAN παροτι ειναι μηδενικο

# Περιγραφικά στατιστικά για κάθε cluster
for cluster in df['cluster'].unique():
    print(f"Cluster {cluster}:")
    print(df[df['cluster'] == cluster].describe())
    print("\n")
    
# Ιστόγραμμα για κάθε χαρακτηριστικό ανά cluster
features = ['Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen']
for feature in features:
    plt.figure(figsize=(10, 6))
    for cluster in df['cluster'].unique():
        sns.histplot(df[df['cluster'] == cluster][feature], kde=True, label=f'Cluster {cluster}', bins=20)
    plt.title(f'Histogram of {feature} by Cluster')
    plt.legend()
    plt.show()
    
# Box plot για κάθε χαρακτηριστικό ανά cluster
for feature in features:
    plt.figure(figsize=(10, 6))
    sns.boxplot(x='cluster', y=feature, data=df)
    plt.title(f'Box Plot of {feature} by Cluster')
    plt.show()

Clustering Analysis:

luster Descriptions:

Cluster 1

Count: 302
Channel: Κατα κύριο λογο αγορες μεσω του καναλιου 1 (μέσος όρος = 1.12)
Region: Οι περισσοτεροι πελάτες προερχονται απο το region 2 or 3 (μέσος όρος = 2,54)
Fresh Products: Μέτρια δαπάνη (μέσος όρος = 14577,50)
Milk: Χαμηλότερες δαπάνες (μέσος όρος = 3097,63)
Grocery: Μέτριες δαπάνες (μέσος όρος = 3816,65)
Frozen: Χαμηλές δαπάνες(μέσος όρος = 3571,50)
Detergents_Paper: Χαμηλές δαπάνες (μέσος όρος = 830,71)
Delicassen: Μέτριες δαπάνες (μέσος όρος = 1236,20)


Cluster 0

Count: 131
Channel: Κατα κύριο λογο αγορες μεσω του καναλιου 2 (mean = 1.75)
Region: Οι περισσοτεροι πελάτες προερχονται απο το region 2 or 3 (mean = 2.54)
Fresh Products: Χαμηλότερες δαπάνες (mean = 4324.98)
Milk: Υψηλότερες δαπάνες (mean = 9624.91)
Grocery: Υψηλότερες δαπάνες (mean = 14850.79)
Frozen: Χαμηλότερες δαπάνες (mean = 1503.43)
Detergents_Paper: Υψηλότερες δαπάνες (mean = 6532.10)
Delicassen: Μέτριες δαπάνες (mean = 1589.31)


Cluster 2

Count: 9
Channel: Κατα κύριο λογο αγορες μεσω του καναλιου 2 (mean = 1.78)
Region: Οι περισσοτεροι πελάτες προερχονται απο το region 2 or 3 (mean = 2.67)
Fresh Products: Πολύ Υψηλότερες δαπάνες (mean = 35056.11)
Milk: Πολύ Υψηλότερες δαπάνες (mean = 39514.33)
Grocery:Πολύ Υψηλότερες δαπάνες (mean = 45265.78)
Frozen: Μέτριες δαπάνες (mean = 8483.22)
Detergents_Paper: Πολύ Υψηλότερες δαπάνες (mean = 19867.22)
Delicassen: Πολύ Υψηλότερες δαπάνες (mean = 9936.67)

Insights from Clusters:
Channel and Region:

Cluster 1 and Cluster 0 αποτελούνται κυρίως από πελάτες από το κανάλι 1 και το κανάλι 2 αντίστοιχα. Αυτό θα μπορούσε να υποδηλώνει διαφορετική αγοραστική συμπεριφορά ανάλογα με το είδος του καναλιού.
Όλες οι συστάδες έχουν παρόμοια κατανομή όσον αφορά τις περιοχές, κυρίως από την περιοχή 2 και την περιοχή 3.
Spending Patterns:

Cluster 1: Αντικατοπτρίζει μέτρια δαπάνη σε fresh products, με μικροτερη δαπάνη σε milk, groceries, frozen products, detergents_paper, and delicatessen items.
Cluster 0: Αντικατοπτρίζει χαμηλή δαπάνη σε fresh products αλλα υψηλότερη δαπάνη σε milk, groceries, and detergents_paper. This cluster indicates customers who prioritize dairy and grocery items over fresh products.
Cluster 2: Αντικατοπτρίζει πολυ υψιλή δαπάνη σε ολες σχεδόν τις κατηγορίες. Αυτή η ομάδα είναι πιθανό να αποτελείται από πελάτες υψηλής αξίας που αγοράζουν μεγάλες ποσότητες σε όλες τις κατηγορίες προϊόντων.

Histograms and Box Plots Analysis:

Histograms: Δείχνει την κατανομή των δαπανών σε διάφορες ομάδες. 

Cluster 1 έχει πιο ευρεία κατανομή στις δαπάνες για fresh product.
Cluster 0 έχει μεγαλύτερη συγκέντρωση δαπανών στις κατηγορίες γάλακτος και παντοπωλείου.
Cluster 2, αν και μικρότερο σε αριθμό, παρουσιάζει σημαντικά υψηλότερες δαπάνες σε όλες τις κατηγορίες.

Box Plots: Παρέχουν μια σύγκριση των κατανομών και αποκαλύπτουν τη διασπορά, την κεντρική τάση και τις ακραίες τιμές σε κάθε ομάδα για κάθε μεταβλητή:

Fresh products: Η συστάδα 2 έχει τις υψηλότερες δαπάνες, ακολουθούμενη από τη συστάδα 1 και στη συνέχεια τη συστάδα 0.

Milk and Groceries: Η συστάδα 2 προηγείται και πάλι στις δαπάνες, υποδεικνύοντας ότι αυτοί οι πελάτες είναι πολύ δαπανηροί.

Detergents_Paper and Delicassen: Η συστάδα 2 παρουσιάζει πολύ υψηλές δαπάνες, υποδεικνύοντας ότι οι πελάτες αυτοί αγοράζουν πολλά είδη οικιακής χρήσης και είδη delicatessen.

Συμπεράσματα:

Η ομαδοποίηση αποκαλύπτει τρεις διακριτές ομάδες πελατών με βάση τις καταναλωτικές τους συνήθειες:

Cluster 1: Καταναλωτές με μετρια καταναλωτικη ταση προς τα φρέσκα προϊόντα.
Cluster 0: Πελάτες που δίνουν προτεραιότητα στο γάλα, τα είδη παντοπωλείου και τις οικιακές προμήθειες, υποδηλώνοντας εστίαση σε καθημερινά είδη πρώτης ανάγκης.
Cluster 2: Πελάτες υψηλής αξίας που ξοδεύουν σημαντικά σε όλες τις κατηγορίες προϊόντων, υποδεικνύοντας ότι μπορεί να είναι μαζικοί αγοραστές ή νοικοκυριά με υψηλό εισόδημα.

Αυτές οι πληροφορίες μπορούν να βοηθήσουν στη στόχευση στρατηγικών μάρκετινγκ, στη διαχείριση αποθεμάτων και στην εξατομικευμένη εξυπηρέτηση πελατών για διαφορετικά τμήματα πελατών. Η κατανόηση αυτών των προτύπων δαπάνης βοηθά επίσης στην προσαρμογή των προωθητικών 
ενεργειών και των προσφορών ώστε να ανταποκρίνονται στις ανάγκες κάθε ομάδας, βελτιστοποιώντας τις πωλήσεις και την ικανοποίηση των πελατών.