In [31]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import plotly.express as px
import plotly.graph_objects as go

# Wczytanie danych
encoded_data = pd.read_csv('my-penguins.csv', sep=',', encoding='utf-8')

# Lista kolumn numerycznych
numeric_features = ['bill_length', 'bill_depth', 'flipper_length', 'body_mass', 'male_sex']

# Testowanie różnych wartości n_clusters
inertia_values = []
for n_clusters in range(1, 11):
    kmeans = KMeans(n_clusters=n_clusters, random_state=42)
    kmeans.fit(encoded_data[numeric_features])
    inertia_values.append(kmeans.inertia_)

# Wykres metody łokciowej
fig = go.Figure()
fig.add_trace(go.Scatter(x=list(range(1, 11)), y=inertia_values, mode='lines+markers'))
fig.update_layout(title='Elbow Method for Optimal n_clusters', xaxis_title='Number of Clusters', yaxis_title='Inertia')
fig.show()

# Wybór optymalnej liczby klastrów
optimal_clusters = 3  # Przykładowa wartość, można dostosować na podstawie wykresu
kmeans = KMeans(n_clusters=optimal_clusters, random_state=42)
encoded_data['group'] = kmeans.fit_predict(encoded_data[numeric_features])

# Zapisanie danych z grupami do pliku CSV
encoded_data.to_csv('my-penguins-with-groups.csv', sep=',', index=False, encoding='utf-8')

# PCA do wizualizacji
pca = PCA(n_components=2)
pca_components = pca.fit_transform(encoded_data[numeric_features])

# Wykres 2D wyników grupowania
fig = px.scatter(x=pca_components[:, 0], y=pca_components[:, 1], color=encoded_data['group'].astype(str), labels={'x': 'PCA Component 1', 'y': 'PCA Component 2'}, title='KMeans Clustering Results')
fig.show()