# Uczenie Maszynowe/ AI  # 4 - XGBoost, Unsupervised Machine Learning



﻿![](https://datascientest.com/en/files/2021/01/Machine-learning-def-.png)

_Bartek Bilski_


# Opis danych `spotify.csv`

Zbiór danych zawiera informacje o 2000 utworach muzycznych. Dane obejmują różne cechy utworów, takie jak popularność, gatunek, taneczność czy tempo, a także szczegóły techniczne i metadane.

---

## Podsumowanie
- **Liczba obserwacji**: 2000 (utwory muzyczne)
- **Liczba zmiennych**: 18
- **Rodzaje danych**: Liczbowe (int, float), kategoryczne (object, bool)

---

## Kolumny i ich opisy
| **Kolumna**          | **Opis**                                                   | **Typ danych** |
|-----------------------|-----------------------------------------------------------|----------------|
| `artist`             | Nazwa wykonawcy                                           | Tekstowy       |
| `song`               | Tytuł utworu                                              | Tekstowy       |
| `duration_ms`        | Długość utworu w milisekundach                             | Liczbowy       |
| `explicit`           | Czy utwór zawiera treści wulgarne? (`True`/`False`)        | Logiczny       |
| `year`               | Rok wydania utworu                                        | Liczbowy       |
| `popularity`         | Popularność utworu w skali 0–100                           | Liczbowy       |
| `danceability`       | Wskaźnik taneczności (0–1)                                 | Liczbowy       |
| `energy`             | Energia utworu (0–1)                                      | Liczbowy       |
| `key`                | Tonacja utworu (0–11)                                     | Liczbowy       |
| `loudness`           | Głośność utworu w decybelach                              | Liczbowy       |
| `mode`               | Tryb muzyczny (0 = minor, 1 = major)                      | Liczbowy       |
| `speechiness`        | Udział mowy w utworze (0–1)                                | Liczbowy       |
| `acousticness`       | Akustyczność utworu (0–1)                                  | Liczbowy       |
| `instrumentalness`   | Instrumentalność utworu (0–1)                              | Liczbowy       |
| `liveness`           | Poziom "żywości" utworu (0–1)                              | Liczbowy       |
| `valence`            | Pozytywny nastrój utworu (0–1)                             | Liczbowy       |
| `tempo`              | Tempo utworu w uderzeniach na minutę (BPM)                 | Liczbowy       |
| `genre`              | Gatunek muzyczny                                           | Tekstowy       |



---

## Statystyki opisowe
- **`duration_ms`**: Średnia długość utworu wynosi 228 748 ms (~3 min 48 s), z minimum 113 000 ms i maksimum 484 146 ms.
- **`popularity`**: Średnia popularność wynosi 59.9, z rozkładem od 0 do 89.
- **`danceability`**: Średni wskaźnik taneczności to 0.667, co oznacza, że większość utworów ma umiarkowaną taneczność.
- **`tempo`**: Średnie tempo utworów wynosi 120 BPM, z minimum 60 BPM i maksimum 210 BPM.
- **`genre`**: Gatunek najczęściej reprezentowany to "pop" (428 utworów).

---

## Przykładowe dane (pierwsze 5 wierszy)
| **artist**       | **song**                | **duration_ms** | **explicit** | **year** | **popularity** | **danceability** | **energy** | **genre**         |
|-------------------|-------------------------|-----------------|--------------|----------|----------------|------------------|------------|-------------------|
| Britney Spears   | Oops!...I Did It Again | 211160          | False        | 2000     | 77             | 0.751            | 0.834      | pop               |
| blink-182        | All The Small Things   | 167066          | False        | 1999     | 79             | 0.434            | 0.897      | rock, pop         |
| Faith Hill       | Breathe                | 250546          | False        | 1999     | 66             | 0.529            | 0.496      | pop, country      |
| Bon Jovi         | It's My Life           | 224493          | False        | 2000     | 78             | 0.551            | 0.913      |


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans

In [None]:


# 1. Wczytanie danych
df = pd.read_csv("spotify.csv")

print("Kolumny:", df.columns)


In [None]:

# Zachowajmy "artist", "song", "genre" do późniejszej analizy i wizualizacji


In [None]:

# 2. Przygotowanie danych do modelu
# Usuwamy nieinformacyjne kolumny


In [None]:

# Konwersja 'explicit' z bool na int


In [None]:
# Sprawdźmy typy danych


In [None]:
# Wszystkie kolumny powinny być numeryczne
# 3. Standaryzacja danych


In [None]:
# 4. PCA


In [None]:
# Wyswielenie wykresu wariancji wyjaśnionej przez kolejne komponenty
print("Wyjaśniona wariancja przez PC1 i PC2:", 'miejsce na Twoją odpowiedź')

In [None]:

# Dodajmy metadane (artist, song, genre) do df_pca, żeby móc wizualizować nazwy i gatunki po klasteryzacji


In [None]:
# 5. Elbow method (metoda łokcia) do wyboru k w K-means


In [None]:
# Wizuazlizacja metody łokcia


In [None]:
# Po wykresie elbow możemy wybrać k, które wydaje się być "zagięciem" (np. k=10, lub inna wartość w zależności od wykresu).
# Załóżmy k=3 i przeprowadźmy klasteryzację


In [None]:

# 6. Wizualizacja wyników PCA z klastrami



In [None]:

# Opcjonalnie: Możemy zweryfikować rozkład gatunków w klastrach


In [None]:
# Wizualizacja top 5 gatunków w klastrach


In [None]:
# 7. Wizualizacja klastrów na wykresie PCA z przykładowymi tytułami utworów

import plotly.express as px
# Losowy wybór punktów do podpisania
np.random.seed(42)
sample_points = np.random.choice(df_pca.index, size=90, replace=False)

# Tworzenie interaktywnego wykresu Plotly
fig = px.scatter(
    df_pca, x='PC1', y='PC2', color='cluster',
    title="Spotify PCA - przykładowe tytuły utworów",
    labels={
        'PC1': f'PC1 ({explained_variance[0]*100:.1f}% wariancji)',
        'PC2': f'PC2 ({explained_variance[1]*100:.1f}% wariancji)'
    },
    hover_data=['song', 'artist']
)

# Dodanie tekstów do wybranych punktów
for i in sample_points:
    fig.add_annotation(
        x=df_pca.loc[i, 'PC1'],
        y=df_pca.loc[i, 'PC2'],
        text=f"{df_pca.loc[i, 'song']} - {df_pca.loc[i, 'artist']}",
        showarrow=True,
        arrowhead=1,
        ax=20,
        ay=-20,
        font=dict(size=9)
    )

fig.update_layout(width=1000, height=700)
fig.show()