## **Nigerijska glasba pridobljena s Spotifyja - analiza**

Grozdanje je vrsta [nenadzorovanega učenja](https://wikipedia.org/wiki/Unsupervised_learning), ki predpostavlja, da je podatkovni niz neoznačen ali da njegovi vnosi niso povezani z vnaprej določenimi izhodi. Uporablja različne algoritme za razvrščanje neoznačenih podatkov in zagotavljanje skupin glede na vzorce, ki jih zazna v podatkih.

[**Predhodni kviz**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)

### **Uvod**

[Grozdanje](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) je zelo uporabno za raziskovanje podatkov. Poglejmo, ali lahko pomaga odkriti trende in vzorce v načinu, kako nigerijsko občinstvo posluša glasbo.

> ✅ Vzemite si trenutek in razmislite o uporabi grozdanja. V vsakdanjem življenju se grozdanje zgodi, kadar imate kup perila in morate razvrstiti oblačila družinskih članov 🧦👕👖🩲. V podatkovni znanosti se grozdanje zgodi, ko poskušate analizirati uporabnikove preference ali določiti značilnosti katerega koli neoznačenega podatkovnega niza. Grozdanje na nek način pomaga ustvariti red iz kaosa, kot je predal za nogavice.

V profesionalnem okolju se grozdanje lahko uporablja za določanje stvari, kot je segmentacija trga, na primer za ugotavljanje, katere starostne skupine kupujejo določene izdelke. Druga uporaba bi bila odkrivanje anomalij, morda za zaznavanje goljufij v podatkovnem nizu transakcij s kreditnimi karticami. Lahko pa uporabite grozdanje za določanje tumorjev v seriji medicinskih skenov.

✅ Razmislite za trenutek, kako ste morda naleteli na grozdanje 'v naravi', v bančništvu, e-trgovini ali poslovnem okolju.

> 🎓 Zanimivo je, da analiza grozdov izvira iz področij antropologije in psihologije v 1930-ih. Si lahko predstavljate, kako bi jo takrat uporabljali?

Alternativno bi jo lahko uporabili za razvrščanje rezultatov iskanja - na primer po nakupovalnih povezavah, slikah ali ocenah. Grozdanje je uporabno, kadar imate velik podatkovni niz, ki ga želite zmanjšati in na katerem želite opraviti bolj podrobno analizo, zato se tehnika lahko uporablja za spoznavanje podatkov, preden se zgradijo drugi modeli.

✅ Ko so vaši podatki organizirani v grozde, jim dodelite ID grozda, kar je lahko uporabno pri ohranjanju zasebnosti podatkovnega niza; namesto bolj razkrivajočih identifikacijskih podatkov lahko uporabite ID grozda za sklicevanje na podatkovno točko. Ali lahko pomislite na druge razloge, zakaj bi za identifikacijo raje uporabili ID grozda kot druge elemente grozda?

### Začetek z grozdanjem

> 🎓 Način, kako ustvarimo grozde, je močno povezan s tem, kako združimo podatkovne točke v skupine. Razčistimo nekaj terminologije:
>
> 🎓 ['Transduktivno' vs. 'induktivno'](https://wikipedia.org/wiki/Transduction_(machine_learning))
>
> Transduktivno sklepanje izhaja iz opazovanih primerov usposabljanja, ki se preslikajo na specifične testne primere. Induktivno sklepanje izhaja iz primerov usposabljanja, ki se preslikajo na splošna pravila, ki se nato uporabijo na testnih primerih.
>
> Primer: Predstavljajte si, da imate podatkovni niz, ki je le delno označen. Nekatere stvari so 'plošče', nekatere 'CD-ji', nekatere pa so prazne. Vaša naloga je dodeliti oznake praznim. Če izberete induktivni pristop, bi usposobili model za iskanje 'plošč' in 'CD-jev' ter te oznake uporabili na neoznačenih podatkih. Ta pristop bo imel težave pri razvrščanju stvari, ki so dejansko 'kasete'. Transduktivni pristop pa bo to neznano podatkovno točko obravnaval bolj učinkovito, saj deluje tako, da združi podobne predmete in nato skupini dodeli oznako. V tem primeru bi grozdi lahko odražali 'okrogle glasbene stvari' in 'kvadratne glasbene stvari'.
>
> 🎓 ['Neploskovna' vs. 'ploskovna' geometrija](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)
>
> Izpeljano iz matematične terminologije, neploskovna vs. ploskovna geometrija se nanaša na merjenje razdalj med točkami bodisi s 'ploskovnimi' ([Evklidskimi](https://wikipedia.org/wiki/Euclidean_geometry)) bodisi z neploskovnimi (neevklidskimi) geometrijskimi metodami.
>
> 'Ploskovna' v tem kontekstu se nanaša na evklidsko geometrijo (deli katere se učijo kot 'ravninska' geometrija), medtem ko se neploskovna nanaša na neevklidsko geometrijo. Kaj ima geometrija skupnega z strojno učenje? Kot dve področji, ki temeljita na matematiki, mora obstajati skupen način za merjenje razdalj med točkami v grozdih, kar se lahko izvede na 'ploskovni' ali 'neploskovni' način, odvisno od narave podatkov. [Evklidske razdalje](https://wikipedia.org/wiki/Euclidean_distance) se merijo kot dolžina odseka med dvema točkama. [Neevklidske razdalje](https://wikipedia.org/wiki/Non-Euclidean_geometry) se merijo vzdolž krivulje. Če se vaši podatki, vizualizirani, ne nahajajo na ravnini, boste morda morali uporabiti specializiran algoritem za obdelavo.
>
> 🎓 ['Razdalje'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf)
>
> Grozdi so opredeljeni z matriko razdalj, npr. razdaljami med točkami. Te razdalje je mogoče meriti na več načinov. Evklidski grozdi so opredeljeni z povprečjem vrednosti točk in vsebujejo 'centroid' ali osrednjo točko. Razdalje se tako merijo glede na razdaljo do tega centroida. Neevklidske razdalje se nanašajo na 'clustroid', točko, ki je najbližja drugim točkam. Clustroidi so lahko opredeljeni na različne načine.
>
> 🎓 ['Omejeno'](https://wikipedia.org/wiki/Constrained_clustering)
>
> [Omejeno grozdanje](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) uvaja 'polnadzorovano' učenje v to nenadzorovano metodo. Razmerja med točkami so označena kot 'ne smejo se povezati' ali 'morajo se povezati', tako da se na podatkovni niz uvedejo določena pravila.
>
> Primer: Če je algoritem sproščen na serijo neoznačenih ali delno označenih podatkov, so lahko grozdi, ki jih ustvari, slabe kakovosti. V zgornjem primeru bi grozdi lahko združevali 'okrogle glasbene stvari', 'kvadratne glasbene stvari', 'trikotne stvari' in 'piškote'. Če se uvedejo določene omejitve ali pravila ("predmet mora biti iz plastike", "predmet mora biti sposoben proizvajati glasbo"), to lahko pomaga 'omejiti' algoritem, da sprejema boljše odločitve.
>
> 🎓 'Gostota'
>
> Podatki, ki so 'hrupni', se štejejo za 'goste'. Razdalje med točkami v vsakem od njegovih grozdov se lahko ob pregledu izkažejo za bolj ali manj goste ali 'natrpane', zato je treba te podatke analizirati z ustrezno metodo grozdanja. [Ta članek](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) prikazuje razliko med uporabo algoritmov K-Means grozdanja in HDBSCAN za raziskovanje hrupnega podatkovnega niza z neenakomerno gostoto grozdov.

Poglobite svoje razumevanje tehnik grozdanja v tem [učnem modulu](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott)

### **Algoritmi grozdanja**

Obstaja več kot 100 algoritmov za grozdanje, njihova uporaba pa je odvisna od narave podatkov. Oglejmo si nekatere glavne:

-   **Hierarhično grozdanje**. Če je predmet razvrščen glede na svojo bližino bližnjemu predmetu, namesto bolj oddaljenemu, se grozdi oblikujejo na podlagi razdalje med člani. Hierarhično grozdanje je značilno po tem, da se dva grozda večkrat združita.

<p >
   <img src="../../images/hierarchical.png"
   width="600"/>
   <figcaption>Infografika: Dasani Madipalli</figcaption>

-   **Centroidno grozdanje**. Ta priljubljeni algoritem zahteva izbiro 'k', ali število grozdov, ki jih je treba oblikovati, nato pa algoritem določi osrednjo točko grozda in zbira podatke okoli te točke. [K-means grozdanje](https://wikipedia.org/wiki/K-means_clustering) je priljubljena različica centroidnega grozdanja, ki razdeli podatkovni niz v vnaprej določene K skupine. Center je določen z najbližjim povprečjem, od tod tudi ime. Kvadratna razdalja od grozda je minimizirana.

<p >
   <img src="../../images/centroid.png"
   width="600"/>
   <figcaption>Infografika: Dasani Madipalli</figcaption>

-   **Grozdanje na podlagi porazdelitve**. Temelji na statističnem modeliranju, grozdanje na podlagi porazdelitve se osredotoča na določanje verjetnosti, da podatkovna točka pripada grozdu, in ji ustrezno dodeli mesto. Metode Gaussove mešanice spadajo v to vrsto.

-   **Grozdanje na podlagi gostote**. Podatkovne točke so dodeljene grozdom glede na njihovo gostoto ali njihovo združevanje okoli drugih točk. Podatkovne točke, ki so daleč od skupine, se štejejo za odstopanja ali hrup. DBSCAN, Mean-shift in OPTICS spadajo v to vrsto grozdanja.

-   **Grozdanje na podlagi mreže**. Za večdimenzionalne podatkovne nize se ustvari mreža, podatki pa se razdelijo med celice mreže, s čimer se ustvarijo grozdi.

Najboljši način za učenje o grozdanju je, da ga preizkusite sami, kar boste storili v tej vaji.

Za dokončanje tega modula bomo potrebovali nekaj paketov. Namestite jih lahko z ukazom: `install.packages(c('tidyverse', 'tidymodels', 'DataExplorer', 'summarytools', 'plotly', 'paletteer', 'corrplot', 'patchwork'))`

Alternativno spodnji skript preveri, ali imate potrebne pakete za dokončanje tega modula, in jih namesti, če manjkajo.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))

pacman::p_load('tidyverse', 'tidymodels', 'DataExplorer', 'summarytools', 'plotly', 'paletteer', 'corrplot', 'patchwork')


## Naloga - razvrščanje podatkov v skupine

Razvrščanje v skupine kot tehnika je močno podprto z ustrezno vizualizacijo, zato začnimo z vizualizacijo naših glasbenih podatkov. Ta naloga nam bo pomagala odločiti, katero metodo razvrščanja v skupine bi morali najučinkoviteje uporabiti glede na naravo teh podatkov.

Začnimo z uvozom podatkov.


In [None]:
# Load the core tidyverse and make it available in your current R session
library(tidyverse)

# Import the data into a tibble
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/5-Clustering/data/nigerian-songs.csv")

# View the first 5 rows of the data set
df %>% 
  slice_head(n = 5)


Včasih si želimo pridobiti malo več informacij o naših podatkih. Podatke in njihovo strukturo si lahko ogledamo z uporabo funkcije [*glimpse()*](https://pillar.r-lib.org/reference/glimpse.html):


In [None]:
# Glimpse into the data set
df %>% 
  glimpse()


Odlično delo!💪

Opazimo lahko, da `glimpse()` prikaže skupno število vrstic (opazovanj) in stolpcev (spremenljivk), nato pa prvih nekaj vnosov vsake spremenljivke v vrstici za imenom spremenljivke. Poleg tega je *tip podatkov* spremenljivke prikazan takoj za imenom spremenljivke znotraj `< >`.

`DataExplorer::introduce()` lahko to informacijo povzame na urejen način:


In [None]:
# Describe basic information for our data
df %>% 
  introduce()

# A visual display of the same
df %>% 
  plot_intro()


Odlično! Pravkar smo ugotovili, da naši podatki nimajo manjkajočih vrednosti.

Medtem lahko raziščemo pogoste statistike centralne tendence (npr. [povprečje](https://en.wikipedia.org/wiki/Arithmetic_mean) in [mediano](https://en.wikipedia.org/wiki/Median)) ter mere razpršenosti (npr. [standardni odklon](https://en.wikipedia.org/wiki/Standard_deviation)) z uporabo `summarytools::descr()`


In [None]:
# Describe common statistics
df %>% 
  descr(stats = "common")


Poglejmo splošne vrednosti podatkov. Upoštevajte, da lahko priljubljenost znaša `0`, kar pomeni pesmi, ki nimajo uvrstitve. Te bomo kmalu odstranili.

> 🤔 Če delamo s gručenjem, nenadzorovano metodo, ki ne zahteva označenih podatkov, zakaj prikazujemo te podatke z oznakami? V fazi raziskovanja podatkov so koristni, vendar niso nujni za delovanje algoritmov za gručenje.

### 1. Raziskovanje priljubljenih žanrov

Pojdimo naprej in ugotovimo najbolj priljubljene žanre 🎶 tako, da preštejemo, kolikokrat se pojavijo.


In [None]:
# Popular genres
top_genres <- df %>% 
  count(artist_top_genre, sort = TRUE) %>% 
# Encode to categorical and reorder the according to count
  mutate(artist_top_genre = factor(artist_top_genre) %>% fct_inorder())

# Print the top genres
top_genres


To je šlo dobro! Pravijo, da slika pove več kot tisoč vrstic podatkovnega okvira (pravzaprav tega nihče nikoli ne reče 😅). Ampak razumete bistvo, kajne?

Eden od načinov za vizualizacijo kategorijskih podatkov (znakovnih ali faktorskih spremenljivk) je uporaba stolpčnih grafov. Naredimo stolpčni graf za 10 najbolj priljubljenih žanrov:


In [None]:
# Change the default gray theme
theme_set(theme_light())

# Visualize popular genres
top_genres %>%
  slice(1:10) %>% 
  ggplot(mapping = aes(x = artist_top_genre, y = n,
                       fill = artist_top_genre)) +
  geom_col(alpha = 0.8) +
  paletteer::scale_fill_paletteer_d("rcartocolor::Vivid") +
  ggtitle("Top genres") +
  theme(plot.title = element_text(hjust = 0.5),
        # Rotates the X markers (so we can read them)
    axis.text.x = element_text(angle = 90))


Zdaj je veliko lažje prepoznati, da imamo `manjkajoče` žanre 🧐!

> Dobra vizualizacija vam bo pokazala stvari, ki jih niste pričakovali, ali pa sprožila nova vprašanja o podatkih - Hadley Wickham in Garrett Grolemund, [R For Data Science](https://r4ds.had.co.nz/introduction.html)

Opomba: ko je glavni žanr opisan kot `Manjkajoč`, to pomeni, da ga Spotify ni klasificiral, zato ga odstranimo.


In [None]:
# Visualize popular genres
top_genres %>%
  filter(artist_top_genre != "Missing") %>% 
  slice(1:10) %>% 
  ggplot(mapping = aes(x = artist_top_genre, y = n,
                       fill = artist_top_genre)) +
  geom_col(alpha = 0.8) +
  paletteer::scale_fill_paletteer_d("rcartocolor::Vivid") +
  ggtitle("Top genres") +
  theme(plot.title = element_text(hjust = 0.5),
        # Rotates the X markers (so we can read them)
    axis.text.x = element_text(angle = 90))


Iz osnovnega raziskovanja podatkov ugotovimo, da tri najbolj priljubljene zvrsti prevladujejo v tem naboru podatkov. Osredotočimo se na `afro dancehall`, `afropop` in `nigerian pop`, poleg tega pa filtrirajmo nabor podatkov, da odstranimo vse, kar ima vrednost priljubljenosti 0 (kar pomeni, da ni bilo razvrščeno glede na priljubljenost v naboru podatkov in se lahko za naše namene šteje kot šum):


In [None]:
nigerian_songs <- df %>% 
  # Concentrate on top 3 genres
  filter(artist_top_genre %in% c("afro dancehall", "afropop","nigerian pop")) %>% 
  # Remove unclassified observations
  filter(popularity != 0)



# Visualize popular genres
nigerian_songs %>%
  count(artist_top_genre) %>%
  ggplot(mapping = aes(x = artist_top_genre, y = n,
                       fill = artist_top_genre)) +
  geom_col(alpha = 0.8) +
  paletteer::scale_fill_paletteer_d("ggsci::category10_d3") +
  ggtitle("Top genres") +
  theme(plot.title = element_text(hjust = 0.5))


Poglejmo, ali obstaja kakšna očitna linearna povezava med številskimi spremenljivkami v našem naboru podatkov. To povezavo matematično kvantificira [statistika korelacije](https://en.wikipedia.org/wiki/Correlation).

Statistika korelacije je vrednost med -1 in 1, ki kaže na moč povezave. Vrednosti nad 0 kažejo na *pozitivno* korelacijo (visoke vrednosti ene spremenljivke običajno sovpadajo z visokimi vrednostmi druge), medtem ko vrednosti pod 0 kažejo na *negativno* korelacijo (visoke vrednosti ene spremenljivke običajno sovpadajo z nizkimi vrednostmi druge).


In [None]:
# Narrow down to numeric variables and fid correlation
corr_mat <- nigerian_songs %>% 
  select(where(is.numeric)) %>% 
  cor()

# Visualize correlation matrix
corrplot(corr_mat, order = 'AOE', col = c('white', 'black'), bg = 'gold2')  


Podatki niso močno povezani, razen med `energy` in `loudness`, kar je smiselno, saj je glasna glasba običajno precej energična. `Popularity` ima povezavo z `release date`, kar prav tako ni presenetljivo, saj so novejše pesmi verjetno bolj priljubljene. Dolžina in energija se zdita tudi povezani.

Zanimivo bo videti, kaj lahko algoritem za razvrščanje naredi s temi podatki!

> 🎓 Upoštevajte, da korelacija ne pomeni vzročne povezanosti! Imamo dokaz o korelaciji, vendar nimamo dokaza o vzročnosti. [Zabavna spletna stran](https://tylervigen.com/spurious-correlations) ponuja nekaj vizualizacij, ki poudarjajo to točko.

### 2. Raziskovanje porazdelitve podatkov

Postavimo si nekaj bolj subtilnih vprašanj. Ali se žanri bistveno razlikujejo v zaznavanju njihove plesnosti glede na njihovo priljubljenost? Preučimo porazdelitev podatkov naših treh najbolj priljubljenih žanrov glede priljubljenosti in plesnosti vzdolž določene osi x in y z uporabo [gostotnih grafov](https://www.khanacademy.org/math/ap-statistics/density-curves-normal-distribution-ap/density-curves/v/density-curves).


In [None]:
# Perform 2D kernel density estimation
density_estimate_2d <- nigerian_songs %>% 
  ggplot(mapping = aes(x = popularity, y = danceability, color = artist_top_genre)) +
  geom_density_2d(bins = 5, size = 1) +
  paletteer::scale_color_paletteer_d("RSkittleBrewer::wildberry") +
  xlim(-20, 80) +
  ylim(0, 1.2)

# Density plot based on the popularity
density_estimate_pop <- nigerian_songs %>% 
  ggplot(mapping = aes(x = popularity, fill = artist_top_genre, color = artist_top_genre)) +
  geom_density(size = 1, alpha = 0.5) +
  paletteer::scale_fill_paletteer_d("RSkittleBrewer::wildberry") +
  paletteer::scale_color_paletteer_d("RSkittleBrewer::wildberry") +
  theme(legend.position = "none")

# Density plot based on the danceability
density_estimate_dance <- nigerian_songs %>% 
  ggplot(mapping = aes(x = danceability, fill = artist_top_genre, color = artist_top_genre)) +
  geom_density(size = 1, alpha = 0.5) +
  paletteer::scale_fill_paletteer_d("RSkittleBrewer::wildberry") +
  paletteer::scale_color_paletteer_d("RSkittleBrewer::wildberry")


# Patch everything together
library(patchwork)
density_estimate_2d / (density_estimate_pop + density_estimate_dance)


Vidimo, da so tu koncentrični krogi, ki se ujemajo, ne glede na žanr. Ali je mogoče, da se nigerijski okusi pri tem žanru zbližajo na določeni ravni plesnosti?

Na splošno se trije žanri ujemajo glede na svojo priljubljenost in plesnost. Določanje skupkov v teh ohlapno poravnanih podatkih bo izziv. Poglejmo, ali lahko raztreseni diagram to podpre.


In [None]:
# A scatter plot of popularity and danceability
scatter_plot <- nigerian_songs %>% 
  ggplot(mapping = aes(x = popularity, y = danceability, color = artist_top_genre, shape = artist_top_genre)) +
  geom_point(size = 2, alpha = 0.8) +
  paletteer::scale_color_paletteer_d("futurevisions::mars")

# Add a touch of interactivity
ggplotly(scatter_plot)


Razpršeni diagram istih osi prikazuje podoben vzorec konvergence.

Na splošno lahko za razvrščanje uporabite razpršene diagrame, da prikažete skupine podatkov, zato je obvladovanje te vrste vizualizacije zelo koristno. V naslednji lekciji bomo uporabili te filtrirane podatke in s k-means razvrščanjem odkrili skupine v teh podatkih, ki se na zanimive načine prekrivajo.

## **🚀 Izziv**

V pripravi na naslednjo lekcijo naredite diagram o različnih algoritmih za razvrščanje, ki jih morda odkrijete in uporabite v produkcijskem okolju. Kakšne vrste težav poskuša razvrščanje rešiti?

## [**Kvizi po predavanju**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/28/)

## **Pregled & Samostojno učenje**

Preden uporabite algoritme za razvrščanje, kot smo se naučili, je dobro razumeti naravo vašega nabora podatkov. Več o tej temi preberite [tukaj](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html).

Poglobite svoje razumevanje tehnik razvrščanja:

-   [Usposabljanje in ocenjevanje modelov za razvrščanje z uporabo Tidymodels in prijateljev](https://rpubs.com/eR_ic/clustering)

-   Bradley Boehmke & Brandon Greenwell, [*Hands-On Machine Learning with R*](https://bradleyboehmke.github.io/HOML/)*.*

## **Naloga**

[Raziskujte druge vizualizacije za razvrščanje](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/assignment.md)

## HVALA:

[Jen Looper](https://www.twitter.com/jenlooper) za ustvarjanje izvirne Python različice tega modula ♥️

[`Dasani Madipalli`](https://twitter.com/dasani_decoded) za ustvarjanje neverjetnih ilustracij, ki omogočajo boljše razumevanje konceptov strojnega učenja in jih naredijo bolj dostopne.

Veselo učenje,

[Eric](https://twitter.com/ericntay), Gold Microsoft Learn Student Ambassador.



---

**Omejitev odgovornosti**:  
Ta dokument je bil preveden z uporabo storitve za strojno prevajanje [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem izvirnem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo strokovno človeško prevajanje. Ne prevzemamo odgovornosti za morebitna nesporazumevanja ali napačne razlage, ki izhajajo iz uporabe tega prevoda.
