# FMZ Übung 4: **Data Mining & Clustering**

---
### Ziel der Übung
- Verständnis und Anwendung von K‑Means, hierarchischem Clustering und dichtebasierten Methoden (Mean‑Shift, DBSCAN).  
- Vergleich der Methoden an **denselben** synthetischen Datensätzen (kreisförmig & nicht-kreisförmig).  
- Anwendung von Hidden‑Markov‑Modellen (HMM) auf sequenzielle Daten.  
- Interpretation und Visualisierung der Ergebnisse.  
- Weiterführende Datensätze und Aufgaben für vertiefende Übungen.


---
### Benötigte Pakete

```{r, eval=FALSE}
 # install.packages(c("dbscan", "LPCM"))
 library(dbscan)
 library(LPCM)
```

---


## Datengenerierung (kreisförmig & nicht-kreisförmig)

```{r, eval=FALSE}
 set.seed(123)
 n <- 1000  
```

---
### Kreisförmige Clusters (Blob)

```{r, eval=FALSE}
 blob <- data.frame(
     x <- c(rnorm(n/2,  1, 0.07), rnorm(n/2, 0, .3)),
     y <- c(rnorm(n/2, -1, 0.07), rnorm(n/2, 0, .3)))
```

---
### Nicht-kreisförmige Daten (Moon)

```{r, eval=FALSE}
 moon <- data.frame(
     x <- c(runif(n-200), rnorm(200,0.5,.03)),
     y <- c(20*x[1:(n-200)] * (1-x[1:(n-200)]) + rnorm(n-200, 0, 0.3), rnorm(200, 0, 0.3)))
```

---
### Visualisierung

```{r, eval=FALSE}
 names(blob) <- c("X","Y")
 names(moon) <- c("X","Y")

 plot(blob, main = "Kreisförmige Daten (blob)", pch=19, col = c(rep(rgb(0,0.5,0.5,0.4),n/2),rep(rgb(1,0,0,0.4),n/2)))
 plot(moon, main = "Nicht-kreisförmige Daten (moon)", pch=19, col = c(rep(rgb(1,0,0,0.4),n-200),rep(rgb(0,0.5,0.5,0.4),200)))
```
---
   

## 1. K-means

---
### Aufgaben

---
1.  K-Means auf blob

    ```{r, eval=FALSE}
    km_blob <- kmeans(blob, centers = 2)
    ```

---
2. K-Means auf moon

    ```{r, eval=FALSE}
    km_moon <- kmeans(moon, centers = 2)
    ```

---
3. Graphische Darstellung (Scatterplot mit Clustern)

    ```{r, eval=FALSE}
    plot(blob, col=km_blob$cluster)
    points(km_blob$centers[,1], km_blob$centers[,2], pch = 19, cex = 3, col = c(1,2))
    plot(moon, col=km_moon$cluster)
    points(km_moon$centers[,1], km_moon$centers[,2], pch = 19, cex = 3, col = c(1,2))

    #fviz_cluster(list(data = blob, cluster = km_blob$cluster), geom = "point") + ggtitle("K-means - Blob")
   ```
---


## 2. Hierarchisches Clustering (HC)

---
Verschiedene Distanz-Methoden

```{r, eval=FALSE}
meth <- "ward.D2" # "ward.D" "single"  "complete"
```

---
Aufgaben

---
1. HC auf blob

    ```{r, eval=FALSE}
    hc_blob <- hclust(dist(blob), method = meth)
    ```

---
2. HC auf moon

    ```{r, eval=FALSE}
    hc_moon <- hclust(dist(moon), method = meth)
    ```

---
3. Graphische Darstellung (Dendrogramme + Scatterplot mit Clustern)

    ```{r, eval=FALSE}
    plot(hc_blob, xlab = "Observations\n\n", main=paste("HC (Blob) - Method =", meth), labels=FALSE)
    rect.hclust(hc_blob, k=2, border="blue")
    plot(blob, col=cutree(hc_blob, 2))
    
    plot(hc_moon, xlab = "Observations\n\n", main=paste("HC (Moon) - Method =", meth), labels=FALSE)
    rect.hclust(hc_moon, k=2, border="blue")
    plot(moon, col=cutree(hc_moon, 2))
    ```
 ---
   

## 3. Mean-Shift
Parameter h (bandwith) kann experimentell gewählt werden.

---
### Aufgaben

---
1. Mean-shift auf blob

    ```{r, eval=FALSE}
    ms_blob <- ms(blob)
    ```

---
2. Mean-shift auf moon

    ```{r, eval=FALSE}
    ms_moon <- ms(moon)
    ```
---
   

## 4. DBSCAN (alternative dichte-basierte Methode)

Parameter `eps` und `minPts` müssen experimentell gewählt werden.

---
### Aufgaben

1. DBSCAN auf blob

    ```{r, eval=FALSE}
    db_blob <- dbscan(blob, eps = 0.1, minPts = 1)
    ```

---
2. DBSCAN auf Moon

    ```{r, eval=FALSE}
    db_moon <- dbscan(moon, eps = 0.1, minPts = 1)
    ```

---
3. Graphische Darstellung (Scatterplot mit Clustern)

    ```{r, eval=FALSE}
    plot(blob, col=db_blob$cluster)
    plot(moon, col=db_moon$cluster)
    ```
---


## 5. Vergleiche alle Methoden nebeneinander (K-Means, HC, MeanShift, DBSCAN)

```{r, eval=FALSE}
 par(mfrow=c(2,2))
 plot(blob, col = km_blob$cluster, pch=19, main = "CIRCLE  K-Means")
 plot(blob, col = cutree(hc_blob, k=2), pch=19, main = "HC")
 plot(blob, col = ms_blob$cluster.label, pch=19, main = "Mean-Shift")
 plot(blob, col = db_blob$cluster + 1, pch=19, main = "DBSCAN")
 plot(moon, col = km_moon$cluster, pch=19, main = "BLOBS1  K-Means")
 plot(moon, col = cutree(hc_moon, k=2), pch=19, main = "HC")
 plot(moon, col = ms_moon$cluster.label, pch=19, main = "Mean-Shift")
 plot(moon, col = db_moon$cluster + 1, pch=19, main = "DBSCAN")
```


## 6. Hidden Markov Model (HMM)

---
Aufgaben

---
1. Lesen der Daten
  
    ```{r, eval=FALSE}
    Healthy  = scan("https://raw.githubusercontent.com/antoinetordeux/Datasets/refs/heads/main/Healthy.txt")
    Bearing  = scan("https://raw.githubusercontent.com/antoinetordeux/Datasets/refs/heads/main/Bearing.txt")
    Flywheel = scan("https://raw.githubusercontent.com/antoinetordeux/Datasets/refs/heads/main/Flywheel.txt")
    LIV      = scan("https://raw.githubusercontent.com/antoinetordeux/Datasets/refs/heads/main/LIV.txt")
    
    X = c(Healthy, Bearing, Flywheel, LIV)
    ```

---
2. Filtering (mobile average)

    ```{r, eval=FALSE}
    dX = data.frame(X = apply(embed(X,700), 1, mean))
    ```

---
3. Hidden-Markov-Modell

    ```{r, eval=FALSE}
    # install.packages("depmixS4")
    # library(depmixS4)
    HMM = depmix(X~1, data = dX, nstates = 4)
    HMM = fit(HMM)
    HMM = posterior(HMM, type = "viterbi")
    ```

---
4. Darstellung der Ergebnisse

    ```{r, eval=FALSE}
    par(mfrow = c(2,1))
    plot(dX$X, col = HMM$state)
    plot(X[1:nrow(dX)], col = HMM$state)
    ```
---
