# DMML-01

Kurzusinformációk; módszertan; $k$-means algoritmus; `numpy`, `pandas`,
`matplotlib`, `seaborn`, `polars` gyakorlás.

<strong>Honlap:</strong>
<a href="https://apagyidavid.web.elte.hu/2025-2026-1/dmml"
target="_blank">apagyidavid.web.elte.hu/2025-2026-1/dmml</a>

<a target="_blank" href="https://colab.research.google.com/github/dapagyi/dmml-web/blob/gh-pages/notebooks/dmml-01.ipynb"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Módszertani kísérlet

Kísérleti jelleggel a következő gyakorlattól kezdve áthelyezzük a
hangsúlyt arról, hogy *hogyan* lehet az eszközöket kód szintjén
használni, arra, hogy *mit* tudunk, illetve főleg azt *miért* akarjuk
megvalósítani velük.

Emiatt a feladatok megoldásához szükséges programozási ismeretek
elsajátítása a Hallgató feladata. (A gyakorlat anyagai között lesznek
példakódok, de minimális időt fogunk szentelni a soronkénti
értelmezésükre.)

Mihez, illetve kihez tudunk fordulni segítségért? Például a
következőkhöz:

-   gyakorlati anyagok példakódjai;
-   debugger;
-   keresők (Google, DuckDuckGo stb.);
-   a használt könyvtárak User Guide-jai, dokumentációi;
-   LLM-ek (Copilot, ChatGPT stb.); valamint
-   *iránymutatásért* egymáshoz; illetve
-   bármilyen kérdéssel a gyakorlatvezetőhöz.

Ezen a gyakorlaton ennek alapozunk meg: cél, hogy kipróbáljuk a Copilot,
a debugger és a dokumentáció használatát.

> **AI használata a gyakorlaton**
>
> Az alapelv az, hogy – megfelelő odafigyeléssel – szabad, sőt
> *támogatott* AI alapú eszközöket használni a tanulás, önfejlesztés
> eszközeként.
>
> -   Először próbáljuk meg a feladatokat hagyományos eszközökkel
>     megközelíteni.
> -   Ne vakon használjuk az LLM-eket, értsük meg a válaszokat,
>     győződjünk meg azok helyességéről (szemantikailag helyes-e, nem
>     elavult-e véletlenül). Vegyük észe, és javítsuk ki a hibákat.
> -   Használhatjuk ötletelésre, inspirációgyűjtésre, forráskeresésre
>     is.

# $k$-means algoritmus

## Emlékeztető

<figure>
<img
src="https://apagyidavid.web.elte.hu/2025-2026-1/dmml/static/k-means.png"
alt="A k-means algoritmus lépései" />
<figcaption aria-hidden="true">A k-means algoritmus lépései<a
href="#fn1" class="footnote-ref" id="fnref1"
role="doc-noteref"><sup>1</sup></a></figcaption>
</figure>
<section id="footnotes" class="footnotes footnotes-end-of-document"
role="doc-endnotes">
<hr />
<ol>
<li id="fn1"><p>Részlet az előadás diáiból.<a href="#fnref1"
class="footnote-back" role="doc-backlink">↩︎</a></p></li>
</ol>
</section>

## `numpy` gyakorlás

Az alábbi feladatokhoz ahol csak lehet, használj alkalmas `numpy`
függvényeket; ciklusok helyett keresd meg és használd a megfelelő
vektorizált alternatívákat.

Böngészd, használd a dokumentációt:

-   <a href="https://numpy.org/doc/stable/user/index.html"
    target="_blank">NumPy User Guide</a>
-   <a href="https://numpy.org/doc/stable/reference/index.html"
    target="_blank">NumPy API Reference</a>

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import seaborn as sns
import polars as pl

1.  Írj függvényt, amely a klaszterezendő pontok alapján inicializál
    néhány kezdő középpontot a klasztereknek!
    -   Mi legyen a stratégia? Nyugodtan válasszuk a legegyszerűbbet,
        ami eszünkbe jut.[1]

[1] Érdemes tudni, hogy léteznek
<a href="https://en.wikipedia.org/wiki/K-means%2B%2B"
target="_blank">kifinomultabb módszerek</a> is.

In [2]:
def initialize_centroids(points: np.ndarray, n_clusters: int) -> np.ndarray:
    """Initialize centroids for KMeans clustering."""

    # TODO: If the points are in an m × n dimensional array,
    # the shape of the output should be (n_clusters, n).

    raise NotImplementedError()


def test_centroid_initialization():
    points = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
    k = 3
    centroids = initialize_centroids(points, n_clusters=k)

    assert centroids.shape[0] == k
    assert centroids.shape[1] == points.shape[1]

    return "Success!"


test_centroid_initialization()

1.  Kódértelmezés: mit csinál az alábbi függvény?
    -   Ha nincs ötleted, futtasd le a kommentben lévő példát.
    -   Ha kész vagy, tedd olvashatóbbá a kódot. (Függvény neve,
        változónevek, type hintek, docstring.)

In [3]:
def foo_bar(p, c):
    """Darth Vader"""

    whatever = np.linalg.norm(p[:, np.newaxis] - c, axis=2)
    return whatever


# p = np.array([[1, 2], [3, 4], [5, 6]])
# c = np.array([[2, 2], [6, 6]])
# print(foo_bar(p, c))

1.  Írj függvényt, amely a pontokat hozzárendeli a legközelebbi
    középponthoz!
    -   A függvény az inputként megadott pontok számával azonos
        hosszúságú array-jel térjen vissza; minden pont esetén a hozzá
        legközelebbi középpont *indexével*.

In [4]:
def closest_centroids(points: np.ndarray, centroids: np.ndarray) -> np.ndarray:
    """Assign each point to the closest centroid."""

    # TODO: The result should be a 1D array where each element represents
    # the index of the closest centroid for the corresponding point.

    raise NotImplementedError()


# Example usage
points = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
centroids = np.array([[2, 2], [6, 6]])
print(closest_centroids(points, centroids))

1.  Az előzőek felhasználásával valósítsd meg az alábbi függvényt:

In [5]:
def calculate_new_centroids(X: np.ndarray, labels: np.ndarray, n_clusters: int) -> np.ndarray:
    # TODO. (Hint: use a list comprehension.)
    raise NotImplementedError()

# TODO: Example usage

1.  Az előbbi függvények felhasználásával készítsd el az algoritmust!
    -   Építs be leállási feltételként maximális iterációszámot
        (`max_iterations`), illetve egy küszöbértéket is (`tol`). Ha a
        klaszterek középpontjai már csak összességében az előbbi
        értéknél kisebb mértékben mozdulnak el, leállunk.

In [6]:
class KMeans:
    def __init__(
        self,
        n_clusters: int,
        max_iterations: int = 20,
        tol: float = 1e-3,
    ):
        self.n_clusters = n_clusters
        self.max_iterations = max_iterations
        self.tol = tol

    def fit(self, X: np.ndarray):
        self.centroids = initialize_centroids(X, self.n_clusters)

        for _ in range(self.max_iterations):
            # TODO: Use the previously implemented functions to run the k-means algorithm on X.
            # (X is just an array of points, as before.)
            raise NotImplementedError()

    def fit_predict(self, X: np.ndarray) -> np.ndarray:
        self.fit(X)
        return self._labels


# TODO: Example usage
kmeans = KMeans(2)
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
kmeans.fit(X)
print(kmeans._labels)

In [7]:
random_state = 0
np.random.seed(random_state)

n_samples = 1500
X, y = make_blobs(n_samples=n_samples, cluster_std=[1.0, 2.5, 0.5], random_state=random_state)
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 6))
ax1.scatter(X[:, 0], X[:, 1], c=y)

y_pred = KMeans(n_clusters=3).fit_predict(X)
ax2.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

1.  Biztosak vagyunk, hogy minden esetben megfelelően működik a kódunk?
    Mikor dobhat mégis kivételt a kód?

> **Segítség #1: Mi okozhat problémát?**
>
> <a
> href="https://user.ceng.metu.edu.tr/~tcan/ceng465_f1314/Schedule/KMeansEmpty.html"
> target="_blank">Lásd ezen a linken.</a>

> **Segítség #2: Hol lenne érdemes módosítani a meglévő kódot?**
>
> Módosítsuk a `calculate_new_centroids` függvényt, hogy kezelje a fenti
> esetet. <a
> href="https://stackoverflow.com/questions/11075272/k-means-empty-cluster"
> target="_blank">Sokféle ötlet, heurisztika alkalmazása lehetséges.</a>

# `pandas` gyakorlás

> **Ha egy kicsit is haladóbbnak érzed magad…**
>
> Ha egy kicsit is haladóbbnak érzed magad, nyugodtan ugorj a
> <a href="#polars-gyakorlás">`polars` gyakorlás</a> szakaszra.

A félév során sokat fogunk zsonglőrködni tabuláris adatokkal, ezért
szükséges némi jártasság a `pandas` (vagy a `polars`) csomag terén.

Idézzük fel az idevonatkozó ismereteinket, és válaszoljunk meg néhány
alapvető kérdést a Titanic adathalmazról.

In [8]:
df = pd.read_csv("https://apagyidavid.web.elte.hu/2025-2026-1/dmml/data/titanic.csv")
df.rename(columns={"Parch": "ParCh"}, inplace=True)
print(f"Shape: {df.shape}")
df.head()

Shape: (891, 12)

1.  Próbáljuk meg kitalálni az egyes oszlopok jelentéseit.
    <a href="https://www.kaggle.com/c/titanic/data" target="_blank">Ezen az
    oldalon</a> elérhető egy leírás az adathalmazról.
    -   Mik az egyes oszlopokban lévő adatok típusai? Van-e olyan, ami
        furcsa?

In [9]:
# TODO

1.  Hány érték hiányzik az egyes oszlopokból?
    -   `matplotlib` segítségével vizualizáljuk oszloponként a hiányzó
        értékek arányát az összes sorhoz képest
        (<a href="https://matplotlib.org/"
        target="_blank"><code>matplotlib</code> dokumentáció</a>).

In [10]:
# TODO

1.  Listázzuk a numerikus oszlopok *leíró statisztikáit*.
    -   Mely oszlopok esetén van ennek egyáltalán értelme? Módosítsuk a
        kódunkat, hogy csak értelme esetekben számoljunk statisztikákat.
    -   Vizualizáljuk az előbbi értékek eloszlását `seaborn`
        segítségével (<a href="https://seaborn.pydata.org/"
        target="_blank"><code>seaborn</code> dokumentáció</a>). (Ez csak
        egy “wrapper” a `matplotlib` felett.)

In [11]:
# TODO

1.  Vizualizáljuk nemenként az életkor feltételes eloszlását.

> **Segítség**
>
> Használjuk a `groupby` és `hist` függvényeket a `pandas`
> `DateFrame`-re alkalmazva.

In [12]:
# TODO

# `polars` gyakorlás

Az elmúlt néhány évben egyre felkapottabbá váltak a Rust alapú eszközök
a “Python ecosystem”-ben. Az `uv` és a `ruff` két olyan eszköz,
amelyeket szinte minden új projektnél érdemes lehet használni:

-   előbbi egy package és project manager
    (<a href="https://docs.astral.sh/uv/" target="_blank"><code>uv</code>
    dokumentáció</a>);
-   utóbbi pedig egy linter, formatter
    (<a href="https://docs.astral.sh/ruff/" target="_blank"><code>ruff</code>
    dokumentáció</a>).

Mindkettő ugyanannak a cégnek a terméke, nyílt forráskodúak, viszont a
licenszük aggaszt néhányakat.

A `polars` egy gyorsan fejlődő `pandas` alternatíva
(<a href="https://docs.pola.rs/" target="_blank"><code>polars</code>
dokumentáció</a>).

> **`polars` key features**
>
> -   “**Fast:** Written from scratch in Rust, designed close to the
>     machine and without external dependencies.  
> -   **I/O:** First class support for all common data storage layers:
>     local, cloud storage & databases.  
> -   **Intuitive API:** Write your queries the way they were intended.
>     Polars, internally, will determine the most efficient way to
>     execute using its query optimizer.  
> -   **Out of Core:** The streaming API allows you to process your
>     results without requiring all your data to be in memory at the
>     same time.  
> -   **Parallel:** Utilises the power of your machine by dividing the
>     workload among the available CPU cores without any additional
>     configuration.  
> -   **Vectorized Query Engine**  
> -   **GPU Support:** Optionally run queries on NVIDIA GPUs for maximum
>     performance for in-memory workloads.  
> -   **Apache Arrow support:** Polars can consume and produce Arrow
>     data often with zero-copy operations. Note that Polars is not
>     built on a Pyarrow/Arrow implementation. Instead, Polars has its
>     own compute and buffer implementations.”
>
> (Részlet a dokumentációból.)

Valószínűleg `pandas` alapok unalomig voltak már más órákon. Nagyon
sokan a `polars`-ban látják a jövőt, azonban (főleg az elérhető anyagok,
LLM-támogatottság szempontjából) az átállás – pláne akadémiai közegben –
lassú és fáradságos. *Tegyünk azért a jobb világért!*

1.  Böngésszük egy kicsit a dokumentációt, majd oldjuk meg az előző
    szakaszban lévő feladatokat `polars` segítségével.

In [13]:
# TODO