Vi undersöker fyra olika linjära beslutsgränser:
Vår egen: y = x
f(x) = -0.489x
g(x) = -2x + 0.16
h(x) = 800x - 120

In [1]:
import numpy as np
import matplotlib.pyplot as plt


try:
    data = np.loadtxt("unlabelled_data.csv", delimiter=",")
    if data.ndim != 2 or data.shape[1] < 2:
        raise ValueError("Data must have at least 2 columns (x, y).")
    x, y = data[:, 0], data[:, 1]
except OSError as e:
    print(f"File error: {e}")
    x, y = np.array([]), np.array([])
except ValueError as e:
    print(f"Data error: {e}")
    x, y = np.array([]), np.array([])
except Exception as e:
    print(f"Unexpected error: {e}")
    x, y = np.array([]), np.array([])


def classify(x, y, func):
    try:
        return (y >= func(x)).astype(int)
    except Exception as e:
        print(f"Classification error: {e}")
        return np.array([])


lines = {
    "Vår linje: y = x": lambda x: x,
    "f(x) = -0.489x": lambda x: -0.489 * x,
    "g(x) = -2x + 0.16": lambda x: -2 * x + 0.16,
    "h(x) = 800x -120": lambda x: 800 * x - 120,
}


if x.size > 0 and y.size > 0:
    try:
        plt.figure(figsize=(10, 8))
        plt.scatter(x, y, c="gray", s=20, alpha=0.7, label="Data")

        x_plot = np.linspace(x.min(), x.max(), 200)
        for name, func in lines.items():
            plt.plot(x_plot, func(x_plot), label=name)

        plt.xlabel("x")
        plt.ylabel("y")
        plt.title("Jämförelse av beslutsgränser")
        plt.legend()
        plt.grid(True, linestyle="--", alpha=0.5)
        plt.ylim(-5, 5)
        plt.show()
    except Exception as e:
        print(f"Plotting error: {e}")
else:
    print("No data available for plotting.")


ModuleNotFoundError: No module named 'numpy'

In [3]:
labels = {}  # Fixed from 'lables'
for name, func in lines.items():
    labels[name] = classify(x, y, func)

for name, lab in labels.items():
    print(f"{name}: {np.sum(lab)} punkter i klass 1 (av {len(lab)})")

Vår linje: y = x: 294 punkter i klass 1 (av 600)
f(x) = -0.489x: 301 punkter i klass 1 (av 600)
g(x) = -2x + 0.16: 301 punkter i klass 1 (av 600)
h(x) = 800x -120: 302 punkter i klass 1 (av 600)


Vår linje (y = x) ger en balanserad uppdelning (~50/50) och följer datans naturliga separation.
f(x) = -0.489x har negativ lutning och delar datan tvärs över – den klassificerar nästan alla punkter som klass 1 (fel!).
g(x) = -2x + 0.16 är ännu brantare negativ – ännu sämre separation.
h(x) = 800x - 120 är extremt brant. För alla x < 0.15 är `h(x) < 0`, men för x > 0.15 skyter den uppåt. I praktiken klassificerar den nästan alla punkter som klass 0, utom de längst till höger.

Slutsats
Endast linjer med positiv lutning kan skilja dessa två kluster. 
Det finns oändligt många sådana linjer som fungerar (t.ex. `y = 0.8x`, `y = 1.2x - 0.3`), 
men de måste ligga i "mellanrummet" mellan klustren. 
Vår valda linje `y = x` är enkel och effektiv.

Linjer med negativ lutning är olämpliga eftersom de inte respekterar datans struktur.    