# Uczenie Maszynowe (kurs zima 2024/2025)

## Prowadzący zajęcia:

* Dr Kamil Smolak; email: <kamil.smolak@upwr.edu.pl>

# UM 1 - Ćwczenia

Zaczynamy dziś nietypowo - od ćwiczeń.

<b> Dzisiejsze ćwiczenia skupią się zatem na podstawowej umiejętności  niezbędnej do nauki uczenia maszynowego - Pythona </b>

Po wstęp do przedmiotu i teorię zapraszam do wykład - piątki 10:00 (co drugi piątek)

# Forma zajęć:

Wszystkie materiały do zajęć, wykłady i ćwiczenia są dostępne online w postaci Jupyter Book. (smolakk.github.io/UczenieMaszynowe2025)

Materiały są interaktywnymi notebookami Pythona, które umożliwiają prezentację i praktykę umiejętności związanych z uczeniem maszynowym.

Materiały będą dostępne online *przed* ćwiczeniami, co pozwoli na realizację zajęć w fomie _odwróconej_, w której studenci zapoznają się z materiałami *przed* ćwiczeniami. Dzięki temu możemy postawić większy nacisk na praktykę w trakcie zajęć.

In [2]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
import ipywidgets as widgets
from ipywidgets import interact

# Load Iris Dataset
iris = load_iris()
X = iris.data
y = iris.target

# Use PCA to reduce to 2 dimensions for visualization
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)

# Standardize the dataset
scaler = StandardScaler()
X_reduced = scaler.fit_transform(X_reduced)

# Train-test split
X_train, X_test, y_train, y_test = train_test_split(X_reduced, y, test_size=0.2, random_state=42)

# Interactive function to visualize the decision boundary with different regularization strength
def plot_classification(C):
    # Create and train the model
    model = LogisticRegression(C=C, multi_class='ovr')
    model.fit(X_train, y_train)

    # Predict the test set
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)

    # Plot decision boundary
    plt.figure(figsize=(8, 6))
    x_min, x_max = X_train[:, 0].min() - 1, X_train[:, 0].max() + 1
    y_min, y_max = X_train[:, 1].min() - 1, X_train[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01), np.arange(y_min, y_max, 0.01))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    plt.contourf(xx, yy, Z, alpha=0.8)
    plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, edgecolors='k', marker='o', label='Train set')
    plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, marker='x', label='Test set')
    
    plt.title(f'Logistic Regression (C={C:.2f})\nAccuracy: {accuracy:.2f}')
    plt.xlabel('PCA Component 1')
    plt.ylabel('PCA Component 2')
    plt.legend(loc='upper left')
    plt.show()

# Interactive slider to control the regularization strength (C parameter)
interact(plot_classification, C=widgets.FloatSlider(value=1.0, min=0.01, max=1.0, step=.1, description='C (Inverse of Regularization Strength)'));


interactive(children=(FloatSlider(value=1.0, description='C (Inverse of Regularization Strength)', max=1.0, mi…

## Cel zajęć i ćwiczeń

Przedmiot obejmuje wprowadzenie i kształcenie w dziedzinie uczenia maszynowego i powiązanych obszarów, takich jak Data Science.

Ćwiczenia skupią się na praktyce związanej z uczeniem maszynowym.


## Dzisiejsze ćwiczenia

Podstawową umiejętnością (dla tych zajęć jak i dla stosowania uczenia maszynowego) jest programowanie w Pythonie. Dzisiejsze ćwiczenia poświęcone są przypomnieniu sobie tej umiejętności oraz ocenie Państwa zaawansowania w programowaniu w Pythonie.

Python jest najlepszym językiem do nauki uczenia maszynowego, głównie ze względu na bogactwo bibliotek i narzędzi poświęconych temu tematowi.


## Czym jest uczenie maszynowe?

Uczenie maszynowe (Machine Learning) to poddział sztucznej inteligencji (AI) (na wykładzie więcej o tym podziale), który zajmuje się rozwojem algorytmów zdolnych do uczenia się na podstawie danych i wykonywania pewnych decyzji lub predykcji nie będąc wprost zaprogramowanych do tego.

Algorytmy uczenia maszynowego mają za zadanie odkryć wzorzec w danych i powiązać ze sposobem rozwiązania konkretnego zadania.

Pokrótce można powiedzieć że algorytmy uczą sie na podstawie doświadczenia E jak wykonać zadanie T oceniając się poprzez P, wtedy gdy ich zdolność do wykonywania T oceniana przez P wzrasta dzięki E.

To oznacza, że algorytmy ulepszają się bez interwencji człowieka, to nazywamy "uczeniem".

### Kluczowe koncepcje związane z uczeniem maszynowym:

* Oparte na danych - podstawą uczenia maszynowego są dane. Te dane to właśnie doświadczenie E. Bez nich, niemożliwy jest trening algorytmu.
    
    
* Nauka na podstawie doświadczenia E oznacza wykorzystanie jakichś danych, np. historycznych by zdobyć wiedzę i zaaplikować je do obecnego problemu i nowych danych opisujących ten problem.
    
    
* Model - modele stanowią podstawę uczenia maszynowego, modele stworzone są tak by być w stanie się uczyć.
    
    
* Trening - trening oznacza pozyskiwanie wiedzy z doświadczenia E i odpowiednie dostosowanie modelu według miary oceny P by wykonać T
    
    
* Testowanie - testowanie jest niezbędne do oceny tego jak nasz model radzi sobie w rzeczywistości. Oceniamy jak wykonuje zadanie T na podstawie miar P.
     
     
* Uczenie nadzorowane - uczenie, w którym algorytm na podstawie "poprawnych" przykładów wykonania zadania uczy się jak je wykonywać.


* Uczenie nienadzorowane - uczenie, w którym algorytm musi wykonuje zadanie bez poprawnych przykładów, odkrywając ukryte wzorce w danych.


* Uczenie przez wzmocnienie - typ uczenia, w którym algorytm poprzez interakcję z otoczeniem i system nagród i kar uczy się wykonywać zadanie.


## Niezbędne umiejętności


* Statystyka
    * Rachunek prawdopodobieństwa, podstawy statystyki (miary statystyczne, rozkłady zmiennych, testy statystyczne)
        * Modele uczenia maszynowego oparte są na koncepcji prawdopodobieństwa
        * Zrozumienie danych wymaga znajomość właściwości statystycznych danych
    * Algebra liniowa
        * Algebra liniowa stanowi podstawę obliczeń prowadzonych w algorytmach, obejmuje to operacje na wektorach, macierzach i tensorach, transformacje linearne
    * Rachunek różniczkowy
         * Większość algorytmów, a zwłaszcza część związana z ich optymalizacją jest oparta na pojęciu pochodnych i gradientów. Wiedza ta niezbędna jest do "uczenia" algorytmów
    * Rachunek wyrównawczy (optymalizacja)
         * Wiedza z rachunku wyrównawczego (choć niezwiązana z geodezyjnym wymiarem wiedzy) będzie bardzo przydatna w kontekście optymalizacji modeli - o to w końcu chodzi w rachunku wyrównawczym.
* Programowanie (Python)
    * Biblioteki Pythona związane z uczeniem maszynowym:
        * NumPy - algebra liniowa
        * Pandas - zarządzanie danymi
        * Matplotlib - wizualizacja danych
        * Scikit-learn - standardowe algorytmy uczenia maszynowego
        * TensorFlow, Keras, PyTorch - uczenie głębokie

## Potrenujmy zatem Pythona (i matematykę)

### Wykonaj mnożenie dwóch wektorów z wykorzystaniem:

    1. Wyłącznie Pythona (uwzględnij ograniczenia - wektory muszą być tej samej długości)
    2. Wykorzystając bibliotekę NumPy
    
Mnożymy dwa wektory a i b, jak podane poniżej:

a = [1, 2, 3]
b = [4, 5, 6]


Oczekiwany wynik: 32

### Wykonaj mnożenie dwóch macierzy z wykorzystaniem:

1. Wyłącznie Pythona (uwzględnij warunek)
2. Wykorzystując NumPy

Wejście:
A = [[1, 2], [3, 4]]
B = [[5, 6], [7, 8]]

Wyjście:
[[19, 22], [43, 50]]

In [12]:
A = [[1, 2], [3, 4]]
B = [[5, 6], [7, 8]]

### Oblicz pochodną funkcji wykorzystując:

0. Ręcznie
1. Wyłącznie Pythona
2. Wykorzystując SciPy

Obliczmy pochodną dla funkcji

def f(x):
    return x**2
    
w punkcie 2, przyjmij mały krok ~1e-5

<p>Wykorzystaj wzór:</p>
<p>
  <math xmlns="http://www.w3.org/1998/Math/MathML">
    <mfrac>
      <mrow>
        <mi>f</mi><mo>&#x2061;</mo><mo>&#x2061;</mo><mo>(</mo><msub><mi>x</mi><mn>0</mn></msub><mo>+</mo><mi>h</mi><mo>)</mo><mo>-</mo>
        <mi>f</mi><mo>&#x2061;</mo><mo>(</mo><msub><mi>x</mi><mn>0</mn></msub><mo>-</mo><mi>h</mi><mo>)</mo>
      </mrow>
      <mrow>
        <mn>/2</mn><mi>h</mi>
      </mrow>
    </mfrac>
  </math>
</p>


In [55]:
def f(x):
    return x**2

x0 = 2
h = 1e-5 

In [None]:
from scipy.misc import derivative

### Oblicz wartość prawdopodobieństwa w rozkładzie normalnym wykorzystując:

1. Wyłącznie Pythona
2. Wykorzystując SciPy


i zwizualizuj wykres dla różnych parametrów.

In [None]:
from scipy.stats import norm

### Rozwiąż problem optymalizacyjny wykorzystując:

1. Wykorzystując NumPy
2. wykorzystując SciPy

Optymalizowana funkcja jest liniowa:
y = XA

gdzie A to poszukiwane parametry.

Dane do optymalizacji:

X = np.array([[1, 1], [1, 2], [1, 3], [1, 4]])
y = np.array([2, 3, 4, 5])

In [81]:
X = np.array([[1, 1], [1, 2], [1, 3], [1, 4]])
y = np.array([2, 3, 4, 5])

array([1., 1.])

In [87]:
from scipy.optimize import minimize

def kwadrat_bledu(theta, X, y):
    m = len(y)  # Liczba próbek
    predictions = X.dot(theta) # predykcje
    return (1 / (2 * m)) * np.sum((predictions - y) ** 2) # suma kwadratów błędu