![image.png](attachment:image.png)

###  Rola danych w uczeniu maszynowym

1. Fundamentalne znaczenie danych:
   - Dane są "paliwem" dla modeli uczenia maszynowego.
   - **Jakość i ilość danych często mają większy wpływ na wydajność modelu niż wybór algorytmu**.

2. Rodzaje danych w ML:

   a) Dane strukturalne: 
      - Tabele, bazy danych
      - Łatwe do przetwarzania, np. dane finansowe, demograficzne
      
   b) Dane niestrukturalne:
      - Tekst, obrazy, dźwięk, wideo
      - Wymagają zaawansowanych technik przetwarzania

3. Przygotowanie danych:

   a) Czyszczenie danych:
      - Usuwanie lub imputacja brakujących wartości
      - Obsługa wartości odstających
      - Korekcja błędów i niespójności
      
   b) Transformacja danych:
      - Normalizacja i standaryzacja
      - Kodowanie zmiennych kategorycznych
      - Redukcja wymiarowości (np. PCA, t-SNE)
      
   c) Augmentacja danych:
      - Tworzenie syntetycznych przykładów, szczególnie w zadaniach z obrazami

4. Podział danych:

   - Zbiór treningowy: do uczenia modelu
   - Zbiór walidacyjny: do oceny modelu podczas treningu i strojenia hiperparametrów
   - Zbiór testowy: do końcowej oceny modelu

5. Znaczenie reprezentatywności danych:
   - Dane treningowe powinny dobrze reprezentować rzeczywiste przypadki
   - Niezrównoważone klasy mogą prowadzić do stronniczości modelu

6. Wpływ wielkości zbioru danych:
   - Większe zbiory danych często prowadzą do lepszych modeli
   - Małe zbiory danych mogą prowadzić do przeuczenia
   - Techniki dla małych zbiorów: transfer learning, data augmentation

7. Jakość vs. ilość:
   - Czasami mniejszy, ale wysokiej jakości zbiór danych jest lepszy niż duży, ale zaszumiony
   - Znaczenie etykietowania danych i kontroli jakości

8. Dynamika danych:
   - Dane mogą zmieniać się w czasie (concept drift)
   - Potrzeba ciągłego monitorowania i aktualizacji modeli

9. Prywatność i etyka danych:
   - Ochrona danych osobowych (np. RODO)
   - Unikanie stronniczości i dyskryminacji w danych

10. Eksploracyjna analiza danych (EDA):
    - Kluczowy etap przed modelowaniem
    - Zrozumienie rozkładów, korelacji i wzorców w danych

11. Feature engineering (inżynieria cech):
    - Tworzenie nowych cech na podstawie istniejących danych
    - Często kluczowe dla poprawy wydajności modelu

12. Obsługa danych strumieniowych:
    - Przetwarzanie danych w czasie rzeczywistym
    - Techniki uczenia przyrostowego (batch)

13. Dane w różnych paradygmatach uczenia:
    - Uczenie nadzorowane: etykietowane dane
    - Uczenie nienadzorowane: dane bez etykiet
    - Uczenie półnadzorowane: mieszanka danych etykietowanych i nieetykietowanych
    - Uczenie ze wzmocnieniem: dane generowane przez interakcję z środowiskiem

14. Wyzwania związane z danymi:
    - Big Data: obsługa ogromnych ilości danych
    - Rzadkie dane: problemy z niedostateczną reprezentacją niektórych klas
    - Zaszumione dane: radzenie sobie z błędami i nieistotnymi informacjami

15. Narzędzia do pracy z danymi w Pythonie:
    - Pandas: manipulacja i analiza danych
    - NumPy: operacje numeryczne
    - Scikit-learn: preprocessing danych
    - Matplotlib i Seaborn: wizualizacja danych

16. Przechowywanie i dostęp do danych:
    - Bazy danych (SQL, NoSQL)
    - Systemy plików rozproszone (np. Hadoop)
    - Chmurowe rozwiązania do przechowywania danych

17. Transfer learning i pre-trained models:
    - Wykorzystanie modeli wytrenowanych na dużych zbiorach danych
    - Adaptacja do specyficznych zadań z mniejszą ilością danych

### Koncepcja modeli i algorytmów

Model w uczeniu maszynowym to matematyczna reprezentacja procesu decyzyjnego:
- Model jest tworzony przez algorytm uczenia się na podstawie danych treningowych.
- Może to być np. funkcja liniowa w regresji, drzewo decyzyjne, czy złożona sieć neuronowa.

Algorytmy uczenia maszynowego to procedury używane do tworzenia i trenowania modeli:
- Istnieją różne rodzaje algorytmów, dostosowane do różnych typów problemów i danych.
- Przykłady obejmują algorytmy regresji, klasyfikacji, grupowania, czy redukcji wymiarowości.
- Wybór odpowiedniego algorytmu zależy od natury problemu, dostępnych danych i pożądanych wyników.

Proces uczenia:
1. Inicjalizacja modelu z początkowymi parametrami.
2. Wykorzystanie danych treningowych do dostosowania parametrów modelu.
3. Iteracyjne poprawianie modelu poprzez minimalizację funkcji straty (loss function).
4. Walidacja modelu na nowych danych w celu oceny jego zdolności do generalizacji.

Kluczowe pojęcia:
- **Hiperparametry i parametry modeli**