![StatystykavsMLvsAI](data_scientist.png)

##### Na początku trochę teorii... A później co raz więcej praktyki

## Definicja uczenia maszynowego


### Podstawowa definicja:

   Uczenie maszynowe to dziedzina sztucznej inteligencji, która zajmuje się tworzeniem systemów zdolnych do uczenia się na podstawie danych, bez konieczności jawnego programowania każdej możliwej sytuacji.

### Kluczowe elementy definicji:

   a) Uczenie się: Zdolność do poprawy wydajności w czasie na podstawie doświadczenia.
   
   b) Dane: Źródło informacji, na podstawie których model się uczy.
   
   c) Automatyzacja: Redukcja potrzeby ręcznego programowania reguł.
   
   d) Adaptacja: Zdolność do dostosowywania się do nowych, niewidzianych wcześniej danych.
   

### Formalna definicja Toma Mitchella (1997):

   "Program komputerowy uczy się na podstawie doświadczenia E w odniesieniu do pewnej klasy zadań T i miary wydajności P, jeśli jego wydajność w zadaniach T, mierzona przez P, poprawia się wraz z doświadczeniem E."

![image.png](attachment:image.png)

### Główne paradygmaty uczenia maszynowego:

   a) Uczenie nadzorowane: Model uczy się na podstawie etykietowanych danych. (najbardziej powszechne)
   
   b) Uczenie nienadzorowane: Model odkrywa wzorce w nieetykietowanych danych.
   
   c) Uczenie ze wzmocnieniem: Model uczy się poprzez interakcję z środowiskiem.
   
   d) Uczenie półnadzorowane: Wykorzystuje zarówno etykietowane, jak i nieetykietowane dane.

### Komponenty systemu uczenia maszynowego:

   a) Dane wejściowe: Cechy opisujące problem.
   
   b) Model: Matematyczna reprezentacja problemu.
   
   c) Funkcja celu (straty): Miara jakości predykcji modelu.
   
   d) Algorytm optymalizacji: Metoda dostrajania parametrów modelu.

### Cykl życia projektu uczenia maszynowego:

   a) Zbieranie i przygotowanie danych
   
   b) Wybór i trenowanie modelu
   
   c) Ewaluacja modelu
   
   d) Wdrożenie modelu
   
   e) Monitorowanie i aktualizacja

![image.png](attachment:image.png)

### Zastosowania uczenia maszynowego:

   - Rozpoznawanie obrazów i mowy
   - Przetwarzanie języka naturalnego
   - Systemy rekomendacji
   - Prognozowanie
   - Wykrywanie anomalii i oszustw
   - Autonomiczne pojazdy

![StatystykavsMLvsAI](przyklady_uzycia_ml.png)

### Rodzaje problemów rozwiązywanych przez uczenie maszynowe:

   a) Klasyfikacja: Przypisywanie etykiet do danych wejściowych
   
   b) Regresja: Przewidywanie wartości ciągłych
   
   c) Grupowanie: Odkrywanie naturalnych grup w danych
   
   d) Redukcja wymiarowości: Zmniejszanie liczby cech przy zachowaniu istotnych informacji

### Uczenie maszynowe a sztuczna inteligencja:

    - Uczenie maszynowe jest podzbiorem sztucznej inteligencji    
    - AI obejmuje szerszy zakres technik symulowania inteligencji

### Uczenie maszynowe a deep learning:

    - Deep learning to podzbiór uczenia maszynowego
    - Wykorzystuje głębokie sieci neuronowe do automatycznego uczenia reprezentacji

![StatystykavsMLvsAI](s_ML_AI.png)

![StatystykavsMLvsAI](porównania.png)

### Wyzwania w uczeniu maszynowym:

    - Potrzeba dużych ilości danych - im więcej tym lepiej
    - Niereprezentatywne dane uczące / dane niskiej jakości
    - Przetrenowanie / Niedotrenowanie modelu
    - Interpretacja i wyjaśnialność modeli
    - Etyka i prywatność (EU, AI ACT)
    - Stronniczość algorytmów (BIAS) (klasyfikacja binarna '0' i '1'. Klasa '0' stanowi 90% zbioru)
    - i wiele innych..

### Narzędzia i biblioteki do uczenia maszynowego w Pythonie:

    - Scikit-learn: Ogólne narzędzia do ML
    - TensorFlow i PyTorch: Biblioteki do deep learning
    - Keras: Wysokopoziomowy interfejs do sieci neuronowych
    - XGBoost i LightGBM: Zaawansowane implementacje gradient boosting
    - Pandas, NumPy, matplotlib, ...

### Rola domeny eksperckiej:

    - Znaczenie wiedzy dziedzinowej w projektowaniu cech i interpretacji wyników    

## 2. Historia i ewolucja uczenia maszynowego

Uczenie maszynowe, jako dziedzina nauki, ma bogatą historię sięgającą połowy XX wieku. Jej rozwój był ściśle związany z postępem w dziedzinach matematyki, statystyki, informatyki oraz z rosnącymi możliwościami obliczeniowymi komputerów.

### 2.1. Kluczowe momenty w rozwoju dziedziny

1. Lata 40. i 50. XX wieku:
   - 1943: Warren McCulloch i Walter Pitts tworzą pierwszy model sztucznego neuronu.
   - 1950: Alan Turing publikuje artykuł "Computing Machinery and Intelligence", wprowadzając test Turinga.
   - 1957: Frank Rosenblatt tworzy perceptron, pierwszy algorytm uczenia maszynowego.

2. Lata 60. i 70.:
   - 1967: Najbliższy sąsiad (Nearest Neighbor) zostaje wprowadzony jako metoda klasyfikacji.
   - 1969: Publikacja książki "Perceptrons" przez Minsky'ego i Paperta, pokazująca ograniczenia perceptronów, co prowadzi do **pierwszej "zimy AI"**.
   - 1970: Seppo Linnainmaa wprowadza wsteczną propagację błędu, kluczową dla treningu sieci neuronowych.

3. Lata 80.:
   - 1981: Gerald Dejong wprowadza koncepcję uczenia opartego na wyjaśnieniach (Explanation-Based Learning).
   - 1982: **John Hopfield** popularyzuje sieci Hopfielda. (**Nagroda Nobla z fizyki 2024** - Amerykanin John J. Hopfield i Kanadyjczyk Geoffrey E. Hinton „za fundamentalne odkrycia i wynalazki, umożliwiające uczenie maszynowe z wykorzystaniem sztucznych sieci neuronowych”)
   - 1986: Rumelhart, **Hinton** i Williams popularyzują algorytm wstecznej propagacji błędu dla sieci neuronowych.

4. Lata 90.:
   - 1989-1990: Rozwój metod opartych na jądrach, prowadzących do powstania Support Vector Machines (SVM).
   - 1997: IBM Deep Blue pokonuje mistrza świata w szachach, Garry'ego Kasparova.
   - 1998: Yann LeCun (szef AI Meta obecnie) wprowadza sieć konwolucyjną LeNet-5 do rozpoznawania pisma ręcznego.

5. XXI wiek:
   - 2006: Geoffrey Hinton wprowadza termin "deep learning" i pokazuje skuteczne metody treningu głębokich sieci neuronowych.
   - 2012: Sieć AlexNet wygrywa konkurs ImageNet, rozpoczynając erę dominacji deep learning w rozpoznawaniu obrazów.
   - 2014: Ian Goodfellow wprowadza Generative Adversarial Networks (GANs).
   - 2016: AlphaGo pokonuje mistrza świata w grze Go, Lee Sedola.
   - 2017: Transformer architecture zostaje wprowadzona, rewolucjonizując przetwarzanie języka naturalnego.
   - 2020: OpenAI prezentuje GPT-3, jeden z największych modeli językowych.



![image.png](attachment:image.png)

### 2.2. Wpływ zwiększonej mocy obliczeniowej i dostępności danych

Rozwój uczenia maszynowego był ściśle powiązany z postępem technologicznym w dziedzinie sprzętu komputerowego i gromadzenia danych:

1. Moc obliczeniowa:
   - Prawo Moore'a: podwajanie się liczby tranzystorów w układzie scalonym co 18-24 miesiące.
   - Rozwój procesorów wielordzeniowych i równoległego przetwarzania.
   - Wykorzystanie GPU (Graphics Processing Units) do obliczeń związanych z uczeniem maszynowym, szczególnie w deep learning.
   - Powstanie wyspecjalizowanych układów do ML, jak Google TPU (Tensor Processing Unit).
   - Rozwój chmur obliczeniowych, umożliwiających dostęp do potężnych zasobów obliczeniowych.

2. Dostępność danych:
   - Cyfryzacja: coraz więcej danych jest generowanych i przechowywanych w formie cyfrowej.
   - Internet i media społecznościowe: ogromne ilości danych generowanych przez użytkowników.
   - Internet Rzeczy (IoT): rosnąca liczba połączonych urządzeń generujących dane.
   - Big Data: rozwój technologii do przechowywania i przetwarzania ogromnych ilości danych.
   - Open Data: inicjatywy udostępniania danych publicznych i naukowych.

3. Wpływ na rozwój ML:
   - Możliwość trenowania coraz większych i bardziej złożonych modeli.
   - Rozwój deep learning, który wymaga dużych ilości danych i mocy obliczeniowej.
   - Przyspieszenie cyklu badawczego: szybsze eksperymenty i iteracje.
   - Demokratyzacja ML: dostęp do zaawansowanych narzędzi i modeli dla szerszego grona badaczy i firm.
   - Transfer learning: wykorzystanie wstępnie wytrenowanych modeli na dużych zbiorach danych.

4. Wyzwania:
   - Etyka i prywatność: kwestie związane z gromadzeniem i wykorzystywaniem dużych ilości danych osobowych.
   - Interpretacja modeli: trudności w zrozumieniu działania bardzo złożonych modeli.
   - Zużycie energii: rosnące zapotrzebowanie na energię do trenowania dużych modeli.
   - Nierówny dostęp: pogłębianie się różnic między podmiotami mającymi dostęp do dużych zasobów a tymi, które go nie mają.