### CRISP-DM

![StatystykavsMLvsAI](crisp_dm.png)

**CRISP-DM (Cross-Industry Standard Process for Data Mining)** to popularny model procesu analizy danych, który jest szeroko stosowany w różnych branżach. Model ten składa się z sześciu faz, które pomagają w systematycznym podejściu do projektów związanych z eksploracją danych. Oto szczegółowy opis każdej z faz:

### 1. Zrozumienie biznesu (Business Understanding)

#### Cel:
Zrozumienie celów biznesowych oraz wymagań projektu. Ta faza obejmuje identyfikację problemów, które mają być rozwiązane za pomocą analizy danych.

#### Kluczowe działania:
- Określenie celów biznesowych.
- Zdefiniowanie problemów, które mają być rozwiązane.
- Opracowanie planu projektu.

### 2. Zrozumienie danych (Data Understanding)

#### Cel:
Pozyskanie i zrozumienie danych, które będą używane w projekcie. Ta faza obejmuje zbieranie danych, ich wstępną analizę oraz identyfikację problemów związanych z jakością danych.

#### Kluczowe działania:
- Zbieranie danych.
- Wstępna eksploracja danych.
- Ocena jakości danych.

### 3. Przygotowanie danych (Data Preparation)

#### Cel:
Przygotowanie danych do modelowania. Ta faza obejmuje czyszczenie danych, transformacje oraz wybór odpowiednich atrybutów.

#### Kluczowe działania:
- Czyszczenie danych (usuwanie braków, duplikatów itp.).
- Transformacja danych (skalowanie, normalizacja itp.).
- Wybór cech (feature selection).

### 4. Modelowanie (Modeling)

#### Cel:
Tworzenie modeli analitycznych. Ta faza obejmuje wybór technik modelowania, budowę modeli oraz ich wstępną ocenę.

#### Kluczowe działania:
- Wybór technik modelowania.
- Budowa modeli.
- Ocena modeli.

### 5. Ewaluacja (Evaluation)

#### Cel:
Ocena modeli pod kątem ich skuteczności oraz zgodności z celami biznesowymi. Ta faza obejmuje ocenę wyników, weryfikację modelu oraz przygotowanie do wdrożenia.

#### Kluczowe działania:
- Ocena wyników modeli.
- Weryfikacja modelu.
- Przygotowanie do wdrożenia.

### 6. Wdrożenie (Deployment)

#### Cel:
Wdrożenie modelu w środowisku produkcyjnym. Ta faza obejmuje wdrożenie modelu, monitorowanie jego działania oraz utrzymanie.

#### Kluczowe działania:
- Wdrożenie modelu.
- Monitorowanie działania modelu.
- Utrzymanie i aktualizacja modelu.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

## Praktyczne aspekty wdrażania uczenia maszynowego

### 1. Cykl życia projektu ML

a) Definicja problemu biznesowego
   - Identyfikacja celów i wymagań projektu
   - Określenie miar sukcesu (KPI)
   - Analiza wykonalności i ocena ryzyka

b) Zbieranie i analiza danych
   - Identyfikacja źródeł danych
   - Ocena jakości i ilości dostępnych danych
   - Eksploracyjna analiza danych (EDA)

c) Przygotowanie danych
   - Czyszczenie i przetwarzanie danych
   - Inżynieria cech
   - Podział na zbiory treningowe, walidacyjne i testowe

d) Wybór i trenowanie modelu
   - Wybór odpowiednich algorytmów
   - Trenowanie i walidacja modeli
   - Optymalizacja hiperparametrów

e) Ewaluacja modelu
   - Ocena wydajności na zbiorze testowym
   - Analiza błędów i interpretacja wyników
   - Porównanie z celami biznesowymi

f) Wdrożenie modelu
   - Integracja z istniejącymi systemami
   - Testy A/B i stopniowe wdrażanie
   - Dokumentacja i szkolenie użytkowników

g) Monitorowanie i utrzymanie
   - Ciągła ocena wydajności modelu
   - Aktualizacja modelu w odpowiedzi na zmiany w danych
   - Zarządzanie wersjami modeli

### 2. Zbieranie i przygotowanie danych

a) Strategie zbierania danych
   - Wykorzystanie istniejących baz danych
   - Projektowanie eksperymentów do zbierania nowych danych
   - Techniki web scrapingu i API dla danych zewnętrznych

b) Ocena jakości danych
   - Identyfikacja brakujących wartości i outlierów
   - Analiza rozkładów i korelacji między cechami
   - Wykrywanie stronniczości w danych

c) Techniki czyszczenia danych
   - Metody imputacji brakujących wartości
   - Normalizacja i standaryzacja cech
   - Usuwanie lub transformacja outlierów

d) Inżynieria cech
   - Tworzenie nowych cech na podstawie istniejących danych
   - Redukcja wymiarowości (PCA, t-SNE)
   - Kodowanie zmiennych kategorycznych

e) Balansowanie zbiorów danych
   - Techniki over-sampling i under-sampling
   - SMOTE i inne zaawansowane metody balansowania

f) Przygotowanie danych do treningu
   - Strategie podziału danych (random split, stratified split, time-based split)
   - Cross-walidacja
   - Przygotowanie pipeline'ów przetwarzania danych

### 3. Wybór i dostrajanie modeli

a) Kryteria wyboru modelu
   - Natura problemu (klasyfikacja, regresja, klastrowanie)
   - Interpretacyjność vs. wydajność
   - Ograniczenia obliczeniowe i pamięciowe

b) Popularne algorytmy i ich zastosowania
   - Drzewa decyzyjne i lasy losowe
   - Gradient Boosting (XGBoost, LightGBM)
   - Support Vector Machines
   - Sieci neuronowe i deep learning

c) Techniki optymalizacji hiperparametrów
   - Grid search i random search
   - Bayesowska optymalizacja
   - Gradient-based hyperparameter optimization

d) Ensemble learning
   - Bagging i boosting
   - Stacking i blending modeli
   - Voting classifiers/regressors

e) Transfer learning i fine-tuning
   - Wykorzystanie pre-trenowanych modeli
   - Techniki adaptacji do nowych domen

f) Analiza kompromisów
   - Balans między dokładnością a złożonością modelu
   - Ocena trade-off między czasem treningu a wydajnością

### 4. Monitorowanie i aktualizacja modeli w produkcji

a) Strategie wdrażania modeli
   - Batch prediction vs. real-time serving
   - Containerization (Docker) i orchestration (Kubernetes)
   - Edge deployment dla IoT i urządzeń mobilnych

b) Monitorowanie wydajności modeli
   - Śledzenie metryk wydajności w czasie rzeczywistym
   - Wykrywanie drift'u koncepcyjnego i danych
   - Alerting i raportowanie anomalii

c) Techniki aktualizacji modeli
   - Incremental learning
   - Online learning dla ciągłej adaptacji
   - A/B testing nowych wersji modeli

d) Zarządzanie wersjami modeli
   - Versioning modeli i danych
   - Reproducibility eksperymentów
   - Rollback strategies

e) MLOps i automatyzacja
   - Ciągła integracja i wdrażanie dla ML (CI/CD)
   - Automatyzacja retrainingu modeli
   - Zarządzanie środowiskami (dev, staging, prod)

f) Bezpieczeństwo i zgodność
   - Ochrona modeli przed atakami (adversarial attacks)
   - Zgodność z regulacjami (AI ACT)
   - Audyty i dokumentacja modeli

g) Interpretacja i wyjaśnialność modeli w produkcji
   - Techniki lokalnej i globalnej interpretacji (SHAP, LIME)
   - Monitorowanie fairness i bias modeli
   - Generowanie wyjaśnień dla użytkowników końcowych


## Sposoby na stawianie hipotez w Data Science:

### 1. Rozmowy z ekspertami domenowymi i z klientem

- jak taki algorytm powinien działać. 
- na co, zdaniem klienta, najbardziej powinien zwracać uwagę? 
- które dane będą kluczowe i jakie zależności między nimi powinien móc wykryć model, by zwrócić poprawną odpowiedź?
- jakie czynniki biorą pod uwagę i jakimi regułami się kierują
- jakie przypadki są łatwe i typowe, a jakie są trudne?
- jak często zdarzają się takie trudne przypadki i z czego one wynikają?
- w końcu zapytaj wprost – czego w tym momencie nie wiadomo i jakie są hipotezy? Czego klient chciałby się dowiedzieć na podstawie danych? Czy są może jakieś kwestie, które go nurtują od dawna?

W Data Science bardzo ważne jest, żeby w trakcie trwania projektu mieć umożliwiony stały kontakt z klientem, a najlepiej z ekspertami domenowymi. Nie tylko przed rozpoczęciem projektu. Dzięki temu będziesz mieć możliwość prezentowania na bieżąco uzyskiwanych wyników i zbierania feedbacku.

### 2. Ustalenie stanu wiedzy i algorytmów SOTA w danej dziedzinie

Chodzi o zrobienie dobrego researchu, aby się dowiedzieć m.in:
- Czy ktoś już robił podobne rzeczy?
- Jakie były zastosowane rozwiązania?
- Co się udało, a czego się nie udało osiągnąć?
- Jakie obserwacje się powtarzają, a w jakich są rozbieżności zdań?

### 3. Wstępna analiza danych

- Dlaczego występuje korelacja pomiędzy pewnymi cechami?
- Dlaczego pewne cechy są mniej, a inne bardziej zróżnicowane?
- Co oznaczają NULL-e w danych?
- Skąd się biorą outliery?

### 4. Twoja intuicja

### 5. Praca zespołowa

### 6. Stosuj podejście zwinne (agile)

To może nie jest podejście samo w sobie, ale tutaj chodzi o to, żeby nasze hipotezy się nie zdezaktualizowały, żebyśmy zbyt długo nie pracowali nad jakąś hipotezą bez "pokazania jej światu".

Pojawią się problemy, na które nigdy nie wpadniesz, testując model w warunkach laboratoryjnych. Wówczas też ostatecznie zweryfikujesz, czy Twoje hipotezy były poprawne.