# MedAId 
## Paczka umożliwiająca przewidywanie Stanu Pacjentów za Pomocą Narzędzi Klasyfikacyjnych 
#### Autorzy: Zofia Kamińska, Mateusz Deptuch, Karolina Dunal
### Specyfikacja Narzędzia
Nasze narzędzie jest stworzone z myślą o lekarzach, aby wspomóc ich w procesie podejmowania decyzji medycznych. Głównym celem jest analiza tabelarycznych danych pacjentów, takich jak wiek, waga, poziom cholesterolu, itp., w celu przewidywania:
- Czy pacjent ma daną chorobę (klasyfikacja binarna).
- Poziomu zaawansowania choroby (klasyfikacja wieloklasowa).
- Ryzyka zgonu pacjenta (klasyfikacja binarna).

### Kluczowe Funkcjonalności
- Obsługa zarówno klasyfikacji binarnej, jak i wieloklasowej.
- Zautomatyzowane przetwarzanie danych: oczyszczanie, analiza wstępna i przygotowanie cech.
- Interpretacja wyników modeli za pomocą narzędzi takich jak SHAP.
- Porównanie wyników różnych modeli ML z różnymi metrykami (np. dokładność, ROC-AUC, czułość, specyficzność).

### Grupa Docelowa
Grupą docelową są lekarze i personel medyczny. Narzędzie jest przeznaczone dla użytkowników, którzy:
- Chcą wykorzystać dane pacjentów w celu lepszego podejmowania decyzji medycznych.
- Nie posiadają zaawansowanej wiedzy z zakresu programowania czy uczenia maszynowego.
- Potrzebują intuicyjnych wizualizacji i interpretacji wyników modeli.



# Przegląd Istniejących Rozwiązań
Poniżej przedstawiono istniejące narzędzia o podobnej funkcjonalności:

### 1. Pharm-AutoML
- **Opis**: Narzędzie skoncentrowane na analizie danych biomedycznych z użyciem AutoML. Umożliwia analizę genomu, farmakogenomiki i danych biomarkerów.
- **Zalety**: Specjalizacja w biomedycynie, zintegrowane modele biomarkerowe.
- **Ograniczenia**: Ograniczona aplikacja do tabelarycznych danych klinicznych.

### 2. Cardea (MIT)
- **Opis**: Platforma uczenia maszynowego skupiona na przewidywaniu wyników pacjentów na podstawie danych klinicznych, takich jak elektroniczne kartoteki zdrowotne (EHR).
- **Zalety**: Doskonała integracja z EHR, zastosowanie zaawansowanych modeli.
- **Ograniczenia**: Skupienie na EHR może utrudnić zastosowanie w prostych danych tabelarycznych.

### 3. AutoPrognosis
- **Opis**: AutoPrognosis to zaawansowana platforma AutoML, która automatycznie optymalizuje modele zdrowotne i przetwarza dane medyczne, oferując szeroki zakres analiz, w tym klasyfikację, regresję oraz analizę przeżycia. Umożliwia pełną personalizację procesów i wybór algorytmów.
- **Zalety**: Oferuje zaawansowane możliwości i dużą elastyczność, wspiera różnorodne modele i dostarcza narzędzia interpretacyjne, co czyni go idealnym rozwiązaniem dla specjalistów z zaawansowanymi potrzebami.
- **Ograniczenia**: Choć ma szerokie możliwości, jego obsługa jest bardziej skomplikowana i wymaga większej wiedzy technicznej, co może czasem być wyzwaniem w praktyce.

### 4. MLJAR
- **Opis**: Narzędzie AutoML obsługujące dane tabelaryczne w wielu dziedzinach, w tym medycynie.
- **Zalety**: Uniwersalność, przyjazne raporty, intuicyjne w obsłudze.
- **Ograniczenia**: Brak medycznej specjalizacji, co może wpłynąć na interpretowalność w kontekście klinicznym.

### Porównanie z Naszym Narzędziem
Nasze narzędzie jest unikalne dzięki prostocie obsługi, wymagając minimalnego kodowania, co sprawia, że jest idealne dla użytkowników bez zaawansowanej wiedzy technicznej, a także zoptymalizowane pod kątem medycznych danych tabelarycznych, co czyni je bardziej dostosowanym do analiz biomedycznych w porównaniu do bardziej ogólnych narzędzi W przeciwieństwie do MLJAR, nasze wyniki są dostosowane do potrzeb lekarzy. Różnimy się też od Cardea i Pharm-AutoML, które mają węższy zakres zastosowań. W porównaniu do AutoPrognosis, które oferuje więcej zaawansowanych funkcji i możliwości, nasze narzędzie jest prostsze w obsłudze i bardziej intuicyjne, co ułatwia jego wykorzystanie.


## Architektura Narzędzia
### Struktura folderów:
- `data/` - dane wejściowe
- `medaid/` - kod źródłowy narzędzia
- `tests/` - testy jednostkowe

## Przepływ Przetwarzania Danych:
### Paczka MedAId składa się z trzech głównych komponentów:
1. **Przetwarzanie Danych** (`preprocessing)/`: Wczytywanie danych, oczyszczanie, kodowanie zmiennych kategorycznych, podział na zbiór treningowy i testowy. **(można bardzije szczegółowo opisać)**

2. **Modelowanie**(`training/`): Tworzenie modeli klasyfikacyjnych, trenowanie, ocena i porównanie modeli, zapisanie modeli do pliku. **(można bardzije szczegółowo opisać)**

3. **Interpretacja Wyników**(`reporting/`): Tworzenie wizualizacji wyników modeli, generowanie raportu, analiza SHAP, porównanie metryk. 




### `reporting/`
#### `plots.py`:
Moduł do generowania wizualizacji wspierających analizę wyników modeli zapisywane odpowiednio w folderach wewnątrz głownego folderu `medaid#`:
1. **`distribution_plots(aid)`**: Tworzy histogramy i wykresy słupkowe dla zmiennych wejściowych.
2. **`correlation_plot(aid)`**: Generuje macierz korelacji oraz wykresy zależności cech od celu.
3. **`make_confusion_matrix(aid)`**: Tworzy macierze konfuzji na zbiorze testowym dla każdego modelu.
4. **`shap_feature_importance_plot(aid)`**: Wizualizuje ważność cech na podstawie SHAP.
5. **`generate_supertree_visualizations(medaid, output_dir)`**: Tworzy interaktywne wizualizacje SuperTree dla modeli.
6. **`makeplots(aid)`**: Uruchamia wszystkie powyższe funkcje, generując komplet wizualizacji.

#### `mainreporter.py`:
Klasa `MainReporter` generuje raport w formacie HTML z wynikami analizy danych i modeli. Raport zawiera szczegóły na temat danych, preprocesingu, rozkładów cech, macierzy korelacji, wyników modeli oraz ich szczegółowej analizy. Wygenerowany raport znajduje się w folderze `reports/` wewnątrz folderu `medaid#`.

1. **`__init__(self, aid, path)`**: Konstruktor inicjalizuje ścieżkę do folderu z wynikami oraz obiekt `aid` zawierający dane i modele.
2. **`is_nan(value)`**: Funkcja pomocnicza do sprawdzania, czy wartość jest NaN.
3. **`generate_report()`**: Generuje raport HTML, który zawiera:
   - Podstawowe informacje o danych (liczba wierszy, kolumn, unikalne klasy celu).
   - Podgląd danych (pierwsze wiersze DataFrame).
   - Szczegóły preprocesingu z pliku CSV.
   - Rozkłady cech na wykresach.
   - Analizę korelacji cech z celem oraz pełną macierz korelacji.
   - Szczegóły użytych modeli i ich wyników (m.in. Accuracy, Precision, Recall, F1).
   - Szczegóły modeli (np. macierz konfuzji, ważność cech, wizualizacja drzewa).
   - Wizualizację drzewa dla modeli `DecisionTree` i `RandomForest`.

#### `predictexplain.py`:
Klasa `PredictExplainer` generuje raport wyjaśniający prognozę modelu na podstawie danych wejściowych zapisywany w folderze `medaid#`.
1. **`__init__(self, medaid, model)`**: Inicjalizuje klasę `PredictExplainer`, przypisując obiekt `medaid` oraz model, a także wczytuje szczegóły przetwarzania wstępnego z pliku CSV.
2. **`preprocess_input_data(self, input_data)`**: Przetwarza dane wejściowe zgodnie z zapisanymi szczegółami przetwarzania, stosując kodowanie one-hot, etykietowanie, imputację i skalowanie na podstawie wcześniejszych ustawień.
3. **`analyze_prediction(self, prediction, target_column, prediction_proba)`**: Analizuje przewidywaną wartość dla docelowej cechy, porównuje ją z rozkładem w zbiorze danych i generuje raport klasyfikacji z uwzględnieniem wykresu ważności cech (SHAP) w przypadku klasyfikacji.
4. **`generate_html_report(self, df, input_data)`**: Korzystając z pozostałych funkcji eneruje raport HTML porównujący dane wejściowe z danymi w zbiorze, analizuje przewidywania i generuje wykresy interpretowalności modelu.
5. **`generate_viz(self, input_data)`**: Generuje wizualizacje dla danych wejściowych przy użyciu SHAP (dla większości modeli) lub LIME (dla modeli opartych na drzewach decyzyjnych).
6. **`generate_shap_viz(self, input_data)`**: Generuje wizualizacje SHAP, w tym wykres siły dla pojedynczej prognozy oraz wykres podsumowujący dla całego zbioru danych, zapisując je jako pliki.
7. **`generate_lime_viz(self, input_data)`**: Generuje wizualizacje LIME dla danych wejściowych, zapisując wykres wyjaśnienia do pliku HTML.
8. **`predict_target(input_data)`**: Przetwarza dane wejściowe, dokonuje predykcji za pomocą modelu, analizuje wynik i generuje wizualizacje SHAP/LIME w celu zwiększenia interpretowalności.
9. **`classify_and_analyze_features(df, input_data)`**:  Klasyfikuje cechy na typy binarne, kategoryczne tekstowe, kategoryczne numeryczne i ciągłe numeryczne, a następnie dostarcza szczegółowe raporty HTML na podstawie ich charakterystyki.
10. **`_analyze_binary(df, column, input_value)`**, **`_analyze_categorical_numbers(df, column, input_value)`**, **`_analyze_categorical_strings(df, column, input_value)`** oraz **`_analyze_numerical_continuous(df, column, input_value)`**: Generują treść HTML dla różnych typów cech (binarnych, kategorycznych numerycznych, kategorycznych tekstowych i ciągłych numerycznych), dostarczając szczegółowych informacji na temat wartości pacjenta, jej częstości w zbiorze danych oraz dodatkowych informacji statystycznych (takich jak porównania z średnią, medianą i odchyleniem standardowym dla cech ciągłych).






## Opis obiektu klasy medaid
#### Atrybuty: **do uzupełnienia**
#### Metody:
- `save()` zapisuje modele do pliku medaid.pkl w folderze `medaid#/`. 
- `report()` wykonuję funkcję `generate_report()` z klasy `MainReporter` zwracającą raport w formacie HTML z wynikami analizy danych i modeli opisane w sekcji `reporting/`
- `predict_explain(input_data, model)` generuje raport wyjaśniający prognozę modelu na podstawie danych wejściowych będących pojedynczym wierszem ramki danych (bez kolumny target).  Jeśli model lub dane wejściowe nie są podane, funkcja używa domyślnych wartości - pierwszego modelu z listy `best_models` oraz pierwszego wiersza z ramki danych.

### Przykładowe Użycie


In [9]:
from medaid.training.medaid import MedAId

In [10]:
aid = MedAId(dataset_path='./data/binary/heart_failure_clinical_records_dataset.csv', target_column='DEATH_EVENT', metric="recall", search="random", path="", n_iter=10, cv=5, n_jobs=-1)

In [11]:
aid.train()

logistic progress: 100%|██████████| 10/10 [00:00<00:00, 20.43it/s]
tree progress: 100%|██████████| 10/10 [00:00<00:00, 49.59it/s]
random_forest progress: 100%|██████████| 10/10 [00:01<00:00,  5.13it/s]
xgboost progress: 100%|██████████| 10/10 [00:00<00:00, 19.06it/s]
lightgbm progress: 100%|██████████| 10/10 [00:01<00:00,  9.40it/s]


In [12]:
aid.save()

In [13]:
aid.report()

In [14]:
aid.models_ranking()

Unnamed: 0,model,best_score,f1,accuracy,precision,recall,test_best_score,test_f1,test_accuracy,test_precision,test_recall
2,random_forest,0.891312,0.88783,0.891312,0.893033,0.891312,0.75,0.725659,0.75,0.795139,0.75
3,xgboost,0.882801,0.882039,0.882801,0.883954,0.882801,0.766667,0.759968,0.766667,0.770004,0.766667
0,logistic,0.870301,0.866667,0.870301,0.86854,0.870301,0.75,0.725659,0.75,0.795139,0.75
1,tree,0.841046,0.839832,0.841046,0.846816,0.841046,0.7,0.68125,0.7,0.707407,0.7
4,lightgbm,0.702926,0.580327,0.702926,0.49417,0.702926,0.583333,0.429825,0.583333,0.340278,0.583333


In [15]:
aid.predict_explain(model=aid.best_models[0])

In [16]:
aid.best_metrics

Unnamed: 0,model,best_score,f1,accuracy,precision,recall,test_best_score,test_f1,test_accuracy,test_precision,test_recall
2,random_forest,0.891312,0.88783,0.891312,0.893033,0.891312,0.75,0.725659,0.75,0.795139,0.75
3,xgboost,0.882801,0.882039,0.882801,0.883954,0.882801,0.766667,0.759968,0.766667,0.770004,0.766667
0,logistic,0.870301,0.866667,0.870301,0.86854,0.870301,0.75,0.725659,0.75,0.795139,0.75
1,tree,0.841046,0.839832,0.841046,0.846816,0.841046,0.7,0.68125,0.7,0.707407,0.7
4,lightgbm,0.702926,0.580327,0.702926,0.49417,0.702926,0.583333,0.429825,0.583333,0.340278,0.583333
