# MedAId 
## Paczka umożliwiająca przewidywanie Stanu Pacjentów za Pomocą Narzędzi Klasyfikacyjnych 
#### Autorzy: Zofia Kamińska, Mateusz Deptuch, Karolina Dunal
### Specyfikacja Narzędzia
Nasze narzędzie jest stworzone z myślą o lekarzach, aby wspomóc ich w procesie podejmowania decyzji medycznych. Głównym celem jest analiza tabelarycznych danych pacjentów, takich jak wiek, waga, poziom cholesterolu, itp., w celu przewidywania:
- Czy pacjent ma daną chorobę (klasyfikacja binarna).
- Poziomu zaawansowania choroby (klasyfikacja wieloklasowa).
- Ryzyka zgonu pacjenta (klasyfikacja binarna).

### Kluczowe Funkcjonalności
- Obsługa zarówno klasyfikacji binarnej, jak i wieloklasowej.
- Zautomatyzowane przetwarzanie danych: oczyszczanie, analiza wstępna i przygotowanie cech.
- Interpretacja wyników modeli za pomocą narzędzi takich jak SHAP.
- Porównanie wyników różnych modeli ML z różnymi metrykami (np. dokładność, ROC-AUC, czułość, specyficzność).

### Grupa Docelowa
Grupą docelową są lekarze i personel medyczny. Narzędzie jest przeznaczone dla użytkowników, którzy:
- Chcą wykorzystać dane pacjentów w celu lepszego podejmowania decyzji medycznych.
- Nie posiadają zaawansowanej wiedzy z zakresu programowania czy uczenia maszynowego.
- Potrzebują intuicyjnych wizualizacji i interpretacji wyników modeli.



# Przegląd Istniejących Rozwiązań
Poniżej przedstawiono istniejące narzędzia o podobnej funkcjonalności:

### 1. Pharm-AutoML
- **Opis**: Narzędzie skoncentrowane na analizie danych biomedycznych z użyciem AutoML. Umożliwia analizę genomu, farmakogenomiki i danych biomarkerów.
- **Zalety**: Specjalizacja w biomedycynie, zintegrowane modele biomarkerowe.
- **Ograniczenia**: Ograniczona aplikacja do tabelarycznych danych klinicznych.

### 2. Cardea (MIT)
- **Opis**: Platforma uczenia maszynowego skupiona na przewidywaniu wyników pacjentów na podstawie danych klinicznych, takich jak elektroniczne kartoteki zdrowotne (EHR).
- **Zalety**: Doskonała integracja z EHR, zastosowanie zaawansowanych modeli.
- **Ograniczenia**: Skupienie na EHR może utrudnić zastosowanie w prostych danych tabelarycznych.

### 3. AutoPrognosis
- **Opis**: AutoPrognosis to zaawansowana platforma AutoML, która automatycznie optymalizuje modele zdrowotne i przetwarza dane medyczne, oferując szeroki zakres analiz, w tym klasyfikację, regresję oraz analizę przeżycia. Umożliwia pełną personalizację procesów i wybór algorytmów.
- **Zalety**: Oferuje zaawansowane możliwości i dużą elastyczność, wspiera różnorodne modele i dostarcza narzędzia interpretacyjne, co czyni go idealnym rozwiązaniem dla specjalistów z zaawansowanymi potrzebami.
- **Ograniczenia**: Choć ma szerokie możliwości, jego obsługa jest bardziej skomplikowana i wymaga większej wiedzy technicznej, co może czasem być wyzwaniem w praktyce.
```
              precision    recall  f1-score   support

           0       0.95      0.91      0.93        43
           1       0.95      0.97      0.96        71

    accuracy                           0.95       114
   macro avg       0.95      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114
```

### 4. MLJAR
- **Opis**: Narzędzie AutoML obsługujące dane tabelaryczne w wielu dziedzinach, w tym medycynie.
- **Zalety**: Uniwersalność, przyjazne raporty, intuicyjne w obsłudze.
- **Ograniczenia**: Brak medycznej specjalizacji, co może wpłynąć na interpretowalność w kontekście klinicznym.
```
              precision    recall  f1-score   support

           0       0.98      0.95      0.96        43
           1       0.97      0.99      0.98        71

    accuracy                           0.97       114
   macro avg       0.97      0.97      0.97       114
weighted avg       0.97      0.97      0.97       114
```

### Porównanie z Naszym Narzędziem
Nasze narzędzie jest unikalne dzięki prostocie obsługi, wymagając minimalnego kodowania, co sprawia, że jest idealne dla użytkowników bez zaawansowanej wiedzy technicznej, a także zoptymalizowane pod kątem medycznych danych tabelarycznych, co czyni je bardziej dostosowanym do analiz biomedycznych w porównaniu do bardziej ogólnych narzędzi W przeciwieństwie do MLJAR, nasze wyniki są dostosowane do potrzeb lekarzy. Różnimy się też od Cardea i Pharm-AutoML, które mają węższy zakres zastosowań. W porównaniu do AutoPrognosis, które oferuje więcej zaawansowanych funkcji i możliwości, nasze narzędzie jest prostsze w obsłudze i bardziej intuicyjne, co ułatwia jego wykorzystanie.
Przy podobnym czasie treningu nasze narzędzie osiąga zauważalnie lepsze wyniki niż AutoPrognosis. MLjar z kolei wypada lekko lepiej/porównywalnie z naszym rozwiązaniem.
```
              precision    recall  f1-score   support

           0       0.93      0.98      0.95        43
           1       0.99      0.96      0.97        71

    accuracy                           0.96       114
   macro avg       0.96      0.97      0.96       114
weighted avg       0.97      0.96      0.97       114
```


## Architektura Narzędzia
### Struktura folderów:
- `data/` - dane wejściowe
- `medaid/` - kod źródłowy narzędzia
- `tests/` - testy jednostkowe

## Przepływ Przetwarzania Danych:
### Paczka MedAId składa się z trzech głównych komponentów:
1. **Przetwarzanie Danych** (`preprocessing)/`: Wczytywanie danych, oczyszczanie, kodowanie zmiennych kategorycznych, podział na zbiór treningowy i testowy. **(można bardzije szczegółowo opisać)**

2. **Modelowanie**(`training/`): Tworzenie modeli klasyfikacyjnych, trenowanie, ocena i porównanie modeli, zapisanie modeli do pliku. **(można bardzije szczegółowo opisać)**

3. **Interpretacja Wyników**(`reporting/`): Tworzenie wizualizacji wyników modeli, generowanie raportu, analiza SHAP, porównanie metryk. 




### `preprocessing/`
Moduł odpowiedzialny za kompleksowy proces przetwarzania danych, który obejmuje następujące etapy: obsługę formatów numerycznych, usuwanie kolumn tekstowych, imputację brakujących danych, kodowanie zmiennych kategorycznych oraz skalowanie cech. W tej klasie integrujemy różne komponenty przetwarzania danych w jeden pipeline, który umożliwia jednoczesne zarządzanie wszystkimi wymaganymi etapami.

#### `preprocessing.py`
#### Etapy przetwarzania:
1. **Obsługa formatów numerycznych**  
   Funkcja `handle_numeric_format()` w klasie `NumericCommaHandler` zajmuje się konwersją liczb zapisanych w formacie z przecinkiem (np. `1,000`) na standardowy format numeryczny.
   
2. **Usuwanie kolumn tekstowych**  
   Wykorzystywana jest funkcjonalność klasy `ColumnRemover`, która identyfikuje i usuwa kolumny tekstowe na podstawie określonych progów (np. gdy brakujące dane w kolumnie przekraczają zdefiniowaną granicę).
   
3. **Imputacja brakujących danych**  
   Funkcja imputacji opiera się na różnych metodach, takich jak regresja liniowa (w klasie `Imputer`) i Random Forest. Progi korelacji są ustawiane do wykorzystania odpowiednich algorytmów imputacji w zależności od korelacji kolumn z innymi zmiennymi.
   
4. **Kodowanie zmiennych kategorycznych**  
   Zmienne kategoryczne, w tym kolumna celu, są kodowane przez klasę `Encoder` przy użyciu różnych metod kodowania, w tym `LabelEncoder` i `OneHotEncoder`.
   
5. **Skalowanie cech**  
   Funkcja `scale()` w klasie `Scaler` skaluje numeryczne kolumny w DataFrame. Zależnie od rozkładu danych (normalny lub skośny), używana jest standardyzacja (przy rozkładzie normalnym) lub normalizacja (przy rozkładzie skośnym).

#### Główne funkcje klasy `Preprocessing`:

- **`__init__(target_column, path, imputer_lr_correlation_threshold, imputer_rf_correlation_threshold, categorical_threshold, removal_correlation_threshold)`**:  
    Inicjalizuje obiekt klasy, ustalając parametry takie jak kolumna celu, progi korelacji i inne opcje konfiguracyjne. Tworzy instancje odpowiednich komponentów przetwarzania, takich jak `NumericCommaHandler`, `ColumnRemover`, `Encoder`, `Scaler`, `Imputer` i `PreprocessingCsv`.
    **Opis parametrów:**
    - `target_column` (str): nazwa kolumny celu.
    - `path` (str): ścieżka do katalogu, w którym zostaną zapisane infromacje o przetwarzaniu.
    - `imputer_lr_correlation_threshold` (float): próg korelacji dla imputacji przy użyciu regresji liniowej. 
    - `imputer_rf_correlation_threshold` (float): próg korelacji dla imputacji przy użyciu Random Forest. 
    - `categorical_threshold` (float): próg dla uznania kolumny za tekstową, która nie jest kategoryczna. Liczy się stosunek unikatowych wartości do wszystkich, jeśli jest wyższy niż próg, kolumna jest traktowana jako tekstowa i usuwana.
    - `removal_correlation_threshold` (float): próg korelacji do usuwania kolumn silnie skorelowanych ze sobą (z wyjątkiem kolumny celu). Tylko jedna z grup skorelowanych kolumn pozostaje.


- **`preprocess(dataframe)`**:  
    Główna funkcja przetwarzania, która wykonuje wszystkie kroki pipeline. Przyjmuje DataFrame, przechodzi przez każdy etap przetwarzania, a na końcu zwraca przetworzony DataFrame. Po każdym etapie zapisuje szczegóły przetwarzania, takie jak usuwanie kolumn tekstowych, imputacja, kodowanie i skalowanie.

- **`get_column_info()`**:  
    Zwraca szczegóły dotyczące przetwarzania dla każdej kolumny, takie jak informacje o usuniętych kolumnach, zastosowanych metodach imputacji, kodowaniu i skalowaniu.

- **`save_column_info(text_column_removal_info, imputation_info, encoding_info, scaling_info)`**:  
    Zapisuje szczegóły przetwarzania do pliku CSV. Funkcja ta korzysta z klasy `PreprocessingCsv`, aby zapisać informacje o usuniętych kolumnach, imputacji, kodowaniu i skalowaniu.

- **`get_target_encoding_info()`**:  
    Zwraca informacje o metodzie kodowania dla kolumny celu.

#### Szczegóły implementacji poszczególnych komponentów:
Poniższe klasy i ich metody są zaimplementowane w oddzielnych plikach.

- **`NumericCommaHandler`** - `numeric_format_handler.py`:  
  Zajmuje się konwersją liczb zapisanych w formacie z przecinkiem (np. `1,000`) na format numeryczny, zapewniając spójność danych w DataFrame.

- **`ColumnRemover`** - `column_removal.py`:  
  Umożliwia usuwanie kolumn tekstowych, których wartości są nieistotne, na podstawie różnych kryteriów, takich jak ilość brakujących danych czy korelacja z kolumną celu.

- **`Imputer`** - `imputer.py`:  
  Przeprowadza imputację brakujących danych na podstawie różnych metod, takich jak regresja liniowa, Random Forest lub inne algorytmy, zależnie od korelacji z innymi zmiennymi.

- **`Encoder`** - `encoder.py`:  
  Koduje zmienne kategoryczne, w tym zmienną celu, przy użyciu `LabelEncoder` i `OneHotEncoder`, a także zapewnia przechowanie informacji o metodach kodowania i ich mapowaniach.

- **`Scaler`** - `scaler.py`:  
  Skaluje zmienne numeryczne, decydując o metodzie (standaryzacja lub normalizacja) w zależności od wykrytego rozkładu danych w kolumnach.

- **`PreprocessingCsv`** - `preprocessing_info.py`:  
  Zapisuje szczegóły przetwarzania do pliku CSV, umożliwiając późniejsze śledzenie zastosowanych metod oraz parametrów w procesie przetwarzania danych.


### `training/`
#### `medaid.py`:
Moduł slużący do przeprowadzania treningu modeli i optymalizacji hipermarametrów.
1. `__train(...)__`: tu dzieje się cały trening i optymalizacja hipermarametrów.
2. `__search.py__`: definicje klas random i grid search, używanych przy trningu



### `reporting/`
#### `plots.py`:
Moduł do generowania wizualizacji wspierających analizę wyników modeli zapisywane odpowiednio w folderach wewnątrz głownego folderu `medaid#`:
1. **`distribution_plots(aid)`**: Tworzy histogramy i wykresy słupkowe dla zmiennych wejściowych.
2. **`correlation_plot(aid)`**: Generuje macierz korelacji oraz wykresy zależności cech od celu.
3. **`make_confusion_matrix(aid)`**: Tworzy macierze konfuzji na zbiorze testowym dla każdego modelu.
4. **`shap_feature_importance_plot(aid)`**: Wizualizuje ważność cech na podstawie SHAP.
5. **`generate_supertree_visualizations(medaid, output_dir)`**: Tworzy interaktywne wizualizacje SuperTree dla modeli.
6. **`makeplots(aid)`**: Uruchamia wszystkie powyższe funkcje, generując komplet wizualizacji.

#### `mainreporter.py`:
Klasa `MainReporter` generuje raport w formacie HTML z wynikami analizy danych i modeli. Raport zawiera szczegóły na temat danych, preprocesingu, rozkładów cech, macierzy korelacji, wyników modeli oraz ich szczegółowej analizy. Wygenerowany raport znajduje się w folderze `reports/` wewnątrz folderu `medaid#`.

1. **`__init__(self, aid, path)`**: Konstruktor inicjalizuje ścieżkę do folderu z wynikami oraz obiekt `aid` zawierający dane i modele.
2. **`is_nan(value)`**: Funkcja pomocnicza do sprawdzania, czy wartość jest NaN.
3. **`generate_report()`**: Generuje raport HTML, który zawiera:
   - Podstawowe informacje o danych (liczba wierszy, kolumn, unikalne klasy celu).
   - Podgląd danych (pierwsze wiersze DataFrame).
   - Szczegóły preprocesingu z pliku CSV.
   - Rozkłady cech na wykresach.
   - Analizę korelacji cech z celem oraz pełną macierz korelacji.
   - Szczegóły użytych modeli i ich wyników (m.in. Accuracy, Precision, Recall, F1).
   - Szczegóły modeli (np. macierz konfuzji, ważność cech, wizualizacja drzewa).
   - Wizualizację drzewa dla modeli `DecisionTree` i `RandomForest`.

#### `predictexplain.py`:
Klasa `PredictExplainer` generuje raport wyjaśniający prognozę modelu na podstawie danych wejściowych zapisywany w folderze `medaid#`.
1. **`__init__(self, medaid, model)`**: Inicjalizuje klasę `PredictExplainer`, przypisując obiekt `medaid` oraz model, a także wczytuje szczegóły przetwarzania wstępnego z pliku CSV.
2. **`preprocess_input_data(self, input_data)`**: Przetwarza dane wejściowe zgodnie z zapisanymi szczegółami przetwarzania, stosując kodowanie one-hot, etykietowanie, imputację i skalowanie na podstawie wcześniejszych ustawień.
3. **`analyze_prediction(self, prediction, target_column, prediction_proba)`**: Analizuje przewidywaną wartość dla docelowej cechy, porównuje ją z rozkładem w zbiorze danych i generuje raport klasyfikacji z uwzględnieniem wykresu ważności cech (SHAP) w przypadku klasyfikacji.
4. **`generate_html_report(self, df, input_data)`**: Korzystając z pozostałych funkcji eneruje raport HTML porównujący dane wejściowe z danymi w zbiorze, analizuje przewidywania i generuje wykresy interpretowalności modelu.
5. **`generate_viz(self, input_data)`**: Generuje wizualizacje dla danych wejściowych przy użyciu SHAP (dla większości modeli) lub LIME (dla modeli opartych na drzewach decyzyjnych).
6. **`generate_shap_viz(self, input_data)`**: Generuje wizualizacje SHAP, w tym wykres siły dla pojedynczej prognozy oraz wykres podsumowujący dla całego zbioru danych, zapisując je jako pliki.
7. **`generate_lime_viz(self, input_data)`**: Generuje wizualizacje LIME dla danych wejściowych, zapisując wykres wyjaśnienia do pliku HTML.
8. **`predict_target(input_data)`**: Przetwarza dane wejściowe, dokonuje predykcji za pomocą modelu, analizuje wynik i generuje wizualizacje SHAP/LIME w celu zwiększenia interpretowalności.
9. **`classify_and_analyze_features(df, input_data)`**:  Klasyfikuje cechy na typy binarne, kategoryczne tekstowe, kategoryczne numeryczne i ciągłe numeryczne, a następnie dostarcza szczegółowe raporty HTML na podstawie ich charakterystyki.
10. **`_analyze_binary(df, column, input_value)`**, **`_analyze_categorical_numbers(df, column, input_value)`**, **`_analyze_categorical_strings(df, column, input_value)`** oraz **`_analyze_numerical_continuous(df, column, input_value)`**: Generują treść HTML dla różnych typów cech (binarnych, kategorycznych numerycznych, kategorycznych tekstowych i ciągłych numerycznych), dostarczając szczegółowych informacji na temat wartości pacjenta, jej częstości w zbiorze danych oraz dodatkowych informacji statystycznych (takich jak porównania z średnią, medianą i odchyleniem standardowym dla cech ciągłych).






## Opis obiektu klasy medaid
Klasa będąca głównym obiektem narzędzia. Umożliwia ona wczytanie danych, przetworzenie ich, trenowanie modeli, zapisanie wyników oraz generowanie raportów.
#### Metody:
-  `__medaid()__` Konstruktor klasy MedAId, inicjalizuje obiekt z podanymi parametrami.
    - dataset_path: ścieżka do pliku CSV z danymi.
    - target_column: nazwa kolumny zawierającej zmienną celu.
    - models: lista modeli do przetestowania (domyślnie ["logistic", "tree", "random_forest", "xgboost", "lightgbm"]).
    - metric: metryka do optymalizacji (domyślnie F1, możliwe [ "accuracy", "f1", "recall", "precision"]).
    - path: ścieżka do zapisu wyników.
    - search: metoda optymalizacji hiperparametrów (domyślnie random).
    - cv: liczba podziałów w walidacji krzyżowej (domyślnie 3).
    - n_iter: liczba iteracji optymalizacji hiperparametrów (domyślnie 20).
    - test_size: rozmiar zbioru testowego (domyślnie 0.2).
    - n_jobs: liczba rdzeni procesora do użycia (domyślnie 1).
    - param_grids: słownik zawierający siatkę parametrów dla każdego modelu.
    - imputer_lr_correlation_threshold: minimalna korelacja dla imputacji regresją liniową.
    - imputer_rf_correlation_threshold: minimalna korelacja dla imputacji za pomocą Random Forest.
    - categorical_threshold: próg do rozróżnienia kolumn tekstowych od kategorycznych (jeśli stosunek unikatowych wartości do wszystkich wartości w kolumnie jest większy niż ten próg, kolumna jest uznawana za tekstową i usuwana).
    - removal_correlation_threshold: próg korelacji dla usuwania silnie skorelowanych kolumn (bez zmiennej celu, pozostaje tylko jedna kolumna  z grupy silnie skorelowanych)
- `preprocess()`przeprowadza preprocessing danych.
- `train()` przeprowadza preprocessing i trenuje modele na danych treningowych, zapisując najlepsze modele oraz ich wyniki.
- `save()` zapisuje modele do pliku medaid.pkl w folderze `medaid#/`. 
- `report()` wykonuję funkcję `generate_report()` z klasy `MainReporter` zwracającą raport w formacie HTML z wynikami analizy danych i modeli opisane w sekcji `reporting/`
- `predict_explain(input_data, model)` generuje raport wyjaśniający prognozę modelu na podstawie danych wejściowych będących pojedynczym wierszem ramki danych (bez kolumny target).  Jeśli model lub dane wejściowe nie są podane, funkcja używa domyślnych wartości - pierwszego modelu z listy `best_models` oraz pierwszego wiersza z ramki danych.

## Przykładowe Użycie


In [1]:
from medaid.medaid import MedAId

In [2]:
aid = MedAId(dataset_path='./data/multiclass/Obesity_Classification.csv',
             target_column='Label',
             metric="f1",
             search="random",
             path="",
             n_iter=10,
             cv=3)

In [3]:
aid.train()

logistic progress: 100%|██████████| 10/10 [00:17<00:00,  1.74s/it]
tree progress: 100%|██████████| 10/10 [00:00<00:00, 21.64it/s]
random_forest progress: 100%|██████████| 10/10 [00:03<00:00,  2.92it/s]
xgboost progress: 100%|██████████| 10/10 [00:02<00:00,  3.72it/s]
lightgbm progress: 100%|██████████| 10/10 [00:03<00:00,  2.85it/s]



Finishing up...



In [4]:
aid.save()

In [5]:
aid.report()

In [6]:
aid.models_ranking()

Unnamed: 0,model,best_score,f1,accuracy,precision,recall,test_best_score,test_f1,test_accuracy,test_precision,test_recall
0,random_forest,0.964987,0.964987,0.965517,0.977011,0.965517,0.953047,0.953047,0.954545,0.961039,0.954545
1,tree,0.953492,0.953492,0.954023,0.967816,0.954023,0.953047,0.953047,0.954545,0.961039,0.954545
2,xgboost,0.927807,0.927807,0.930213,0.952076,0.930213,1.0,1.0,1.0,1.0,1.0
3,logistic,0.90336,0.90336,0.907225,0.914583,0.907225,0.953047,0.953047,0.954545,0.961039,0.954545
4,lightgbm,0.868529,0.868529,0.871921,0.917659,0.871921,1.0,1.0,1.0,1.0,1.0


In [7]:
import pandas as pd
aid.predict(pd.DataFrame(pd.read_csv("./data/multiclass/Obesity_Classification.csv").drop(columns=["Label"]).iloc[1, :]).T, model_id=3)


['Age', 'Gender', 'Height', 'Weight', 'BMI']


['Normal Weight']

In [12]:
aid.predict_explain(model=aid.best_models[4])

input data    Age Gender  Height  Weight   BMI
0   25   Male     175      80  25.3
['Age', 'Gender', 'Height', 'Weight', 'BMI']
processed input data         Age    Height    Weight       BMI  Gender_Male
0  0.138614  0.611111  0.636364  0.642643            0
['Age', 'Gender', 'Height', 'Weight', 'BMI']


In [9]:
print(aid.path)

C:\Users\Zosia\Desktop\autoML/medaid14
