# AutoMushroom

AutoMushroom to pakiet, który umożliwia automatyzację procesu klasyfikacji grzybów na jadalne i trujące. Narzędzie wykorzystuje techniki uczenia maszynowego, takie jak Random Forest, Gradient Boosting, Logistic Regression, KNeighbors oraz Voting Classifier, w celu przypisania nowych próbek do jednej z dwóch klas. Model został zoptymalizowany pod kątem minimalizacji błędów klasyfikacji grzybów trujących jako jadalnych, co czyni go odpowiednim do zastosowań w krytycznych procesach decyzyjnych. Pakiet umożliwia także generowanie raportu z wynikami klasyfikacji, w tym miar oceny jakości modelu, takich jak accuracy, precision, recall, F1, ROC AUC oraz specjalnie stworzonego custom core, który balansuje ROC AUC oraz recall.

### Grupa docelowa
 Grupą docelową użytkowników są osoby zajmujące się analizą danych oraz podejmowaniem decyzji w oparciu o klasyfikację, takie jak: 

1.	**Biologia i ekologia** – np. badacze profesjonalnie zajmujący się identyfikacją grzybów jadalnych i trujących w celach edukacyjnych.
2.	**Branża żywnościowa** – osoby odpowiedzialne za kontrolę jakości produktów i bezpieczeństwa żywności, zwłaszcza w kontekście zagrożeń związanych z toksynami w grzybach.
3.	**Entuzjaści grzybobrania** – osoby, które chcą wykorzystać narzędzie do celów prywatnych w celu weryfikacji potencjalnych zagrożeń spożycia zebranych grzybów. 

### Specjalizacja narzędzia
Narzędzie specjalizuje się w:  

1.	**Klasyfikacji** – model wykorzystuje zaawansowane techniki klasyfikacji w celu przypisania nowych próbek (danych wejściowych) do dwóch klas: grzyb jadalny (klasa 0) i trujący (klasa 1).
2.	**Analizie predykcyjnej** – umożliwia prognozowanie prawdopodobieństwa, czy nowo dostarczone dane o grzybach wskazują na ich jadalność lub trujący charakter, bazując na historycznych danych.
3.	**Optymalizacji modeli uczenia maszynowego** – narzędzie integruje różne klasyfikatory (np. RandomForest, Gradient Boosting, Logistic Regression, VotingClassifier), dobiera najlepsze hiperparametry za pomocą metody RandomSearch, zapewniając jak najlepszą jakość predykcji. Do wyboru są trzy tryby działania pakietu – szybki, średni oraz wolny. W zależności od wyboru, przeszukiwanych jest więcej hiperparametrów kosztem czasu wytrenowania modelu.
4.	**Ocena jakości predykcji** – narzędzie dostarcza szczegółowe miary oceny modeli (accuracy, precision, recall, F1, ROC AUC), a także specjalnie stworzonego custome_score, który balansuje ROC AUC oraz recall. Umożliwia ocenę skuteczności i ryzyka zastosowania modelu w praktyce.
Model uwzględnia kluczowe aspekty bezpieczeństwa, takie jak minimalizacja błędów klasyfikacji grzybów trujących jako jadalnych, co czyni go odpowiednim do zastosowań w krytycznych procesach decyzyjnych.

### Przegląd istniejących rozwiązań



tbh predict_proba to chyba nie jest analiza predykcyjna tylko predykcja prawdopodobieństwa przynależności do klasy, a analiza predykcyjna to chyba bardziej prognozy przyszłości

# Komponenty techniczne

Pakiet został zaimplementowany jako klasa AutoMushroom, która umożliwia automatyzację procesu klasyfikacji grzybów na jadalne i trujące. Klasa ta zawiera następujące metody:

1.	**fit(X, y, mode = 'medium')** – metoda trenująca model na danych wejściowych X i etykietach y. Parametr mode określa tryb działania optymalizacji modeli (domyślnie 'medium'). Do wyboru są trzy tryby: 'fast', 'medium', 'slow', które różnią się liczbą iteracji w RandomSearch, wpływając na jakość optymalizacji modeli, kosztem czasu wytrenowania modelu.

2. **predict(X)** – metoda przewidująca etykiety dla danych wejściowych X.

3. **predict_proba(X)** – metoda przewidująca prawdopodobieństwa przynależności do klas dla danych wejściowych X.
4. **summary_report()** – metoda generująca raport z wynikami optymalizacji modeli, w tym miarami oceny jakości modelu.

Publiczne atrybuty klasy AutoMushroom:
1. **best_model** – najlepszy model klasyfikacji.
2. **best_score** – wartość custom_score dla najlepszego modelu.
3. **metrics** – miary oceny jakości modelu.

### Funkcje preprocessingowe 

### Automatyzacja wyboru i optymalizacji modeli

Optymalizacja modeli zaimplemantowana jest w funkcji `model_selection`, która umożliwia wybór najlepszego modelu klasyfikacji na podstawie przekazanych danych wejściowych. Funkcja ta przeszukuje przestrzeń hiperparametrów różnych klasyfikatorów (RandomForest, Gradient Boosting, Logistic Regression, KNeighbours, VotingClassifier) za pomocą metody RandomSearch (CV = 3), dobierając najlepsze hiperparametry. W zależności od wybranego trybu działania (mode = ["fast", "medium", "slow"]), w RandomSearch wykonywana jest różna liczba iteracji, co wpływa na jakość optymalizacji modeli, kosztem czasu wytrenowania modelu. Funkcja zwraca najlepszy model klasyfikacji oraz wartość custom_score, który balansuje ROC AUC oraz recall.

Wybrane do pakietu modele i zakresy ich parametrów są zdefiniowane w pliku `models.json`. Funkcje `load_models` oraz `parse_params` umożliwiają wczytanie modeli z pliku w funkcji `model_selection`.

Funkcja `custom_score` oblicza wartość Custom score, który balansuje ROC AUC oraz recall. Funkcja ta jest wykorzystywana w funkcji `model_selection` do oceny jakości modeli klasyfikacji podczas RandomSearch.

### Generowanie raportu
Funkcja `model_evaluation` umożliwia ocenę jakości modeli klasyfikacji na podstawie przekazanych danych wejściowych. Funkcja ta zwraca miary oceny jakości modelu, takie jak accuracy, precision, recall, F1, ROC AUC.

#  Przykładowe użycie pakietu

In [1]:
from AutoMushroom import AutoMushroom
import kagglehub
import pandas as pd
from sklearn.model_selection import train_test_split

  from .autonotebook import tqdm as notebook_tqdm


### Downloading datasets

In [2]:
path1 = kagglehub.dataset_download("prishasawhney/mushroom-dataset")
path2 = kagglehub.dataset_download("devzohaib/mushroom-edibility-classification")
path3 = kagglehub.dataset_download("uciml/mushroom-classification")



In [3]:
data1 = pd.read_csv(f"{path1}/mushroom_cleaned.csv")
data2 = pd.read_csv(f"{path2}/secondary_data.csv", delimiter=";")
data3 = pd.read_csv(f"{path3}/mushrooms.csv") 

In [4]:
y1 = data1["class"]
X1 = data1.drop("class", axis=1)

In [5]:
y2 = data2["class"]
X2 = data2.drop("class", axis=1)
y2 = y2.map({'p': 1, 'e': 0})

In [6]:
y3 = data3["class"]
X3 = data3.drop("class", axis=1)
y3 = y3.map({'p': 1, 'e': 0})

In [7]:
X_train1, X_test1, y_train1, y_test1 = train_test_split(X1, y1, test_size=0.2, random_state=10)
X_train2, X_test2, y_train2, y_test2 = train_test_split(X2, y2, test_size=0.2, random_state=10)
X_train3, X_test3, y_train3, y_test3 = train_test_split(X3, y3, test_size=0.2, random_state=10)

### Dataset 1

In [None]:
automl1 = AutoMushroom()
automl1.fit(X_train1, y_train1, mode = "fast")



In [17]:
print(automl1.best_score)
print(automl1.metrics)
automl1.best_model

NameError: name 'automl1' is not defined

In [9]:
automl1.predict(X_test1)

[0 1 0 ... 1 1 0]


In [None]:
automl1.summary_report()

### Dataset 2

In [10]:
automl2 = AutoMushroom()
automl2.fit(X_train2, y_train2, mode = "fast", voting='soft')

In [None]:
print(automl2.best_score)
print(automl2.metrics)
automl2.best_model



In [None]:
automl2.predict(X_test2)

In [17]:
automl2.summary_report()

### Dataset 3

In [21]:
automl3 = AutoMushroom()
automl3.fit(X_train3, y_train3, mode = "fast")

In [23]:
print(automl3.best_score)
print(automl3.metrics)
automl3.best_model

In [24]:
automl3.predict(X_test3)

[1 0 0 ... 1 0 0]


In [None]:
automl3.summary_report()