# 🍄 Pan Leon - legenda podwrocławskich lasów!
![pan-leon](https://i.ibb.co/ksptYTqM/pan-leon.jpg)

Pan Leon to legenda wśród wrocławskich grzybiarzy. Od ponad 50 lat przemierza podwrocławskie lasy - od lasu Osobowickiego aż po Borową i okolice Sobótki.
Zna tu każdy pień, każdą polanę i ponoć z zamkniętymi oczami potrafił trafić na najlepsze stanowiska podgrzybków.

Niestety, od pewnego czasu pan Leon ma nietypowy problem - złapała go tajemnicza choroba: **grzybaloza**!
nagle zaczął mylić grzyby jadalne z trującymi! Cała rodzina nie może w to uwierzyć i rozpacza (dzisiaj miała być grzybowa!).

Pomyślał, że może komputery i to całe AI mu by z tym pomogło, ale dotąd unikał komputerów jak ognia i nie widział za co się zabrać...

Na szczęście jego znajomy - pan Roman - skierował go na Uniwersytet Wrocławski do **młodych ekspertów od technologii i uczenia maszynowego**!

**Czy razem pomożecie Leonowi nauczyć komputer odróżniać grzyby**?

Waszym zadaniem będzie przygotować model, który pomoże panu Leonowi znów bezpiecznie wrócić na grzybobranie.

## Przygotowanie zbioru danych
Najpierw pobierzmy zbiór danych o grzybach, które pan Leon nazbierał przez całe swoje życie!

In [None]:
!pip install kagglehub -q
import kagglehub

dataset_path = kagglehub.dataset_download('uciml/mushroom-classification')
dataset_path

'/kaggle/input/mushroom-classification'

In [None]:
from pathlib import Path

import pandas as pd

df = pd.read_csv(Path(dataset_path) / 'mushrooms.csv')
# TODO: Czy pamiętasz jak zobaczyć 5 pierwszych elementów?


Unnamed: 0,class,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g


Dużo tam jest wartości, ale skupmy się głównie na zapachu (`odor`), kolorze zarodników (`spore-print-color`) oraz kolorze blaszek (`grill-color`). Pan Leon powiedział, że reszta nie jest ważna (ja nie wiem czemu, tak powiedział to tak robimy).

Oczywiście, trzeba też zebrać informacje na temat tego czy jest jadalny czy nie (`class`)

In [None]:
X = df[['odor', 'spore-print-color', 'gill-color']].copy()
y = df["class"].copy()

X.shape, y.shape

((8124, 3), (8124,))

### Czyszczenie danych

Super - mamy już nasze dane, ale mamy też mały **problem** - wcześniej opieraliśmy się tylko na liczbach - musimy na to jakoś zaradzić! Na szczęście jest do tego gotowe narzędzie o nazwie `LabelEncoder`!

Poniżej użyłem go dla zbioru `X`, dałbyś radę zrobić to samo dla `y`?

In [None]:
from sklearn.preprocessing import LabelEncoder

label_encoders = {}
for column in X.columns:
    le = LabelEncoder()
    X[column] = le.fit_transform(X[column])
    label_encoders[column] = le

# TODO: Zrób to samo dla `y`


In [None]:
grzyby_znane_cechy = X[:-100]
grzyby_znane_klasy = y[:-100]

## Czas zrobić nasz model

Znajdź informacje na temat [`LogisticRegression()`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression) i wytrenuj go na znanych nam grzybach!

In [None]:
# TODO: Zaimportuj model


# TODO: Stwórz model i go wytrenuj



In [None]:
print("w0, w1, w2, w3:", w0, w1, w2, w3)
print("Zakres x2_surf:", np.nanmin(x2_surf), np.nanmax(x2_surf))


w0, w1, w2, w3: 2.6150469083502053 -0.24353437799681338 0.039816778735674865 -0.3873886704910375
Zakres x2_surf: 1.7211961401207898 7.572707623372467


In [None]:
import plotly.graph_objects as go
import numpy as np

x0 = grzyby_znane_cechy.iloc[:, 0]
x1 = grzyby_znane_cechy.iloc[:, 1]
x2 = grzyby_znane_cechy.iloc[:, 2]

w0 = model.intercept_[0]
w1, w2, w3 = model.coef_[0]

x0_range = np.linspace(x0.min(), x0.max(), 30)
x1_range = np.linspace(x1.min(), x1.max(), 30)
x0_surf, x1_surf = np.meshgrid(x0_range, x1_range)
x2_surf = -(w0 + w1*x0_surf + w2*x1_surf) / w3

scatter = go.Scatter3d(
    x=x0, y=x1, z=x2,
    mode='markers',
    marker=dict(
        size=5,
        color=grzyby_znane_klasy,
        colorscale='RdBu',
        line=dict(width=0.5, color='DarkSlateGrey')
    ),
    name='Grzyby'
)

# Granica decyzyjna (surface)
surface = go.Surface(
    x=x0_surf, y=x1_surf, z=x2_surf,
    colorscale=[[0, 'rgba(0,255,0,0.6)'], [1, 'rgba(0,255,0,0.6)']],  # Mocny zielony, półprzezroczysty
    showscale=False,
    name='Granica decyzyjna',
    opacity=0.6
)

fig = go.Figure(data=[scatter, surface])

fig.update_layout(
    scene=dict(
        xaxis_title=grzyby_znane_cechy.columns[0],
        yaxis_title=grzyby_znane_cechy.columns[1],
        zaxis_title=grzyby_znane_cechy.columns[2],
    ),
    title="Granica decyzyjna regresji logistycznej w 3D (Plotly)",
    margin=dict(l=0, r=0, b=0, t=30)
)

fig.show()

## 🌏 Gość z daleka — chiński biznesmen i… grzybowa sensacja pod Wrocławiem!
Wieści o niezwykłym panu Leonie oraz młodych ekspertach z Uniwersytetu Wrocławskiego dotarły aż do Chin!
Pewnego dnia w podwrocławskich lasach pojawił się wyjątkowy gość: **Sh Rek** - znany chiński biznesmen, wielki miłośnik innowacji i tradycyjnej kuchni (**zwłaszcza z grzybami!**).

**"听说传奇人物莱昂先生很快就要登场了。聪明的波兰学生使用人工智能识别蘑菇！我需要亲眼看看这个！(你为什么要解释这个？他们告诉我你懂中文!)"** - zawołał Sh Rek. (Totalnie nie wiem o czym mówi, jak znasz chiński to możesz mi powiedzieć)

W każdym razie Sh Rek okazało się, że polska język prosta być i ma maturę z polskiego napisaną na 60% (mniej niż ja xD). Po chwili rozmowy okazało się, że pan Sh Rek ma tą samą przypadłość co pan Leon więc jest zainteresowany tym jak nam poszło!

Pokażmy mu, że **🇵🇱🇵🇱🇵🇱 POLSKA GUROM! 🇵🇱🇵🇱🇵🇱**, i że nasze AI jest lepsze niż w Chinach!

Sh Rek nam dał dane z których możemy skorzystać do przetestowania naszego modelu! Użyjmy funkcji [`classification_report()`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html), żeby zobaczyć wyniki!

In [None]:
grzyby_od_sh_reka_cechy = X[-100:]
grzyby_od_sh_reka_klasy = y[-100:]

# TODO: Użyj naszego wytrenowanego modelu i funkcji `classification_report()`




              precision    recall  f1-score   support

           0       0.96      0.91      0.93        54
           1       0.90      0.96      0.93        46

    accuracy                           0.93       100
   macro avg       0.93      0.93      0.93       100
weighted avg       0.93      0.93      0.93       100

