# Klasyfikacja Grzybów
W ramach *Projektu 1* wybrano temat klasyfikacji grzybów na trujące / jadalne na podstawie bazy danych **National Audubon Society Field Guides**, które zostały udostępnione na stronie https://archive.ics.uci.edu/dataset/73/mushroom

## Dodatkowe informacje
Ten zestaw danych obejmuje opisy hipotetycznych próbek odpowiadających 23 gatunkom grzybów z rodziny Agaricus i Lepiota. Każdy gatunek jest oznaczony jako zdecydowanie jadalny, zdecydowanie trujący lub o nieznanej jadalności i niezalecany do spożycia. Ta ostatnia kategoria została połączona z trującą. Przewodnik jednoznacznie stwierdza, że nie ma prostych zasad określających jadalność grzyba; nie ma reguły takiej jak "trzy listki, trzymaj się z daleka" dla trującego dębu i bluszczu.

## Trudność problemu
*Czy baza danych jest skomplikowana i ma błędy lub braki danych?*

Baza danych składa się z ponad 8000 rekordów i 22 atrybutów, w których znajdziemy atrybuty typu kategorycznego oraz binarnego. Ponadto baza danych zawiera braki w danych.

*Czy jest ona dość słabo przebadana czy już wydaje się „oklepana”?*

Baza danych pochodzi z 1987 roku, jednak pod względem wyświetleń na stronie, z której pobierałem dane, nie znajduje się w pierwszej dziesiątce (biorąc pod uwagę tylko bazy danych, które spełniały wcześniejsze wymogi).

## Dane
Przejdźmy do wczytania danych. Następnie spójrzmy na pierwych kilka rekordów i podstawowe statystyki:

In [12]:
import pandas as pd

df = pd.read_csv("mushroom/agaricus-lepiota-data.csv")

In [13]:
print(df.head())

  poisonous cap-shape cap-surface cap-color bruises odor gill-attachment  \
0         p         x           s         n       t    p               f   
1         e         x           s         y       t    a               f   
2         e         b           s         w       t    l               f   
3         p         x           y         w       t    p               f   
4         e         x           s         g       f    n               f   

  gill-spacing gill-size gill-color  ... stalk-surface-below-ring  \
0            c         n          k  ...                        s   
1            c         b          k  ...                        s   
2            c         b          n  ...                        s   
3            c         n          n  ...                        s   
4            w         b          k  ...                        s   

  stalk-color-above-ring stalk-color-below-ring veil-type veil-color  \
0                      w                      w         

In [14]:
print(df.describe())

       poisonous cap-shape cap-surface cap-color bruises  odor  \
count       8124      8124        8124      8124    8124  8124   
unique         2         6           4        10       2     9   
top            e         x           y         n       f     n   
freq        4208      3656        3244      2284    4748  3528   

       gill-attachment gill-spacing gill-size gill-color  ...  \
count             8124         8124      8124       8124  ...   
unique               2            2         2         12  ...   
top                  f            c         b          b  ...   
freq              7914         6812      5612       1728  ...   

       stalk-surface-below-ring stalk-color-above-ring stalk-color-below-ring  \
count                      8124                   8124                   8124   
unique                        4                      9                      9   
top                           s                      w                      w   
freq               

## Przygotowanie do eksperymentów 1
Brakujące wartości w bazie danych grzybów są oznaczone jako '?'. Tylko jeden atrybut (stalk-root) zawiera braki w danych. Przygotujmy listę brakujących wartości. Następnie wczytajmy ponownie bazę danych z dodatkowym parametrem, tak aby Pandas je rozpoznawał.

In [16]:
missing_values = ['?']
df = pd.read_csv("mushroom/agaricus-lepiota-data.csv", na_values=missing_values)

Możemy sprawdzić rozkład brakujących wartości w każdej z kolumn:

In [17]:
print(df.isnull().mean())

poisonous                   0.000000
cap-shape                   0.000000
cap-surface                 0.000000
cap-color                   0.000000
bruises                     0.000000
odor                        0.000000
gill-attachment             0.000000
gill-spacing                0.000000
gill-size                   0.000000
gill-color                  0.000000
stalk-shape                 0.000000
stalk-root                  0.305268
stalk-surface-above-ring    0.000000
stalk-surface-below-ring    0.000000
stalk-color-above-ring      0.000000
stalk-color-below-ring      0.000000
veil-type                   0.000000
veil-color                  0.000000
ring-number                 0.000000
ring-type                   0.000000
spore-print-color           0.000000
population                  0.000000
habitat                     0.000000
dtype: float64


Jak widać brakuje około 30% wartości w kolumnie "stalk-root". Sprawdźmy dokładną ilość tych braków:

In [18]:
print(df.isnull().sum())

poisonous                      0
cap-shape                      0
cap-surface                    0
cap-color                      0
bruises                        0
odor                           0
gill-attachment                0
gill-spacing                   0
gill-size                      0
gill-color                     0
stalk-shape                    0
stalk-root                  2480
stalk-surface-above-ring       0
stalk-surface-below-ring       0
stalk-color-above-ring         0
stalk-color-below-ring         0
veil-type                      0
veil-color                     0
ring-number                    0
ring-type                      0
spore-print-color              0
population                     0
habitat                        0
dtype: int64
