## Załącznik do projektu inżynierskiego - Modelowanie klasyfikacyjne gatunków pingwinów

#### 1. Import niezbędnych pakietów, w tym niezbędnych podmodułów `datamining`

In [114]:
import pandas as pd
from sklearn.utils import shuffle
from datamining.check import check_numeric_data, check_category_data
from datamining.preprocessing import handle_missing_categories
from datamining.classification import BestClassification

#### 2. Import danych `penguins_size.csv`

In [4]:
penguins = pd.read_csv('C:/My-Engineering-Thesis/CaseStudies/penguins_size.csv')

#### 3. Wyświetlenie danych

In [5]:
print(penguins.head())

  species     island  culmen_length_mm  culmen_depth_mm  flipper_length_mm  \
0  Adelie  Torgersen              39.1             18.7              181.0   
1  Adelie  Torgersen              39.5             17.4              186.0   
2  Adelie  Torgersen              40.3             18.0              195.0   
3  Adelie  Torgersen               NaN              NaN                NaN   
4  Adelie  Torgersen              36.7             19.3              193.0   

   body_mass_g     sex  
0       3750.0    MALE  
1       3800.0  FEMALE  
2       3250.0  FEMALE  
3          NaN     NaN  
4       3450.0  FEMALE  


#### 4. Podejrzenie podstawowych statystyk i informacji o kolumnach typu numerycznego i kategorycznego wykorzystując metody `check_numeric_data` i `check_category_data` z pakietu `datamining`

In [7]:
check_numeric_data(df=penguins, use=True)

Unnamed: 0,NAME,TYPE,MIS,AVG,Q25,MED,Q75,IQR,MIN,MAX,RAN,STD,SUM,LOW OUT,UPP OUT
0,culmen_length_mm,float64,2,43.9,39.2,44.5,48.5,9.3,32.1,59.6,27.5,5.5,15021.3,0,0
1,culmen_depth_mm,float64,2,17.2,15.6,17.3,18.7,3.1,13.1,21.5,8.4,2.0,5865.7,0,0
2,flipper_length_mm,float64,2,200.9,190.0,197.0,213.0,23.0,172.0,231.0,59.0,14.1,68713.0,0,0
3,body_mass_g,float64,2,4201.8,3550.0,4050.0,4750.0,1200.0,2700.0,6300.0,3600.0,802.0,1437000.0,0,0


In [10]:
check_category_data(df=penguins, use=True, cat_dist=False)

Unnamed: 0,NAME,TYPE,MIS,UNIQUE,MODE,FREQ,FIRST,LAST
0,species,object,0,3,Adelie,152,Adelie,Gentoo
1,island,object,0,3,Biscoe,168,Torgersen,Biscoe
2,sex,object,10,3,MALE,168,MALE,MALE


In [11]:
check_category_data(df=penguins, use=True, cat_dist=True)

COLUMN: species
 CATEGORY  AMOUNT  PERCENTAGE  RANK
   Adelie     152   44.186047   1.0
   Gentoo     124   36.046512   2.0
Chinstrap      68   19.767442   3.0


COLUMN: island
 CATEGORY  AMOUNT  PERCENTAGE  RANK
   Biscoe     168   48.837209   1.0
    Dream     124   36.046512   2.0
Torgersen      52   15.116279   3.0


COLUMN: sex
CATEGORY  AMOUNT  PERCENTAGE  RANK
    MALE     168   50.299401   1.0
  FEMALE     165   49.401198   2.0
       .       1    0.299401   3.0




''

#### 5. Wyświetlenie rekordów z brakujacymi danymi

In [9]:
print(penguins[penguins.isnull().any(axis=1)])

    species     island  culmen_length_mm  culmen_depth_mm  flipper_length_mm  \
3    Adelie  Torgersen               NaN              NaN                NaN   
8    Adelie  Torgersen              34.1             18.1              193.0   
9    Adelie  Torgersen              42.0             20.2              190.0   
10   Adelie  Torgersen              37.8             17.1              186.0   
11   Adelie  Torgersen              37.8             17.3              180.0   
47   Adelie      Dream              37.5             18.9              179.0   
246  Gentoo     Biscoe              44.5             14.3              216.0   
286  Gentoo     Biscoe              46.2             14.4              214.0   
324  Gentoo     Biscoe              47.3             13.8              216.0   
339  Gentoo     Biscoe               NaN              NaN                NaN   

     body_mass_g  sex  
3            NaN  NaN  
8         3475.0  NaN  
9         4250.0  NaN  
10        3300.0  NaN  

#### 6. Usunięcie rekordów z brakującymi danymi przy użyciu metody `handle_missing_categories`

In [17]:
penguins = handle_missing_categories(penguins, columns=['sex'], strategy='drop')

#### 7. Wyświetlenie rekordu z wartością `.` w kolumnie `sex`

In [21]:
penguins[penguins['sex'] == '.']

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
336,Gentoo,Biscoe,44.5,15.7,217.0,4875.0,.


#### 8. Usunięcie rekordu z poprzedniego puntu

In [22]:
penguins = penguins[penguins['sex'] != '.']

#### 9. Próba utworzenia instancji klasy `BestClassification`

In [30]:
instance = BestClassification(df=penguins, response='species', set_seed=15, divide_method='train_test', test_size=0.2)

TypeError: There is no 'species' categorical column in your Data Frame

#### 10. Konwersja typu danych kolumny `species` na typ kategoryczny

In [32]:
penguins['species'] = penguins['species'].astype('category')

#### 11. Utworzenie instancji klasy `BestClassification`, czyli takiego modelu klasyfikacyjnego, który najlepiej klasyfikuje zmienną zależną `species`

In [135]:
instance = BestClassification(df=penguins, response='species', set_seed=47, divide_method='train_test', test_size=0.1)

#### 12. Wyświetlenie atrybutów wykonanego modelu takich jak:
 - nazwa klasyfikatora
 - wartość miary accuracy
 - obiekt klasyfikatora z pakietu scikit-learn
 - lista przewidzianych przez klasyfikator kategorii 

In [137]:
print(f'Nazwa klasyfikatora: {instance.model_name}')
print(f'Wartość accuracy: {instance.accuracy}')
print(f'Obiekt klasy pochodzącej z pakietu scikit-learn: {instance.model}')
print(f'Lista przewidzianych kategorii: {instance.y_pred}')

Nazwa klasyfikatora: Random Forest
Wartość accuracy: 0.9705882352941176
Obiekt klasy pochodzącej z pakietu scikit-learn: RandomForestClassifier()
Lista przewidzianych kategorii: ['Chinstrap' 'Gentoo' 'Gentoo' 'Gentoo' 'Gentoo' 'Gentoo' 'Adelie'
 'Gentoo' 'Adelie' 'Gentoo' 'Adelie' 'Adelie' 'Adelie' 'Adelie' 'Adelie'
 'Chinstrap' 'Gentoo' 'Chinstrap' 'Adelie' 'Chinstrap' 'Adelie' 'Gentoo'
 'Gentoo' 'Adelie' 'Adelie' 'Adelie' 'Gentoo' 'Adelie' 'Gentoo'
 'Chinstrap' 'Chinstrap' 'Gentoo' 'Chinstrap' 'Chinstrap' 'Adelie'
 'Adelie' 'Gentoo' 'Adelie' 'Gentoo' 'Gentoo' 'Adelie' 'Chinstrap'
 'Adelie' 'Chinstrap' 'Gentoo' 'Adelie' 'Gentoo' 'Adelie' 'Adelie'
 'Adelie' 'Adelie' 'Chinstrap' 'Adelie' 'Adelie' 'Adelie' 'Gentoo'
 'Adelie' 'Adelie' 'Gentoo' 'Adelie' 'Adelie' 'Gentoo' 'Gentoo' 'Adelie'
 'Gentoo' 'Adelie' 'Adelie' 'Adelie' 'Gentoo' 'Gentoo' 'Gentoo' 'Gentoo'
 'Adelie' 'Gentoo' 'Chinstrap' 'Chinstrap' 'Adelie' 'Adelie' 'Gentoo'
 'Chinstrap' 'Gentoo' 'Chinstrap' 'Adelie' 'Gentoo' 'Gentoo' 