<a href="https://colab.research.google.com/github/wolas91/machine-learning-udemy/blob/main/supervised/03_classification/07_naive_bayes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### scikit-learn
Strona biblioteki: [https://scikit-learn.org](https://scikit-learn.org)  

Dokumentacja/User Guide: [https://scikit-learn.org/stable/user_guide.html](https://scikit-learn.org/stable/user_guide.html)

Podstawowa biblioteka do uczenia maszynowego w języku Python.

Aby zainstalować bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install scikit-learn
```
Aby zaktualizować do najnowszej wersji bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install --upgrade scikit-learn
```
Kurs stworzony w oparciu o wersję `0.22.1`

### Preprocessing danych:
1. [Import bibliotek](#0)
2. [Wygenerowanie danych](#1)
3. [Przygotowanie danych do modelu](#2)
4. [Klasyfikator bayesowski](#3)




### <a name='0'></a> Import bibliotek

In [None]:
import numpy as np
import pandas as pd
import sklearn

np.random.seed(42)
np.set_printoptions(precision=6, suppress=True)
sklearn.__version__

'0.22.1'

### <a name='1'></a> Wygenerowanie danych

In [None]:
pogoda = ['słonecznie', 'deszczowo', 'pochmurno', 'deszczowo', 'słonecznie', 'słonecznie',
          'pochmurno', 'pochmurno', 'słonecznie']
temperatura = ['ciepło', 'zimno', 'ciepło', 'ciepło', 'ciepło', 'umiarkowanie',
               'umiarkowanie', 'ciepło', 'zimno']

spacer = ['tak', 'nie', 'tak', 'nie', 'tak', 'tak', 'nie', 'tak', 'nie']      

raw_df = pd.DataFrame(data={'pogoda': pogoda, 'temperatura': temperatura, 'spacer': spacer})
df = raw_df.copy()
df

Unnamed: 0,pogoda,temperatura,spacer
0,słonecznie,ciepło,tak
1,deszczowo,zimno,nie
2,pochmurno,ciepło,tak
3,deszczowo,ciepło,nie
4,słonecznie,ciepło,tak
5,słonecznie,umiarkowanie,tak
6,pochmurno,umiarkowanie,nie
7,pochmurno,ciepło,tak
8,słonecznie,zimno,nie


### <a name='2'></a> Przygotowanie danych do modelu

In [None]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
df['spacer']= encoder.fit_transform(spacer)
df

Unnamed: 0,pogoda,temperatura,spacer
0,słonecznie,ciepło,1
1,deszczowo,zimno,0
2,pochmurno,ciepło,1
3,deszczowo,ciepło,0
4,słonecznie,ciepło,1
5,słonecznie,umiarkowanie,1
6,pochmurno,umiarkowanie,0
7,pochmurno,ciepło,1
8,słonecznie,zimno,0


In [None]:
df = pd.get_dummies(df, columns=['pogoda', 'temperatura'], drop_first=True)
df

Unnamed: 0,spacer,pogoda_pochmurno,pogoda_słonecznie,temperatura_umiarkowanie,temperatura_zimno
0,1,0,1,0,0
1,0,0,0,0,1
2,1,1,0,0,0
3,0,0,0,0,0
4,1,0,1,0,0
5,1,0,1,1,0
6,0,1,0,1,0
7,1,1,0,0,0
8,0,0,1,0,1


In [None]:
data = df.copy()
target = data.pop('spacer')

data

Unnamed: 0,pogoda_pochmurno,pogoda_słonecznie,temperatura_umiarkowanie,temperatura_zimno
0,0,1,0,0
1,0,0,0,1
2,1,0,0,0
3,0,0,0,0
4,0,1,0,0
5,0,1,1,0
6,1,0,1,0
7,1,0,0,0
8,0,1,0,1


In [None]:
target

0    1
1    0
2    1
3    0
4    1
5    1
6    0
7    1
8    0
Name: spacer, dtype: int64

### <a name='3'></a> Klasyfikator bayesowski

In [None]:
from sklearn.naive_bayes import GaussianNB

model = GaussianNB()
model.fit(data, target)

GaussianNB(priors=None, var_smoothing=1e-09)

In [None]:
model.score(data, target)

0.7777777777777778

In [None]:
data.iloc[[0]]

Unnamed: 0,pogoda_pochmurno,pogoda_słonecznie,temperatura_umiarkowanie,temperatura_zimno
0,0,1,0,0


In [None]:
model.predict(data.iloc[[0]])

array([1])

In [None]:
encoder.classes_

array(['nie', 'tak'], dtype='<U3')

In [None]:
encoder.classes_[model.predict(data.iloc[[0]])[0]]

'tak'

In [None]:
model.predict_proba(data.iloc[[0]])

array([[0.000006, 0.999994]])