### scikit-learn
Strona biblioteki: [https://scikit-learn.org](https://scikit-learn.org)  

Dokumentacja/User Guide: [https://scikit-learn.org/stable/user_guide.html](https://scikit-learn.org/stable/user_guide.html)

Podstawowa biblioteka do uczenia maszynowego w języku Python.

Aby zainstalować bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install scikit-learn
```
Aby zaktualizować do najnowszej wersji bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install --upgrade scikit-learn
```
Kurs stworzony w oparciu o wersję `0.22.1`

### Spis treści:
1. [Import bibliotek](#0)
2. [Wygenerowanie danych](#1)
3. [Utworzenie kopii danych](#2)
4. [Sprawdzenie braków](#3)
5. [Uzupełnienie braków - SimpleImputer](#4)
6. [Braki danych w szeregach czasowych](#5)




### <a name='0'></a> Import bibliotek

In [None]:
import numpy as np
import pandas as pd
import sklearn

sklearn.__version__

### <a name='1'></a> Wygenerowanie danych

In [None]:
data = {
    'size': ['XL', 'L', 'M', np.nan, 'M', 'M'],
    'color': ['red', 'green', 'blue', 'green', 'red', 'green'],
    'gender': ['female', 'male', np.nan, 'female', 'female', 'male'],
    'price': [199.0, 89.0, np.nan, 129.0, 79.0, 89.0],
    'weight': [500, 450, 300, np.nan, 410, np.nan],
    'bought': ['yes', 'no', 'yes', 'no', 'yes', 'no']
}

df_raw = pd.DataFrame(data=data)
df_raw

### <a name='2'></a> Utworzenie kopii danych



In [None]:
df = df_raw.copy()
df.info()

### <a name='3'></a> Sprawdzenie braków



In [None]:
df.isnull()

In [None]:
df.isnull().sum()

In [None]:
df.isnull().sum().sum()

In [None]:
df.isnull().sum() / len(df)

### <a name='4'></a> Uzupełnienie braków - SimpleImputer

In [None]:
df[['weight']]

In [None]:
from sklearn.impute import SimpleImputer

# strategy: 'mean', 'median', 'most_frequent', 'constant'
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(df[['weight']])

In [None]:
imputer.statistics_

In [None]:
imputer.transform(df[['weight']])

In [None]:
df['weight'] = imputer.transform(df[['weight']])
df

In [None]:
imputer = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value=99.0)
imputer.fit_transform(df[['price']])

In [None]:
imputer = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value='L')
imputer.fit_transform(df[['size']])

In [None]:
df

In [None]:
imputer = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
imputer.fit_transform(df[['size']])

In [None]:
df = df_raw.copy()
df

In [None]:
df.isnull().sum()

In [None]:
pd.isnull(df['weight'])

In [None]:
df[pd.isnull(df['weight'])]

In [None]:
df[~pd.isnull(df['weight'])]

In [None]:
pd.notnull(df['weight'])

In [None]:
df[pd.notnull(df['weight'])]

In [None]:
df

In [None]:
df.fillna(value='brak')

In [None]:
df.fillna(value=0.0)

In [None]:
df['size']

In [None]:
df['size'].fillna(value='L', inplace=True)
df

In [None]:
df.dropna()

In [None]:
df = df.dropna()
df

### <a name='5'></a> Braki danych w szeregach czasowych

In [None]:
data = {'price': [108, 109, 110, 110, 109, np.nan, np.nan, 112, 111, 111]}
date_range = pd.date_range(start='01-01-2020 09:00', end='01-01-2020 18:00', periods=10)

df = pd.DataFrame(data=data, index=date_range)
df

In [None]:
from pandas.plotting import register_matplotlib_converters
import matplotlib.pyplot as plt
import seaborn as sns
register_matplotlib_converters()
sns.set()

plt.figure(figsize=(10, 4))
plt.title('Braki danych')
_ = plt.plot(df.price)

In [None]:
import plotly.express as px

df_plotly = df.reset_index()
px.line(df_plotly, 'index', 'price', width=600, height=400, 
        title='Szeregi czasowe - braki danych')

Usunięcie braków

In [None]:
df_plotly = df_plotly.dropna()
px.line(df_plotly, 'index', 'price', width=600, height=400, 
        title='Szeregi czasowe - braki danych')

Wypełnienie braków stałą wartością 0

In [None]:
df_plotly = df.reset_index()
df_plotly['price_fill'] = df_plotly['price'].fillna(0)
px.line(df_plotly, 'index', 'price_fill', width=600, height=400, 
        title='Szeregi czasowe - braki danych - wstawienie 0')

Wypełnienie braków średnią

In [None]:
df_plotly = df.reset_index()
df_plotly['price_fill'] = df_plotly['price'].fillna(df_plotly['price'].mean())
px.line(df_plotly, 'index', 'price_fill', width=600, height=400, 
        title='Szeregi czasowe - braki danych - wstawienie średniej')

Zastosowanie interpolacji

In [None]:
df_plotly = df.reset_index()
df_plotly['price_fill'] = df_plotly['price'].interpolate()
px.line(df_plotly, 'index', 'price_fill', width=600, height=400, 
        title='Szeregi czasowe - braki danych - interpolacja')

Wypełnienie braków metodą forward fill

In [None]:
df_plotly = df.reset_index()
df_plotly['price_fill'] = df_plotly['price'].fillna(method='ffill')
px.line(df_plotly, 'index', 'price_fill', width=600, height=400, 
        title='Szeregi czasowe - braki danych - forward fill')

Wypełnienie braków metodą backward fill

In [None]:
df_plotly = df.reset_index()
df_plotly['price_fill'] = df_plotly['price'].fillna(method='bfill')
px.line(df_plotly, 'index', 'price_fill', width=600, height=400, 
        title='Szeregi czasowe - braki danych')