### scikit-learn
Strona biblioteki: [https://scikit-learn.org](https://scikit-learn.org)  

Dokumentacja/User Guide: [https://scikit-learn.org/stable/user_guide.html](https://scikit-learn.org/stable/user_guide.html)

Podstawowa biblioteka do uczenia maszynowego w języku Python.

Aby zainstalować bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install scikit-learn
```
Aby zaktualizować do najnowszej wersji bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install --upgrade scikit-learn
```
Kurs stworzony w oparciu o wersję `0.22.1`

### Spis treści:
1. [Import bibliotek](#0)
2. [Załadowanie danych](#1)
3. [Utworzenie kopii danych](#2)
4. [Generowanie nowych zmiennych](#3)
5. [Dyskretyzacja zmiennej ciągłej](#4)
6. [Ekstrakcja cech](#5)



### <a name='0'></a> Import bibliotek

In [None]:
import numpy as np
import pandas as pd
import sklearn

sklearn.__version__

### <a name='1'></a> Załadowanie danych

In [None]:
!pip install yfinance

Funkcja _fetch_financial_data()_ pobiera dane dotyczące notowań spółek giełdowych. Będzie wykorzystywana w poniższych ćwiczeniach. Aby pobrać dane konkretnej spółki należy przekazać odpowiedni ticker (symbol) spółki.

Kilka przykładowych tickerów spółek:
* AMZN - Amazon
* GOOGL - Google
* MSFT - Microsoft
* AAPL - Apple
* NKE - Nike
* WMT - Walmart

In [None]:
import yfinance as yf

def fetch_financial_data(company='AMZN'):
    """
    Funkcja pobiera notowania giełdowe z yfinance.
    """
    ticker = yf.Ticker(company)
    data = ticker.history(period='max')
    return data

In [None]:
df_raw = fetch_financial_data()

### <a name='2'></a> Utworzenie kopii danych

In [None]:
df = df_raw.copy()
df = df[:5]
df.info()

### <a name='3'></a> Generowanie nowych zmiennych

In [None]:
df.index.month

In [None]:
df['day'] = df.index.day
df['month'] = df.index.month
df['year'] = df.index.year
df

### <a name='4'></a> Dyskretyzacja zmiennej ciągłej

In [None]:
df = pd.DataFrame(data={'height': [175., 178.5, 185., 191., 184.5, 183., 168.]})
df

In [None]:
df['height_cat'] = pd.cut(x=df.height, bins=3)
df

In [None]:
df['height_cat'] = pd.cut(x=df.height, bins=(160, 175, 180, 195))
df

In [None]:
df['height_cat'] = pd.cut(x=df.height, bins=(160, 175, 180, 195), labels=['small', 'medium', 'high'])
df

In [None]:
pd.get_dummies(df, drop_first=True, prefix='height', dtype=int)

### <a name='5'></a> Ekstrakcja cech

In [None]:
df = pd.DataFrame(data={'lang': [['PL', 'ENG'], ['GER', 'ENG', 'PL', 'FRA'], ['RUS']]})
df

In [None]:
df['lang_number'] = df['lang'].apply(len)
df

In [None]:
df['PL_flag'] = df['lang'].apply(lambda x: 1 if 'PL' in x else 0)
df

In [None]:
df = pd.DataFrame(data={'website': ['wp.pl', 'onet.pl', 'google.com']})
df

In [None]:
df.website.str.split('.', expand=True)

In [None]:
new = df.website.str.split('.', expand=True)
df['portal'] = new[0]
df['extension'] = new[1]
df