<a href="https://colab.research.google.com/github/KamilBienias/data-science/blob/main/kursPawe%C5%82Krakowiak/machine-learning-bootcamp/supervised/01_basics/03_feature_extraction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### scikit-learn
Strona biblioteki: [https://scikit-learn.org](https://scikit-learn.org)  

Dokumentacja/User Guide: [https://scikit-learn.org/stable/user_guide.html](https://scikit-learn.org/stable/user_guide.html)

Podstawowa biblioteka do uczenia maszynowego w języku Python.

Aby zainstalować bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install scikit-learn
```
Aby zaktualizować do najnowszej wersji bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install --upgrade scikit-learn
```
Kurs stworzony w oparciu o wersję `0.22.1`

### Spis treści:
1. [Import bibliotek](#0)
2. [Załadowanie danych](#1)
3. [Utworzenie kopii danych](#2)
4. [Generowanie nowych zmiennych](#3)
5. [Dyskretyzacja zmiennej ciągłej](#4)
6. [Ekstrakcja cech](#5)



### <a name='0'></a> Import bibliotek

In [24]:
print("############################################################")
print("Etap4. Odcinek: Ekstrakcja cech")

import numpy as np
import pandas as pd
import sklearn

sklearn.__version__

############################################################
Etap4. Odcinek: Ekstrakcja cech


'0.22.2.post1'

### <a name='1'></a> Załadowanie danych

In [25]:
# funkcja domyślnie pobiera dane spółki Amazon. Inne spółki w dokumentacji
# pd.datareader za pomocą tickera
def fetch_financial_data(company='AMZN'):
    """
    This function fetches stock market quotations.
    """
    import pandas_datareader.data as web
    # stooq to portal finansowy z notowaniami
    return web.DataReader(name=company, data_source='stooq')

df_raw_financial = fetch_financial_data()
print(df_raw_financial.head())
print("len(df_raw_financial)", len(df_raw_financial))

               Open       High       Low    Close   Volume
Date                                                      
2021-01-05  3166.01  3223.3800  3165.060  3218.51  2655548
2021-01-04  3270.00  3272.0000  3144.020  3186.63  4411449
2020-12-31  3275.00  3282.9219  3241.200  3256.93  2957206
2020-12-30  3341.00  3342.1000  3282.470  3285.85  3209310
2020-12-29  3309.94  3350.6500  3281.223  3322.00  4872933
len(df_raw_financial) 1257


### <a name='2'></a> Utworzenie kopii danych

In [26]:
df_financial = df_raw_financial.copy()
# df_financial będzie tylko pięcioma początkowymi wieszami z oryginalnej df_financial
df_financial = df_financial[:5]
df_financial.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 5 entries, 2021-01-05 to 2020-12-29
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Open    5 non-null      float64
 1   High    5 non-null      float64
 2   Low     5 non-null      float64
 3   Close   5 non-null      float64
 4   Volume  5 non-null      int64  
dtypes: float64(4), int64(1)
memory usage: 240.0 bytes


### <a name='3'></a> Generowanie nowych zmiennych

In [27]:
print(df_financial.keys())

Index(['Open', 'High', 'Low', 'Close', 'Volume'], dtype='object')


In [28]:
# indeksem jest kolumna date
df_financial.index

DatetimeIndex(['2021-01-05', '2021-01-04', '2020-12-31', '2020-12-30',
               '2020-12-29'],
              dtype='datetime64[ns]', name='Date', freq=None)

In [29]:
# pobiera miesiąc z indekseu
print(df_financial.index.month)

Int64Index([1, 1, 12, 12, 12], dtype='int64', name='Date')


In [30]:
# przypisanie dnia, miesiąca i roku do nowych kolumn
df_financial['day'] = df_financial.index.day
df_financial['month'] = df_financial.index.month
df_financial['year'] = df_financial.index.year
df_financial

Unnamed: 0_level_0,Open,High,Low,Close,Volume,day,month,year
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2021-01-05,3166.01,3223.38,3165.06,3218.51,2655548,5,1,2021
2021-01-04,3270.0,3272.0,3144.02,3186.63,4411449,4,1,2021
2020-12-31,3275.0,3282.9219,3241.2,3256.93,2957206,31,12,2020
2020-12-30,3341.0,3342.1,3282.47,3285.85,3209310,30,12,2020
2020-12-29,3309.94,3350.65,3281.223,3322.0,4872933,29,12,2020


### <a name='4'></a> Dyskretyzacja zmiennej ciągłej

In [31]:
df_wzrost = pd.DataFrame(data={'height': [175., 178.5, 185., 191., 184.5, 183., 168.]})
df_wzrost

Unnamed: 0,height
0,175.0
1,178.5
2,185.0
3,191.0
4,184.5
5,183.0
6,168.0


In [32]:
# nowa kolumna z kategoriami wzrostu. Na 3 kategorie rozdziela
df_wzrost['height_cat'] = pd.cut(x=df_wzrost.height, bins=3)
df_wzrost

Unnamed: 0,height,height_cat
0,175.0,"(167.977, 175.667]"
1,178.5,"(175.667, 183.333]"
2,185.0,"(183.333, 191.0]"
3,191.0,"(183.333, 191.0]"
4,184.5,"(183.333, 191.0]"
5,183.0,"(175.667, 183.333]"
6,168.0,"(167.977, 175.667]"


In [33]:
# nadpisuje poprzednią kolumnę height_cat. Tym razem sami ustalamy przedziały.
# Są to (160, 175], (175, 180], (180, 195]
df_wzrost['height_cat'] = pd.cut(x=df_wzrost.height, bins=(160, 175, 180, 195))
df_wzrost

Unnamed: 0,height,height_cat
0,175.0,"(160, 175]"
1,178.5,"(175, 180]"
2,185.0,"(180, 195]"
3,191.0,"(180, 195]"
4,184.5,"(180, 195]"
5,183.0,"(180, 195]"
6,168.0,"(160, 175]"


In [34]:
# jeśli wartość jest w konkretnym przedziale to wyświetla konkretną etykietę
df_wzrost['height_cat'] = pd.cut(x=df_wzrost.height, bins=(160, 175, 180, 195), labels=['small', 'medium', 'high'])
df_wzrost

Unnamed: 0,height,height_cat
0,175.0,small
1,178.5,medium
2,185.0,high
3,191.0,high
4,184.5,high
5,183.0,high
6,168.0,small


In [35]:
# koduje kategorialne oraz usuwa pierwszą kolumnę height
pd.get_dummies(df_wzrost, drop_first=True, prefix='height')

Unnamed: 0,height,height_medium,height_high
0,175.0,0,0
1,178.5,1,0
2,185.0,0,1
3,191.0,0,1
4,184.5,0,1
5,183.0,0,1
6,168.0,0,0


### <a name='5'></a> Ekstrakcja cech

In [36]:
# trzy aplikacje. Każda działa w podanych językach
df_jezyk = pd.DataFrame(data={'lang': [['PL', 'ENG'], ['GER', 'ENG', 'PL', 'FRA'], ['RUS']]})
df_jezyk

Unnamed: 0,lang
0,"[PL, ENG]"
1,"[GER, ENG, PL, FRA]"
2,[RUS]


In [37]:
# tworzy kolumnę liczącą ilość języków
df_jezyk['lang_number'] = df_jezyk['lang'].apply(len)
df_jezyk

Unnamed: 0,lang,lang_number
0,"[PL, ENG]",2
1,"[GER, ENG, PL, FRA]",4
2,[RUS],1


In [38]:
# sprawdza czy PL jest wśród tych języków
df_jezyk['PL_flag'] = df_jezyk['lang'].apply(lambda x: 1 if 'PL' in x else 0)
df_jezyk

Unnamed: 0,lang,lang_number,PL_flag
0,"[PL, ENG]",2,1
1,"[GER, ENG, PL, FRA]",4,1
2,[RUS],1,0


In [39]:
# nowa DataFrame z nazwami portali
df_web = pd.DataFrame(data={'website': ['wp.pl', 'onet.pl', 'google.com']})
df_web

Unnamed: 0,website
0,wp.pl
1,onet.pl
2,google.com


In [40]:
# expand=True buduje dwie nowe kolumny
df_web.website.str.split('.', expand=True)

Unnamed: 0,0,1
0,wp,pl
1,onet,pl
2,google,com


In [41]:
new = df_web.website.str.split('.', expand=True)
df_web['portal'] = new[0]
df_web['extension'] = new[1]
df_web

Unnamed: 0,website,portal,extension
0,wp.pl,wp,pl
1,onet.pl,onet,pl
2,google.com,google,com
