<a href="https://colab.research.google.com/github/uzdanska/Machine-Learning/blob/main/supervised/01_basics/03_feature_extraction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### scikit-learn

Strona biblioteki: https://scikit-learn.org

Dokumentacja/User Guide: https://scikit-learn.org/stable/user_guide.html

Podstawowa biblioteka do uczenia maszynowego w języku Python.

Aby zainstalować bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install scikit-learn

```
Aby zaktualizować do najnowszej wersji bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install --upgrade scikit-learn
```
Kurs stworzony w oparciu o wersję 0.22.1

### Preprocessing danych:


1.   [Import bibliorek](#0)
2.   [Załadowanie danych](#1)
3.   [Utworzenie kopii danych](#2)
4.   [Generowanie nowych zmiennych](#3)
5.   [Dyskretyzacja zmiennej ciągłej](#4)
6.   [Ekstrakcja cech](#5)

### <a name="0"></a> 1. Import bibliotek

In [7]:
import numpy as np
import pandas as pd
import sklearn

sklearn.__version__

'1.2.2'

### <a name="1"></a> 2. Załadowania danych

In [8]:
# amzn - amazon
def fetch_financial_data(company="AMZN"):
  import pandas_datareader.data as web
  return web.DataReader(name=company, data_source="stooq")

df_raw = fetch_financial_data()
df_raw.head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2023-10-13,132.98,133.3145,128.95,129.79,45824685
2023-10-12,132.17,134.48,131.23,132.33,55528581
2023-10-11,129.74,132.05,129.61,131.83,40741842
2023-10-10,128.82,130.74,128.05,129.48,42178619
2023-10-09,126.22,128.79,124.76,128.26,38773738


### <a name="2"></a> 3. Utworzenie kopii danych

In [9]:
df = df_raw.copy()
# cut first 5 rows
df = df[:5]
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 5 entries, 2023-10-13 to 2023-10-09
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Open    5 non-null      float64
 1   High    5 non-null      float64
 2   Low     5 non-null      float64
 3   Close   5 non-null      float64
 4   Volume  5 non-null      int64  
dtypes: float64(4), int64(1)
memory usage: 240.0 bytes


### <a name="3"></a> 4. Generowanie nowych zmiennych

In [11]:
df.index

DatetimeIndex(['2023-10-13', '2023-10-12', '2023-10-11', '2023-10-10',
               '2023-10-09'],
              dtype='datetime64[ns]', name='Date', freq=None)

In [10]:
df['day'] = df.index.day
df['month'] = df.index.month
df['year'] = df.index.year
df

Unnamed: 0_level_0,Open,High,Low,Close,Volume,day,month,year
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2023-10-13,132.98,133.3145,128.95,129.79,45824685,13,10,2023
2023-10-12,132.17,134.48,131.23,132.33,55528581,12,10,2023
2023-10-11,129.74,132.05,129.61,131.83,40741842,11,10,2023
2023-10-10,128.82,130.74,128.05,129.48,42178619,10,10,2023
2023-10-09,126.22,128.79,124.76,128.26,38773738,9,10,2023


### <a name="4"></a> 5. Dyskretyzacja zmiennej ciągłej



#### <a name="4_1"></a> 5.1. Wygenerowanie danych

In [12]:
df = pd.DataFrame(data={'height': [175.,178.5, 185., 191., 184.5, 183., 168.]})
df

Unnamed: 0,height
0,175.0
1,178.5
2,185.0
3,191.0
4,184.5
5,183.0
6,168.0


#### <a name="4_2"></a> 5.2. Przypisanie nowej zmiennej do porównania


Metoda pd.cut pierwszy paramter to kolumna, a drugi bins na ile podziałow chcemy podzielić naszą zmienną ciągłą. Jako resultat dostajemy zmienną kategoryczną i odpowiednie przedziały

In [13]:

df['height_cat'] = pd.cut(x=df.height, bins=3)
df

Unnamed: 0,height,height_cat
0,175.0,"(167.977, 175.667]"
1,178.5,"(175.667, 183.333]"
2,185.0,"(183.333, 191.0]"
3,191.0,"(183.333, 191.0]"
4,184.5,"(183.333, 191.0]"
5,183.0,"(175.667, 183.333]"
6,168.0,"(167.977, 175.667]"


Konkretne przedziały używany bins jako krotki

In [14]:
df['height_cat'] = pd.cut(x=df.height, bins=(160, 175, 180, 195))
df

Unnamed: 0,height,height_cat
0,175.0,"(160, 175]"
1,178.5,"(175, 180]"
2,185.0,"(180, 195]"
3,191.0,"(180, 195]"
4,184.5,"(180, 195]"
5,183.0,"(180, 195]"
6,168.0,"(160, 175]"


Do konkretnych przedziałow dodać etykietę

In [15]:
df['height_cat'] = pd.cut(x=df.height, bins=(160, 175, 180, 195), labels=["small", "medium", "high"])
df

Unnamed: 0,height,height_cat
0,175.0,small
1,178.5,medium
2,185.0,high
3,191.0,high
4,184.5,high
5,183.0,high
6,168.0,small


Przygotowanie danych za pomocą get_dummies

In [16]:
pd.get_dummies(df, drop_first=True, prefix="height")

Unnamed: 0,height,height_medium,height_high
0,175.0,0,0
1,178.5,1,0
2,185.0,0,1
3,191.0,0,1
4,184.5,0,1
5,183.0,0,1
6,168.0,0,0


### <a name="5"></a> 6. Ekstracja cech

#### <a name="5_1"></a> 6.1. Wygenerowanie danych

In [17]:
df = pd.DataFrame(data = {'lang': [['PL', 'ENG'], ['GER', 'ENG', 'PL', 'FRA'], ['RUS']]})
df

Unnamed: 0,lang
0,"[PL, ENG]"
1,"[GER, ENG, PL, FRA]"
2,[RUS]


##### <a name="5_2"></a> 6.1.1. Dodanie kolumny ilości jezyków napisanej aplikacji

In [18]:
df['lang_number'] = df['lang'].apply(len)
df

Unnamed: 0,lang,lang_number
0,"[PL, ENG]",2
1,"[GER, ENG, PL, FRA]",4
2,[RUS],1


##### <a name="5_3"></a> 6.1.2. Budowanie flagi


Jeśli Polska wersja aplikacji wystepuje zwroci 1 jeśli nie 0

In [20]:
df['PL_flag'] = df['lang'].apply(lambda x: 1 if 'PL' in x else 0)
df

Unnamed: 0,lang,lang_number,PL_flag
0,"[PL, ENG]",2,1
1,"[GER, ENG, PL, FRA]",4,1
2,[RUS],1,0


#### <a name="5_4"></a> 6.2. Wygenerowanie nowych danych

In [21]:
df = pd.DataFrame(data = {'website': ['wp.pl', 'onet.pl', 'google.com']})
df

Unnamed: 0,website
0,wp.pl
1,onet.pl
2,google.com


##### <a name="5_5"></a> 6.2.1 Podział ze względu na jeden znaku '.'


Konwertujac w pewnym sensie zmienna używając 'str' mozemy dostać się do metod w pythonie

In [22]:
df.website.str.split('.', expand=True)

Unnamed: 0,0,1
0,wp,pl
1,onet,pl
2,google,com


##### <a name="5_6"></a> 6.2.2 Przypisanie do nowego obiektu jako dwie odziellne kolumny


In [24]:
new = df.website.str.split('.', expand=True)
df['portal'] = new[0]
df['extension'] = new[1]
df

Unnamed: 0,website,portal,extension
0,wp.pl,wp,pl
1,onet.pl,onet,pl
2,google.com,google,com
