### 1. Ekstrakcja cech:

- polega na wydobywaniu cech/własności ze zmiennych (tworzenie nowych zmiennych - np. kolumn), które mogą być istotne dla ucenia maszynowego

- narzędzia deep learningu pomagają automatycznie wydobyć takie cechy (np. konwulcyjne sieci neuronowe - cechy zaszyte w obrazach), niekiedy jednak w uczeniu maszynowym trzeba to robić ręcznie.


- ekstrakcja cech wymaga wiedzy z danej dziedziny, wiedzy biznesowej


### 2. Przykłady ekstrakcji cech:

- notowania giełdowe (open, high, low, close): zmiany procentowe cen (np. close to open), wskaźniki RSI, zmiany procentowe względem dni, przekształcenie kolumn daty, do dni, miesięcy, lat, kwartałów


- iloczyn kartezjanski: zbiór A i B, A x B, A×B ≠ B×A (wszystkie możliwe pary z danych zbiorów)


- df ze wzrostem ludzi: stworzenie kategorii z zakresami - 165-175 niski, 175 - 185 średni, > 185


- następnie wykonać kodowanie 0,1 - 1 wtedy, gdy grupa nas interesuje (np. celujemy w średnich)


- df z z językami dostępnymi w aplikacji [PL, GER, ENG, RUS], zmienna z liczbą języków, 0-1, gdy język jest Polski (wtedy się bedzie lepiej sprzedawać w Polsce itd.)


- strony internetowe df - www.google.pl, www.zambrow.org, jedna zmienna z domena np. google, zambrow, druga - z rozszerzeniem org, pl, com


- w aplikacji z językami np. zmienna 0-1 pod nazwą PL_flag (tworzenie flagi 0,1 dla języka Polskiego)

### 3. Ćwiczenie

In [1]:
import pandas as pd
import numpy as np
import sklearn

In [3]:
# pobieranie danych poprzez pandas_datareader.data

def fetch_financial_data(company='AMZN'):
    """
    This function fetches stock market quotations.
    """
    
    import pandas_datareader.data as web
    
    return web.DataReader (name=company, data_source='stooq')

In [5]:
df_raw = fetch_financial_data()
df = df_raw.copy()

In [6]:
df.head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2021-11-08,3523.24,3579.0,3487.86,3488.98,3073992
2021-11-05,3477.0,3566.25,3476.98,3518.99,4996951
2021-11-04,3370.0,3498.625,3365.0001,3477.0,5353020
2021-11-03,3309.0,3394.92,3297.52,3384.0,3397189
2021-11-02,3315.01,3331.115,3283.55,3312.75,2627590


In [7]:
df = df[:5]

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 5 entries, 2021-11-08 to 2021-11-02
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Open    5 non-null      float64
 1   High    5 non-null      float64
 2   Low     5 non-null      float64
 3   Close   5 non-null      float64
 4   Volume  5 non-null      int64  
dtypes: float64(4), int64(1)
memory usage: 240.0 bytes


### 4. Generowanie nowych zmiennych:

In [13]:
# wydobywanie dat z indeksu
df['day'] = df.index.day
df['month'] = df.index.month
df['year'] = df.index.year

In [17]:
# wydobywanie dat z kolumny
df.reset_index(inplace=True)

In [22]:
df['day_col'] = df['Date'].dt.day
df['month_col'] = df['Date'].dt.month
df['year_col'] = df['Date'].dt.year

In [23]:
df

Unnamed: 0,index,Date,Open,High,Low,Close,Volume,day,month,year,day_col,month_col,year_col
0,0,2021-11-08,3523.24,3579.0,3487.86,3488.98,3073992,8,11,2021,8,11,2021
1,1,2021-11-05,3477.0,3566.25,3476.98,3518.99,4996951,5,11,2021,5,11,2021
2,2,2021-11-04,3370.0,3498.625,3365.0001,3477.0,5353020,4,11,2021,4,11,2021
3,3,2021-11-03,3309.0,3394.92,3297.52,3384.0,3397189,3,11,2021,3,11,2021
4,4,2021-11-02,3315.01,3331.115,3283.55,3312.75,2627590,2,11,2021,2,11,2021


### 5. Dyskretyzacja zmiennej ciągłej

In [24]:
df = pd.DataFrame(data={'height': [175., 178.5, 185., 191., 184.5, 183., 168.]})
df

Unnamed: 0,height
0,175.0
1,178.5
2,185.0
3,191.0
4,184.5
5,183.0
6,168.0


In [28]:
# 3 przedziały, bins = 3

df['height_cat'] = pd.cut(df['height'], bins= 3 )
df

Unnamed: 0,height,height_cat
0,175.0,"(167.977, 175.667]"
1,178.5,"(175.667, 183.333]"
2,185.0,"(183.333, 191.0]"
3,191.0,"(183.333, 191.0]"
4,184.5,"(183.333, 191.0]"
5,183.0,"(175.667, 183.333]"
6,168.0,"(167.977, 175.667]"


In [29]:
# wymuszanie przedziałów:

df['height_cat'] = pd.cut(df['height'], bins=(160,175,185,195))
df

Unnamed: 0,height,height_cat
0,175.0,"(160, 175]"
1,178.5,"(175, 185]"
2,185.0,"(175, 185]"
3,191.0,"(185, 195]"
4,184.5,"(175, 185]"
5,183.0,"(175, 185]"
6,168.0,"(160, 175]"


In [32]:
# przekazywanie wartości tekstowej:

df['height_cat'] = pd.cut(df.height, bins=(160,175,185,195), labels=['small', 'medium', 'high'] )

df

Unnamed: 0,height,height_cat
0,175.0,small
1,178.5,medium
2,185.0,medium
3,191.0,high
4,184.5,medium
5,183.0,medium
6,168.0,small


In [35]:
# get dummies

pd.get_dummies(df, columns=['height_cat'], drop_first=True)

Unnamed: 0,height,height_cat_medium,height_cat_high
0,175.0,0,0
1,178.5,1,0
2,185.0,1,0
3,191.0,0,1
4,184.5,1,0
5,183.0,1,0
6,168.0,0,0


### 6. Ekstrakcja cech

In [36]:
df = pd.DataFrame(data= {'lang': [['PL', 'ENG'], ['PL', 'ENG', 'RUS', 'GER'], ['RUS']]})

In [37]:
df

Unnamed: 0,lang
0,"[PL, ENG]"
1,"[PL, ENG, RUS, GER]"
2,[RUS]


In [41]:
df['len'] = df['lang'].apply(lambda x: len(x))  # df['lang'].apply(len)

In [40]:
df

Unnamed: 0,lang,len
0,"[PL, ENG]",2
1,"[PL, ENG, RUS, GER]",4
2,[RUS],1


In [46]:
# stworzenie flagi 0,1

df['pl_flag'] = df['lang'].apply (lambda x: 1 if 'PL' in x else 0)
df

Unnamed: 0,lang,len,pl_flag
0,"[PL, ENG]",2,1
1,"[PL, ENG, RUS, GER]",4,1
2,[RUS],1,0


### 7. Ekstrakcja cech - roznicie nazw stron internetowych

In [47]:
df = pd.DataFrame({'website': ['www.google.com', 'www.zambrow.org', 'www.facebook.com', 'www.onet.pl']})

In [59]:
new_columns = df['website'].str.split('.', expand=True).drop(columns=0).rename(columns={1:'domain', 2:'extension'})

In [65]:
df = pd.concat([df,new_columns], axis=1)

In [66]:
df

Unnamed: 0,website,domain,extension
0,www.google.com,google,com
1,www.zambrow.org,zambrow,org
2,www.facebook.com,facebook,com
3,www.onet.pl,onet,pl


In [None]:
|