# Feature generation

In [12]:
import pandas as pd
import spacy
import os

from feature_generation_functions import *

## load spacy

In [13]:
nlp = spacy.load("pl_core_news_sm")

## Path 

In [14]:
root_dir = os.path.abspath(os.path.join(os.getcwd()))
print(root_dir)

/home/lizardman/Uczelnia/DataMining/Advanced-Data-Mining


## Read cleaned data from pickle

In [15]:
path_to_pickle = os.path.join(root_dir, 'data_cleaning-data', 'tematy_i_opisy_df_cleaned.pickle')
df_main: pd.DataFrame = pd.read_pickle(path_to_pickle)

## columns selection

In [16]:
columns = df_main.columns
cols_names = columns.tolist()
cols_names = [cols_names[0], cols_names[1], cols_names[5]]
print(cols_names)

['Tytuł pracy w języku oryginału', 'Temat Pracy', 'Typ pracy']


## df with interesting columns

In [17]:
df = get_df_with_columns(df_main, cols_names)
df

Unnamed: 0,Tytuł pracy w języku oryginału,Temat Pracy,Typ pracy
0,Rozwój funkcjonalności oraz modernizacja konst...,Tematem niniejszej pracy jest rozwój funkcjona...,magisterska
1,Opracowanie rusztowania na bazie wełny owczej ...,Niniejsza praca dyplomowa skupia się na opraco...,inżynierska
2,Papierowe systemy analityczne z mikroprzepływe...,Praca dotyczy prostych systemów diagnostycznyc...,inżynierska
3,System wizyzjny odczytujący osobom niewidomym ...,"Celem pracy jest stworzenie systemu wizyjnego,...",inżynierska
4,System wizyzjny nakierowujący osoby niewidome ...,"Celem pracy jest stworzenie systemu wizyjnego,...",inżynierska
...,...,...,...
5306,Biznesplan sklepu z odzieżą używaną,W pracy zostaną przedstawione kolejne etapy po...,licencjacka
5307,Ewolucja bankowości elektronicznej w Polsce na...,W pracy dokonano opisu rozwoju bankowości elek...,licencjacka
5308,Ocena wykonania budżetu jednostki samorządu te...,W pracy zostanie przedstawiony planowany budże...,licencjacka
5309,Rozwiązania smart-city stosowane dla krakowski...,W pracy przedstawione zostanie zainteresowanie...,inżynierska


## rename columns

In [18]:
new_names = ['title', 'description', 'category']
for i in range(len(cols_names)):
    df = rename_columns(df, cols_names[i], new_names[i])
df

Unnamed: 0,title,description,category
0,Rozwój funkcjonalności oraz modernizacja konst...,Tematem niniejszej pracy jest rozwój funkcjona...,magisterska
1,Opracowanie rusztowania na bazie wełny owczej ...,Niniejsza praca dyplomowa skupia się na opraco...,inżynierska
2,Papierowe systemy analityczne z mikroprzepływe...,Praca dotyczy prostych systemów diagnostycznyc...,inżynierska
3,System wizyzjny odczytujący osobom niewidomym ...,"Celem pracy jest stworzenie systemu wizyjnego,...",inżynierska
4,System wizyzjny nakierowujący osoby niewidome ...,"Celem pracy jest stworzenie systemu wizyjnego,...",inżynierska
...,...,...,...
5306,Biznesplan sklepu z odzieżą używaną,W pracy zostaną przedstawione kolejne etapy po...,licencjacka
5307,Ewolucja bankowości elektronicznej w Polsce na...,W pracy dokonano opisu rozwoju bankowości elek...,licencjacka
5308,Ocena wykonania budżetu jednostki samorządu te...,W pracy zostanie przedstawiony planowany budże...,licencjacka
5309,Rozwiązania smart-city stosowane dla krakowski...,W pracy przedstawione zostanie zainteresowanie...,inżynierska


## eliminate empty descriptions

In [19]:
# df = change_polish_letters(df, 'description')
df = remove_empty_description(df, 'description')
df

Unnamed: 0,title,description,category
0,Rozwój funkcjonalności oraz modernizacja konst...,Tematem niniejszej pracy jest rozwój funkcjona...,magisterska
1,Opracowanie rusztowania na bazie wełny owczej ...,Niniejsza praca dyplomowa skupia się na opraco...,inżynierska
2,Papierowe systemy analityczne z mikroprzepływe...,Praca dotyczy prostych systemów diagnostycznyc...,inżynierska
3,System wizyzjny odczytujący osobom niewidomym ...,"Celem pracy jest stworzenie systemu wizyjnego,...",inżynierska
4,System wizyzjny nakierowujący osoby niewidome ...,"Celem pracy jest stworzenie systemu wizyjnego,...",inżynierska
...,...,...,...
5306,Biznesplan sklepu z odzieżą używaną,W pracy zostaną przedstawione kolejne etapy po...,licencjacka
5307,Ewolucja bankowości elektronicznej w Polsce na...,W pracy dokonano opisu rozwoju bankowości elek...,licencjacka
5308,Ocena wykonania budżetu jednostki samorządu te...,W pracy zostanie przedstawiony planowany budże...,licencjacka
5309,Rozwiązania smart-city stosowane dla krakowski...,W pracy przedstawione zostanie zainteresowanie...,inżynierska


## Tokenizing column

In [20]:
df = tokenize_column(df, nlp, 'description', 'description_tokens')

In [21]:
df['description_tokens'][0]

['Tematem',
 'niniejszej',
 'pracy',
 'jest',
 'rozwój',
 'funkcjonalności',
 'oraz',
 'konstrukcji',
 'maszyny',
 'realizującej',
 'proces',
 'beznarzędziowego',
 'ciągnienia',
 '.',
 '\n',
 'Przebudowanie',
 'systemu',
 'transportu',
 'układu',
 'grzewczego',
 'umożliwi',
 'zminimalizowanie',
 'zakłóceń',
 'procesu',
 'beznarzędziowego',
 'ciągnienia',
 'takich',
 'jak',
 'drgania',
 'systemu',
 ',',
 'które',
 'wynikają',
 'z',
 'zastosowania',
 'niskobudżetowego',
 'napędu',
 'liniowego',
 '.',
 'Efektem',
 'tych',
 'działań',
 'będzie',
 'otrzymanie',
 'próbek',
 'oraz',
 'danych',
 'z',
 'procesu',
 'beznarzędziowego',
 'ciągnienia',
 'o',
 'wyższej',
 'jakości',
 '.',
 '\n',
 'Adaptacja',
 'kodu',
 'aplikacji',
 'do',
 'pracy',
 'na',
 'komputerze',
 'stacjonarnym',
 'zwiększy',
 'częstotliwości',
 'odczytu',
 'wartości',
 'z',
 'czujnika',
 'siły',
 ',',
 'wykonywania',
 'zdjęć',
 'próbki',
 'oraz',
 'podniesie',
 'wydajność',
 'algorytmu',
 'analizującego',
 'obraz',
 'i',
 'w

In [22]:
df1 = tokenize_column(df, nlp, 'title', 'title_tokens')
df1['title_tokens'][0]

['Rozwój',
 'funkcjonalności',
 'oraz',
 'modernizacja',
 'konstrukcji',
 'maszyny',
 'realizującej',
 'proces',
 'beznarzędziowego',
 'ciągnienia']

In [23]:
path_to_feature_data = os.path.join(root_dir, 'feature_generation-data')
path_to_basic_feture_pickle = os.path.join(path_to_feature_data, 'basic_features_df.pickle')

# with open(path_to_basic_feture_pickle, 'wb') as f:
#     df1.to_pickle(f)
    
df: pd.DataFrame = pd.read_pickle(path_to_basic_feture_pickle)

## till here tokenized description and title and everythink works

In [25]:
df['description_tokens'][0]

['Tematem',
 'niniejszej',
 'pracy',
 'jest',
 'rozwój',
 'funkcjonalności',
 'oraz',
 'konstrukcji',
 'maszyny',
 'realizującej',
 'proces',
 'beznarzędziowego',
 'ciągnienia',
 '.',
 '\n',
 'Przebudowanie',
 'systemu',
 'transportu',
 'układu',
 'grzewczego',
 'umożliwi',
 'zminimalizowanie',
 'zakłóceń',
 'procesu',
 'beznarzędziowego',
 'ciągnienia',
 'takich',
 'jak',
 'drgania',
 'systemu',
 ',',
 'które',
 'wynikają',
 'z',
 'zastosowania',
 'niskobudżetowego',
 'napędu',
 'liniowego',
 '.',
 'Efektem',
 'tych',
 'działań',
 'będzie',
 'otrzymanie',
 'próbek',
 'oraz',
 'danych',
 'z',
 'procesu',
 'beznarzędziowego',
 'ciągnienia',
 'o',
 'wyższej',
 'jakości',
 '.',
 '\n',
 'Adaptacja',
 'kodu',
 'aplikacji',
 'do',
 'pracy',
 'na',
 'komputerze',
 'stacjonarnym',
 'zwiększy',
 'częstotliwości',
 'odczytu',
 'wartości',
 'z',
 'czujnika',
 'siły',
 ',',
 'wykonywania',
 'zdjęć',
 'próbki',
 'oraz',
 'podniesie',
 'wydajność',
 'algorytmu',
 'analizującego',
 'obraz',
 'i',
 'w

In [26]:
df = remove_stop_words(df, nlp, 'description_tokens')

In [27]:
df['description_tokens'][0]

['Tematem',
 'niniejszej',
 'pracy',
 'rozwój',
 'funkcjonalności',
 'konstrukcji',
 'maszyny',
 'realizującej',
 'proces',
 'beznarzędziowego',
 'ciągnienia',
 '.',
 '\n',
 'Przebudowanie',
 'systemu',
 'transportu',
 'układu',
 'grzewczego',
 'umożliwi',
 'zminimalizowanie',
 'zakłóceń',
 'procesu',
 'beznarzędziowego',
 'ciągnienia',
 'drgania',
 'systemu',
 ',',
 'wynikają',
 'zastosowania',
 'niskobudżetowego',
 'napędu',
 'liniowego',
 '.',
 'Efektem',
 'działań',
 'otrzymanie',
 'próbek',
 'danych',
 'procesu',
 'beznarzędziowego',
 'ciągnienia',
 'wyższej',
 'jakości',
 '.',
 '\n',
 'Adaptacja',
 'kodu',
 'aplikacji',
 'pracy',
 'komputerze',
 'stacjonarnym',
 'zwiększy',
 'częstotliwości',
 'odczytu',
 'wartości',
 'czujnika',
 'siły',
 ',',
 'wykonywania',
 'zdjęć',
 'próbki',
 'podniesie',
 'wydajność',
 'algorytmu',
 'analizującego',
 'obraz',
 'wyliczającego',
 'wartość',
 'odkształcenia',
 'próbki',
 '.',
 'Wynikiem',
 'zwiększenia',
 'wydajności',
 'operacji',
 'uzyskani

In [28]:
df = remove_stop_words(df, nlp, 'title_tokens')

In [29]:
df['title_tokens'][0]

['Rozwój',
 'funkcjonalności',
 'modernizacja',
 'konstrukcji',
 'maszyny',
 'realizującej',
 'proces',
 'beznarzędziowego',
 'ciągnienia']

## lower case tokens

In [30]:
df = lower_all_letters(df, 'description_tokens')
df['description_tokens'][0]

['tematem',
 'niniejszej',
 'pracy',
 'rozwój',
 'funkcjonalności',
 'konstrukcji',
 'maszyny',
 'realizującej',
 'proces',
 'beznarzędziowego',
 'ciągnienia',
 '.',
 '\n',
 'przebudowanie',
 'systemu',
 'transportu',
 'układu',
 'grzewczego',
 'umożliwi',
 'zminimalizowanie',
 'zakłóceń',
 'procesu',
 'beznarzędziowego',
 'ciągnienia',
 'drgania',
 'systemu',
 ',',
 'wynikają',
 'zastosowania',
 'niskobudżetowego',
 'napędu',
 'liniowego',
 '.',
 'efektem',
 'działań',
 'otrzymanie',
 'próbek',
 'danych',
 'procesu',
 'beznarzędziowego',
 'ciągnienia',
 'wyższej',
 'jakości',
 '.',
 '\n',
 'adaptacja',
 'kodu',
 'aplikacji',
 'pracy',
 'komputerze',
 'stacjonarnym',
 'zwiększy',
 'częstotliwości',
 'odczytu',
 'wartości',
 'czujnika',
 'siły',
 ',',
 'wykonywania',
 'zdjęć',
 'próbki',
 'podniesie',
 'wydajność',
 'algorytmu',
 'analizującego',
 'obraz',
 'wyliczającego',
 'wartość',
 'odkształcenia',
 'próbki',
 '.',
 'wynikiem',
 'zwiększenia',
 'wydajności',
 'operacji',
 'uzyskani

In [31]:
df = lower_all_letters(df, 'title_tokens')
df['title_tokens'][0]

['rozwój',
 'funkcjonalności',
 'modernizacja',
 'konstrukcji',
 'maszyny',
 'realizującej',
 'proces',
 'beznarzędziowego',
 'ciągnienia']

## puctuation removal

In [32]:
df = remove_punctuation(df, nlp, 'description_tokens')
df['description_tokens'][0]

['tematem',
 'niniejszej',
 'pracy',
 'rozwój',
 'funkcjonalności',
 'konstrukcji',
 'maszyny',
 'realizującej',
 'proces',
 'beznarzędziowego',
 'ciągnienia',
 '\n',
 'przebudowanie',
 'systemu',
 'transportu',
 'układu',
 'grzewczego',
 'umożliwi',
 'zminimalizowanie',
 'zakłóceń',
 'procesu',
 'beznarzędziowego',
 'ciągnienia',
 'drgania',
 'systemu',
 'wynikają',
 'zastosowania',
 'niskobudżetowego',
 'napędu',
 'liniowego',
 'efektem',
 'działań',
 'otrzymanie',
 'próbek',
 'danych',
 'procesu',
 'beznarzędziowego',
 'ciągnienia',
 'wyższej',
 'jakości',
 '\n',
 'adaptacja',
 'kodu',
 'aplikacji',
 'pracy',
 'komputerze',
 'stacjonarnym',
 'zwiększy',
 'częstotliwości',
 'odczytu',
 'wartości',
 'czujnika',
 'siły',
 'wykonywania',
 'zdjęć',
 'próbki',
 'podniesie',
 'wydajność',
 'algorytmu',
 'analizującego',
 'obraz',
 'wyliczającego',
 'wartość',
 'odkształcenia',
 'próbki',
 'wynikiem',
 'zwiększenia',
 'wydajności',
 'operacji',
 'uzyskanie',
 'dokładniejszych',
 'wykresów',

In [33]:
df = remove_punctuation(df, nlp, 'title_tokens')
df['title_tokens'][0]

['rozwój',
 'funkcjonalności',
 'modernizacja',
 'konstrukcji',
 'maszyny',
 'realizującej',
 'proces',
 'beznarzędziowego',
 'ciągnienia']

## Remove \n \t \r char

In [34]:
df = remove_special_characters(df, 'description_tokens')
df['description_tokens'][0]

['tematem',
 'niniejszej',
 'pracy',
 'rozwój',
 'funkcjonalności',
 'konstrukcji',
 'maszyny',
 'realizującej',
 'proces',
 'beznarzędziowego',
 'ciągnienia',
 'przebudowanie',
 'systemu',
 'transportu',
 'układu',
 'grzewczego',
 'umożliwi',
 'zminimalizowanie',
 'zakłóceń',
 'procesu',
 'beznarzędziowego',
 'ciągnienia',
 'drgania',
 'systemu',
 'wynikają',
 'zastosowania',
 'niskobudżetowego',
 'napędu',
 'liniowego',
 'efektem',
 'działań',
 'otrzymanie',
 'próbek',
 'danych',
 'procesu',
 'beznarzędziowego',
 'ciągnienia',
 'wyższej',
 'jakości',
 'adaptacja',
 'kodu',
 'aplikacji',
 'pracy',
 'komputerze',
 'stacjonarnym',
 'zwiększy',
 'częstotliwości',
 'odczytu',
 'wartości',
 'czujnika',
 'siły',
 'wykonywania',
 'zdjęć',
 'próbki',
 'podniesie',
 'wydajność',
 'algorytmu',
 'analizującego',
 'obraz',
 'wyliczającego',
 'wartość',
 'odkształcenia',
 'próbki',
 'wynikiem',
 'zwiększenia',
 'wydajności',
 'operacji',
 'uzyskanie',
 'dokładniejszych',
 'wykresów',
 'naprężenia'

In [35]:
df = remove_special_characters(df, 'title_tokens')
df['title_tokens'][0]

['rozwój',
 'funkcjonalności',
 'modernizacja',
 'konstrukcji',
 'maszyny',
 'realizującej',
 'proces',
 'beznarzędziowego',
 'ciągnienia']

In [36]:
feature_half_way = os.path.join(path_to_feature_data, 'before_lemmatization.pickle')
# with open(feature_half_way, 'wb') as f:
#     df.to_pickle(f)

df = pd.read_pickle(feature_half_way)

## Stemming

In [37]:
df = lematize_column(df, nlp, 'description_tokens')

In [38]:
df['description_tokens'][0]

['temat',
 'niniejszy',
 'praca',
 'rozwój',
 'funkcjonalność',
 'konstrukcja',
 'maszyna',
 'realizuć',
 'proces',
 'beznarzędziowy',
 'ciągnieć',
 'przebudowanie',
 'system',
 'transport',
 'układ',
 'grzewcz',
 'umożliwić',
 'zminimalizować',
 'zakłócenie',
 'proces',
 'beznarzędziowy',
 'ciągnieć',
 'drganie',
 'system',
 'wynikać',
 'zastosować',
 'niskobudżetowy',
 'napęd',
 'liniowy',
 'efekt',
 'działanie',
 'otrzymać',
 'próbka',
 'dane',
 'proces',
 'beznarzędziowy',
 'ciągnieć',
 'wyższej',
 'jakość',
 'adaptacja',
 'kod',
 'aplikacja',
 'praca',
 'komputer',
 'stacjonarny',
 'zwiększyć',
 'częstotliwość',
 'odczyt',
 'wartość',
 'czujnik',
 'siła',
 'wykonywać',
 'zdjęcie',
 'próbka',
 'podnieść',
 'wydajność',
 'algorytm',
 'analizujący',
 'obraz',
 'wyliczający',
 'wartość',
 'odkształceć',
 'próbka',
 'wynik',
 'zwiększyć',
 'wydajność',
 'operacja',
 'uzyskać',
 'dokładniejszy',
 'wykres',
 'naprężenie',
 'odkształcenie',
 'siła',
 'wydłużeć',
 'próbka',
 'ponadto',
 'u

In [39]:
df = lematize_column(df, nlp, 'title_tokens')

In [40]:
df['title_tokens'][0]

['rozwój',
 'funkcjonalność',
 'modernizacja',
 'konstrukcja',
 'maszyna',
 'realizuć',
 'proces',
 'beznarzędziowy',
 'ciągnieć']

In [41]:
df

Unnamed: 0,title,description,category,description_tokens,title_tokens
0,Rozwój funkcjonalności oraz modernizacja konst...,Tematem niniejszej pracy jest rozwój funkcjona...,magisterska,"[temat, niniejszy, praca, rozwój, funkcjonalno...","[rozwój, funkcjonalność, modernizacja, konstru..."
1,Opracowanie rusztowania na bazie wełny owczej ...,Niniejsza praca dyplomowa skupia się na opraco...,inżynierska,"[niniejszy, praca, dyplomowy, skupiać, opracow...","[opracować, rusztowanie, baza, wełna, owczy, r..."
2,Papierowe systemy analityczne z mikroprzepływe...,Praca dotyczy prostych systemów diagnostycznyc...,inżynierska,"[praca, dotyczyć, prosty, system, diagnostyczn...","[papierowy, system, analityczny, mikroprzepływ..."
3,System wizyzjny odczytujący osobom niewidomym ...,"Celem pracy jest stworzenie systemu wizyjnego,...",inżynierska,"[cel, praca, stworzyć, system, wizyjn, móc by,...","[system, wizyzjny, odczytuć, osoba, niewidomym..."
4,System wizyzjny nakierowujący osoby niewidome ...,"Celem pracy jest stworzenie systemu wizyjnego,...",inżynierska,"[cel, praca, stworzyć, system, wizyjn, móc by,...","[system, wizyzjny, nakierowujący, osoba, niewi..."
...,...,...,...,...,...
5306,Biznesplan sklepu z odzieżą używaną,W pracy zostaną przedstawione kolejne etapy po...,licencjacka,"[w, praca, zostać, przedstawić, kolejny, etap,...","[biznesplan, sklep, odzieżeć, używać]"
5307,Ewolucja bankowości elektronicznej w Polsce na...,W pracy dokonano opisu rozwoju bankowości elek...,licencjacka,"[w, praca, dokonać, opis, rozwój, bankowość, e...","[ewolucja, bankowość, elektroniczny, Polska, p..."
5308,Ocena wykonania budżetu jednostki samorządu te...,W pracy zostanie przedstawiony planowany budże...,licencjacka,"[w, praca, zostać, przedstawić, planować, budż...","[ocena, wykonać, budżet, jednostka, samorząd, ..."
5309,Rozwiązania smart-city stosowane dla krakowski...,W pracy przedstawione zostanie zainteresowanie...,inżynierska,"[w, praca, przedstawić, zostać, zainteresowani...","[rozwiązać, smarta, cit, stosować, krakowski, ..."


In [42]:
tokens_lematized = os.path.join(path_to_feature_data, 'tokens_lematized.pickle')

with open(tokens_lematized, 'wb') as f:
    df.to_pickle(f)

In [44]:
df = pd.read_pickle(tokens_lematized)

In [45]:
df['category'] = df['category'].apply(lambda x: x.replace('\n', ' '))
df['category'] = df['category'].apply(lambda x: x.split(', '))
df['category'][8]

['inżynierska', 'magisterska']

In [46]:

title_and_description_tokenized_includes_polish_letters = os.path.join(path_to_feature_data, 'title_and_description_tokenized_includes_polish_letters.pickle')

with open(title_and_description_tokenized_includes_polish_letters, 'wb') as f:
    df.to_pickle(f)

In [47]:
df = pd.read_pickle(title_and_description_tokenized_includes_polish_letters)
df['title_tokens'][0]

['rozwój',
 'funkcjonalność',
 'modernizacja',
 'konstrukcja',
 'maszyna',
 'realizuć',
 'proces',
 'beznarzędziowy',
 'ciągnieć']