In [1]:
from bs4 import BeautifulSoup
from selenium import webdriver
import pandas as pd
import numpy as np
from IPython.display import HTML, display
import re
from selenium.webdriver.common.keys import Keys
from datetime import datetime
import os

## 1. Load information from all collected ESPI reports

In [2]:
df =  pd.read_csv('espi_data.csv',dtype=str)
print(f'Shape of the dataframe: {df.shape}')
df.head()

Shape of the dataframe: (11033, 4)


Unnamed: 0,filename,date,name,file_content
0,./htmls/329500.html,20190517,MEDICALGORITHMICS SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...
1,./htmls/329501.html,20190517,POLIMEX-MOSTOSTAL SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...
2,./htmls/329502.html,20190517,PZ CORMAY SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...
3,./htmls/329503.html,20190517,PLATYNOWE INWESTYCJE SPÓŁKA EUROPEJSKA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...
4,./htmls/329504.html,20190517,FAMUR Spółka Akcyjna,\n \n komisja nadzoru finansowego\n \n\n \n\n\...


## 2. Map ESPI report information with relevant symbol of the stocks

The next step is to map the ESPI info with the symbol of the stocks from another source.
Some data may not be mapped as not all stocks are being quoted on the Warsaw Stock Exchange main index.

In [3]:
df_map = pd.read_csv('map_symbol-name.csv', sep='|')
df_map.Symbol=df_map.Symbol.str.lower()
df = df.merge(df_map, how='left', left_on="name", right_on="Nazwa")
df.drop(columns=['Nazwa'], inplace=True)
print(f'Shape of the dataframe after mapping: {df.shape}')
df.head()

Shape of the dataframe after mapping: (11033, 5)


Unnamed: 0,filename,date,name,file_content,Symbol
0,./htmls/329500.html,20190517,MEDICALGORITHMICS SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,mdg
1,./htmls/329501.html,20190517,POLIMEX-MOSTOSTAL SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,pxm
2,./htmls/329502.html,20190517,PZ CORMAY SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,crm
3,./htmls/329503.html,20190517,PLATYNOWE INWESTYCJE SPÓŁKA EUROPEJSKA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,
4,./htmls/329504.html,20190517,FAMUR Spółka Akcyjna,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,


In [4]:
# The names that where not mapped
np.unique(df[df.Symbol.isnull()].name)

array(['"POLIMEX-MOSTOSTAL" SA', 'AB INTER RAO LIETUVA',
       'AB Spółka Akcyjna', 'ABC DATA SA',
       'ABM SOLID SA w upadłości likwidacyjnej',
       'ACTION SA w restrukturyzacji', 'AGROTON PUBLIC LIMITED',
       'ALCHEMIA SA', 'AMBRA SA', 'AMPLI SA w upadłości układowej',
       'APATOR SA', 'AS SILVANO FASHION GROUP', 'ASBISc ENTERPRISES PLC',
       'ASSECO Poland SA', 'AWBUD SA', 'AmRest Holdings SE',
       'Arteria Spółka Akcyjna', 'Astarta Holding N.V.',
       'BANCO SANTANDER SA', 'BANK GOSPODARSTWA KRAJOWEGO',
       'BBI Development SA',
       'BETA ETF WIG20TR PORTFELOWY FUNDUSZ INWESTYCYJNY ZAMKNIĘTY',
       'BETA ETF WIG20lev PORTFELOWY FUNDUSZ INWESTYCYJNY ZAMKNIĘTY',
       'BETA ETF WIG20short PORTFELOWY FUNDUSZ INWESTYCYJNY ZAMKNIĘTY',
       'BETA ETF mWIG40TR PORTFELOWY FUNDUSZ INWESTYCYJNY ZAMKNIĘTY',
       'Boryszew Spółka Akcyjna', 'Budimex SA',
       'CD PROJEKT Spółka Akcyjna', 'CEZ, a.s.', 'CITY SERVICE SE',
       'CLEAN&CARBON ENERGY SA', 'CPI FI

## 3. Load all GPW reports for all listed stocks

The stock quote data is collected from the website: https://stooq.pl/db/h/
and is stored in *./GPW_stocks/GPW_stocks*

In [5]:
path = './GPW_stocks/GPW_stocks'
files = []
# r=root, d=directories, f = files
for r, d, f in os.walk(path):
    for file in f:
        if '.txt' in file:
            files.append(os.path.join(r, file))
files.sort()
akcje_all = pd.DataFrame(columns=['Date', 'Open', 'High', 'Low', 'Close', 'Volume', 'OpenInt', 'Name'])

for f in files:
    try:
        # each txt file with quotes to be read into a dataframe and later combined
        akcje = pd.read_csv(f)
    except:
        print(f)
    # I am only interested in data from 2019
    akcje_2019 = akcje[akcje["Date"]>=20190000].copy()
    akcje_2019["Name"]=f[len(path)+1:-4]
    akcje_all = akcje_all.append(akcje_2019,ignore_index=True)
print(f'Shape of the dataframe for stock quotes is: {akcje_all.shape}')
akcje_all.head()

Shape of the dataframe for stock quotes is: (85238, 8)


Unnamed: 0,Date,Open,High,Low,Close,Volume,OpenInt,Name
0,20190102,0.8,0.81,0.8,0.81,59,0,08n
1,20190103,0.81,0.81,0.81,0.81,38,0,08n
2,20190104,0.81,0.86,0.81,0.82,889,0,08n
3,20190107,0.82,0.87,0.82,0.85,8650,0,08n
4,20190108,0.86,0.93,0.86,0.86,2488,0,08n


In [6]:
akcje_all = akcje_all.set_index([akcje_all.Name, akcje_all.Date])
akcje_all.drop(['Name','Date','OpenInt','Open','Low','Close','Volume'], axis=1, inplace=True)
akcje_all.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,High
Name,Date,Unnamed: 2_level_1
08n,20190102,0.81
08n,20190103,0.81
08n,20190104,0.86
08n,20190107,0.87
08n,20190108,0.93


## 4. Define y, which is dependent on the trading result within the next 5 days

In [7]:
data = pd.concat(
            [akcje_all,
             -akcje_all.groupby('Name')['High'].diff(periods=-1).rename('High+1'),
             -akcje_all.groupby('Name')['High'].diff(periods=-2).rename('High+2'),
             -akcje_all.groupby('Name')['High'].diff(periods=-3).rename('High+3'),
             -akcje_all.groupby('Name')['High'].diff(periods=-4).rename('High+4'),
             -akcje_all.groupby('Name')['High'].diff(periods=-5).rename('High+5')],
           axis=1)
data.columns=['High','High+1','High+2','High+3','High+4','High+5']
data['High+1_pct']=data['High+1']/data['High']
data['High+2_pct']=data['High+2']/data['High']
data['High+3_pct']=data['High+3']/data['High']
data['High+4_pct']=data['High+4']/data['High']
data['High+5_pct']=data['High+5']/data['High']
data = data.reset_index()
data.head()

Unnamed: 0,Name,Date,High,High+1,High+2,High+3,High+4,High+5,High+1_pct,High+2_pct,High+3_pct,High+4_pct,High+5_pct
0,08n,20190102,0.81,-0.0,0.05,0.06,0.12,0.07,-0.0,0.061728,0.074074,0.148148,0.08642
1,08n,20190103,0.81,0.05,0.06,0.12,0.07,0.07,0.061728,0.074074,0.148148,0.08642,0.08642
2,08n,20190104,0.86,0.01,0.07,0.02,0.02,0.02,0.011628,0.081395,0.023256,0.023256,0.023256
3,08n,20190107,0.87,0.06,0.01,0.01,0.01,0.01,0.068966,0.011494,0.011494,0.011494,0.011494
4,08n,20190108,0.93,-0.05,-0.05,-0.05,-0.05,-0.04,-0.053763,-0.053763,-0.053763,-0.053763,-0.043011


### Set up y=1 when criteria is met, eg. when any of the next 2 days' quote >= 1% than day 0

In [8]:
k=0.05
data["y"]=pd.DataFrame([data["High+1_pct"]>=k, data["High+2_pct"]>=k]).any().astype(int)
#                        data["High+3_pct"]>=k, data["High+4_pct"]>=k,
#                       data["High+5_pct"]>=k])
                        
data.head()

Unnamed: 0,Name,Date,High,High+1,High+2,High+3,High+4,High+5,High+1_pct,High+2_pct,High+3_pct,High+4_pct,High+5_pct,y
0,08n,20190102,0.81,-0.0,0.05,0.06,0.12,0.07,-0.0,0.061728,0.074074,0.148148,0.08642,1
1,08n,20190103,0.81,0.05,0.06,0.12,0.07,0.07,0.061728,0.074074,0.148148,0.08642,0.08642,1
2,08n,20190104,0.86,0.01,0.07,0.02,0.02,0.02,0.011628,0.081395,0.023256,0.023256,0.023256,1
3,08n,20190107,0.87,0.06,0.01,0.01,0.01,0.01,0.068966,0.011494,0.011494,0.011494,0.011494,1
4,08n,20190108,0.93,-0.05,-0.05,-0.05,-0.05,-0.04,-0.053763,-0.053763,-0.053763,-0.053763,-0.043011,0


## 5. Merge ESPI_info dataframe with stock quotes

### Create id to contanetate ESPI_info data frame with quotes data frame

In [9]:
data["id"]=data.Name+data.Date.astype(str)
data = data[['id','y']]
data.head()

Unnamed: 0,id,y
0,08n20190102,1
1,08n20190103,1
2,08n20190104,1
3,08n20190107,1
4,08n20190108,0


In [10]:
df["id"]=df.Symbol+df.date.astype(str)
df.dropna(inplace=True)
df.head()

Unnamed: 0,filename,date,name,file_content,Symbol,id
0,./htmls/329500.html,20190517,MEDICALGORITHMICS SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,mdg,mdg20190517
1,./htmls/329501.html,20190517,POLIMEX-MOSTOSTAL SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,pxm,pxm20190517
2,./htmls/329502.html,20190517,PZ CORMAY SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,crm,crm20190517
5,./htmls/329505.html,20190517,POZBUD T&R SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,poz,poz20190517
6,./htmls/329506.html,20190517,ELEKTROBUDOWA SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,elb,elb20190517


In [11]:
df1 = df.merge(data,how='left',on='id')
print(f'After merging the dataframe received the shape: {df1.shape}')
df1.head()

After merging the dataframe received the shape: (7589, 7)


Unnamed: 0,filename,date,name,file_content,Symbol,id,y
0,./htmls/329500.html,20190517,MEDICALGORITHMICS SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,mdg,mdg20190517,0.0
1,./htmls/329501.html,20190517,POLIMEX-MOSTOSTAL SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,pxm,pxm20190517,0.0
2,./htmls/329502.html,20190517,PZ CORMAY SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,crm,crm20190517,0.0
3,./htmls/329505.html,20190517,POZBUD T&R SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,poz,poz20190517,0.0
4,./htmls/329506.html,20190517,ELEKTROBUDOWA SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,elb,elb20190517,0.0


### Remove nulls where ESPI_info has not been merged with stocks

In [12]:
df = df1[~df1.y.isnull()].reset_index()

### Number of y=1 in the population

In [13]:
df.y.mean()

0.11759142496847415

In [14]:
df.shape

(6344, 8)

In [15]:
df.y.head()

0    0.0
1    0.0
2    0.0
3    0.0
4    0.0
Name: y, dtype: float64

In [16]:
y = df.y

In [17]:
df.file_content.head()

0    \n \n komisja nadzoru finansowego\n \n\n \n\n\...
1    \n \n komisja nadzoru finansowego\n \n\n \n\n\...
2    \n \n komisja nadzoru finansowego\n \n\n \n\n\...
3    \n \n komisja nadzoru finansowego\n \n\n \n\n\...
4    \n \n komisja nadzoru finansowego\n \n\n \n\n\...
Name: file_content, dtype: object

## 6. Model definition based on pyMorfologic tokenizer

In [18]:
import nltk 
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.pipeline import Pipeline
from sklearn.pipeline import make_pipeline
from sklearn.decomposition import TruncatedSVD
from warnings import filterwarnings
filterwarnings("ignore")
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

In [19]:
df['tokenized_text'] = df['file_content'].apply(nltk.word_tokenize) 

In [20]:
df.head()

Unnamed: 0,index,filename,date,name,file_content,Symbol,id,y,tokenized_text
0,0,./htmls/329500.html,20190517,MEDICALGORITHMICS SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,mdg,mdg20190517,0.0,"[komisja, nadzoru, finansowego, raport, bieżąc..."
1,1,./htmls/329501.html,20190517,POLIMEX-MOSTOSTAL SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,pxm,pxm20190517,0.0,"[komisja, nadzoru, finansowego, raport, bieżąc..."
2,2,./htmls/329502.html,20190517,PZ CORMAY SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,crm,crm20190517,0.0,"[komisja, nadzoru, finansowego, raport, bieżąc..."
3,3,./htmls/329505.html,20190517,POZBUD T&R SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,poz,poz20190517,0.0,"[komisja, nadzoru, finansowego, raport, bieżąc..."
4,4,./htmls/329506.html,20190517,ELEKTROBUDOWA SA,\n \n komisja nadzoru finansowego\n \n\n \n\n\...,elb,elb20190517,0.0,"[komisja, nadzoru, finansowego, raport, bieżąc..."


In [21]:
from pyMorfologik import Morfologik
from pyMorfologik.parsing import ListParser

In [22]:
parser = ListParser()
stemmer = Morfologik()

In [23]:
def stemming_func(tokenized_t):
    stemmed_text = stemmer.stem(tokenized_t, parser)
    return [list(stemmed_text[i][1].keys())[0] for i in range(len(stemmed_text)) if len(list(stemmed_text[i][1].keys()))>0]

In [24]:
# example of stemming
stemming_func(df.tokenized_text.loc[0])

['komisja',
 'nadzór',
 'finansowy',
 'raport',
 'bieżący',
 'numer',
 'data',
 'sporządzić',
 'skrócić',
 'nazwa',
 'emitent',
 'temat',
 'przekazać',
 'pismo',
 'firma',
 'audytorski',
 'skierować',
 'do',
 'w',
 'związek',
 'z',
 'wypowiedzenie',
 'umowy',
 'o',
 'badanie',
 'i',
 'przegląd',
 'sprawozdanie',
 'finansowy',
 'podstawa',
 'prawny',
 'artykuł',
 'usta',
 'punkt',
 'ustawa',
 'o',
 'oferta',
 'informacja',
 'bieżący',
 'i',
 'okresowy',
 'treść',
 'raport',
 'zarząd',
 'spółka',
 'w',
 'nawiązanie',
 'do',
 'raport',
 'bieżący',
 'numer',
 'z',
 'dzień',
 'maja',
 'w',
 'sprawa',
 'wypowiedzenie',
 'umowy',
 'o',
 'badanie',
 'i',
 'przegląd',
 'sprawozdanie',
 'finansowy',
 'przekazywać',
 'pismo',
 'firma',
 'audytorski',
 'audyt',
 'spółka',
 'z',
 'ograniczony',
 'odpowiedzialność',
 'spółka',
 'z',
 'siedziba',
 'w',
 'warszawa',
 'adresować',
 'do',
 'komisja',
 'nadzór',
 'finansowy',
 'zawierać',
 'wyjaśnienie',
 'przyczyna',
 'rozwiązanie',
 'umowy',
 'o',
 'ba

In [25]:
## it works very slowly as there is a list comprehension function below (and not a dataframe function)
start_time = datetime.now()
df['text_lemma'] = df['tokenized_text'].map(stemming_func) 
end_time = datetime.now()
time_taken = end_time-start_time
print(f'The time it took to process stemming on all items: {time_taken}')

The time it took to process stemming on all items: 0:26:11.171707


In [26]:
len(df.text_lemma.iloc[0])

116

In [27]:
from stop_words import get_stop_words
stop_words = get_stop_words('pl')
other_stop_words = list('abcdefghijklmnopqrstuvxwyz')
stop_words.extend(other_stop_words)
stop_words=sorted(list(set(stop_words)))
stop_words

['a',
 'ach',
 'aj',
 'albo',
 'b',
 'bardzo',
 'bez',
 'bo',
 'być',
 'c',
 'ci',
 'ciebie',
 'cię',
 'co',
 'czy',
 'd',
 'daleko',
 'dla',
 'dlaczego',
 'dlatego',
 'do',
 'dobrze',
 'dokąd',
 'dość',
 'dużo',
 'dwa',
 'dwaj',
 'dwie',
 'dwoje',
 'dzisiaj',
 'dziś',
 'e',
 'f',
 'g',
 'gdyby',
 'gdzie',
 'go',
 'h',
 'i',
 'ich',
 'ile',
 'im',
 'inny',
 'j',
 'ja',
 'jak',
 'jakby',
 'jaki',
 'je',
 'jeden',
 'jedna',
 'jedno',
 'jego',
 'jej',
 'jemu',
 'jest',
 'jestem',
 'jeśli',
 'jeżeli',
 'już',
 'ją',
 'k',
 'każdy',
 'kiedy',
 'kierunku',
 'kto',
 'ku',
 'l',
 'lub',
 'm',
 'ma',
 'mają',
 'mam',
 'mi',
 'mnie',
 'mną',
 'moi',
 'moja',
 'moje',
 'może',
 'mu',
 'my',
 'mój',
 'n',
 'na',
 'nam',
 'nami',
 'nas',
 'nasi',
 'nasz',
 'nasza',
 'nasze',
 'natychmiast',
 'nic',
 'nich',
 'nie',
 'niego',
 'niej',
 'niemu',
 'nigdy',
 'nim',
 'nimi',
 'nią',
 'niż',
 'o',
 'obok',
 'od',
 'około',
 'on',
 'ona',
 'one',
 'oni',
 'ono',
 'owszem',
 'p',
 'po',
 'pod',
 'ponieważ'

In [28]:
def remove_stop_words(lemma_text):
    stop_words_removed = [a for a in lemma_text if a not in stop_words]  
    return " ".join(stop_words_removed)   

In [29]:
articles = df.text_lemma.iloc[0]
remove_stop_words(articles)

'komisja nadzór finansowy raport bieżący numer data sporządzić skrócić nazwa emitent temat przekazać pismo firma audytorski skierować związek wypowiedzenie umowy badanie przegląd sprawozdanie finansowy podstawa prawny artykuł usta punkt ustawa oferta informacja bieżący okresowy treść raport zarząd spółka nawiązanie raport bieżący numer dzień maja sprawa wypowiedzenie umowy badanie przegląd sprawozdanie finansowy przekazywać pismo firma audytorski audyt spółka ograniczony odpowiedzialność spółka siedziba warszawa adresować komisja nadzór finansowy zawierać wyjaśnienie przyczyna rozwiązanie umowy badanie przegląd sprawozdanie finansowy dzień lipiec skan pismo wpłynąć spółka dzień maja załącznik plik opis pismo firma audytorski pismo firma audytorski'

In [30]:
df['text_mod'] = df['text_lemma'].apply(remove_stop_words) 

In [31]:
X = df.text_mod
X.head()

0    komisja nadzór finansowy raport bieżący numer ...
1    komisja nadzór finansowy raport bieżący numer ...
2    komisja nadzór finansowy raport bieżący numer ...
3    komisja nadzór finansowy raport bieżący numer ...
4    komisja nadzór finansowy raport bieżący numer ...
Name: text_mod, dtype: object

In [32]:
i=100
print(f'Position {i} results in \ny = {y.iloc[i]}')
print(f'and X = \n{X.iloc[i]}')
print(f'Shape of the table is {X.shape}')

Position 100 results in 
y = 0.0
and X = 
komisja nadzór finansowy raport bieżący numer data sporządzić skrócić nazwa emitent temat wykaz akcjonariusz posiadający najmniej głos dzień podstawa prawny artykuł punkt ustawa oferta lista powyżej treść raport siedziba działać podstawa artykuł punkt ustawa dzień lipiec rok oferta publiczny warunki wprowadzać instrument finansowy zorganizować system obrót oraz spółka publiczny podawać publiczny wiadomości wykaz akcjonariusz posiadający najmniej liczba głos zwyczajny walny zgromadzenie który odbyć dzień maja akcja udział liczba głos zwyczajny walny zgromadzenie udział ogólny liczba głos łącznie ewa posiadać akcja głos udział liczba głos zwyczajny walny zgromadzenie udział ogólny liczba głos akcja udział liczba głos zwyczajny walny zgromadzenie udział ogólny liczba głos fundusz reprezentować przez towarzystwo fundusz inwestycyjny to jest akcja akcja bar selektywny akcja głos stabilny wzrost akcja zrównoważony akcja głos fundusz inwestycyjny zamk

In [33]:
cv = CountVectorizer(min_df=1, max_df=0.9)
cv.fit(X)
X_cv=cv.transform(X)
X_cv

<6344x8850 sparse matrix of type '<class 'numpy.int64'>'
	with 479849 stored elements in Compressed Sparse Row format>

In [34]:
# Top 5 words
k = 5 
for i in range(10):
    order = [X_cv[i].todense().argsort().A.flatten()]
    print(np.array(cv.get_feature_names())[order][-k:][::-1])

['pismo' 'firma' 'spółka' 'audytorski' 'sprawozdanie']
['zgromadzenie' 'spółka' 'artykuł' 'zwyczajny' 'walny']
['zwyczajny' 'walny' 'zgromadzenie' 'artykuł' 'spółka']
['projekt' 'dzień' 'spółka' 'etap' 'zacisze']
['artykuł' 'walny' 'uchwała' 'spółka' 'ocena']
['okresowy' 'rok' 'informacja' 'za' 'publikacja']
['wysokość' 'umowy' 'za' 'opóźnienie' 'złoty']
['spółka' 'udział' 'hosting' 'oraz' 'siedziba']
['rok' 'spółka' 'dzień' 'zysk' 'obrotowy']
['według' 'rok' 'waluta' 'złoty' 'skonsolidować']


In [35]:
len(cv.get_feature_names())

8850

In [36]:
C_index = y[y>0].index

In [37]:
X_indexed = X.loc[C_index]

In [38]:
cv = CountVectorizer(min_df=10, max_df=0.9)
cv.fit(X_indexed)
X_indexed_cv=cv.transform(X_indexed)

In [39]:
important_set = set(np.array(cv.get_feature_names()))

In [40]:
cv = CountVectorizer(min_df=10, max_df=0.9)
cv.fit(X)
X_cv=cv.transform(X)

In [41]:
stop_words_moje = set(np.array(cv.get_feature_names())) - important_set

In [42]:
len(stop_words_moje)

1987

In [43]:
stop_words_moje

{'wyglądać',
 'eastern',
 'rozpatrzyć',
 'obniżyć',
 'udziałowiec',
 'center',
 'uprościć',
 'wybierać',
 'wypowiedzieć',
 'licencja',
 'uprzedni',
 'nakładać',
 'kwalifikacje',
 'notariusz',
 'zapewniać',
 'ameryk',
 'sprzedać',
 'dysponować',
 'rozliczyć',
 'zabezpieczać',
 'grant',
 'rezultat',
 'księgowa',
 'przypominać',
 'upłynąć',
 'załączać',
 'grzybowski',
 'kara',
 'profesor',
 'kredytobiorca',
 'inspektor',
 'docelowo',
 'ustęp',
 'koordynacja',
 'zaopiniować',
 'korespondencyjny',
 'oczekiwany',
 'bit',
 'przedłużenie',
 'biograficzny',
 'industrial',
 'kontrolny',
 'przesyłowy',
 'włączać',
 'kierowniczy',
 'przewyższać',
 'wchodzący',
 'zintegrować',
 'biotechnologia',
 'house',
 'widzenie',
 'uiścić',
 'środek',
 'oceniać',
 'licencjonować',
 'finalizacja',
 'terminowy',
 'starszy',
 'dodać',
 'ujemny',
 'ruch',
 'ramowy',
 'che',
 'ponieść',
 'złoże',
 'trudny',
 'formalny',
 'farmaceutyczny',
 'orientacyjny',
 'rating',
 'kandydat',
 'aplikacja',
 'otoczenie',
 'udostę

In [44]:
X.shape

(6344,)

In [45]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=1000)

In [46]:
pipe = Pipeline([("vectorizer", CountVectorizer(stop_words=list(stop_words_moje))),
                 ("model", LogisticRegression(C=10,max_iter=200))])

pipe.fit(X_train, y_train)
predictions = pipe.predict(X_test)
accuracy_score(y_test, predictions)

0.818

In [47]:
pipe.predict(X_test).sum()

100.0

In [48]:
tn, fp, fn, tp = confusion_matrix(y_test, predictions).ravel()
(tn, fp, fn, tp)

(801, 83, 99, 17)

In [49]:
from sklearn.metrics import average_precision_score
average_precision = average_precision_score(y_test, predictions)

print('Average precision-recall score: {0:0.2f}'.format(
      average_precision))

Average precision-recall score: 0.12


In [50]:
pipe = Pipeline([("vectorizer", CountVectorizer(min_df=100, max_df=0.8, stop_words=list(stop_words_moje))),
                 ("model", RandomForestClassifier(max_samples=200, n_estimators=1000))])

pipe.fit(X_train, y_train)
predictions = pipe.predict(X_test)
accuracy_score(y_test, predictions)

0.881

In [51]:
predictions.sum()

3.0

In [52]:
average_precision = average_precision_score(y_test, predictions)

print('Average precision-recall score: {0:0.2f}'.format(
      average_precision))

Average precision-recall score: 0.12


In [53]:
# w praktyce za pomoca grid searcha testowac argumenty/ parametry w ramach countvectorizer
# czy jedno slowo, czy wiecej, jakie parametry, etc. 

In [54]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.neighbors import KNeighborsClassifier

for model in [DecisionTreeClassifier(min_samples_leaf=50),
              MultinomialNB(),
              KNeighborsClassifier(25)]:
    
    pipe = Pipeline([("vectorizer", CountVectorizer(min_df=100)),
                     ("model", model)])

    pipe.fit(X_train, y_train)
    predictions = pipe.predict(X_test)
    print('\n',model)
    print(f'ACCURACY SCORE:',accuracy_score(y_test, predictions))
    print(classification_report(y_test, predictions))


 DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=50, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')
ACCURACY SCORE: 0.884
              precision    recall  f1-score   support

         0.0       0.88      1.00      0.94       884
         1.0       0.00      0.00      0.00       116

    accuracy                           0.88      1000
   macro avg       0.44      0.50      0.47      1000
weighted avg       0.78      0.88      0.83      1000


 MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)
ACCURACY SCORE: 0.721
              precision    recall  f1-score   support

         0.0       0.89      0.78      0.83       884
         1.0       0.15      

In [55]:
from sklearn.decomposition import LatentDirichletAllocation
for model in [LogisticRegression()]:
    
    pipe = Pipeline([("vectorizer", CountVectorizer(max_df=0.7,
                                                    min_df=100)),
                     ("lda", LatentDirichletAllocation(40,n_jobs=-1)),
                     ("model", model)])

    pipe.fit(X_train, y_train)
    predictions = pipe.predict(X_test)
    print(accuracy_score(y_test, predictions))
    print(classification_report(y_test, predictions))

0.884
              precision    recall  f1-score   support

         0.0       0.88      1.00      0.94       884
         1.0       0.00      0.00      0.00       116

    accuracy                           0.88      1000
   macro avg       0.44      0.50      0.47      1000
weighted avg       0.78      0.88      0.83      1000



In [56]:
from sklearn.ensemble import AdaBoostClassifier
for model in [AdaBoostClassifier(n_estimators=500)]:
    
    pipe = Pipeline([("vectorizer", TfidfVectorizer(max_df=1000,
                                                min_df=50)),
                 ("model", model)])

    pipe.fit(X_train, y_train)
    predictions = pipe.predict(X_test)
    print(accuracy_score(y_test, predictions))
    print(classification_report(y_test, predictions))

0.837
              precision    recall  f1-score   support

         0.0       0.89      0.93      0.91       884
         1.0       0.18      0.11      0.14       116

    accuracy                           0.84      1000
   macro avg       0.53      0.52      0.52      1000
weighted avg       0.81      0.84      0.82      1000



In [104]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=1000)
five_percent = int(y.size/20)
ten_percent = int(y.size/10)

pipelines = [Pipeline([
    ('vect', CountVectorizer(stop_words=list(stop_words_moje))),
    ('lr', LogisticRegression()),
]),
             Pipeline([
    ('vect', CountVectorizer(stop_words=list(stop_words_moje))),
    ('forest', RandomForestClassifier()),
]),
             Pipeline([
    ('vect', TfidfVectorizer(stop_words=list(stop_words_moje))),
    ('lr', LogisticRegression()),
]),
             Pipeline([
    ('vect', TfidfVectorizer(stop_words=list(stop_words_moje))),
    ('forest', RandomForestClassifier()),
])
]

parameters = [
    [
    {
        'vect__min_df': (100, 1000),
        'vect__max_df': (0.5, 0.75),
        'lr__C': (0.01, 1, 10),
    }
],
        [
    {
        'vect__min_df': (100, 1000),
        'vect__max_df': (0.5, 0.75),
        'forest__min_samples_leaf': (10, 100),
        'forest__n_estimators': (10, 100, 500),
    }
],
        [
    {
        'vect__min_df': (100, 1000),
        'vect__max_df': (0.5, 0.75),
        'lr__C': (0.01, 1, 10),
    }
],
        [
    {
        'vect__min_df': (100, 1000),
        'vect__max_df': (0.5, 0.75),
        'forest__min_samples_leaf': (10, 100),
        'forest__n_estimators': (10, 100, 500),
    }
]
]

models=[]
for pipeline, parameter in zip(pipelines,parameters):
    gs = GridSearchCV(pipeline, parameter, cv=10, n_jobs=-1)
    gs.fit(X_train, y_train)
    models.append(gs)
    print(accuracy_score(y_test, gs.predict(X_test)), str(type(gs.estimator))[16:-2], gs.best_params_)

0.868 pipeline.Pipeline {'lr__C': 0.01, 'vect__max_df': 0.5, 'vect__min_df': 1000}
0.869 pipeline.Pipeline {'forest__min_samples_leaf': 10, 'forest__n_estimators': 10, 'vect__max_df': 0.5, 'vect__min_df': 100}
0.869 pipeline.Pipeline {'lr__C': 0.01, 'vect__max_df': 0.5, 'vect__min_df': 100}
0.869 pipeline.Pipeline {'forest__min_samples_leaf': 10, 'forest__n_estimators': 10, 'vect__max_df': 0.5, 'vect__min_df': 1000}


In [83]:
'''
0.891 pipeline.Pipeline {'lr__C': 0.01, 'vect__max_df': 0.5, 'vect__min_df': 1000, 'vect__ngram_range': (1, 1)}
0.891 pipeline.Pipeline {'forest__min_samples_leaf': 10, 'forest__n_estimators': 10, 'vect__max_df': 0.5, 'vect__min_df': 10, 'vect__ngram_range': (1, 1)}
0.891 pipeline.Pipeline {'lr__C': 0.01, 'vect__max_df': 0.5, 'vect__min_df': 10, 'vect__ngram_range': (1, 1)}
'''

"\n0.891 pipeline.Pipeline {'lr__C': 0.01, 'vect__max_df': 0.5, 'vect__min_df': 1000, 'vect__ngram_range': (1, 1)}\n0.891 pipeline.Pipeline {'forest__min_samples_leaf': 10, 'forest__n_estimators': 10, 'vect__max_df': 0.5, 'vect__min_df': 10, 'vect__ngram_range': (1, 1)}\n0.891 pipeline.Pipeline {'lr__C': 0.01, 'vect__max_df': 0.5, 'vect__min_df': 10, 'vect__ngram_range': (1, 1)}\n"

In [89]:
print(accuracy_score(y_test, models[0].predict(X_test)))

0.891


In [91]:
models[0].predict(X_test).sum()

0.0

In [96]:
1-y_test.mean()

0.891

In [101]:
#clf = LogisticRegression(class_weight={0:1,1:10})
clf = AdaBoostClassifier(n_estimators=100)

pipe = Pipeline([("vectorizer", CountVectorizer(max_df=0.7,
                                                min_df=100)),
                 ("lda", LatentDirichletAllocation(40,n_jobs=-1)),
                 ("clf", clf)])

pipe.fit(X_train, y_train)
predictions = pipe.predict(X_test)
print(accuracy_score(y_test, predictions))
print(classification_report(y_test, predictions))

0.889
              precision    recall  f1-score   support

         0.0       0.89      0.99      0.94       891
         1.0       0.38      0.03      0.05       109

    accuracy                           0.89      1000
   macro avg       0.63      0.51      0.50      1000
weighted avg       0.84      0.89      0.84      1000



In [102]:
from sklearn.metrics import f1_score
f1_score(y_test, predictions)

0.05128205128205129

In [103]:
predictions.sum()

8.0