### Load Modules

In [1]:
import sys
from pathlib import Path

sys.path.insert(1, str(Path.cwd().parent))

In [2]:
import pandas as pd
import numpy as np

from tqdm import tqdm

import gensim
from gensim.models import FastText
from gensim.parsing.porter import PorterStemmer
from nltk.corpus import stopwords

from nltk.tokenize import word_tokenize
from tensorflow.keras.preprocessing.sequence import pad_sequences

from tld.config import word_embedding_dir

### Helper Functions

In [3]:
# Help function to determine best size
def calc_max_seq_len(data_df):
    titles = data_df['title']
    title_lengths = (titles.str.count(' ')+1).fillna(0).astype(np.int)
    max_title_len = title_lengths.quantile(0.95, interpolation='higher')

    descriptions = data_df['description']
    desc_lengths = (descriptions.str.count(' ')+1).fillna(0).astype(np.int)
    max_desc_len = desc_lengths.quantile(0.95, interpolation='higher')
    
    return max_title_len, max_desc_len

In [4]:
def load_issues(s):
    filename = '../data/processed/issues_'+s.lower()+'.csv'
    issues = pd.read_csv(filename, encoding="UTF-8", low_memory=False, index_col=['issue_id'], sep=";")
    print("Number of Issues: " + str(len(issues)))
    
    return issues

### Parameters & Constants

In [5]:
tqdm.pandas()
p = PorterStemmer()

stopWords = set(stopwords.words('english'))
stopWords = stopWords.union(set(['com', 'org', 'java']))

EMBEDDING_DIM = 20
MAX_SEQUENCE_LENGTH = 300

In [6]:
SOURCES = ['Hyperledger', 'IntelDAOS', 'JFrog', 'Jira', 
           'JiraEcosystem', 'MariaDB', 'Mindville', 'Mojang', 'MongoDB', 
           'Qt', 'RedHat', 'Sakai', 'SecondLife', 'Sonatype', 'Spring', 'Apache']

### Word2Vec

In [13]:
def train_w2v(s):
    print(s.upper())

    output_dir = word_embedding_dir / 'w2v'
    output_dir.mkdir(parents=True, exist_ok=True)
    
    issues = load_issues(s)
    
    issues['title'].fillna(' ', inplace=True)
    issues['description'].fillna(' ', inplace=True) 
    
    max_title_len, max_desc_len = calc_max_seq_len(issues)
    
    MAX_SEQUENCE_LENGTH = max_title_len + max_desc_len
    
    textual_data = []
    for issue_id in tqdm(issues.index):
        temp = []
        for word in word_tokenize(str(issues['title'].loc[issue_id])):
            word = word.lower()
            if word not in stopWords:
                word = p.stem(word)
                temp.append(word)
        textual_data.append(temp)
        temp = []
        for word in word_tokenize(str(issues['description'].loc[issue_id])):
            word = word.lower()
            if word not in stopWords:
                word = p.stem(word)
                temp.append(word)                
        textual_data.append(temp)
        
    model_CBOW = gensim.models.Word2Vec(textual_data, vector_size=EMBEDDING_DIM, window=5, min_count=2, workers=4, sg=0)
    model_CBOW.save(str(output_dir / f'{s.lower()}W2V.model'))
    
    text = []
    word_count = 0

    for issue_id in tqdm(issues.index):
        temp = []
        for word in word_tokenize(str(issues['title'].loc[issue_id])):
            word = word.lower()
            if word not in stopWords:
                word = p.stem(word)
                try:
                    word_index = model_CBOW.wv.key_to_index[word]
                    temp.append(word_index)
                except:
                    word_count += 1
        temp = temp[:max_title_len-1]
        for word in word_tokenize(str(issues['description'].loc[issue_id])):
            word = word.lower()
            if word not in stopWords:
                word = p.stem(word)
                try:
                    word_index = model_CBOW.wv.key_to_index[word]
                    temp.append(word_index)
                except:
                    word_count += 1
        text.append(temp)
    print(word_count)
    
    text_data = pad_sequences(text, maxlen=MAX_SEQUENCE_LENGTH)
    
    print(text_data[0].shape)

    np.save(file=output_dir / f'text_data_{s.lower()}.npy', arr=text_data)

In [14]:
for s in ['HYPERLEDGER']:
    train_w2v(s)
    print("--------------")

HYPERLEDGER
Number of Issues: 28146


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  title_lengths = (titles.str.count(' ')+1).fillna(0).astype(np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  desc_lengths = (descriptions.str.count(' ')+1).fillna(0).astype(np.int)
100%|██████████| 28146/28146 [00:48<00:00, 583.83it/s] 
100%|██████████| 28146/28146 [00:49<00:00, 570.60it/s] 


75499
(282,)
--------------


### FASTTEXT

In [12]:
def train_fasttext(s):
    print(s.upper())

    output_dir = word_embedding_dir / 'fasttext'
    output_dir.mkdir(parents=True, exist_ok=True)
    
    issues = load_issues(s)
    
    issues['title'].fillna(' ', inplace=True)
    issues['description'].fillna(' ', inplace=True) 
      
    max_title_len, max_desc_len = calc_max_seq_len(issues)
    
    MAX_SEQUENCE_LENGTH = max_title_len + max_desc_len
    
    textual_data = []
    for issue_id in tqdm(issues.index):
        temp = []
        for word in word_tokenize(str(issues['title'].loc[issue_id])):
            word = word.lower()
            if word not in stopWords:
                word = p.stem(word)
                temp.append(word)
        textual_data.append(temp)
        temp = []
        for word in word_tokenize(str(issues['description'].loc[issue_id])):
            word = word.lower()
            if word not in stopWords:
                word = p.stem(word)
                temp.append(word)                
        textual_data.append(temp)
        
    model_CBOW = FastText(textual_data, vector_size=EMBEDDING_DIM, window=5, min_count=2, workers=4, sg=0)
    model_CBOW.save(str(output_dir / f'{s}fasttext.model'))
    
    text = []
    word_count = 0

    for issue_id in tqdm(issues.index):
        temp = []
        for word in word_tokenize(str(issues['title'].loc[issue_id])):
            word = word.lower()
            if word not in stopWords:
                word = p.stem(word)
                try:
                    word_index = model_CBOW.wv.key_to_index[word]
                    temp.append(word_index)
                except:
                    word_count += 1
        for word in word_tokenize(str(issues['description'].loc[issue_id])):
            word = word.lower()
            if word not in stopWords:
                word = p.stem(word)
                try:
                    word_index = model_CBOW.wv.key_to_index[word]
                    temp.append(word_index)
                except:
                    word_count += 1
        text.append(temp)
    print(word_count)
    
    text_data = pad_sequences(text, maxlen=MAX_SEQUENCE_LENGTH)
    
    print(text_data[0].shape)
    
    np.save(file=output_dir / f'text_data_{s}.npy', arr=text_data)

In [13]:
for s in SOURCES:
    train_fasttext(s)
    print("--------------")

JIRA


  0%|                                                                                                                                                                               | 9/265343 [00:00<49:20, 89.63it/s]

Number of Issues: 265343
Feature Size: 9


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 265343/265343 [38:54<00:00, 113.68it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 265343/265343 [37:24<00:00, 118.24it/s]


483358
--------------
MONGODB


  0%|                                                                                                                                                                              | 36/90629 [00:00<04:13, 357.44it/s]

Number of Issues: 90629
Feature Size: 9


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90629/90629 [02:14<00:00, 674.96it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90629/90629 [02:15<00:00, 670.27it/s]


312526
--------------
QT


  0%|                                                                                                                                                                             | 94/140237 [00:00<02:30, 930.69it/s]

Number of Issues: 140237
Feature Size: 9


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 140237/140237 [04:28<00:00, 522.26it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 140237/140237 [04:25<00:00, 528.99it/s]


618148
--------------
SAKAI


  0%|▍                                                                                                                                                                           | 131/49204 [00:00<00:37, 1302.74it/s]

Number of Issues: 49204
Feature Size: 9


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 49204/49204 [01:35<00:00, 514.65it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 49204/49204 [01:36<00:00, 509.39it/s]


99593
--------------
HYPERLEDGER


  1%|▉                                                                                                                                                                           | 156/27914 [00:00<00:17, 1544.26it/s]

Number of Issues: 27914
Feature Size: 9


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 27914/27914 [00:34<00:00, 812.25it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 27914/27914 [00:34<00:00, 807.59it/s]


74782
--------------
MARIADB


  0%|▏                                                                                                                                                                             | 39/31229 [00:00<01:25, 363.26it/s]

Number of Issues: 31229
Feature Size: 9


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 25018/31229 [02:57<00:21, 288.31it/s]IOStream.flush timed out
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31229/31229 [04:20<00:00, 120.04it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31229/31229 [04:20<00:00, 119.94it/s]


472727
--------------
SPRING


  0%|▏                                                                                                                                                                             | 60/69100 [00:00<01:57, 585.53it/s]

Number of Issues: 69100
Feature Size: 9


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 69100/69100 [03:15<00:00, 352.56it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 69100/69100 [03:16<00:00, 352.02it/s]


228737
--------------
JIRAECOSYSTEM


  0%|▎                                                                                                                                                                             | 81/40602 [00:00<00:51, 784.89it/s]

Number of Issues: 40602
Feature Size: 9


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40602/40602 [00:48<00:00, 831.93it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40602/40602 [00:49<00:00, 823.20it/s]


96569
--------------
SONATYPE


  0%|                                                                                                                                                                              | 34/77837 [00:00<03:54, 331.10it/s]

Number of Issues: 77837
Feature Size: 9


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 77837/77837 [04:09<00:00, 312.55it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 77837/77837 [04:09<00:00, 311.52it/s]


133278


  0%|                                                                                                                                                                                        | 0/14769 [00:00<?, ?it/s]

--------------
JFROG
Number of Issues: 14769
Feature Size: 9


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14769/14769 [00:23<00:00, 629.77it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14769/14769 [00:24<00:00, 609.46it/s]


59734


  1%|██▎                                                                                                                                                                            | 72/5557 [00:00<00:07, 719.38it/s]

--------------
INTELDAOS
Number of Issues: 5557
Feature Size: 9


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5557/5557 [00:07<00:00, 767.14it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5557/5557 [00:07<00:00, 746.52it/s]
  0%|                                                                                                                                                                                         | 0/1865 [00:00<?, ?it/s]

28466
--------------
SECONDLIFE
Number of Issues: 1865
Feature Size: 9


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1865/1865 [00:02<00:00, 829.01it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1865/1865 [00:02<00:00, 780.94it/s]
  6%|█████████▉                                                                                                                                                                   | 123/2134 [00:00<00:01, 1224.36it/s]

7429
--------------
MINDVILLE
Number of Issues: 2134
Feature Size: 9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2134/2134 [00:01<00:00, 1075.08it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2134/2134 [00:02<00:00, 1022.70it/s]


5079
--------------
REDHAT


  0%|                                                                                                                                                                             | 89/315797 [00:00<06:04, 866.61it/s]

Number of Issues: 315797
Feature Size: 9


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 315797/315797 [09:14<00:00, 570.02it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 315797/315797 [09:16<00:00, 567.84it/s]


829562
--------------
