# RE19-classification: enrichment of a new dataset with features determined KM

This notebook takes as input a previously enriched dataset d1 (from notebook 01_reconstruction_KM) and a new dataset d2 to be enriched, and enriches d2 by calculating the values for all the features from .d1.

## 0. Set up (optional)

Run the following install functions if running Jupyter on a cloud environment like Colaboratory, which does not allow you to install the libraries permanently on your local machine

In [0]:
!pip install cython numpy
!pip install benepar[cpu]


## 1. Import libraries

In [0]:
# Basic numpy, sklearn, pandas libraries
import pandas as pd
from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier, AdaBoostClassifier, ExtraTreesClassifier
from sklearn.model_selection import train_test_split
import numpy as np
from IPython.display import display

# Basic NLTK tooling
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer(r'\w+')

# The benepar parser -- this is supposed to be a better parser than Stanford's parser used in the RE'17 paper
import benepar
benepar.download('benepar_en2')

# Tqdm, for progress bars -- useful to show that the parsing is working
from tqdm import tqdm

## [Functions] dataset enrichment

Additional features are added, if also present in the original dataset.

In [0]:
def enrich_ling(data):
  # Text length
  if 'Length' in data.columns:
    data['Length'] = 0
    idx = 0
    for x in data['RequirementText']:
        data.at[idx, 'Length'] = len(x)
        idx = idx + 1  

  # POS tags and tree information
  parser = benepar.Parser("benepar_en2")
  if 'Modal' in data.columns:
    data['Modal'] = 0.0
  if 'Adjective' in data.columns:
    data['Adjective'] = 0.0
  if 'Noun' in data.columns:
    data['Noun'] = 0.0
  if 'Adverb' in data.columns:
    data['Adverb'] = 0.0
  if 'Verb' in data.columns:
    data['Verb'] = 0.0
  if 'TreeHeight' in data.columns:
    data['TreeHeight'] = 0
  if 'SubTrees' in data.columns:
    data['SubTrees'] = 0

  idx = 0
  for req in tqdm(data['RequirementText'], desc='Parse trees', position=0):
      tokens = tokenizer.tokenize(req)
      if 'Words' in data.columns:
        data.at[idx, 'Words'] = len(tokens)
      tags = nltk.pos_tag(tokens)
      fd = nltk.FreqDist(tag for (word, tag) in tags)
      for key, value in fd.items():
          if key=="MD" and 'Modal' in data.columns:
              data.at[idx, 'Modal'] = value
          if key.startswith("JJ") and 'Adjective' in data.columns:
              data.at[idx, 'Adjective'] = value
          if key.startswith("VB") and 'Verb' in data.columns:
              data.at[idx, 'Verb'] = value
          if key.startswith("NN") and 'Noun' in data.columns:
              data.at[idx, 'Noun'] = value
          if key=="RB" and 'Adverb' in data.columns:
              data.at[idx, 'Adverb'] = value
      if 'Modal' in data.columns:
        data.at[idx, 'Modal'] = data.at[idx, 'Modal'] / len(tokens)
      if 'Adjective' in data.columns:
        data.at[idx, 'Adjective'] = data.at[idx, 'Adjective'] / len(tokens)
      if 'Noun' in data.columns:
        data.at[idx, 'Noun'] = data.at[idx, 'Noun'] / len(tokens)
      if 'Adverb' in data.columns:
        data.at[idx, 'Adverb'] = data.at[idx, 'Adverb'] / len(tokens)
      if 'Verb' in data.columns:
        data.at[idx, 'Verb'] = data.at[idx, 'Verb'] / len(tokens)       
      tree = parser.parse(req)
      if 'TreeHeight' in data.columns:
        data.at[idx, 'TreeHeight'] = tree.height()
      if 'SubTrees' in data.columns:
        data.at[idx, 'SubTrees'] = len(tree)
      idx = idx + 1    

  print(data.head())

In [0]:
from nltk.util import ngrams
from collections import Counter
from sklearn.feature_extraction import stop_words
from nltk.stem import WordNetLemmatizer

def enrich_ngram(data, file, target, nrfeat):
  bigrams = []
  trigrams = []
  frequencies = Counter([])
  frequencies2 = Counter([])
  frequencies3 = Counter([])
  pfrequencies = Counter([])
  pfrequencies2 = Counter([])
  pfrequencies3 = Counter([])

  wn_lemmatizer = WordNetLemmatizer()

  # Generation of [1, 2, 3] textgrams, [1, 2, 3] POSgrams
  for req in tqdm(data['RequirementText'], desc='n-grams generation', position=0):
      token = tokenizer.tokenize(req)
      token = [word.lower() for word in token]
      tags = nltk.pos_tag(token)
      token = [w for w in token if not w in stop_words.ENGLISH_STOP_WORDS]
      token = [wn_lemmatizer.lemmatize(w) for w in token]
      frequencies += Counter(token)
      bigrams = ngrams(token,2)
      trigrams = ngrams(token,3)
      frequencies2 += Counter(bigrams)
      frequencies3 += Counter(trigrams)
      punigrams = [tag for (word, tag) in tags]
      pfrequencies += Counter(punigrams)
      pbigrams = ngrams([tag for (word, tag) in tags], 2)
      pfrequencies2 += Counter(pbigrams)
      ptrigrams = ngrams([tag for (word, tag) in tags], 3)
      pfrequencies3 += Counter(ptrigrams)

  #print (len(frequencies), len(frequencies2), len(frequencies3), len(pfrequencies), len(pfrequencies2), len(pfrequencies3))

  # Populating the n-grams
  idx = 0
  for req in tqdm(data['RequirementText'], desc='n-grams population', position=0):
      token = tokenizer.tokenize(req)

      for t in token:
        exists = [col for col in data.columns if col == str('_' + t + '_')]
        if exists != []:
          data.at[idx, exists] = 1

      bigrams = ngrams(token,2)
      for bg in bigrams:
        exists = [col for col in data.columns if col == str('_' + bg[0] + '_' + bg[1] + '_')]
        if exists != []:
          data.at[idx, exists] = 1

      trigrams = ngrams(token,3)
      for tg in trigrams:
        exists = [col for col in data.columns if col == str('_' + tg[0] + '_' + tg[1] + '_' + tg[2] + '_')]
        if exists != []:
          data.at[idx, exists] = 1

      tags = nltk.pos_tag(token)

      for t in tags:
        exists = [col for col in data.columns if col == str(t)]
        if exists != []:
          data.at[idx, exists] = 1

      pbigrams = ngrams([tag for (word, tag) in tags], 2)
      for bg in pbigrams:
        exists = [col for col in data.columns if col == str(bg[0] + '_' + bg[1])]
        if exists != []:
          data.at[idx, exists] = 1

      ptrigrams = ngrams([tag for (word, tag) in tags], 3)
      for tg in ptrigrams:
        exists = [col for col in data.columns if col == str(tg[0] + '_' + tg[1] + '_' + tg[2])]
        if exists != []:
          data.at[idx, exists] = 1

      idx = idx + 1

  data = data.fillna(0.0)

  # for column in data.columns:
  #   if data[column].isnull().sum()==len(data):
  #     data[column] = 0.0

  data.columns = data.columns.map(str)

  print (data.head())

  # The new enriched dataset is now saved
  data.to_csv(file + '-tagged-' + str(nrfeat) + '-' + target + '.csv', encoding='utf-8')

In [0]:
def enrich_dataset(file, target, nrfeat, data):
  data = data[0:0]

  # Take the new dataset

  data2 = pd.read_csv(file + '.csv', engine='python')
  data['RequirementText'] = data2['RequirementText']
  data['ProjectID'] = 1
  data['Class'] = 'F'
  if target == 'q' or target == 'f':
    data['IsFunctional'] = data2['IsFunctional']
    data['IsQuality'] = data2['IsQuality']

  if target == 'oq':
    data['OnlyQuality'] = ~data2['IsFunctional'] & data2['IsQuality']

  if target == 'of':
    data['OnlyFunctional'] = data2['IsFunctional'] & ~data2['IsQuality']


  data = data.drop(data.columns[0], axis=1)

  print (data.head())

  enrich_ling(data)
  enrich_ngram(data, file, target, nrfeat)

## 3. Main file

Imports the enriched data set and the new dataset, then invokes the other functions

In [0]:
# Define the files that you want to process here.  
source_folder = './'
filename = ['dronology', 'ds2', 'ds3', 'reqview', 'wasp', 'leeds', 'esa-eucl-est'] #the datasets to enrich
target_type = ['f', 'q', 'of', 'oq'] #the target class for the classification (different classes have different top_n features)
top_n_feat = 100

for f in filename:
  for t in target_type:
    # Loading the originally enriched PROMISE data set
    data = pd.read_csv(source_folder+'promise-km-' + str(top_n_feat) + '-' + t + '.csv', engine='python')
    # enrich the new one
    enrich_dataset(file=source_folder+f, target=t, nrfeat=top_n_feat, data=data)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  import sys
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  if __name__ == '__main__':
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.ht

   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          1             1
1    NaN    NaN    NaN       NaN  ...          1      F          1             1
2    NaN    NaN    NaN       NaN  ...          1      F          0             1
3    NaN    NaN    NaN       NaN  ...          1      F          0             1
4    NaN    NaN    NaN       NaN  ...          1      F          0             1

[5 rows x 105 columns]


W0627 16:33:14.069756 139935804311424 deprecation_wrapper.py:119] From /usr/local/lib/python3.6/dist-packages/benepar/base_parser.py:197: The name tf.GraphDef is deprecated. Please use tf.compat.v1.GraphDef instead.

W0627 16:33:15.875402 139935804311424 deprecation_wrapper.py:119] From /usr/local/lib/python3.6/dist-packages/benepar/base_parser.py:202: The name tf.Session is deprecated. Please use tf.compat.v1.Session instead.

Parse trees: 100%|██████████| 97/97 [00:22<00:00,  4.98it/s]
n-grams generation:   0%|          | 0/97 [00:00<?, ?it/s]

   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          1             1
1    NaN    NaN    NaN       NaN  ...          1      F          1             1
2    NaN    NaN    NaN       NaN  ...          1      F          0             1
3    NaN    NaN    NaN       NaN  ...          1      F          0             1
4    NaN    NaN    NaN       NaN  ...          1      F          0             1

[5 rows x 105 columns]


n-grams generation: 100%|██████████| 97/97 [00:01<00:00, 55.65it/s]
n-grams population: 100%|██████████| 97/97 [00:00<00:00, 108.61it/s]


   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    0.0    0.0    0.0       0.0  ...          1      F          1             1
1    0.0    0.0    0.0       0.0  ...          1      F          1             1
2    0.0    0.0    1.0       1.0  ...          1      F          0             1
3    0.0    0.0    1.0       1.0  ...          1      F          0             1
4    0.0    0.0    0.0       0.0  ...          1      F          0             1

[5 rows x 105 columns]
   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          1             1
1    NaN       NaN      NaN  ...      F          1             1
2    NaN       NaN      NaN  ...      F          0             1
3    NaN       NaN      NaN  ...      F          0             1
4    NaN       NaN      NaN  ...      F          0             1

[5 rows x 105 columns]


Parse trees: 100%|██████████| 97/97 [00:21<00:00,  5.41it/s]
n-grams generation: 100%|██████████| 97/97 [00:00<00:00, 1054.69it/s]
n-grams population:  14%|█▍        | 14/97 [00:00<00:00, 135.79it/s]

   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          1             1
1    NaN       NaN      NaN  ...      F          1             1
2    NaN       NaN      NaN  ...      F          0             1
3    NaN       NaN      NaN  ...      F          0             1
4    NaN       NaN      NaN  ...      F          0             1

[5 rows x 105 columns]


n-grams population: 100%|██████████| 97/97 [00:00<00:00, 118.90it/s]


   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    0.0       0.0      0.0  ...      F          1             1
1    0.0       0.0      0.0  ...      F          1             1
2    0.0       1.0      0.0  ...      F          0             1
3    0.0       1.0      0.0  ...      F          0             1
4    0.0       0.0      0.0  ...      F          0             1

[5 rows x 105 columns]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               1

[5 rows x 105 columns]


Parse trees: 100%|██████████| 97/97 [00:21<00:00,  5.44it/s]
n-grams generation: 100%|██████████| 97/97 [00:00<00:00, 1012.63it/s]
n-grams population:   0%|          | 0/97 [00:00<?, ?it/s]

   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               1

[5 rows x 105 columns]


n-grams population: 100%|██████████| 97/97 [00:00<00:00, 109.52it/s]


   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
1    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
2    0.0    0.0       1.0      0.0  ...          1      F        0.0               1
3    0.0    0.0       1.0      0.0  ...          1      F        0.0               1
4    0.0    0.0       0.0      0.0  ...          1      F        0.0               1

[5 rows x 105 columns]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  from ipykernel import kernelapp as app


   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
4    NaN    NaN    NaN      NaN  ...          1      F            0           NaN

[5 rows x 105 columns]


Parse trees: 100%|██████████| 97/97 [00:20<00:00,  5.56it/s]
n-grams generation: 100%|██████████| 97/97 [00:00<00:00, 1024.59it/s]
n-grams population:   0%|          | 0/97 [00:00<?, ?it/s]

   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
4    NaN    NaN    NaN      NaN  ...          1      F            0           NaN

[5 rows x 105 columns]


n-grams population: 100%|██████████| 97/97 [00:00<00:00, 105.29it/s]


   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    0.0    0.0    0.0      0.0  ...          1      F            0           0.0
1    0.0    0.0    0.0      0.0  ...          1      F            0           0.0
2    0.0    1.0    0.0      0.0  ...          1      F            0           0.0
3    0.0    1.0    0.0      0.0  ...          1      F            0           0.0
4    0.0    0.0    0.0      0.0  ...          1      F            0           0.0

[5 rows x 105 columns]
   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          1             0
1    NaN    NaN    NaN       NaN  ...          1      F          1             0
2    NaN    NaN    NaN       NaN  ...          1      F          0             1
3    NaN    NaN    NaN       NaN  ...          1      F          0             1
4    NaN    NaN    NaN       NaN  ...          1      F          0             

Parse trees: 100%|██████████| 172/172 [00:36<00:00,  5.16it/s]
n-grams generation:  48%|████▊     | 82/172 [00:00<00:00, 815.57it/s]

   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          1             0
1    NaN    NaN    NaN       NaN  ...          1      F          1             0
2    NaN    NaN    NaN       NaN  ...          1      F          0             1
3    NaN    NaN    NaN       NaN  ...          1      F          0             1
4    NaN    NaN    NaN       NaN  ...          1      F          0             1

[5 rows x 105 columns]


n-grams generation: 100%|██████████| 172/172 [00:00<00:00, 818.26it/s]
n-grams population: 100%|██████████| 172/172 [00:02<00:00, 64.99it/s]


   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    0.0    0.0    1.0       1.0  ...          1      F          1             0
1    0.0    0.0    1.0       0.0  ...          1      F          1             0
2    0.0    0.0    1.0       1.0  ...          1      F          0             1
3    0.0    0.0    1.0       1.0  ...          1      F          0             1
4    0.0    0.0    1.0       1.0  ...          1      F          0             1

[5 rows x 105 columns]
   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          1             0
1    NaN       NaN      NaN  ...      F          1             0
2    NaN       NaN      NaN  ...      F          0             1
3    NaN       NaN      NaN  ...      F          0             1
4    NaN       NaN      NaN  ...      F          0             1

[5 rows x 105 columns]


Parse trees: 100%|██████████| 172/172 [00:36<00:00,  5.15it/s]
n-grams generation:  48%|████▊     | 83/172 [00:00<00:00, 828.99it/s]

   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          1             0
1    NaN       NaN      NaN  ...      F          1             0
2    NaN       NaN      NaN  ...      F          0             1
3    NaN       NaN      NaN  ...      F          0             1
4    NaN       NaN      NaN  ...      F          0             1

[5 rows x 105 columns]


n-grams generation: 100%|██████████| 172/172 [00:00<00:00, 833.36it/s]
n-grams population: 100%|██████████| 172/172 [00:02<00:00, 69.80it/s]


   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    0.0       1.0      0.0  ...      F          1             0
1    0.0       0.0      0.0  ...      F          1             0
2    0.0       1.0      0.0  ...      F          0             1
3    0.0       1.0      0.0  ...      F          0             1
4    0.0       1.0      0.0  ...      F          0             1

[5 rows x 105 columns]
   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               1

[5 rows x 105 columns]


Parse trees: 100%|██████████| 172/172 [00:35<00:00,  5.13it/s]
n-grams generation:  48%|████▊     | 83/172 [00:00<00:00, 821.51it/s]

   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               1

[5 rows x 105 columns]


n-grams generation: 100%|██████████| 172/172 [00:00<00:00, 815.19it/s]
n-grams population: 100%|██████████| 172/172 [00:02<00:00, 62.87it/s]


   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    0.0    0.0       1.0      0.0  ...          1      F        0.0               0
1    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
2    0.0    0.0       1.0      0.0  ...          1      F        0.0               1
3    0.0    0.0       1.0      0.0  ...          1      F        0.0               1
4    0.0    0.0       1.0      0.0  ...          1      F        0.0               1

[5 rows x 105 columns]
   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
4    NaN    NaN    NaN      NaN  ...          1      F  

Parse trees: 100%|██████████| 172/172 [00:35<00:00,  5.21it/s]
n-grams generation:  48%|████▊     | 83/172 [00:00<00:00, 829.08it/s]

   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
4    NaN    NaN    NaN      NaN  ...          1      F            0           NaN

[5 rows x 105 columns]


n-grams generation: 100%|██████████| 172/172 [00:00<00:00, 842.33it/s]
n-grams population: 100%|██████████| 172/172 [00:02<00:00, 72.04it/s]


   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    0.0    1.0    0.0      0.0  ...          1      F            1           0.0
1    0.0    1.0    0.0      0.0  ...          1      F            1           0.0
2    0.0    1.0    0.0      0.0  ...          1      F            0           0.0
3    0.0    1.0    0.0      0.0  ...          1      F            0           0.0
4    0.0    1.0    0.0      0.0  ...          1      F            0           0.0

[5 rows x 105 columns]
   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          1             1
1    NaN    NaN    NaN       NaN  ...          1      F          1             0
2    NaN    NaN    NaN       NaN  ...          1      F          1             1
3    NaN    NaN    NaN       NaN  ...          1      F          1             1
4    NaN    NaN    NaN       NaN  ...          1      F          1             

Parse trees: 100%|██████████| 138/138 [00:26<00:00,  6.28it/s]
n-grams generation: 100%|██████████| 138/138 [00:00<00:00, 1152.13it/s]
n-grams population:   0%|          | 0/138 [00:00<?, ?it/s]

   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          1             1
1    NaN    NaN    NaN       NaN  ...          1      F          1             0
2    NaN    NaN    NaN       NaN  ...          1      F          1             1
3    NaN    NaN    NaN       NaN  ...          1      F          1             1
4    NaN    NaN    NaN       NaN  ...          1      F          1             0

[5 rows x 105 columns]


n-grams population: 100%|██████████| 138/138 [00:01<00:00, 103.51it/s]


   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    0.0    0.0    1.0       1.0  ...          1      F          1             1
1    0.0    0.0    0.0       0.0  ...          1      F          1             0
2    0.0    0.0    0.0       0.0  ...          1      F          1             1
3    0.0    0.0    0.0       0.0  ...          1      F          1             1
4    0.0    0.0    0.0       0.0  ...          1      F          1             0

[5 rows x 105 columns]
   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          1             1
1    NaN       NaN      NaN  ...      F          1             0
2    NaN       NaN      NaN  ...      F          1             1
3    NaN       NaN      NaN  ...      F          1             1
4    NaN       NaN      NaN  ...      F          1             0

[5 rows x 105 columns]


Parse trees: 100%|██████████| 138/138 [00:26<00:00,  6.30it/s]
n-grams generation: 100%|██████████| 138/138 [00:00<00:00, 1132.55it/s]
n-grams population:   0%|          | 0/138 [00:00<?, ?it/s]

   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          1             1
1    NaN       NaN      NaN  ...      F          1             0
2    NaN       NaN      NaN  ...      F          1             1
3    NaN       NaN      NaN  ...      F          1             1
4    NaN       NaN      NaN  ...      F          1             0

[5 rows x 105 columns]


n-grams population: 100%|██████████| 138/138 [00:01<00:00, 118.97it/s]


   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    0.0       1.0      0.0  ...      F          1             1
1    0.0       0.0      0.0  ...      F          1             0
2    0.0       0.0      0.0  ...      F          1             1
3    0.0       0.0      0.0  ...      F          1             1
4    0.0       0.0      0.0  ...      F          1             0

[5 rows x 105 columns]
   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               0

[5 rows x 105 columns]


Parse trees: 100%|██████████| 138/138 [00:26<00:00,  6.36it/s]
n-grams generation: 100%|██████████| 138/138 [00:00<00:00, 1153.55it/s]
n-grams population:   0%|          | 0/138 [00:00<?, ?it/s]

   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               0

[5 rows x 105 columns]


n-grams population: 100%|██████████| 138/138 [00:01<00:00, 103.71it/s]


   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    0.0    0.0       1.0      0.0  ...          1      F        0.0               0
1    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
2    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
3    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
4    0.0    0.0       0.0      0.0  ...          1      F        0.0               0

[5 rows x 105 columns]
   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
4    NaN    NaN    NaN      NaN  ...          1      F  

Parse trees: 100%|██████████| 138/138 [00:26<00:00,  6.34it/s]
n-grams generation: 100%|██████████| 138/138 [00:00<00:00, 1126.88it/s]
n-grams population:   0%|          | 0/138 [00:00<?, ?it/s]

   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
4    NaN    NaN    NaN      NaN  ...          1      F            1           NaN

[5 rows x 105 columns]


n-grams population: 100%|██████████| 138/138 [00:01<00:00, 100.87it/s]


   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    0.0    1.0    0.0      0.0  ...          1      F            0           0.0
1    0.0    0.0    0.0      0.0  ...          1      F            1           0.0
2    0.0    0.0    0.0      0.0  ...          1      F            0           0.0
3    0.0    0.0    0.0      0.0  ...          1      F            0           0.0
4    0.0    0.0    0.0      0.0  ...          1      F            1           0.0

[5 rows x 105 columns]
   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          1             0
1    NaN    NaN    NaN       NaN  ...          1      F          1             0
2    NaN    NaN    NaN       NaN  ...          1      F          1             1
3    NaN    NaN    NaN       NaN  ...          1      F          1             0
4    NaN    NaN    NaN       NaN  ...          1      F          0             

Parse trees: 100%|██████████| 87/87 [00:17<00:00,  6.05it/s]
n-grams generation: 100%|██████████| 87/87 [00:00<00:00, 990.55it/s]
n-grams population:  13%|█▎        | 11/87 [00:00<00:00, 107.09it/s]

   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          1             0
1    NaN    NaN    NaN       NaN  ...          1      F          1             0
2    NaN    NaN    NaN       NaN  ...          1      F          1             1
3    NaN    NaN    NaN       NaN  ...          1      F          1             0
4    NaN    NaN    NaN       NaN  ...          1      F          0             1

[5 rows x 105 columns]


n-grams population: 100%|██████████| 87/87 [00:00<00:00, 100.07it/s]


   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    0.0    1.0    1.0       0.0  ...          1      F          1             0
1    0.0    1.0    1.0       0.0  ...          1      F          1             0
2    0.0    1.0    0.0       0.0  ...          1      F          1             1
3    0.0    0.0    0.0       0.0  ...          1      F          1             0
4    0.0    0.0    1.0       0.0  ...          1      F          0             1

[5 rows x 105 columns]
   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          1             0
1    NaN       NaN      NaN  ...      F          1             0
2    NaN       NaN      NaN  ...      F          1             1
3    NaN       NaN      NaN  ...      F          1             0
4    NaN       NaN      NaN  ...      F          0             1

[5 rows x 105 columns]


Parse trees: 100%|██████████| 87/87 [00:17<00:00,  5.97it/s]
n-grams generation: 100%|██████████| 87/87 [00:00<00:00, 933.84it/s]
n-grams population:   0%|          | 0/87 [00:00<?, ?it/s]

   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          1             0
1    NaN       NaN      NaN  ...      F          1             0
2    NaN       NaN      NaN  ...      F          1             1
3    NaN       NaN      NaN  ...      F          1             0
4    NaN       NaN      NaN  ...      F          0             1

[5 rows x 105 columns]


n-grams population: 100%|██████████| 87/87 [00:00<00:00, 122.32it/s]


   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    0.0       0.0      0.0  ...      F          1             0
1    0.0       0.0      0.0  ...      F          1             0
2    0.0       0.0      0.0  ...      F          1             1
3    0.0       0.0      0.0  ...      F          1             0
4    0.0       0.0      0.0  ...      F          0             1

[5 rows x 105 columns]
   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               1

[5 rows x 105 columns]


Parse trees: 100%|██████████| 87/87 [00:17<00:00,  6.01it/s]
n-grams generation: 100%|██████████| 87/87 [00:00<00:00, 960.91it/s]
n-grams population:  13%|█▎        | 11/87 [00:00<00:00, 109.08it/s]

   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               1

[5 rows x 105 columns]


n-grams population: 100%|██████████| 87/87 [00:00<00:00, 100.18it/s]


   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
1    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
2    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
3    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
4    0.0    0.0       0.0      0.0  ...          1      F        0.0               1

[5 rows x 105 columns]
   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
4    NaN    NaN    NaN      NaN  ...          1      F  

Parse trees: 100%|██████████| 87/87 [00:17<00:00,  5.93it/s]
n-grams generation: 100%|██████████| 87/87 [00:00<00:00, 950.71it/s]
n-grams population:   0%|          | 0/87 [00:00<?, ?it/s]

   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
4    NaN    NaN    NaN      NaN  ...          1      F            0           NaN

[5 rows x 105 columns]


n-grams population: 100%|██████████| 87/87 [00:00<00:00, 112.79it/s]


   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    0.0    1.0    1.0      0.0  ...          1      F            1           0.0
1    0.0    1.0    1.0      0.0  ...          1      F            1           0.0
2    0.0    0.0    1.0      0.0  ...          1      F            0           0.0
3    0.0    0.0    0.0      0.0  ...          1      F            1           0.0
4    0.0    1.0    0.0      0.0  ...          1      F            0           0.0

[5 rows x 105 columns]
   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          0             1
1    NaN    NaN    NaN       NaN  ...          1      F          1             1
2    NaN    NaN    NaN       NaN  ...          1      F          1             1
3    NaN    NaN    NaN       NaN  ...          1      F          0             1
4    NaN    NaN    NaN       NaN  ...          1      F          0             

Parse trees: 100%|██████████| 62/62 [00:15<00:00,  4.57it/s]
n-grams generation: 100%|██████████| 62/62 [00:00<00:00, 820.25it/s]
n-grams population:  13%|█▎        | 8/62 [00:00<00:00, 79.02it/s]

   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          0             1
1    NaN    NaN    NaN       NaN  ...          1      F          1             1
2    NaN    NaN    NaN       NaN  ...          1      F          1             1
3    NaN    NaN    NaN       NaN  ...          1      F          0             1
4    NaN    NaN    NaN       NaN  ...          1      F          0             1

[5 rows x 105 columns]


n-grams population: 100%|██████████| 62/62 [00:00<00:00, 79.98it/s]


   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    0.0    0.0    1.0       1.0  ...          1      F          0             1
1    0.0    0.0    0.0       0.0  ...          1      F          1             1
2    0.0    0.0    0.0       0.0  ...          1      F          1             1
3    1.0    0.0    1.0       0.0  ...          1      F          0             1
4    0.0    0.0    0.0       0.0  ...          1      F          0             1

[5 rows x 105 columns]
   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          0             1
1    NaN       NaN      NaN  ...      F          1             1
2    NaN       NaN      NaN  ...      F          1             1
3    NaN       NaN      NaN  ...      F          0             1
4    NaN       NaN      NaN  ...      F          0             1

[5 rows x 105 columns]


Parse trees: 100%|██████████| 62/62 [00:15<00:00,  4.59it/s]
n-grams generation: 100%|██████████| 62/62 [00:00<00:00, 813.65it/s]
n-grams population:  15%|█▍        | 9/62 [00:00<00:00, 77.68it/s]

   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          0             1
1    NaN       NaN      NaN  ...      F          1             1
2    NaN       NaN      NaN  ...      F          1             1
3    NaN       NaN      NaN  ...      F          0             1
4    NaN       NaN      NaN  ...      F          0             1

[5 rows x 105 columns]


n-grams population: 100%|██████████| 62/62 [00:00<00:00, 90.37it/s]


   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    0.0       1.0      0.0  ...      F          0             1
1    0.0       0.0      0.0  ...      F          1             1
2    0.0       0.0      0.0  ...      F          1             1
3    1.0       0.0      0.0  ...      F          0             1
4    0.0       0.0      1.0  ...      F          0             1

[5 rows x 105 columns]
   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               1

[5 rows x 105 columns]


Parse trees: 100%|██████████| 62/62 [00:15<00:00,  4.59it/s]
n-grams generation: 100%|██████████| 62/62 [00:00<00:00, 836.35it/s]
n-grams population:  13%|█▎        | 8/62 [00:00<00:00, 70.63it/s]

   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               1

[5 rows x 105 columns]


n-grams population: 100%|██████████| 62/62 [00:00<00:00, 77.27it/s]


   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    0.0    0.0       1.0      0.0  ...          1      F        0.0               1
1    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
2    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
3    1.0    0.0       0.0      0.0  ...          1      F        0.0               1
4    0.0    0.0       0.0      1.0  ...          1      F        0.0               1

[5 rows x 105 columns]
   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
4    NaN    NaN    NaN      NaN  ...          1      F  

Parse trees: 100%|██████████| 62/62 [00:15<00:00,  4.56it/s]
n-grams generation: 100%|██████████| 62/62 [00:00<00:00, 806.41it/s]
n-grams population:  13%|█▎        | 8/62 [00:00<00:00, 78.43it/s]

   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
4    NaN    NaN    NaN      NaN  ...          1      F            0           NaN

[5 rows x 105 columns]


n-grams population: 100%|██████████| 62/62 [00:00<00:00, 81.87it/s]


   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    0.0    1.0    0.0      0.0  ...          1      F            0           0.0
1    0.0    0.0    0.0      0.0  ...          1      F            0           0.0
2    0.0    0.0    0.0      0.0  ...          1      F            0           0.0
3    1.0    1.0    0.0      0.0  ...          1      F            0           0.0
4    0.0    0.0    0.0      1.0  ...          1      F            0           0.0

[5 rows x 105 columns]
   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          1             0
1    NaN    NaN    NaN       NaN  ...          1      F          1             1
2    NaN    NaN    NaN       NaN  ...          1      F          0             1
3    NaN    NaN    NaN       NaN  ...          1      F          0             1
4    NaN    NaN    NaN       NaN  ...          1      F          1             

Parse trees: 100%|██████████| 85/85 [00:19<00:00,  6.09it/s]
n-grams generation: 100%|██████████| 85/85 [00:00<00:00, 730.04it/s]
n-grams population:   0%|          | 0/85 [00:00<?, ?it/s]

   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          1             0
1    NaN    NaN    NaN       NaN  ...          1      F          1             1
2    NaN    NaN    NaN       NaN  ...          1      F          0             1
3    NaN    NaN    NaN       NaN  ...          1      F          0             1
4    NaN    NaN    NaN       NaN  ...          1      F          1             0

[5 rows x 105 columns]


n-grams population: 100%|██████████| 85/85 [00:00<00:00, 95.82it/s]


   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    0.0    0.0    0.0       0.0  ...          1      F          1             0
1    0.0    0.0    0.0       0.0  ...          1      F          1             1
2    0.0    0.0    0.0       0.0  ...          1      F          0             1
3    0.0    0.0    0.0       0.0  ...          1      F          0             1
4    0.0    0.0    0.0       0.0  ...          1      F          1             0

[5 rows x 105 columns]
   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          1             0
1    NaN       NaN      NaN  ...      F          1             1
2    NaN       NaN      NaN  ...      F          0             1
3    NaN       NaN      NaN  ...      F          0             1
4    NaN       NaN      NaN  ...      F          1             0

[5 rows x 105 columns]


Parse trees: 100%|██████████| 85/85 [00:19<00:00,  6.03it/s]
n-grams generation: 100%|██████████| 85/85 [00:00<00:00, 858.05it/s]
n-grams population:   0%|          | 0/85 [00:00<?, ?it/s]

   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          1             0
1    NaN       NaN      NaN  ...      F          1             1
2    NaN       NaN      NaN  ...      F          0             1
3    NaN       NaN      NaN  ...      F          0             1
4    NaN       NaN      NaN  ...      F          1             0

[5 rows x 105 columns]


n-grams population: 100%|██████████| 85/85 [00:00<00:00, 108.27it/s]


   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    0.0       0.0      0.0  ...      F          1             0
1    0.0       0.0      0.0  ...      F          1             1
2    0.0       0.0      0.0  ...      F          0             1
3    0.0       0.0      0.0  ...      F          0             1
4    0.0       0.0      0.0  ...      F          1             0

[5 rows x 105 columns]
   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               0

[5 rows x 105 columns]


Parse trees: 100%|██████████| 85/85 [00:19<00:00,  5.96it/s]
n-grams generation: 100%|██████████| 85/85 [00:00<00:00, 740.22it/s]
n-grams population:   0%|          | 0/85 [00:00<?, ?it/s]

   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               1
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               0

[5 rows x 105 columns]


n-grams population: 100%|██████████| 85/85 [00:00<00:00, 98.29it/s]


   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
1    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
2    0.0    1.0       0.0      0.0  ...          1      F        0.0               1
3    0.0    0.0       0.0      0.0  ...          1      F        0.0               1
4    0.0    0.0       0.0      0.0  ...          1      F        0.0               0

[5 rows x 105 columns]
   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
4    NaN    NaN    NaN      NaN  ...          1      F  

Parse trees: 100%|██████████| 85/85 [00:19<00:00,  5.98it/s]
n-grams generation: 100%|██████████| 85/85 [00:00<00:00, 863.82it/s]
n-grams population:   0%|          | 0/85 [00:00<?, ?it/s]

   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
4    NaN    NaN    NaN      NaN  ...          1      F            1           NaN

[5 rows x 105 columns]


n-grams population: 100%|██████████| 85/85 [00:00<00:00, 99.44it/s] 


   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    0.0    0.0    0.0      0.0  ...          1      F            1           0.0
1    0.0    0.0    0.0      0.0  ...          1      F            0           0.0
2    0.0    0.0    0.0      0.0  ...          1      F            0           0.0
3    0.0    0.0    0.0      0.0  ...          1      F            0           0.0
4    0.0    0.0    0.0      0.0  ...          1      F            1           0.0

[5 rows x 105 columns]
   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          1             1
1    NaN    NaN    NaN       NaN  ...          1      F          1             0
2    NaN    NaN    NaN       NaN  ...          1      F          1             0
3    NaN    NaN    NaN       NaN  ...          1      F          1             0
4    NaN    NaN    NaN       NaN  ...          1      F          1             

Parse trees: 100%|██████████| 236/236 [00:57<00:00,  4.68it/s]
n-grams generation:  30%|██▉       | 70/236 [00:00<00:00, 699.24it/s]

   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    NaN    NaN    NaN       NaN  ...          1      F          1             1
1    NaN    NaN    NaN       NaN  ...          1      F          1             0
2    NaN    NaN    NaN       NaN  ...          1      F          1             0
3    NaN    NaN    NaN       NaN  ...          1      F          1             0
4    NaN    NaN    NaN       NaN  ...          1      F          1             0

[5 rows x 105 columns]


n-grams generation: 100%|██████████| 236/236 [00:00<00:00, 602.83it/s]
n-grams population: 100%|██████████| 236/236 [00:03<00:00, 71.37it/s]


   CD_IN  _use_  VB_DT  MD_VB_DT  ...  ProjectID  Class  IsQuality  IsFunctional
0    0.0    0.0    1.0       1.0  ...          1      F          1             1
1    0.0    0.0    0.0       0.0  ...          1      F          1             0
2    0.0    0.0    0.0       0.0  ...          1      F          1             0
3    0.0    0.0    0.0       0.0  ...          1      F          1             0
4    0.0    0.0    1.0       1.0  ...          1      F          1             0

[5 rows x 105 columns]
   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          1             1
1    NaN       NaN      NaN  ...      F          1             0
2    NaN       NaN      NaN  ...      F          1             0
3    NaN       NaN      NaN  ...      F          1             0
4    NaN       NaN      NaN  ...      F          1             0

[5 rows x 105 columns]


Parse trees: 100%|██████████| 236/236 [00:57<00:00,  4.65it/s]
n-grams generation:  30%|███       | 71/236 [00:00<00:00, 690.21it/s]

   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    NaN       NaN      NaN  ...      F          1             1
1    NaN       NaN      NaN  ...      F          1             0
2    NaN       NaN      NaN  ...      F          1             0
3    NaN       NaN      NaN  ...      F          1             0
4    NaN       NaN      NaN  ...      F          1             0

[5 rows x 105 columns]


n-grams generation: 100%|██████████| 236/236 [00:00<00:00, 603.96it/s]
n-grams population: 100%|██████████| 236/236 [00:03<00:00, 77.53it/s]


   CD_IN  MD_VB_DT  _allow_  ...  Class  IsQuality  IsFunctional
0    0.0       1.0      0.0  ...      F          1             1
1    0.0       0.0      0.0  ...      F          1             0
2    0.0       0.0      0.0  ...      F          1             0
3    0.0       0.0      0.0  ...      F          1             0
4    0.0       1.0      0.0  ...      F          1             0

[5 rows x 105 columns]
   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               0

[5 rows x 105 columns]


Parse trees: 100%|██████████| 236/236 [00:57<00:00,  4.42it/s]
n-grams generation:  30%|██▉       | 70/236 [00:00<00:00, 691.28it/s]

   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
1    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
2    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
3    NaN    NaN       NaN      NaN  ...          1      F        NaN               0
4    NaN    NaN       NaN      NaN  ...          1      F        NaN               0

[5 rows x 105 columns]


n-grams generation: 100%|██████████| 236/236 [00:00<00:00, 601.31it/s]
n-grams population: 100%|██████████| 236/236 [00:03<00:00, 69.85it/s]


   CD_IN  IN_CD  MD_VB_DT  _allow_  ...  ProjectID  Class  IsQuality  OnlyFunctional
0    0.0    0.0       1.0      0.0  ...          1      F        0.0               0
1    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
2    0.0    1.0       0.0      0.0  ...          1      F        0.0               0
3    0.0    0.0       0.0      0.0  ...          1      F        0.0               0
4    0.0    0.0       1.0      0.0  ...          1      F        0.0               0

[5 rows x 105 columns]
   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
4    NaN    NaN    NaN      NaN  ...          1      F  

Parse trees: 100%|██████████| 236/236 [00:57<00:00,  4.61it/s]
n-grams generation:  29%|██▉       | 69/236 [00:00<00:00, 686.64it/s]

   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    NaN    NaN    NaN      NaN  ...          1      F            0           NaN
1    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
2    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
3    NaN    NaN    NaN      NaN  ...          1      F            1           NaN
4    NaN    NaN    NaN      NaN  ...          1      F            1           NaN

[5 rows x 105 columns]


n-grams generation: 100%|██████████| 236/236 [00:00<00:00, 595.20it/s]
n-grams population: 100%|██████████| 236/236 [00:03<00:00, 69.19it/s]


   CD_IN  VB_DT  _use_  _allow_  ...  ProjectID  Class  OnlyQuality  IsFunctional
0    0.0    1.0    0.0      0.0  ...          1      F            0           0.0
1    0.0    0.0    0.0      0.0  ...          1      F            1           0.0
2    0.0    0.0    0.0      0.0  ...          1      F            1           0.0
3    0.0    0.0    0.0      0.0  ...          1      F            1           0.0
4    0.0    1.0    0.0      0.0  ...          1      F            1           0.0

[5 rows x 105 columns]
