# The Weisfeiler-Lehman Isomorphism Test

The Weisfeiler-Lehman Isomorphism Test, also called WL-Test, is a classical result from the graph theory. It is an heuristic to find out if two graphs are isomorphic. The problem of the graph isomorphism does not have a definitive solution in polinomial time yet, making some people say it may be NP-Complete. The WL-Test offers one alternative that allows us to estimate it.

However, since this is an heuristic, the test is not perfect. Therefore, it fail in some simple cases and because of that new versions of this test were proposed.

In this notebook we will explore a little about the theory of the test and implement it in its classical form and also some newer versions.

In [1]:
import networkx as nx
def load_graph(file):
    G = nx.read_graphml(file).to_undirected()
    G.graph['phrase'] = G.graph.get('phrase', 'No phrase found')
    return G

# New implementation (gpt)

In [9]:
from __future__ import annotations
from pathlib import Path
from collections import defaultdict
from collections import Counter
import copy

# ---------- WL over trees ----------
def wl_tree_signature(G: nx.Graph) -> str:
    """
    1-WL color refinement on an (unlabeled) tree G.
    Returns a canonical signature string usable as a dict key.
    """
    # Relabel to 0..n-1 for array-friendly processing
    G = nx.relabel.convert_node_labels_to_integers(G, ordering="sorted")  # keeps attrs by default
    n = G.number_of_nodes()

    # adjacency as list of lists for speed
    adj = [list(G.neighbors(v)) for v in range(n)]  # neighbors() yields iterator.  [oai_citation:6‡networkx.org](https://networkx.org/documentation/stable/reference/classes/generated/networkx.Graph.neighbors.html?utm_source=chatgpt.com)
    labels = nx.get_node_attributes(G, 'label')  # node labels
    colors = [labels[u] for u in G.nodes()]  # node labels as colors
    tmp = [None] * n
    i = 0
    signature = ""
    while True:      
        
        for v in range(n):
            neigh_cols = sorted(colors[u] for u in adj[v])
            tmp[v] = str(colors[v]) +"_"+ str(tuple(neigh_cols))
        # compress tuples → small ints
        mapping = {}
        next_c = 0
        new_colors = [0] * n
        for v in range(n):
            key = tmp[v]
            #print(f"key is {key}")
            if key not in mapping:
                mapping[key] = next_c
                next_c += 1
            new_colors[v] = mapping[key]
        if new_colors == colors:
            break
        colors = new_colors
    hist = defaultdict(int)
    
    for c in tmp:
        hist[c] += 1
    signature += "|".join(f"{c}:{hist[c]}" for c in sorted(hist))
    return signature


In [5]:
from pathlib import Path
GRAPH_DIR = "../data/graphs/UD_Spanish-GSD"
# --------- CONFIG ---------
FOLDER = Path(GRAPH_DIR)
OUT_CSV = Path("isomorphic_groups_labeled.csv")

In [8]:
from tqdm import tqdm  # progress bar for long operations

groups = defaultdict(list)

for path in tqdm(FOLDER.rglob("*.graphml")):
    try:
         G = load_graph(path)
    except Exception as e:
        print(f"[WARN] Could not read {path}: {e}")
        continue

    sig = wl_tree_signature(G)

    groups[sig].append(str(path))

# --------- Write result ---------
with OUT_CSV.open("w", encoding="utf-8") as f:
    f.write("signature;count;files\n")
    for sig, files in groups.items():
        f.write(f"{sig};{len(files)};\"{'|'.join(files)}\"\n")

print(f"Done. Wrote {len(groups)} isomorphism classes to {OUT_CSV}")

159it [00:00, 929.22it/s]

['NOUN', 'PROPN', 'AUX', 'DET', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NUM']
['VERB', 'PRON', 'NOUN', 'PUNCT', 'ADP', 'PUNCT', 'VERB', 'SCONJ', 'NOUN', 'ADP', 'DET', 'ADJ', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'CCONJ', 'ADP', 'DET']
['VERB', 'NOUN', 'VERB', 'PUNCT', 'DET', 'ADJ', 'VERB', 'SCONJ', 'NOUN', 'PRON', 'NUM', 'PUNCT', 'DET', 'NUM', 'PROPN', 'ADP', 'ADP', 'DET', 'PROPN', 'CCONJ', 'DET', 'PROPN', 'PUNCT', 'PUNCT']
['VERB', 'NOUN', 'PRON', 'ADV', 'SCONJ', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'PUNCT', 'SCONJ', 'NOUN', 'PROPN', 'ADP', 'DET', 'NOUN', 'ADP', 'DET', 'VERB', 'DET', 'DET', 'NOUN', 'ADP', 'CCONJ', 'DET', 'SCONJ', 'NOUN', 'ADP', 'DET', 'NOUN', 'DET', 'ADP', 'DET']
['VERB', 'NOUN', 'PRON', 'NOUN', 'PUNCT', 'ADP', 'DET', 'DET', 'NOUN', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT', 'NOUN', 'DET', 'PROPN', 'PUNCT', 'NOUN', 'ADP', 'DET', 'ADP', 'ADP', 'ADP', 'NUM', 'ADJ', 'PUNCT', 'PRON', 'PROPN', 'NOUN', 'VERB', 'NOUN', 'ADP', 'CCONJ', 'DET', 'SCONJ', 'PRON',

579it [00:00, 1336.83it/s]

['ADJ', 'ADV', 'AUX', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'CCONJ', 'ADJ', 'DET', 'DET', 'PUNCT', 'ADP', 'PUNCT']
['VERB', 'PROPN', 'NOUN', 'PROPN', 'PUNCT', 'ADP', 'NUM', 'NOUN', 'DET', 'CCONJ', 'AUX', 'VERB', 'PROPN', 'NOUN', 'ADP', 'CCONJ', 'ADP', 'ADJ', 'ADJ', 'PROPN', 'ADP', 'DET', 'PROPN', 'CCONJ', 'ADJ', 'PROPN', 'ADP', 'PROPN', 'PROPN', 'PUNCT', 'CCONJ', 'PUNCT', 'ADP', 'DET', 'PROPN', 'PROPN', 'ADP', 'ADP']
['VERB', 'NUM', 'NOUN', 'VERB', 'VERB', 'PUNCT', 'ADP', 'PUNCT', 'DET', 'ADP', 'NOUN', 'PUNCT', 'SCONJ', 'PRON', 'NOUN', 'PROPN', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'PROPN', 'ADP', 'DET', 'ADJ', 'ADP', 'DET', 'ADJ']
['NOUN', 'PROPN', 'AUX', 'DET', 'NOUN', 'NOUN', 'PUNCT', 'PROPN', 'ADP', 'PROPN', 'ADP', 'DET', 'PROPN']
['VERB', 'NOUN', 'PRON', 'AUX', 'NOUN', 'PUNCT', 'ADP', 'DET', 'DET', 'NOUN', 'ADP', 'DET', 'ADJ', 'PROPN', 'VERB']
['VERB', 'ADJ', 'PUNCT', 'SCONJ', 'NOUN', 'AUX', 'AUX', 'NOUN', 'DET', 'ADP', 'DET', 'DET']
['VERB', 'AUX', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'ADJ',

887it [00:00, 1452.61it/s]

['VERB', 'NOUN', 'ADV', 'NOUN', 'VERB', 'PUNCT', 'DET', 'DET', 'CCONJ', 'NOUN', 'NOUN', 'NOUN', 'ADP', 'DET', 'DET', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'DET', 'ADP', 'DET']
['VERB', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NUM', 'DET', 'NOUN', 'NOUN', 'ADP', 'NUM', 'CCONJ', 'DET', 'ADJ', 'NOUN', 'ADP', 'NUM', 'NOUN', 'ADP', 'SYM']
['ADJ', 'PROPN', 'VERB', 'NOUN', 'PUNCT', 'PRON', 'ADP', 'DET', 'VERB', 'PRON', 'AUX', 'NOUN', 'ADP', 'NOUN', 'CCONJ']
['VERB', 'CCONJ', 'NOUN', 'ADV', 'NOUN', 'VERB', 'PUNCT', 'DET', 'PROPN', 'ADP', 'PUNCT', 'CCONJ', 'NOUN', 'VERB', 'VERB', 'ADP', 'DET', 'ADP', 'NOUN', 'CCONJ', 'PRON', 'PRON', 'ADP', 'DET', 'ADP', 'VERB', 'SCONJ', 'PRON', 'AUX', 'DET']
['VERB', 'PROPN', 'PROPN', 'VERB', 'PUNCT', 'DET', 'PROPN', 'PROPN', 'ADP', 'PROPN', 'PROPN', 'PRON', 'NOUN', 'NOUN', 'ADP', 'ADP', 'ADP', 'DET', 'ADP', 'DET', 'ADJ']
['VERB', 'PROPN', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'DET', 'CCONJ', 'PRON', 'VERB', 'ADP', 'SCONJ']
['VERB', 'NUM', 'NOUN', 'NOUN', 'PUNCT', 'ADP

1033it [00:00, 1365.69it/s]

['VERB', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'ADJ', 'DET', 'SYM', 'PROPN', 'ADP', 'NUM', 'ADP', 'DET', 'PROPN', 'VERB', 'ADP', 'PROPN', 'PUNCT', 'NOUN', 'ADP', 'DET', 'ADJ', 'PROPN', 'ADP', 'DET', 'PROPN', 'PROPN', 'ADP']
['VERB', 'PROPN', 'PROPN', 'VERB', 'PUNCT', 'DET', 'PROPN', 'PROPN', 'ADP', 'NUM', 'PUNCT', 'CCONJ', 'VERB', 'ADP', 'ADP', 'NOUN', 'DET', 'ADJ', 'ADJ']
['VERB', 'PRON', 'AUX', 'NOUN', 'PUNCT', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADJ', 'ADV', 'ADP', 'DET', 'NOUN', 'NOUN', 'ADP', 'DET', 'NOUN', 'CCONJ', 'ADP', 'DET', 'ADJ', 'PROPN', 'ADP', 'DET', 'PROPN', 'ADP', 'DET']
['VERB', 'NOUN', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'DET', 'NOUN', 'ADP', 'DET', 'PROPN', 'ADP', 'DET']
['VERB', 'NUM', 'PROPN', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'PROPN', 'ADP', 'ADP', 'DET', 'PROPN', 'ADP', 'PROPN', 'PROPN', 'X', 'ADP', 'PUNCT', 'PUNCT']
['VERB', 'CCONJ', 'VERB', 'NOUN', 'PRON', 'VERB', 'PUNCT', 'NOUN', 'PUNCT', 'DET', 'PUNCT', 'CCONJ', 'ADV', 'NUM', 'DET', 'NUM', 'ADP']
['VERB', 'PROPN', 'NOU

1356it [00:01, 1498.61it/s]

['VERB', 'VERB', 'VERB', 'PROPN', 'PUNCT', 'VERB', 'PUNCT', 'PUNCT', 'CCONJ', 'NOUN', 'VERB', 'ADP', 'DET', 'PROPN', 'CCONJ', 'NOUN', 'AUX', 'NOUN', 'ADP', 'ADP', 'NUM', 'PUNCT', 'ADP', 'NOUN', 'ADP', 'ADJ']
['VERB', 'PROPN', 'VERB', 'AUX', 'PRON', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'NOUN', 'DET', 'NOUN', 'ADP', 'ADJ', 'ADP', 'DET', 'NOUN', 'ADP', 'ADP']
['VERB', 'NOUN', 'AUX', 'VERB', 'PUNCT', 'DET', 'NOUN', 'ADP', 'NOUN', 'ADP', 'ADP', 'DET', 'PROPN', 'ADP']
['VERB', 'NUM', 'NOUN', 'PROPN', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN', 'NOUN', 'PROPN', 'ADP', 'PROPN', 'PROPN', 'PROPN', 'PROPN', 'CCONJ', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN']
['NOUN', 'NOUN', 'AUX', 'DET', 'NOUN', 'VERB', 'PROPN', 'PROPN', 'ADP', 'NOUN', 'CCONJ', 'NOUN', 'ADP', 'DET', 'NUM', 'PUNCT', 'DET', 'NOUN', 'PUNCT', 'ADP', 'DET']
['ADJ', 'NOUN', 'AUX', 'ADV', 'VERB', 'VERB', 'PUNCT', 'DET', 'NOUN', 'PUNCT', 'NOUN', 'CCONJ', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADP', 'NOUN

1698it [00:01, 1606.54it/s]

['VERB', 'ADJ', 'NOUN', 'ADJ', 'PUNCT', 'ADP', 'PUNCT', 'DET', 'VERB', 'AUX', 'ADV', 'X', 'ADP']
['NOUN', 'NOUN', 'NOUN', 'AUX', 'DET', 'ADJ', 'VERB', 'PUNCT', 'ADP', 'ADJ', 'PUNCT', 'DET', 'PROPN', 'VERB', 'ADP', 'NOUN', 'ADP', 'PUNCT', 'ADV', 'NOUN', 'PUNCT', 'NOUN', 'ADP', 'DET', 'PROPN', 'NOUN', 'ADP', 'DET', 'NOUN', 'NOUN', 'ADP', 'PUNCT', 'PROPN', 'CCONJ', 'DET', 'PROPN', 'CCONJ', 'ADP', 'DET', 'ADJ', 'ADP', 'PUNCT', 'PROPN']
['VERB', 'ADJ', 'NOUN', 'VERB', 'PUNCT', 'ADV', 'PUNCT', 'DET', 'PROPN', 'VERB', 'DET', 'PROPN', 'CCONJ', 'NOUN', 'NOUN', 'PROPN', 'DET', 'ADP', 'DET', 'NUM', 'ADP', 'DET', 'ADP']
['VERB', 'NOUN', 'AUX', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'NUM', 'PUNCT', 'NUM', 'CCONJ', 'VERB', 'ADV', 'ADP', 'NOUN', 'ADP', 'DET', 'NOUN', 'NOUN', 'ADP', 'ADP', 'NOUN', 'ADP']
['VERB', 'NOUN', 'NOUN', 'PUNCT', 'NUM', 'NOUN', 'CCONJ', 'AUX', 'NOUN', 'ADP', 'ADP', 'DET', 'ADJ', 'PROPN', 'ADP']
['VERB', 'SYM', 'AUX', 'NOUN', 'VERB', 'PUNCT', 'DET', 'NUM', 'NOUN', 'ADP', 'DET', 'ADJ',

2053it [00:01, 1693.07it/s]

['VERB', 'NOUN', 'PRON', 'NOUN', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'ADP', 'ADP', 'DET', 'VERB', 'ADP', 'NOUN', 'ADP', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'DET', 'ADP', 'DET', 'VERB', 'PUNCT', 'NOUN', 'ADJ', 'DET', 'SCONJ', 'NOUN', 'AUX', 'ADV', 'DET']
['VERB', 'NOUN', 'PRON', 'X', 'VERB', 'PUNCT', 'DET', 'ADP', 'DET', 'NUM', 'PUNCT', 'CCONJ', 'SYM', 'NUM', 'SYM', 'NOUN', 'ADV', 'ADP', 'ADJ', 'ADJ', 'ADP']
['VERB', 'PRON', 'AUX', 'NOUN', 'NOUN', 'PUNCT', 'VERB', 'ADP', 'DET', 'VERB', 'ADP', 'DET', 'PROPN', 'NUM', 'SCONJ', 'PUNCT', 'PRON', 'NOUN', 'NOUN', 'VERB', 'ADP', 'ADP', 'ADP', 'DET', 'NUM', 'NOUN', 'PRON', 'ADP', 'NOUN', 'VERB', 'CCONJ', 'PROPN', 'SCONJ', 'PRON', 'AUX', 'NOUN', 'ADP', 'ADP', 'DET', 'VERB', 'NOUN', 'ADP', 'DET']
['VERB', 'PRON', 'NOUN', 'NOUN', 'CCONJ', 'PUNCT', 'ADP', 'PUNCT', 'DET', 'NOUN', 'DET', 'ADJ', 'PROPN', 'ADP', 'DET', 'VERB', 'ADP', 'PROPN', 'PROPN', 'DET', 'ADP', 'DET', 'PUNCT', 'PROPN', 'PUNCT', 'VERB', 'CCONJ', 'ADP', 'PROPN', 'PROPN', 'ADP', 'PUNCT', 

2406it [00:01, 1606.50it/s]

['VERB', 'PRON', 'NOUN', 'PUNCT', 'ADP', 'DET', 'ADJ', 'ADJ', 'NOUN', 'PRON', 'NOUN', 'ADP', 'DET', 'ADP', 'VERB', 'ADP', 'DET', 'VERB', 'SCONJ', 'NOUN', 'PUNCT', 'ADV', 'NOUN', 'ADP', 'DET']
['PROPN', 'PROPN', 'NOUN', 'PUNCT', 'PUNCT', 'DET', 'ADJ', 'VERB', 'PRON', 'PRON', 'NOUN', 'PUNCT', 'ADV', 'PUNCT', 'ADP', 'PROPN', 'ADP', 'ADP', 'PROPN', 'VERB', 'PUNCT', 'PRON', 'AUX', 'VERB', 'ADP', 'NOUN', 'ADP', 'DET', 'X', 'PROPN', 'PROPN']
['ADJ', 'NOUN', 'VERB', 'NOUN', 'PUNCT', 'DET', 'PROPN', 'PRON', 'ADP', 'DET', 'ADP']
['VERB', 'NOUN', 'PROPN', 'ADV', 'AUX', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'ADJ', 'VERB', 'PUNCT', 'ADV', 'DET', 'ADJ', 'PUNCT', 'X', 'SCONJ', 'VERB', 'VERB', 'SCONJ', 'X', 'ADP', 'X', 'CCONJ', 'PRON', 'PRON', 'ADP', 'DET', 'VERB', 'SCONJ']
['VERB', 'PROPN', 'VERB', 'PUNCT', 'SCONJ', 'NOUN', 'NOUN', 'VERB', 'DET', 'ADP', 'DET', 'PUNCT', 'ADJ', 'PUNCT', 'NOUN', 'PUNCT', 'CCONJ', 'SCONJ', 'ADV', 'PRON', 'NOUN', 'ADJ', 'ADP', 'DET', 'ADJ', 'ADP', 'DET', 'PUNCT', 'ADJ', 'NOUN',

2730it [00:01, 1505.41it/s]

['VERB', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NUM', 'PUNCT', 'NUM', 'VERB', 'ADP', 'PROPN', 'ADP', 'PROPN']
['VERB', 'NOUN', 'AUX', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'ADP', 'DET', 'ADP', 'NOUN', 'ADP', 'DET', 'ADJ', 'ADP', 'DET']
['VERB', 'CCONJ', 'ADV', 'PRON', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'DET', 'CCONJ', 'NOUN', 'NOUN', 'PROPN', 'PRON', 'ADP', 'DET', 'PROPN', 'NOUN', 'DET', 'CCONJ', 'PROPN', 'PROPN', 'ADP', 'PROPN', 'PUNCT', 'ADP', 'DET', 'PROPN', 'PUNCT', 'SCONJ', 'ADP', 'PROPN', 'PROPN', 'DET', 'ADP', 'CCONJ']
['VERB', 'PROPN', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'PUNCT', 'DET', 'ADJ', 'ADJ', 'VERB', 'DET', 'NOUN', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'NOUN', 'ADP', 'DET', 'NOUN', 'NUM', 'CCONJ', 'ADV', 'ADP', 'DET', 'ADJ', 'PUNCT', 'PUNCT', 'ADV']
['NOUN', 'PROPN', 'AUX', 'DET', 'ADJ', 'VERB', 'PUNCT', 'PROPN', 'NOUN', 'ADP', 'DET', 'PROPN', 'ADP']
['VERB', 'PROPN', 'VERB', 'PUNCT', 'DET', 'PROPN', 'PROPN', 'PROPN', 'VERB', 'NOUN', 'ADP', 'PROPN', 'CCONJ', 'DET', 'ADP', 'D

3063it [00:02, 1586.15it/s]

['VERB', 'VERB', 'PUNCT', 'PROPN', 'VERB', 'PUNCT', 'VERB', 'PUNCT', 'NOUN', 'VERB', 'NOUN', 'NOUN', 'ADP', 'DET', 'CCONJ', 'NOUN', 'NUM', 'ADP', 'PRON', 'NOUN', 'DET', 'ADP', 'NUM']
['NOUN', 'PRON', 'PRON', 'AUX', 'DET', 'NOUN', 'PUNCT', 'ADP', 'DET', 'VERB', 'PUNCT', 'CCONJ', 'ADP', 'ADJ', 'PRON', 'AUX', 'VERB', 'PROPN', 'CCONJ', 'ADP']
['VERB', 'NOUN', 'VERB', 'PUNCT', 'VERB', 'PUNCT', 'DET', 'NOUN', 'AUX', 'ADV', 'NOUN', 'SCONJ', 'NOUN', 'ADV', 'NOUN', 'PRON', 'ADP', 'NOUN', 'ADP', 'DET', 'ADJ', 'ADV', 'DET', 'VERB', 'ADP', 'DET', 'ADP', 'CCONJ']
['VERB', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'ADP', 'DET', 'NUM']
['VERB', 'NOUN', 'NOUN', 'VERB', 'PUNCT', 'DET', 'ADP', 'DET', 'ADJ', 'PROPN', 'CCONJ', 'NOUN', 'ADP', 'DET', 'ADV', 'PROPN', 'PROPN', 'ADP', 'NOUN', 'ADP', 'CCONJ', 'PROPN', 'PROPN', 'PUNCT', 'PROPN', 'ADP', 'DET', 'NOUN', 'NOUN', 'PROPN', 'PUNCT', 'DET', 'PUNCT', 'DET', 'NOUN', 'NOUN', 'PUNCT', 'CCONJ', 'DET', 'PROPN', 'PROPN', 'ADP', 'DET', 'ADP', 'DET', 'PROPN', 'ADP', 'PROP

3404it [00:02, 1642.00it/s]

['VERB', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'ADJ', 'ADP', 'SCONJ', 'AUX']
['VERB', 'NOUN', 'PRON', 'PRON', 'ADV', 'PUNCT', 'ADP', 'DET', 'NOUN', 'ADP', 'DET']
['PRON', 'NOUN', 'AUX', 'VERB', 'PUNCT', 'DET', 'ADJ', 'PRON', 'PROPN']
['VERB', 'PROPN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NOUN', 'ADP', 'DET', 'ADJ']
['VERB', 'PROPN', 'PRON', 'VERB', 'VERB', 'PUNCT', 'SCONJ', 'PRON', 'NOUN', 'NOUN', 'CCONJ', 'NOUN', 'PRON', 'VERB', 'ADP', 'DET', 'ADP', 'DET', 'PROPN', 'NOUN', 'ADP', 'ADP', 'ADP', 'ADP', 'DET', 'NOUN']
['VERB', 'ADV', 'ADV', 'AUX', 'ADV', 'PUNCT', 'PRON', 'PUNCT', 'PUNCT', 'VERB', 'AUX', 'SCONJ', 'NOUN', 'PUNCT', 'ADV', 'DET', 'ADJ', 'NOUN', 'CCONJ', 'DET', 'ADJ']
['VERB', 'PROPN', 'NOUN', 'VERB', 'PUNCT', 'ADJ', 'PUNCT', 'ADP', 'DET', 'PROPN', 'ADP', 'PROPN', 'ADP', 'ADP', 'VERB', 'PUNCT', 'PRON', 'PRON', 'AUX', 'NOUN', 'ADP', 'DET']
['NOUN', 'DET', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'NOUN', 'ADP', 'DET', 'ADP', 'ADJ']
['NOUN', 'PROPN', 'AUX', 'DET', 'VERB', 'VERB', 'PUNCT', 'NOUN', '

3739it [00:02, 1632.54it/s]

['VERB', 'ADP', 'NUM', 'AUX', 'NOUN', 'PUNCT', 'NOUN', 'PUNCT', 'DET', 'PROPN', 'PUNCT', 'ADP', 'ADJ', 'ADJ', 'NOUN', 'ADP', 'NUM', 'ADP', 'DET', 'PROPN', 'ADP', 'PROPN']
['VERB', 'NOUN', 'PRON', 'NOUN', 'VERB', 'VERB', 'PUNCT', 'ADP', 'DET', 'ADJ', 'ADJ', 'NOUN', 'PUNCT', 'VERB', 'PUNCT', 'NOUN', 'NOUN', 'VERB', 'PUNCT', 'ADV', 'VERB', 'DET', 'NOUN', 'NOUN', 'ADP', 'DET', 'PUNCT', 'SCONJ', 'NOUN', 'NOUN', 'PUNCT', 'CCONJ', 'PUNCT', 'PRON', 'VERB', 'PUNCT', 'CCONJ', 'ADP', 'DET', 'ADP', 'PUNCT', 'DET', 'NOUN', 'NOUN', 'ADV', 'NOUN', 'NOUN', 'ADV', 'NOUN', 'ADP', 'DET', 'NOUN', 'DET', 'DET', 'NOUN', 'ADP', 'DET', 'PRON', 'ADP', 'NUM', 'CCONJ', 'DET', 'ADJ', 'ADP']
['NOUN', 'NOUN', 'AUX', 'DET', 'VERB', 'PROPN', 'PUNCT', 'ADP', 'DET', 'NOUN', 'PUNCT', 'PROPN', 'ADP', 'ADJ']
['VERB', 'PRON', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN', 'ADP', 'PUNCT', 'PROPN', 'PROPN', 'PROPN']
['VERB', 'VERB', 'NOUN', 'NOUN', 'PUNCT', 'ADV', 'PROPN', 'NOUN

3903it [00:02, 1469.94it/s]

['PRON', 'PROPN', 'AUX', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'DET', 'ADV', 'CCONJ', 'PROPN', 'VERB', 'ADJ', 'DET', 'PRON', 'ADV', 'NOUN', 'ADP', 'ADP', 'DET', 'ADJ', 'ADJ']
['ADP', 'NOUN', 'PUNCT', 'VERB', 'PUNCT', 'NOUN', 'PRON', 'VERB', 'DET', 'PRON', 'NOUN', 'PUNCT', 'ADP', 'PRON', 'NOUN', 'PUNCT', 'VERB', 'ADP', 'ADP', 'ADJ', 'ADP', 'ADJ', 'NOUN', 'DET']
['VERB', 'VERB', 'PRON', 'NOUN', 'ADJ', 'PUNCT', 'SCONJ', 'NOUN', 'PUNCT', 'DET', 'CCONJ', 'VERB', 'VERB', 'DET', 'NOUN', 'NOUN', 'ADP', 'ADP', 'DET', 'ADJ']
['VERB', 'NUM', 'NOUN', 'PROPN', 'NOUN', 'NOUN', 'PUNCT', 'VERB', 'PUNCT', 'DET', 'PROPN', 'PUNCT', 'ADP', 'DET', 'NOUN', 'PUNCT', 'ADP', 'DET', 'DET', 'PROPN', 'SCONJ', 'NOUN', 'NOUN', 'ADP', 'NUM', 'ADP', 'ADP', 'PROPN', 'PROPN', 'ADP', 'DET', 'ADJ', 'DET', 'NOUN', 'ADP', 'ADP', 'DET', 'ADP', 'DET', 'ADJ']
['VERB', 'NOUN', 'PROPN', 'NUM', 'PUNCT', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PROPN', 'NUM', 'PUNCT', 'ADP', 'DET', 'VERB', 'ADP', 'DET', 'PROPN', 'DET', 'PROPN', 'ADP', 'PROPN', 

4403it [00:02, 1587.45it/s]

['VERB', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'ADP', 'DET', 'NOUN', 'VERB', 'ADP', 'DET', 'PUNCT', 'ADV', 'PRON', 'NOUN', 'DET', 'VERB', 'PRON', 'PRON', 'PROPN', 'NOUN', 'ADP', 'DET', 'DET', 'PROPN', 'NOUN', 'ADP', 'DET', 'ADP', 'DET', 'CCONJ', 'DET', 'DET', 'NOUN', 'ADP', 'DET', 'PROPN']
['VERB', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'VERB', 'DET', 'NOUN', 'PRON', 'NOUN', 'ADP', 'VERB', 'DET', 'PROPN', 'ADP', 'NOUN', 'VERB', 'ADP', 'DET', 'ADJ', 'PUNCT', 'NOUN', 'NOUN', 'NOUN', 'ADP', 'ADP', 'DET', 'PROPN', 'ADP', 'PROPN', 'CCONJ']
['VERB', 'NOUN', 'PROPN', 'NOUN', 'PUNCT', 'DET', 'ADJ', 'DET', 'DET', 'ADJ', 'PROPN', 'NOUN', 'ADP', 'DET', 'ADP', 'DET', 'PROPN']
['VERB', 'PROPN', 'NOUN', 'PROPN', 'NUM', 'PUNCT', 'ADP', 'DET', 'PROPN', 'PUNCT', 'DET', 'NUM', 'ADJ', 'ADJ', 'PROPN', 'DET', 'PUNCT', 'PROPN', 'PUNCT', 'DET', 'PROPN', 'PUNCT', 'PROPN', 'PROPN', 'PUNCT', 'ADP', 'ADP', 'PUNCT', 'CCONJ']
['VERB', 'PROPN', 'VERB', 'PUNCT', 'ADP', 'DET', 'PROPN', 'CCONJ', 'NOUN', 'PROPN', 'ADP', 'DET', 'PRO

4572it [00:03, 1616.42it/s]

['VERB', 'ADJ', 'VERB', 'PUNCT', 'DET', 'NUM', 'VERB', 'ADP', 'NOUN', 'VERB', 'ADP', 'NOUN', 'ADJ', 'NOUN', 'ADP', 'DET', 'ADP', 'DET', 'DET', 'NOUN', 'ADP', 'DET']
['NOUN', 'AUX', 'DET', 'ADJ', 'VERB', 'PUNCT', 'ADJ', 'SCONJ', 'PRON', 'VERB', 'CCONJ', 'ADP', 'NOUN', 'NOUN', 'CCONJ', 'ADV', 'NOUN', 'NOUN', 'NOUN', 'PUNCT', 'PUNCT', 'CCONJ', 'ADV', 'ADJ']
['NOUN', 'NOUN', 'AUX', 'DET', 'NOUN', 'VERB', 'PUNCT', 'DET', 'ADJ', 'ADP', 'DET', 'ADJ', 'NOUN', 'PRON', 'PROPN', 'PRON', 'NOUN', 'PROPN', 'ADP', 'DET', 'NUM', 'ADP', 'DET', 'DET', 'PROPN', 'DET', 'ADP', 'DET', 'PROPN', 'PROPN', 'ADP']
['VERB', 'NOUN', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'ADP', 'ADJ', 'PUNCT', 'ADP', 'DET', 'ADJ', 'ADP', 'ADJ', 'NOUN', 'ADP']
['VERB', 'PRON', 'VERB', 'PUNCT', 'SCONJ', 'NOUN', 'ADV', 'NOUN', 'DET', 'ADJ', 'PROPN', 'ADP', 'DET', 'NUM', 'ADP']
['ADJ', 'NOUN', 'AUX', 'ADV', 'PUNCT', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'ADJ', 'DET', 'ADJ', 'NOUN', 'NOUN', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADV', 'ADP', 'ADJ',

4889it [00:03, 1452.16it/s]

['VERB', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'DET', 'NOUN', 'ADP', 'NOUN', 'PROPN', 'ADP', 'DET', 'ADJ', 'DET', 'NOUN', 'ADV', 'ADP', 'ADJ', 'ADV', 'ADP', 'DET', 'CCONJ']
['VERB', 'NOUN', 'PRON', 'NOUN', 'PUNCT', 'VERB', 'PUNCT', 'ADP', 'NOUN', 'PUNCT', 'DET', 'PROPN', 'NOUN', 'NOUN', 'NUM', 'PRON', 'NOUN', 'VERB', 'ADP', 'DET', 'ADP', 'DET', 'PROPN', 'PROPN', 'PUNCT', 'ADP', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PROPN', 'PROPN', 'VERB', 'PUNCT', 'DET', 'PROPN', 'DET', 'VERB', 'CCONJ', 'PRON', 'VERB', 'ADP', 'PROPN', 'CCONJ', 'ADP', 'DET', 'NOUN', 'ADP', 'DET', 'PROPN', 'PUNCT', 'PRON', 'PRON', 'NOUN', 'NOUN', 'ADP', 'NUM', 'ADP', 'NOUN', 'ADP', 'NUM', 'ADP', 'ADP', 'DET', 'DET', 'ADJ', 'PROPN', 'ADP', 'DET', 'ADP', 'DET', 'ADJ', 'ADP', 'PROPN', 'CCONJ']
['VERB', 'AUX', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NOUN', 'PUNCT', 'NOUN', 'ADP', 'NUM', 'DET', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADJ', 'NOUN', 'CCONJ', 'DET', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'ADJ', 'PROPN', 'ADP', '

5241it [00:03, 1596.66it/s]

['VERB', 'NOUN', 'PRON', 'NOUN', 'PUNCT', 'ADP', 'ADJ', 'PUNCT', 'DET', 'PUNCT', 'NOUN', 'DET', 'ADJ', 'VERB', 'SCONJ', 'NOUN', 'NOUN', 'DET', 'ADP', 'DET', 'NOUN', 'ADP', 'DET']
['VERB', 'NOUN', 'ADJ', 'DET', 'NOUN', 'AUX', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT', 'ADP', 'VERB', 'NOUN', 'X', 'ADP', 'NOUN', 'PUNCT', 'ADJ', 'PUNCT', 'ADP']
['VERB', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'ADP', 'NUM', 'VERB', 'NOUN', 'ADP', 'DET', 'ADV', 'SCONJ', 'AUX', 'AUX', 'NOUN', 'CCONJ', 'NUM', 'VERB', 'ADP', 'DET', 'ADJ', 'ADV', 'SCONJ', 'PRON', 'NOUN', 'ADP', 'DET', 'ADJ']
['VERB', 'NOUN', 'NOUN', 'NOUN', 'PROPN', 'PUNCT', 'DET', 'PROPN', 'PUNCT', 'ADP', 'PUNCT', 'ADP', 'ADJ', 'ADP', 'PROPN', 'NOUN', 'ADP', 'PUNCT', 'DET', 'ADJ', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'DET']
['VERB', 'PROPN', 'NOUN', 'NOUN', 'VERB', 'VERB', 'PUNCT', 'VERB', 'DET', 'ADP', 'DET', 'ADP', 'NOUN', 'PUNCT', 'CCONJ', 'NOUN', 'AUX', 'PUNCT', 'ADV', 'NOUN', 'PUNCT', 'SCONJ', 'DET', 'DET', 'ADP', 'ADJ']
['VERB', 'PROPN', 'PRO

5580it [00:03, 1646.34it/s]

['VERB', 'PROPN', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'VERB', 'DET', 'ADP', 'PROPN', 'VERB', 'ADP', 'CCONJ', 'ADP', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADJ', 'ADP', 'DET', 'PROPN', 'ADP', 'PROPN']
['VERB', 'NOUN', 'ADV', 'PRON', 'VERB', 'PUNCT', 'DET', 'ADJ', 'PUNCT', 'CCONJ', 'ADV', 'PRON', 'NOUN', 'ADV', 'ADP', 'DET', 'NOUN', 'ADP', 'DET']
['VERB', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'DET', 'NOUN', 'ADP', 'DET', 'PROPN', 'VERB', 'PROPN', 'PRON', 'NOUN', 'NOUN', 'DET', 'ADJ', 'ADP', 'DET', 'VERB', 'NOUN', 'ADP', 'ADJ']
['VERB', 'PRON', 'NOUN', 'VERB', 'VERB', 'PUNCT', 'NOUN', 'DET', 'ADJ', 'NOUN', 'NOUN', 'CCONJ', 'VERB', 'SCONJ', 'AUX', 'AUX', 'DET', 'PROPN', 'ADP', 'DET', 'NOUN', 'NOUN', 'ADP', 'DET', 'NUM', 'ADP', 'DET', 'VERB', 'SCONJ', 'AUX', 'ADV']
['VERB', 'PROPN', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PROPN', 'DET', 'NOUN', 'ADP', 'NUM']
['VERB', 'PUNCT', 'AUX', 'PROPN', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'ADP', 'PROPN', 'PROPN', 'PUNCT', 'NOUN', 'CCONJ', 'NOUN

5913it [00:03, 1553.56it/s]

['VERB', 'PRON', 'NOUN', 'NUM', 'PUNCT', 'NUM', 'NOUN', 'ADP', 'NUM', 'ADP', 'DET', 'PROPN', 'CCONJ']
['VERB', 'NOUN', 'AUX', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'PROPN', 'ADP', 'DET', 'DET', 'ADP', 'DET', 'ADJ', 'NOUN', 'NOUN', 'ADP', 'ADP', 'DET', 'ADJ', 'ADP', 'DET', 'NUM']
['PRON', 'PROPN', 'AUX', 'NOUN', 'PUNCT', 'PUNCT', 'PUNCT', 'ADP', 'DET', 'ADJ', 'PROPN', 'ADV', 'ADP']
['VERB', 'ADP', 'VERB', 'NOUN', 'PRON', 'PROPN', 'PROPN', 'PUNCT', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NOUN', 'DET', 'ADP', 'NUM', 'ADP', 'PROPN', 'DET', 'ADP', 'PUNCT', 'PROPN']
['VERB', 'NOUN', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'DET', 'ADJ', 'ADJ', 'CCONJ', 'NOUN', 'AUX', 'DET', 'PROPN', 'DET', 'ADJ', 'ADJ', 'PROPN']
['VERB', 'NOUN', 'PRON', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'NOUN', 'DET', 'NOUN', 'NOUN', 'ADP', 'DET', 'DET', 'VERB', 'ADP', 'DET', 'NOUN', 'PRON', 'PRON', 'NOUN', 'VERB', 'ADP', 'DET', 'ADP', 'PUNCT', 'SCONJ', 'PRON', 'AUX', 'PRON', 'NOUN', 'ADP', 'DET', 'ADJ']
['VERB', 'NOUN', 'NOUN', 'NOUN', 'PUNCT', 'DE

6279it [00:04, 1682.94it/s]

['VERB', 'NOUN', 'PRON', 'NOUN', 'PUNCT', 'DET', 'ADP', 'DET', 'ADJ', 'NOUN', 'NOUN', 'PUNCT', 'ADJ', 'PUNCT', 'NOUN', 'ADP', 'NOUN', 'NOUN', 'ADP', 'DET', 'NOUN', 'NOUN', 'NOUN', 'NOUN', 'PUNCT', 'ADV', 'NOUN', 'ADP', 'PUNCT', 'ADP', 'DET', 'ADJ', 'PUNCT', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'ADJ', 'NOUN', 'CCONJ', 'ADP', 'DET', 'CCONJ', 'ADP', 'ADP', 'DET']
['VERB', 'PROPN', 'ADV', 'NOUN', 'PUNCT', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NOUN', 'AUX', 'PROPN', 'VERB', 'ADP', 'DET', 'ADP', 'DET', 'ADJ', 'PRON', 'VERB', 'PROPN', 'ADP', 'ADP', 'DET', 'DET']
['VERB', 'NOUN', 'ADV', 'NOUN', 'PUNCT', 'DET', 'ADP', 'ADJ', 'NOUN', 'ADP', 'NOUN', 'CCONJ', 'ADJ']
['VERB', 'NOUN', 'NOUN', 'NOUN', 'VERB', 'PUNCT', 'DET', 'NOUN', 'ADP', 'DET', 'NOUN', 'SCONJ', 'ADV', 'NOUN', 'ADP', 'ADP', 'ADJ', 'NOUN', 'VERB', 'ADP', 'DET', 'NOUN', 'ADP', 'DET']
['VERB', 'NOUN', 'VERB', 'PUNCT', 'DET', 'SCONJ', 'NOUN', 'NOUN', 'PROPN', 'VERB', 'ADP', 'NOUN', 'ADP', 'DET', 'PRON', 'VERB', 'ADP', 'NOUN', 'NOUN', 'ADP',

6633it [00:04, 1721.43it/s]

['VERB', 'NOUN', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'ADP', 'DET', 'NUM', 'ADP', 'DET', 'NOUN', 'ADP', 'ADP', 'PROPN', 'ADP', 'PROPN', 'NOUN', 'PUNCT', 'X', 'NOUN', 'NOUN', 'ADJ', 'PUNCT', 'ADP', 'PUNCT', 'ADJ', 'NOUN', 'CCONJ', 'NOUN', 'ADP', 'ADJ']
['VERB', 'NOUN', 'ADV', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'ADP', 'DET', 'NOUN', 'PROPN', 'CCONJ', 'NUM', 'ADJ', 'PROPN', 'ADP', 'NOUN', 'PUNCT', 'DET', 'PUNCT', 'NOUN', 'PUNCT', 'PUNCT', 'NOUN', 'PROPN', 'PROPN', 'PUNCT', 'ADP', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN', 'PUNCT', 'PROPN', 'PROPN', 'NOUN', 'PUNCT', 'CCONJ', 'NOUN', 'ADP', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN']
['VERB', 'NOUN', 'PRON', 'AUX', 'DET', 'NUM', 'SCONJ', 'NOUN', 'X', 'DET', 'VERB', 'ADP', 'DET', 'NUM', 'ADP']
['ADJ', 'AUX', 'VERB', 'PUNCT', 'VERB', 'VERB', 'SCONJ', 'NOUN', 'AUX', 'ADV', 'PUNCT', 'ADV', 'VERB', 'PROPN', 'ADV', 'NOUN', 'PROPN', 'DET', 'ADV', 'SCONJ', 'CCONJ', 'NOUN', 'PUNCT', 'ADP', 'DET', 'AUX', 'PUNCT', 'NUM', 'DET', 'PROPN', 'NOUN', '

6981it [00:04, 1627.41it/s]

['VERB', 'NOUN', 'ADV', 'NOUN', 'NOUN', 'PUNCT', 'NOUN', 'PUNCT', 'DET', 'DET', 'ADP', 'NOUN', 'VERB', 'AUX', 'DET', 'NOUN', 'PUNCT', 'VERB', 'ADP', 'SCONJ', 'PRON', 'PRON', 'PUNCT', 'ADP', 'ADV', 'AUX', 'NOUN', 'NOUN', 'DET', 'ADJ', 'ADP', 'DET']
['VERB', 'NUM', 'PRON', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'ADP', 'DET', 'ADJ', 'PROPN', 'PROPN', 'PUNCT', 'SCONJ', 'ADV', 'NUM', 'NOUN', 'PUNCT', 'VERB', 'ADP', 'PUNCT', 'PUNCT', 'ADP', 'ADP', 'DET', 'ADJ', 'AUX', 'NOUN', 'PROPN', 'ADP']
['NOUN', 'ADJ', 'NOUN', 'NOUN', 'PUNCT', 'ADV', 'ADJ', 'ADJ', 'PUNCT', 'ADJ', 'PUNCT', 'PUNCT', 'ADP', 'ADJ', 'PUNCT', 'ADV', 'ADV', 'CCONJ', 'ADJ']
['NOUN', 'NOUN', 'AUX', 'AUX', 'DET', 'PROPN', 'PUNCT', 'PROPN', 'PUNCT', 'DET', 'NOUN', 'ADJ', 'ADJ', 'DET', 'PROPN', 'NUM', 'ADP', 'PROPN', 'PROPN', 'PUNCT', 'ADP', 'DET', 'PUNCT', 'PUNCT', 'PUNCT', 'CCONJ', 'PROPN']
['VERB', 'NOUN', 'PRON', 'ADJ', 'VERB', 'PUNCT', 'DET', 'VERB', 'CCONJ', 'ADP', 'VERB', 'NOUN', 'NOUN', 'PRON', 'NOUN', 'ADP', 'ADJ', 'ADP', 'DET', 

7146it [00:04, 1627.92it/s]

['VERB', 'NOUN', 'PRON', 'VERB', 'PUNCT', 'DET', 'ADJ', 'PROPN', 'NOUN', 'NOUN', 'VERB', 'ADP', 'ADP', 'DET', 'NOUN', 'ADJ', 'ADP', 'NOUN', 'ADP', 'DET', 'PROPN', 'DET', 'ADJ', 'NOUN', 'ADJ', 'VERB', 'ADP', 'DET', 'ADP', 'ADV', 'ADJ', 'PUNCT', 'SCONJ', 'NOUN', 'VERB', 'NUM', 'NOUN', 'CCONJ', 'ADP', 'NOUN', 'DET', 'PROPN', 'PUNCT', 'ADP', 'NUM', 'ADP', 'DET', 'ADJ', 'ADJ', 'ADP', 'NUM', 'ADV', 'NOUN', 'ADP', 'ADP', 'DET', 'NOUN', 'ADP', 'DET']
['VERB', 'NOUN', 'VERB', 'PUNCT', 'DET', 'NOUN', 'PROPN', 'SCONJ', 'VERB', 'PROPN', 'VERB', 'ADP', 'DET', 'PUNCT', 'PROPN', 'PROPN', 'PUNCT', 'ADV', 'NOUN', 'NOUN', 'ADP', 'PROPN', 'PUNCT', 'SCONJ', 'NOUN', 'VERB', 'ADP', 'DET', 'ADP', 'ADJ', 'DET', 'CCONJ', 'VERB', 'SCONJ', 'AUX', 'NOUN', 'DET']
['NOUN', 'NOUN', 'AUX', 'DET', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'ADJ', 'PROPN', 'ADP', 'ADP', 'DET', 'PROPN', 'PUNCT', 'CCONJ', 'NOUN', 'PROPN', 'ADP', 'ADJ', 'PUNCT', 'PROPN', 'PUNCT']
['VERB', 'PROPN', 'PRON', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PROP

7488it [00:04, 1581.11it/s]

['VERB', 'NOUN', 'NOUN', 'ADV', 'ADV', 'NOUN', 'PUNCT', 'VERB', 'PUNCT', 'ADP', 'DET', 'PUNCT', 'DET', 'DET', 'NOUN', 'NOUN', 'NOUN', 'ADV', 'ADV', 'NOUN', 'VERB', 'ADP', 'ADJ', 'ADJ', 'ADP', 'PROPN', 'PUNCT', 'DET', 'ADJ', 'ADP', 'ADJ', 'CCONJ', 'NOUN', 'ADV', 'ADP', 'DET', 'PROPN', 'DET', 'ADJ', 'NOUN', 'ADP', 'DET', 'ADJ', 'ADJ']
['VERB', 'PROPN', 'VERB', 'NOUN', 'PUNCT', 'ADJ', 'ADP', 'DET', 'ADJ', 'PUNCT', 'PRON', 'AUX', 'ADV', 'VERB', 'ADP', 'PRON', 'ADV', 'SCONJ', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADP', 'DET']
['VERB', 'PRON', 'PROPN', 'NOUN', 'PUNCT', 'DET', 'PUNCT', 'ADP', 'DET', 'PROPN', 'NOUN', 'ADP', 'CCONJ', 'ADP', 'NOUN', 'ADP']
['VERB', 'NOUN', 'NUM', 'PROPN', 'NOUN', 'VERB', 'PUNCT', 'DET', 'NOUN', 'DET', 'NUM', 'ADP', 'NOUN', 'ADJ', 'NUM', 'PUNCT', 'ADV', 'NOUN', 'NUM', 'ADP', 'ADJ', 'PROPN', 'ADP', 'ADP', 'DET', 'ADP', 'CCONJ', 'DET', 'ADJ', 'NOUN', 'ADP', 'DET', 'NUM', 'ADP', 'ADP', 'DET', 'ADP']
['VERB', 'PRON', 'AUX', 'CCONJ', 'PRON', 'ADV', 'NOUN', 'PUNCT', 'ADP', 'N

7789it [00:05, 1292.66it/s]

['VERB', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'PRON', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'DET', 'ADP', 'ADJ', 'PUNCT', 'CCONJ', 'ADV', 'PRON', 'VERB', 'ADV', 'NOUN', 'CCONJ', 'ADJ', 'NOUN', 'ADP', 'NOUN', 'CCONJ']
['VERB', 'PROPN', 'VERB', 'VERB', 'PUNCT', 'PRON', 'NOUN', 'PUNCT', 'CCONJ', 'NOUN', 'PRON', 'VERB', 'ADP', 'DET', 'DET', 'ADJ', 'ADJ', 'NOUN', 'PUNCT', 'ADP', 'NOUN', 'NOUN', 'DET', 'ADJ', 'ADP', 'DET', 'NOUN', 'ADP', 'DET', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'CCONJ', 'DET']
['VERB', 'NUM', 'PRON', 'NOUN', 'VERB', 'PUNCT', 'DET', 'PROPN', 'ADP', 'DET', 'CCONJ', 'NUM', 'PRON', 'PROPN', 'ADP', 'NUM', 'DET', 'PROPN', 'DET', 'ADJ', 'PROPN', 'PROPN', 'ADP', 'ADP', 'NUM', 'ADP', 'PROPN', 'ADP', 'ADP', 'DET']
['VERB', 'NOUN', 'PUNCT', 'ADP', 'ADJ', 'NOUN', 'CCONJ', 'ADJ', 'ADV']
['VERB', 'NOUN', 'NOUN', 'PROPN', 'PUNCT', 'DET', 'NOUN', 'ADJ', 'NOUN', 'ADP', 'DET', 'ADJ', 'NOUN', 'ADP', 'ADP', 'NOUN', 'ADP', 'DET', 'ADJ', 'CCONJ']
['NOUN', 'PROPN', 'AUX', 'DET', 'NOUN', 'ADJ', 'NOUN', 'NOUN', 

8131it [00:05, 1484.92it/s]

['VERB', 'NOUN', 'ADV', 'PRON', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NOUN', 'PRON', 'AUX', 'NOUN', 'VERB', 'ADP', 'DET', 'ADJ', 'ADJ', 'ADP', 'PRON', 'ADP', 'ADP', 'NOUN', 'ADV', 'NUM', 'NUM', 'ADV', 'ADP']
['NOUN', 'PROPN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PROPN', 'CCONJ', 'PROPN', 'PROPN', 'PROPN', 'PROPN', 'ADP', 'PROPN', 'PROPN', 'PROPN', 'CCONJ', 'PROPN', 'PROPN', 'NOUN', 'PUNCT', 'ADJ', 'NOUN', 'ADP', 'DET', 'NUM', 'SYM']
['VERB', 'NOUN', 'PRON', 'PROPN', 'VERB', 'PUNCT', 'DET', 'NOUN', 'ADP', 'VERB', 'NOUN', 'NOUN', 'CCONJ', 'DET', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NOUN', 'ADP', 'DET']
['VERB', 'AUX', 'X', 'PUNCT', 'ADP', 'NUM', 'NUM']
['VERB', 'NOUN', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'DET', 'PROPN', 'NOUN', 'NOUN', 'NOUN', 'CCONJ', 'NOUN', 'NOUN', 'NOUN', 'ADP', 'PUNCT', 'DET', 'PROPN', 'PUNCT', 'PROPN', 'PUNCT', 'DET', 'PROPN', 'ADP', 'ADP', 'DET', 'PROPN', 'ADP', 'ADP', 'ADP', 'ADP']
['NOUN', 'DET', 'PROPN', 'AUX', 'VERB', 'PUNCT', 'ADP', 'DET', 'PROPN', 'PROPN', 'NOUN', 'ADP', 'ADP',

8285it [00:05, 1377.98it/s]

['VERB', 'NOUN', 'NOUN', 'PROPN', 'PUNCT', 'ADP', 'DET', 'NOUN', 'DET', 'ADJ', 'NOUN', 'NOUN', 'NOUN', 'ADP', 'DET', 'NUM', 'ADP', 'DET', 'NOUN', 'PUNCT', 'ADP', 'PUNCT', 'CCONJ', 'DET', 'ADJ', 'NOUN', 'NOUN', 'VERB', 'ADP', 'NUM', 'ADP', 'ADP', 'PUNCT', 'ADP', 'DET', 'NOUN', 'PROPN', 'NOUN', 'PUNCT', 'PRON', 'NOUN', 'NOUN', 'VERB', 'CCONJ', 'ADP', 'ADP', 'PROPN', 'PUNCT', 'DET', 'PROPN', 'ADP', 'ADP', 'DET', 'NOUN', 'NOUN', 'PROPN', 'PROPN', 'ADP', 'DET', 'ADJ', 'PROPN', 'NOUN', 'CCONJ', 'ADP', 'DET', 'CCONJ', 'ADV', 'ADJ']
['VERB', 'PRON', 'PRON', 'NOUN', 'PUNCT', 'VERB', 'CCONJ', 'PRON', 'SCONJ']
['VERB', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'ADP', 'NOUN', 'NOUN', 'NOUN', 'NOUN', 'NOUN', 'NOUN', 'PUNCT', 'PUNCT', 'ADJ', 'PUNCT', 'PUNCT', 'PUNCT', 'CCONJ', 'NOUN', 'ADP', 'DET']
['VERB', 'PROPN', 'PUNCT', 'ADP', 'DET', 'PROPN', 'PROPN', 'ADP', 'DET', 'PROPN', 'ADP']
['VERB', 'NOUN', 'NOUN', 'VERB', 'PUNCT', 'DET', 'NOUN', 'DET', 'ADJ', 'NOUN', 'ADV', 'PRON', 'PRON', 'NOUN', 'ADP', 'DET', '

8606it [00:05, 1451.40it/s]

['VERB', 'PRON', 'NOUN', 'VERB', 'VERB', 'PUNCT', 'ADP', 'DET', 'PROPN', 'NOUN', 'PUNCT', 'CCONJ', 'NOUN', 'ADP', 'DET', 'ADV', 'ADP']
['PRON', 'PROPN', 'AUX', 'NOUN', 'PUNCT', 'DET', 'PROPN', 'DET', 'PROPN', 'ADP', 'DET', 'ADJ', 'ADP', 'PROPN', 'PUNCT', 'PROPN', 'CCONJ', 'DET', 'PROPN', 'ADV', 'ADP', 'PROPN', 'ADP']
['VERB', 'VERB', 'PUNCT', 'ADJ', 'NOUN', 'ADP', 'AUX', 'ADJ', 'DET', 'NOUN', 'NOUN', 'ADP', 'CCONJ', 'ADP', 'DET']
['NOUN', 'NOUN', 'AUX', 'ADV', 'DET', 'ADJ', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'ADP', 'DET', 'ADJ', 'VERB', 'ADP', 'DET', 'PUNCT', 'PRON', 'NOUN', 'VERB', 'DET', 'NOUN', 'NOUN', 'PUNCT', 'CCONJ', 'ADV', 'NOUN', 'PUNCT', 'CCONJ', 'DET']
['VERB', 'NOUN', 'NOUN', 'AUX', 'AUX', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PUNCT', 'PRON', 'DET', 'NOUN', 'ADP', 'NOUN', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADJ', 'NOUN', 'CCONJ', 'ADP', 'DET', 'ADJ', 'NOUN', 'CCONJ', 'DET', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADP', 'DET', 'PUNCT', 'PUNCT', 'NOUN', 'ADP', 'NOUN', 'PUNCT', 'DET', 'ADJ', 'PUNCT',

8904it [00:05, 1458.14it/s]

['VERB', 'PROPN', 'AUX', 'PRON', 'ADV', 'VERB', 'ADJ', 'NOUN', 'PUNCT', 'SCONJ', 'PRON', 'X', 'VERB', 'AUX', 'ADV', 'ADJ', 'CCONJ', 'ADP', 'ADJ', 'NOUN', 'ADJ', 'NOUN', 'VERB', 'SCONJ', 'PRON', 'PUNCT', 'CCONJ', 'AUX', 'VERB', 'ADP', 'DET', 'PRON', 'AUX', 'DET', 'NOUN', 'X', 'PUNCT', 'ADP', 'PUNCT', 'PRON', 'NOUN', 'VERB', 'PUNCT', 'PRON', 'PUNCT', 'PUNCT', 'VERB', 'ADP', 'DET', 'PROPN', 'DET', 'DET', 'NOUN', 'VERB', 'VERB', 'PUNCT', 'DET', 'CCONJ', 'NOUN', 'SCONJ', 'PRON', 'AUX', 'NOUN', 'DET', 'ADJ', 'ADP', 'NOUN', 'CCONJ']
['VERB', 'NOUN', 'PUNCT', 'NOUN', 'CCONJ']
['VERB', 'PROPN', 'PUNCT', 'ADP']
['VERB', 'NOUN', 'PROPN', 'PUNCT', 'DET', 'DET', 'NUM', 'PROPN', 'ADP', 'NUM', 'ADP']
['VERB', 'NOUN', 'PROPN', 'NOUN', 'PUNCT', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PUNCT', 'PROPN', 'NOUN', 'ADV', 'ADP', 'ADP']
['PRON', 'AUX', 'NOUN', 'PROPN', 'PUNCT', 'ADP', 'DET', 'ADJ', 'ADJ', 'PROPN', 'PROPN', 'PROPN', 'ADP', 'ADP', 'DET', 'PROPN', 'PROPN']
['NOUN', 'NOUN', 'NOUN', 'AUX', 'DET', 'ADJ', 'P

9239it [00:06, 1400.56it/s]

['VERB', 'PROPN', 'ADV', 'NOUN', 'VERB', 'PUNCT', 'DET', 'DET', 'PUNCT', 'CCONJ', 'NOUN', 'AUX', 'DET', 'ADV']
['VERB', 'ADP', 'PROPN', 'NOUN', 'AUX', 'NOUN', 'PUNCT', 'VERB', 'PUNCT', 'SCONJ', 'ADP', 'NUM', 'DET', 'ADP', 'DET', 'ADJ', 'NOUN', 'PROPN', 'PRON', 'PRON', 'NOUN', 'VERB', 'ADP', 'DET', 'ADP', 'PRON', 'ADP', 'DET', 'PUNCT', 'NOUN', 'PRON', 'VERB', 'DET', 'ADP', 'CCONJ', 'NOUN', 'VERB', 'ADV', 'PRON', 'DET', 'PRON', 'PRON', 'ADP', 'PRON', 'AUX']
['VERB', 'NOUN', 'PRON', 'AUX', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PUNCT', 'NOUN', 'PUNCT', 'VERB', 'PUNCT', 'ADJ', 'ADP', 'ADP', 'ADV', 'AUX', 'ADV', 'ADV']
['VERB', 'VERB', 'AUX', 'NOUN', 'VERB', 'PUNCT', 'PROPN', 'PUNCT', 'ADP', 'DET', 'PROPN', 'CCONJ', 'NOUN', 'NUM', 'ADP', 'DET', 'DET', 'PROPN', 'ADP', 'NUM', 'ADP']
['NOUN', 'PROPN', 'AUX', 'DET', 'NOUN', 'NOUN', 'NOUN', 'PUNCT', 'PROPN', 'ADP', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN', 'ADP', 'DET']
['VERB', 'ADP', 'PROPN', 'VERB', 'PROPN', 'PUNCT', 'NOUN', 'NOUN', 'ADV', 'PUNC

9601it [00:06, 1594.51it/s]

['VERB', 'PRON', 'AUX', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'DET', 'ADJ', 'ADP', 'PRON', 'VERB', 'ADP', 'NOUN', 'DET', 'ADJ', 'NOUN', 'ADP', 'DET']
['VERB', 'PROPN', 'NOUN', 'PUNCT', 'ADP', 'ADJ', 'ADJ']
['NOUN', 'NOUN', 'AUX', 'DET', 'NOUN', 'VERB', 'VERB', 'PUNCT', 'DET', 'ADJ', 'VERB', 'ADP', 'SCONJ', 'NOUN', 'NOUN', 'PUNCT', 'ADV', 'NOUN', 'PUNCT', 'ADV', 'NOUN', 'PUNCT', 'ADP', 'ADP', 'DET', 'NOUN', 'ADP', 'ADP', 'DET', 'NOUN', 'ADP', 'ADP', 'PROPN']
['VERB', 'NOUN', 'PUNCT', 'NOUN', 'VERB', 'PUNCT', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN', 'NOUN', 'PUNCT', 'CCONJ', 'PRON', 'PROPN', 'ADP', 'ADP', 'DET', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN', 'ADP']
['ADJ', 'ADV', 'PUNCT', 'AUX', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'NOUN', 'VERB', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'NOUN', 'PUNCT', 'SCONJ', 'NOUN', 'NOUN', 'ADP', 'DET', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADJ', 'ADJ', 'ADP', 'DET', 'NOUN', 'ADP', 'DET', 'NOUN', 'CCONJ', 'ADP', 'DET', 'ADP', 'DET', 'ADJ', 'PROPN', 'ADP', 'PROPN']
['VERB', 'ADV',

9958it [00:06, 1677.06it/s]

['VERB', 'VERB', 'NOUN', 'VERB', 'PUNCT', 'ADV', 'NOUN', 'PUNCT', 'DET', 'ADP', 'AUX', 'NOUN', 'SCONJ', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'NOUN', 'ADP', 'DET', 'PROPN', 'ADP']
['VERB', 'NOUN', 'PROPN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NOUN', 'PROPN', 'PUNCT', 'DET', 'ADJ', 'NOUN', 'VERB', 'ADP', 'DET', 'ADP', 'DET', 'PROPN', 'ADP', 'NUM', 'SYM', 'PUNCT', 'PRON', 'NOUN', 'NOUN', 'NOUN', 'ADP', 'DET', 'NUM', 'SYM', 'ADP', 'ADJ', 'CCONJ', 'SYM', 'SYM', 'AUX', 'PUNCT', 'NUM', 'PUNCT', 'NOUN', 'NUM']
['VERB', 'VERB', 'PUNCT', 'PRON', 'VERB', 'PUNCT', 'ADV', 'NOUN', 'VERB', 'CCONJ', 'PRON', 'PROPN', 'ADP', 'NUM', 'ADV', 'PRON', 'NOUN', 'VERB', 'ADP', 'DET', 'PUNCT', 'PROPN', 'DET', 'NOUN', 'PROPN', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN']
['VERB', 'PUNCT', 'NOUN', 'ADV', 'PUNCT', 'ADP', 'DET', 'CCONJ']
['VERB', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'DET', 'PROPN', 'CCONJ', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADP', 'DET', 'ADJ', 'PROPN', 'ADP', 'DET', 'ADP', 'PROPN', 'PROPN', 'PROPN', 'PROPN', 'P

10308it [00:06, 1522.37it/s]

['VERB', 'NOUN', 'NOUN', 'PUNCT', 'NOUN', 'PUNCT', 'DET', 'VERB', 'DET', 'NOUN', 'ADP', 'NOUN', 'PROPN', 'ADP', 'DET', 'ADJ', 'NOUN', 'ADP', 'DET', 'ADJ', 'NOUN', 'ADP', 'DET', 'PROPN', 'PROPN', 'ADP', 'NOUN', 'ADP', 'DET', 'ADJ', 'PROPN', 'VERB', 'ADP', 'ADP', 'NOUN', 'ADP', 'DET', 'ADJ', 'PROPN', 'PROPN', 'PUNCT', 'NOUN', 'CCONJ', 'DET', 'ADP', 'X', 'ADP', 'DET', 'PROPN', 'ADP']
['VERB', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'ADP', 'NOUN', 'ADP', 'NUM', 'NOUN', 'ADP', 'DET']
['VERB', 'NOUN', 'PRON', 'PROPN', 'PUNCT', 'DET', 'NUM', 'ADP', 'PROPN', 'ADP', 'PUNCT', 'PUNCT']
['NOUN', 'PROPN', 'NOUN', 'AUX', 'NUM', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'PROPN', 'PUNCT', 'DET', 'VERB', 'ADP', 'DET', 'CCONJ', 'NOUN', 'NOUN', 'SCONJ', 'PRON', 'NUM', 'ADP', 'ADP', 'DET', 'DET']
['VERB', 'PROPN', 'PROPN', 'VERB', 'VERB', 'PUNCT', 'PROPN', 'PROPN', 'ADP', 'PUNCT', 'CCONJ', 'ADV', 'AUX', 'NUM', 'PROPN', 'PUNCT', 'CCONJ', 'ADV', 'NOUN', 'PUNCT', 'NUM', 'PUNCT', 'DET', 'SYM', 'PROPN', 'ADP', 'NUM', 'ADV', 'PU

10652it [00:06, 1615.29it/s]

['VERB', 'PRON', 'NOUN', 'PUNCT', 'ADJ', 'PUNCT', 'ADP', 'DET', 'NOUN', 'NOUN', 'AUX', 'VERB', 'ADJ', 'ADP', 'ADJ', 'DET', 'ADJ', 'CCONJ', 'CCONJ', 'NOUN', 'ADV', 'PRON', 'ADJ', 'PUNCT', 'ADP', 'ADP', 'CCONJ']
['VERB', 'NOUN', 'NOUN', 'NOUN', 'VERB', 'ADJ', 'PUNCT', 'ADP', 'DET', 'ADJ', 'PUNCT', 'DET', 'ADJ', 'NOUN', 'DET', 'NOUN', 'NOUN', 'CCONJ', 'NOUN', 'VERB', 'CCONJ', 'AUX', 'VERB', 'ADP', 'ADP', 'ADP', 'DET', 'ADP', 'CCONJ', 'NOUN', 'VERB', 'DET', 'NOUN', 'SCONJ', 'VERB', 'NOUN', 'PRON', 'ADV', 'NOUN', 'ADP', 'DET', 'AUX', 'NOUN', 'PUNCT', 'DET', 'AUX', 'ADJ', 'ADP', 'DET', 'NOUN', 'ADP', 'DET']
['PRON', 'VERB', 'PRON', 'AUX', 'AUX', 'NOUN', 'PUNCT', 'SCONJ', 'PROPN', 'PUNCT', 'ADP', 'DET', 'ADJ', 'VERB', 'SCONJ', 'ADV', 'NOUN', 'CCONJ', 'ADP']
['VERB', 'VERB', 'PUNCT', 'VERB', 'PUNCT', 'SCONJ', 'VERB', 'VERB', 'VERB', 'X', 'PROPN', 'ADP', 'NOUN', 'PROPN', 'CCONJ', 'VERB', 'AUX', 'NOUN', 'ADP', 'NOUN', 'ADP', 'NOUN', 'NOUN', 'DET', 'ADJ', 'SYM', 'DET', 'DET', 'VERB', 'ADV', 'NOUN

10818it [00:07, 1438.06it/s]

['ADJ', 'NOUN', 'AUX', 'ADJ', 'PUNCT', 'DET', 'CCONJ', 'ADV', 'ADV']
['VERB', 'VERB', 'PUNCT', 'AUX', 'ADV', 'PUNCT', 'NOUN', 'PUNCT', 'PROPN', 'ADJ', 'AUX', 'DET', 'VERB', 'ADP', 'DET', 'PROPN', 'PROPN', 'PROPN', 'ADP', 'NOUN', 'ADP', 'ADP', 'DET', 'VERB', 'PRON', 'VERB', 'ADP', 'DET', 'ADP', 'PRON', 'NOUN', 'VERB', 'DET', 'CCONJ', 'ADV', 'NOUN', 'DET', 'NOUN', 'ADP', 'DET', 'ADJ', 'NOUN', 'ADP', 'DET']
['VERB', 'PROPN', 'NOUN', 'PROPN', 'NOUN', 'VERB', 'PUNCT', 'DET', 'ADP', 'DET', 'NOUN', 'DET', 'PROPN', 'PUNCT', 'ADJ', 'NOUN', 'ADP', 'DET', 'ADP', 'ADP', 'ADP', 'DET', 'VERB', 'ADV', 'ADV', 'ADJ', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NOUN', 'DET', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADJ', 'PROPN', 'ADP', 'DET', 'PROPN']
['VERB', 'NOUN', 'DET', 'PUNCT', 'VERB', 'PUNCT', 'DET', 'ADJ', 'CCONJ', 'NOUN', 'AUX', 'VERB', 'NOUN', 'PRON', 'NOUN', 'ADV', 'VERB', 'ADP', 'DET', 'NOUN', 'SCONJ', 'ADV', 'PRON', 'ADP', 'DET', 'PROPN', 'DET', 'CCONJ', 'AUX', 'NOUN', 'ADP', 'DET', 'NUM', 'ADP', 'PROPN', 'DET'

11159it [00:07, 1558.77it/s]

['VERB', 'VERB', 'ADV', 'PRON', 'AUX', 'NOUN', 'VERB', 'PUNCT', 'NOUN', 'PUNCT', 'PUNCT', 'VERB', 'PUNCT', 'SCONJ', 'ADV', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADJ', 'SCONJ', 'VERB', 'CCONJ', 'DET', 'NOUN', 'ADP', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADP', 'DET', 'DET', 'ADJ']
['NOUN', 'PROPN', 'AUX', 'DET', 'ADJ', 'NOUN', 'PUNCT', 'PROPN', 'PUNCT', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'DET']
['VERB', 'CCONJ', 'PRON', 'PRON', 'NOUN', 'PUNCT', 'PRON', 'ADP', 'DET', 'ADJ', 'NOUN', 'ADP', 'CCONJ', 'ADP', 'DET', 'VERB', 'ADV', 'NOUN', 'ADP', 'DET']
['VERB', 'NOUN', 'PRON', 'NOUN', 'PUNCT', 'ADP', 'DET', 'ADJ', 'NOUN', 'ADP', 'NOUN', 'ADP', 'NOUN', 'ADP', 'NOUN', 'ADP']
['VERB', 'NOUN', 'PUNCT', 'PROPN', 'NOUN', 'VERB', 'PUNCT', 'DET', 'ADP', 'DET', 'ADP', 'DET', 'NOUN', 'PROPN', 'PUNCT', 'CCONJ', 'ADV', 'PROPN', 'ADP', 'ADP', 'DET', 'ADV', 'ADP', 'DET', 'X', 'NOUN', 'ADP', 'ADJ']
['ADJ', 'NOUN', 'AUX', 'PRON', 'VERB', 'PUNCT', 'DET', 'PROPN', 'VERB', 'ADV', 'PROPN', 'ADP', 'CCONJ', 'ADP', 'DET', 'PROP

11515it [00:07, 1664.92it/s]

['VERB', 'NUM', 'NOUN', 'PUNCT', 'DET', 'PROPN', 'DET', 'VERB', 'ADP', 'NUM', 'PROPN', 'ADP', 'DET', 'ADP', 'DET', 'PROPN', 'VERB', 'PUNCT', 'PRON', 'NUM', 'ADP', 'DET', 'NOUN', 'PUNCT', 'NOUN', 'NOUN', 'ADP', 'DET', 'PROPN', 'CCONJ', 'ADJ', 'ADP', 'PUNCT', 'PROPN', 'PUNCT']
['VERB', 'NOUN', 'PROPN', 'VERB', 'PUNCT', 'VERB', 'DET', 'VERB', 'PUNCT', 'PROPN', 'PROPN', 'ADJ', 'NOUN', 'ADP', 'SCONJ', 'VERB', 'CCONJ', 'PROPN', 'DET', 'ADP', 'NOUN', 'DET']
['VERB', 'NOUN', 'NOUN', 'AUX', 'NOUN', 'PUNCT', 'ADP', 'NUM', 'VERB', 'NOUN', 'PUNCT', 'NUM', 'ADP', 'DET', 'SYM', 'NOUN', 'ADP', 'ADJ', 'NOUN', 'ADV', 'ADP', 'NUM', 'ADP', 'DET', 'ADJ', 'ADP', 'DET', 'NOUN', 'ADP', 'NUM', 'VERB', 'PRON', 'AUX', 'AUX', 'NOUN', 'SCONJ', 'AUX']
['VERB', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'CCONJ', 'DET', 'ADJ', 'AUX', 'PROPN', 'DET', 'PROPN', 'PROPN', 'PROPN', 'PROPN', 'ADP', 'DET', 'ADJ', 'PROPN', 'ADP']
['VERB', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NUM', 'NUM', 'PUNCT', 'PROPN', 'VERB', 'DET', 'ADJ', 'PROP

11851it [00:07, 1538.48it/s]

['VERB', 'NOUN', 'PRON', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'NOUN', 'NUM', 'ADP', 'DET', 'DET', 'NOUN', 'X', 'NOUN', 'ADP', 'DET', 'PUNCT', 'ADP', 'PUNCT', 'ADP', 'ADJ', 'ADP', 'NUM', 'PUNCT', 'CCONJ', 'NOUN', 'ADP', 'ADJ', 'X', 'ADP', 'NUM', 'NUM', 'CCONJ']
['VERB', 'NOUN', 'PROPN', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'DET', 'PUNCT', 'PROPN', 'PROPN', 'ADJ', 'VERB', 'ADP', 'DET', 'ADJ', 'SCONJ']
['ADJ', 'PROPN', 'AUX', 'DET', 'CCONJ', 'DET', 'NOUN', 'VERB', 'PUNCT', 'ADJ', 'ADP', 'DET', 'NUM', 'SCONJ', 'VERB', 'NOUN', 'ADP', 'NOUN', 'ADP', 'NOUN', 'DET', 'ADP', 'DET', 'PROPN']
['NOUN', 'PROPN', 'AUX', 'DET', 'NOUN', 'ADJ', 'NOUN', 'PUNCT', 'PUNCT', 'PROPN', 'CCONJ', 'PUNCT', 'ADP', 'DET', 'PROPN', 'NOUN', 'NOUN', 'ADP', 'PUNCT', 'PROPN', 'PUNCT', 'PROPN', 'PUNCT', 'ADP', 'DET', 'PROPN', 'NOUN', 'ADP', 'ADP', 'PUNCT', 'PROPN', 'PUNCT', 'PROPN', 'CCONJ', 'PROPN', 'ADP']
['NOUN', 'AUX', 'DET', 'VERB', 'ADJ', 'PUNCT', 'NOUN', 'NOUN', 'AUX', 'PRON', 'ADP', 'DET']
['NOUN', 'PROPN', 'AUX', '

12217it [00:07, 1679.52it/s]

['VERB', 'NOUN', 'AUX', 'SYM', 'NOUN', 'PUNCT', 'DET', 'ADP', 'DET', 'NUM', 'PUNCT', 'DET', 'SYM', 'NOUN', 'NOUN', 'NOUN', 'NOUN', 'ADP', 'DET', 'NUM', 'PUNCT', 'DET', 'SYM', 'PUNCT', 'DET', 'SYM', 'PUNCT', 'DET', 'SYM', 'PUNCT', 'CCONJ', 'DET', 'DET', 'NOUN', 'SYM', 'ADP', 'DET', 'NUM', 'ADP', 'DET', 'NUM', 'ADP', 'DET', 'NUM', 'PUNCT', 'ADP', 'DET', 'PUNCT', 'ADP', 'DET', 'NUM']
['VERB', 'NOUN', 'PRON', 'NOUN', 'PUNCT', 'DET', 'ADJ', 'NOUN', 'PUNCT', 'ADV', 'DET', 'ADJ', 'PROPN', 'CCONJ', 'ADJ', 'PROPN', 'ADP', 'ADP', 'ADP']
['VERB', 'ADJ', 'NOUN', 'ADV', 'ADP', 'CCONJ', 'PUNCT', 'DET', 'PROPN', 'ADV', 'PUNCT', 'PROPN', 'ADP', 'PRON', 'NOUN', 'ADP', 'CCONJ', 'DET']
['VERB', 'VERB', 'PUNCT', 'NOUN', 'PUNCT', 'PUNCT', 'NOUN', 'VERB', 'VERB', 'PUNCT', 'VERB', 'PUNCT', 'DET', 'DET', 'PUNCT', 'AUX', 'NOUN', 'CCONJ', 'ADV', 'ADV', 'NOUN', 'AUX', 'VERB', 'DET', 'ADJ', 'DET', 'ADP', 'PRON']
['VERB', 'PUNCT', 'PRON', 'PROPN', 'PUNCT', 'ADP']
['VERB', 'ADV', 'PRON', 'NOUN', 'PUNCT', 'ADP', 'PU

12585it [00:08, 1764.73it/s]

['VERB', 'PROPN', 'NUM', 'VERB', 'PUNCT', 'PROPN', 'DET', 'PROPN', 'PUNCT', 'ADV', 'NOUN', 'ADP', 'ADP', 'DET', 'NOUN', 'NOUN', 'ADP', 'NOUN', 'PUNCT', 'NOUN', 'NUM', 'NUM', 'ADP', 'DET', 'PROPN', 'VERB', 'ADV', 'NUM', 'PROPN', 'PUNCT', 'ADV', 'NOUN', 'ADP', 'ADP']
['ADJ', 'AUX', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'DET', 'NUM', 'CCONJ', 'NOUN', 'NUM', 'NOUN', 'CCONJ', 'NUM']
['VERB', 'ADV', 'PRON', 'AUX', 'ADP', 'PUNCT', 'NOUN', 'ADP', 'NOUN', 'DET', 'VERB', 'PUNCT', 'SCONJ', 'PRON', 'AUX', 'X', 'ADP', 'DET', 'DET', 'ADJ', 'PUNCT', 'X', 'PUNCT']
['VERB', 'ADJ', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'DET', 'NUM', 'ADJ', 'CCONJ', 'NOUN', 'NOUN', 'ADP', 'DET', 'NUM']
['ADJ', 'NOUN', 'NOUN', 'AUX', 'ADV', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PUNCT', 'DET', 'ADP', 'ADJ', 'VERB', 'PUNCT', 'SCONJ', 'AUX', 'VERB', 'ADP', 'NOUN', 'VERB', 'DET', 'ADJ', 'NOUN', 'SCONJ', 'NOUN', 'ADJ', 'ADP', 'NUM', 'ADP', 'NOUN', 'CCONJ', 'ADV', 'ADP', 'DET', 'NOUN', 'ADP']
['VERB', 'PROPN', 'ADV', 'NOUN', 'VERB', 'VERB', 'PUN

12928it [00:08, 1578.48it/s]

['VERB', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'VERB', 'ADP', 'NOUN', 'ADP', 'ADP', 'DET', 'VERB', 'VERB', 'SCONJ', 'NOUN', 'PUNCT', 'PRON', 'PRON', 'NOUN', 'NOUN', 'PROPN', 'DET', 'ADP', 'ADP', 'PROPN', 'PROPN', 'PUNCT', 'CCONJ']
['VERB', 'PROPN', 'NOUN', 'NOUN', 'VERB', 'PUNCT', 'DET', 'ADJ', 'NOUN', 'ADP', 'DET', 'NOUN', 'NUM', 'PUNCT', 'PRON', 'VERB', 'ADP', 'DET', 'PROPN', 'DET', 'NOUN', 'NOUN', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'ADP', 'DET', 'VERB', 'PUNCT', 'PRON', 'NOUN', 'VERB', 'ADP', 'DET', 'DET', 'PRON', 'NOUN', 'NOUN', 'ADP', 'ADP', 'DET', 'PROPN', 'ADP', 'PROPN']
['PROPN', 'PROPN', 'PROPN', 'NOUN', 'PUNCT', 'PROPN', 'PROPN', 'PUNCT', 'PROPN', 'PUNCT', 'PUNCT', 'ADJ', 'VERB', 'ADP', 'DET', 'PUNCT', 'PROPN', 'PUNCT', 'NUM', 'PROPN', 'PUNCT', 'PROPN', 'PUNCT', 'NUM', 'SCONJ', 'NOUN', 'NOUN', 'PUNCT', 'VERB', 'ADP', 'DET', 'PROPN', 'DET', 'ADJ', 'NOUN', 'ADP', 'DET', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'NUM', 'ADV', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN', 'DET', 'PROPN', 'NOUN

13269it [00:08, 1546.81it/s]

['VERB', 'PRON', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'ADJ', 'NOUN', 'SCONJ', 'ADV', 'NOUN', 'VERB', 'ADP', 'DET', 'NUM', 'CCONJ', 'SCONJ', 'PRON', 'AUX', 'PUNCT', 'VERB', 'SCONJ', 'ADV', 'NOUN', 'VERB', 'PRON', 'ADV']
['VERB', 'NOUN', 'PRON', 'NOUN', 'PUNCT', 'DET', 'ADP', 'NUM', 'VERB', 'NOUN', 'ADP', 'SCONJ', 'NOUN', 'AUX', 'PUNCT', 'ADV', 'DET', 'NUM', 'DET', 'ADP', 'DET', 'NOUN', 'NOUN', 'ADP', 'ADP', 'DET']
['VERB', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NOUN', 'PUNCT', 'NOUN', 'DET', 'NOUN', 'VERB', 'ADP', 'NOUN', 'ADP', 'ADP', 'PRON', 'CCONJ', 'ADJ']
['VERB', 'NOUN', 'PRON', 'NOUN', 'PUNCT', 'ADP', 'DET', 'VERB', 'NOUN', 'NOUN', 'NOUN', 'PRON', 'ADV', 'ADP', 'DET', 'ADJ', 'ADV', 'ADP', 'DET', 'ADJ']
['NOUN', 'PRON', 'ADV', 'AUX', 'DET', 'PROPN', 'PUNCT', 'VERB', 'PUNCT', 'DET', 'ADP', 'DET', 'PROPN', 'PROPN', 'NUM', 'ADP', 'DET', 'ADP', 'PROPN', 'DET', 'PROPN', 'ADP', 'NUM', 'ADP']
['VERB', 'NOUN', 'NOUN', 'VERB', 'PUNCT', 'DET', 'ADJ', 'NOUN', 'ADP', 'ADJ', 'NOUN', 'CCONJ', 'PRON'

13426it [00:08, 1369.71it/s]

['VERB', 'VERB', 'PUNCT', 'PROPN', 'PRON', 'NOUN', 'VERB', 'PUNCT', 'NUM', 'NOUN', 'DET', 'NOUN', 'ADV', 'AUX', 'NOUN', 'ADP', 'PUNCT', 'ADP', 'DET', 'ADJ', 'PROPN', 'ADP', 'DET', 'NOUN', 'SCONJ', 'DET', 'NOUN', 'ADP', 'ADP', 'ADP']
['VERB', 'NOUN', 'PROPN', 'NOUN', 'PUNCT', 'ADJ', 'ADP', 'PROPN', 'ADP', 'DET', 'PROPN', 'ADP']
['VERB', 'NOUN', 'NOUN', 'PUNCT', 'DET', 'DET', 'VERB', 'ADP', 'NOUN', 'VERB', 'DET', 'ADJ', 'PUNCT', 'VERB', 'NOUN', 'PRON', 'AUX', 'VERB', 'PUNCT', 'ADP', 'ADJ', 'ADP', 'DET']
['VERB', 'NUM', 'NOUN', 'X', 'PUNCT', 'DET', 'PROPN', 'PUNCT', 'DET', 'PROPN', 'ADP', 'NUM', 'NOUN', 'ADP', 'PUNCT', 'NUM', 'ADV', 'PUNCT']
['NOUN', 'PROPN', 'AUX', 'DET', 'VERB', 'PUNCT', 'PROPN', 'PROPN', 'NOUN', 'NOUN', 'ADP', 'DET', 'PROPN', 'ADP', 'DET', 'PROPN', 'ADP', 'PROPN', 'ADP', 'PROPN', 'CCONJ']
['VERB', 'ADP', 'PUNCT', 'NOUN', 'NOUN', 'PUNCT', 'PRON', 'ADV', 'ADP', 'ADP', 'DET', 'ADJ', 'VERB', 'PUNCT', 'PRON', 'PROPN', 'ADP', 'DET', 'ADP']
['VERB', 'PROPN', 'NOUN', 'NUM', 'N

13769it [00:08, 1519.28it/s]

['NOUN', 'PROPN', 'AUX', 'DET', 'VERB', 'PROPN', 'PROPN', 'NUM', 'VERB', 'PUNCT', 'PROPN', 'PROPN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PROPN', 'PROPN', 'ADP', 'ADP', 'PUNCT', 'CCONJ', 'ADV', 'PROPN', 'ADP', 'DET', 'ADJ', 'ADP']
['VERB', 'NOUN', 'AUX', 'NOUN', 'PUNCT', 'DET', 'ADP', 'DET', 'PROPN', 'PUNCT', 'PROPN', 'PUNCT']
['NOUN', 'AUX', 'DET', 'ADJ', 'VERB', 'PUNCT', 'SCONJ', 'ADP', 'VERB', 'NOUN', 'NOUN', 'PRON', 'ADP', 'ADP', 'NOUN', 'ADP']
['VERB', 'PROPN', 'PROPN', 'NOUN', 'PUNCT', 'ADP', 'NUM', 'PROPN', 'PROPN', 'DET', 'PROPN', 'PROPN', 'ADP', 'CCONJ', 'PROPN', 'ADP', 'ADP', 'DET', 'PROPN', 'ADP']
['VERB', 'VERB', 'NOUN', 'PUNCT', 'SCONJ', 'NOUN', 'VERB', 'VERB', 'PUNCT', 'DET', 'NOUN', 'NOUN', 'NOUN', 'DET', 'NOUN', 'CCONJ', 'NOUN', 'NOUN', 'PUNCT', 'CCONJ', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADP', 'DET', 'NOUN', 'ADP', 'NOUN', 'NOUN', 'DET', 'CCONJ', 'ADP', 'DET', 'ADP', 'DET', 'ADP', 'DET', 'VERB', 'CCONJ', 'DET', 'VERB', 'PUNCT', 'ADP', 'DET', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET'

14094it [00:09, 1472.09it/s]

['PROPN', 'CCONJ', 'NOUN', 'AUX', 'PUNCT', 'PROPN', 'PROPN', 'PROPN', 'PROPN', 'PROPN', 'PROPN', 'PROPN', 'PUNCT', 'CCONJ', 'DET', 'ADJ', 'PUNCT', 'PUNCT', 'PUNCT', 'PUNCT', 'PUNCT', 'PROPN', 'PUNCT', 'CCONJ', 'ADV']
['VERB', 'NOUN', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'DET', 'PUNCT', 'ADP', 'DET', 'PROPN', 'PUNCT', 'SCONJ', 'PRON', 'AUX', 'NOUN', 'ADP', 'PUNCT', 'ADP', 'DET', 'NOUN', 'VERB', 'CCONJ', 'DET', 'SCONJ', 'ADV', 'NOUN', 'DET']
['VERB', 'NOUN', 'PRON', 'NOUN', 'PROPN', 'PUNCT', 'ADP', 'ADJ', 'PUNCT', 'ADJ', 'ADP', 'PROPN', 'PROPN', 'PUNCT', 'CCONJ']
['VERB', 'ADV', 'NOUN', 'NOUN', 'PUNCT', 'PUNCT', 'DET', 'ADJ', 'DET', 'VERB', 'NOUN', 'SCONJ', 'AUX', 'NOUN', 'CCONJ', 'DET', 'VERB', 'DET', 'ADJ', 'ADP', 'SCONJ', 'NOUN', 'PRON', 'AUX', 'VERB', 'VERB', 'ADP', 'NUM', 'NOUN', 'PUNCT', 'SCONJ', 'NOUN', 'NUM', 'ADV', 'NUM', 'DET', 'VERB', 'ADP', 'ADV', 'ADV', 'ADP']
['VERB', 'NOUN', 'NOUN', 'NOUN', 'VERB', 'PUNCT', 'ADP', 'NOUN', 'PUNCT', 'DET', 'ADP', 'DET', 'PROPN', 'PUNCT', 'NOUN', 

14187it [00:09, 1528.67it/s]

['VERB', 'NOUN', 'NOUN', 'PUNCT', 'ADP', 'DET', 'NUM', 'PUNCT', 'NUM', 'VERB', 'ADP', 'NOUN', 'ADP', 'DET', 'PROPN', 'ADP', 'PROPN']
['VERB', 'VERB', 'PUNCT', 'AUX', 'NOUN', 'PUNCT', 'PUNCT', 'PROPN', 'AUX', 'NOUN', 'PUNCT', 'DET', 'PROPN', 'DET', 'PROPN', 'ADJ', 'PUNCT', 'PROPN', 'PROPN', 'CCONJ', 'DET']
['NOUN', 'PROPN', 'AUX', 'DET', 'ADJ', 'NOUN', 'PUNCT', 'PROPN', 'PROPN', 'PUNCT', 'PROPN', 'VERB', 'PROPN', 'PUNCT', 'ADP', 'ADJ', 'NOUN', 'PUNCT', 'ADV', 'NOUN', 'PUNCT', 'PROPN', 'NUM', 'X', 'PUNCT', 'CCONJ', 'ADP', 'ADP', 'DET', 'PROPN', 'PUNCT', 'PROPN', 'PUNCT', 'NUM', 'PROPN', 'PROPN', 'ADP', 'NUM', 'PUNCT', 'PROPN', 'CCONJ', 'PROPN', 'ADP', 'ADP', 'NUM', 'ADP']
['VERB', 'PRON', 'NOUN', 'PUNCT', 'DET', 'NOUN', 'SCONJ', 'AUX', 'NOUN', 'NOUN', 'ADP', 'DET', 'ADJ', 'NOUN', 'CCONJ', 'SCONJ', 'AUX', 'DET', 'NOUN', 'PUNCT', 'ADP', 'ADJ', 'PUNCT', 'ADP', 'DET', 'NOUN', 'ADJ', 'NOUN', 'CCONJ', 'DET', 'ADP', 'NOUN', 'ADP', 'DET', 'ADJ']
['VERB', 'NOUN', 'X', 'PUNCT', 'DET', 'NOUN', 'ADP




In [12]:
import pandas as pd

df = pd.read_csv("isomorphic_groups3.csv", sep=";")
df


Unnamed: 0,signature,count,files
0,"0_(1,):4|1_(0, 0, 0, 0, 3):1|2_(3,):3|3_(1, 2,...",5,UD_Spanish-GSD/es_gsd-ud-train_7825.graphml|UD...
1,"0_(7,):2|10_(11,):1|11_(1, 9, 10):1|1_(2, 2, 2...",1,UD_Spanish-GSD/es_gsd-ud-train_12948.graphml
2,"0_(4,):3|10_(9, 11, 12):1|11_(4, 10):1|12_(10,...",1,UD_Spanish-GSD/es_gsd-ud-train_9745.graphml
3,"0_(8,):2|10_(11,):1|11_(9, 10):1|12_(20,):2|13...",1,UD_Spanish-GSD/es_gsd-ud-train_3290.graphml
4,"0_(13,):2|10_(8, 9, 9, 9, 9, 11):1|11_(10, 14,...",1,UD_Spanish-GSD/es_gsd-ud-train_1588.graphml
...,...,...,...
12837,"0_(17,):3|10_(11,):1|11_(9, 10, 13):1|12_(13,)...",1,UD_Spanish-GSD/es_gsd-ud-train_7590.graphml
12838,"0_(17,):3|10_(11,):1|11_(6, 10, 13, 15):1|12_(...",1,UD_Spanish-GSD/es_gsd-ud-train_11797.graphml
12839,"0_(4,):2|1_(2,):2|2_(1, 1, 8):1|3_(5,):2|4_(0,...",1,UD_Spanish-GSD/es_gsd-ud-train_8663.graphml
12840,"0_(5,):4|1_(2,):3|2_(1, 1, 1, 9):1|3_(4,):1|4_...",1,UD_Spanish-GSD/es_gsd-ud-train_1945.graphml


In [18]:
df[df["count"]>10]

Unnamed: 0,signature,count,files
10,"0_(5,):1|1_(9,):4|2_(3, 9):1|3_(2,):1|4_(8,):1...",33,UD_Spanish-GSD/es_gsd-ud-train_7835.graphml|UD...
36,"0_(1,):4|1_(0, 0, 0, 0, 3):1|2_(3,):1|3_(1, 2):1",14,UD_Spanish-GSD/es_gsd-ud-train_8572.graphml|UD...
61,"0_(1,):3|1_(0, 0, 0, 2):1|2_(1, 4):1|3_(4,):2|...",15,UD_Spanish-GSD/es_gsd-ud-train_5387.graphml|UD...
73,"0_(3,):1|1_(7, 8, 8):1|2_(6,):2|3_(0, 5, 6):1|...",18,UD_Spanish-GSD/es_gsd-ud-train_8051.graphml|UD...
77,"0_(2,):2|1_(2, 2, 5, 5, 7):1|2_(0, 1, 4):2|3_(...",23,UD_Spanish-GSD/es_gsd-ud-train_9433.graphml|UD...
104,"0_(1,):2|1_(0, 3):2|2_(3,):2|3_(1, 1, 2, 2):1",15,UD_Spanish-GSD/es_gsd-ud-train_5246.graphml|UD...
171,"0_(1,):2|1_(0, 0, 3):1|2_(3,):2|3_(1, 2, 2, 5)...",16,UD_Spanish-GSD/es_gsd-ud-train_1531.graphml|UD...
199,"0_(1, 1):1|1_(0,):2",13,UD_Spanish-GSD/es_gsd-ud-train_10125.graphml|U...
233,"0_(1,):2|1_(0, 0, 3):1|2_(3,):3|3_(1, 2, 2, 2):1",21,UD_Spanish-GSD/es_gsd-ud-train_1306.graphml|UD...
259,"0_(1,):3|1_(0, 0, 0, 3):1|2_(3,):2|3_(1, 2, 2):1",16,UD_Spanish-GSD/es_gsd-ud-train_13478.graphml|U...


In [14]:
df[df["signature"] == "0_(5,):1|1_(9,):4|2_(3, 9):1|3_(2,):1|4_(8,):1|5_(0, 7, 8):1|6_(7,):1|7_(5, 6):1|8_(4, 5, 9):1|9_(1, 1, 1, 1, 2, 8):1"]["files"].values[0].split("|")

['UD_Spanish-GSD/es_gsd-ud-train_7835.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_909.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_8682.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_4727.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_8188.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_2360.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_13984.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_13446.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_562.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_13089.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_10222.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_7743.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_7510.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_8105.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_7604.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_7619.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_8647.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_6767.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_12780.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_7194.graphml',
 'UD_Spanish-GSD/es_gsd-ud-train_533.