In [3]:
import pandas as pd
import nltk
import json
import gensim
import tqdm

In [14]:
## Get text and load as a DataFrame

nltk.download('punkt')

def read_book_to_dataframe(file_path):
    # Read the text file
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()

    # Split the text into sentences
    sentences = nltk.tokenize.sent_tokenize(text)

    # Create a DataFrame
    df = pd.DataFrame(sentences, columns=['Sentence'])

    return df

# Using the .txt file that's in the same directory
file_path = 'anna_karenina.txt'
df = read_book_to_dataframe(file_path)

df.head()

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/evanwineland/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Unnamed: 0,Sentence
0,PART ONE\nChapter 1\nHappy families are all alike; every unhappy family is unhappy in its own way.
1,Everything was in confusion in the Oblonskys’ house.
2,"The wife had discovered that the husband was carrying on an intrigue with a French girl, who had been a governess in their family, and she had announced to her husband that she could not go on liv..."
3,"This position of affairs had now lasted three days, and not only the husband and wife themselves, but all the members of their family and household, were painfully conscious of it."
4,"Every person in the house felt that there was no sense in their living together, and that the stray people brought together by chance in any inn had more in common with one another than they, the ..."


In [8]:
## Note: install spacy at the command line first.  Then, download en_core_web_sim
import re
import bs4
import requests
import spacy
import networkx as nx
import matplotlib.pyplot as plt

from tqdm import tqdm
from spacy import displacy
from spacy.matcher import Matcher 
from spacy.tokens import Span 

# nlp = spacy.load("en_core_web_sm")

pd.set_option('display.max_colwidth', 200)

In [9]:
nlp = spacy.load("en_core_web_sm")

In [10]:
def get_entities(sent):
  ## chunk 1
  ent1 = ""
  ent2 = ""

  prv_tok_dep = ""    # dependency tag of previous token in the sentence
  prv_tok_text = ""   # previous token in the sentence

  prefix = ""
  modifier = ""

  #############################################################
  
  for tok in nlp(sent):
    ## chunk 2
    # only analyze if the current token isn't punctuation
    if tok.dep_ != "punct":
      # check: token is a compound word or not
      if tok.dep_ == "compound":
        prefix = tok.text
        # if the previous word was also a 'compound' then add the current word to it
        if prv_tok_dep == "compound":
          prefix = prv_tok_text + " "+ tok.text
      
      # check: token is a modifier or not
      if tok.dep_.endswith("mod") == True:
        modifier = tok.text
        # if the previous word was also a 'compound' then add the current word to it
        if prv_tok_dep == "compound":
          modifier = prv_tok_text + " "+ tok.text
      
      ## chunk 3
      if tok.dep_.find("subj") == True:
        ent1 = modifier +" "+ prefix + " "+ tok.text
        prefix = ""
        modifier = ""
        prv_tok_dep = ""
        prv_tok_text = ""      

      ## chunk 4
      if tok.dep_.find("obj") == True:
        ent2 = modifier +" "+ prefix +" "+ tok.text
        
      ## chunk 5  
      # update variables
      prv_tok_dep = tok.dep_
      prv_tok_text = tok.text
  #############################################################

  return [ent1.strip(), ent2.strip()]

In [25]:
df.shape[0], df.head()

(16807,
                                                                                                                                                                                                   Sentence
 0                                                                                                       PART ONE\nChapter 1\nHappy families are all alike; every unhappy family is unhappy in its own way.
 1                                                                                                                                                     Everything was in confusion in the Oblonskys’ house.
 2  The wife had discovered that the husband was carrying on an intrigue with a French girl, who had been a governess in their family, and she had announced to her husband that she could not go on liv...
 3                     This position of affairs had now lasted three days, and not only the husband and wife themselves, but all the members of their family and household, were

In [20]:
get_entities(df['Sentence'][0])

['unhappy  family', 'own  way']

In [28]:
e_pairs = []

for i in tqdm(df["Sentence"]):
    e_pairs.append(get_entities(i))

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16807/16807 [01:47<00:00, 156.16it/s]


In [29]:
e_pairs[0:10]

[['unhappy  family', 'own  way'],
 ['Everything', 'Oblonskys  house'],
 ['she', 'same  him'],
 ['only  husband', 'painfully  it'],
 ['stray  people', 'common  Oblonskys'],
 ['own  husband', 'three  days'],
 ['days Stepan Arkadyevitch he', 'covered  study'],
 ['once  he', 'eyes'],
 ['now  he', 'dream']]

In [46]:
def get_relation(sent):

    doc = nlp(sent)

    # Matcher class object 
    matcher = Matcher(nlp.vocab)

    #define the pattern 
    pattern = [{'DEP':'ROOT'},
            {'DEP':'prep','OP':"?"},
            {'DEP':'agent','OP':"?"},  
            {'POS':'ADJ','OP':"?"}] 

    matcher.add("matching_1", [pattern]) 

    matches = matcher(doc)
    k = len(matches) - 1

    span = doc[matches[k][1]:matches[k][2]] 

    return(span.text)

In [41]:
get_relation("Kaan finished the race.")

[(11840699188806025751, 1, 2)]


'finished'

In [47]:
relations = [get_relation(i) for i in tqdm(df["Sentence"])]


  0%|                                                                                                                                    | 0/16807 [00:00<?, ?it/s][A
  0%|                                                                                                                          | 13/16807 [00:00<02:10, 128.33it/s][A
  0%|▏                                                                                                                         | 29/16807 [00:00<01:56, 143.57it/s][A
  0%|▎                                                                                                                         | 48/16807 [00:00<01:43, 162.12it/s][A
  0%|▌                                                                                                                         | 69/16807 [00:00<01:33, 179.46it/s][A
  1%|▋                                                                                                                         | 88/16807 [00:00<01:31, 182.19it/s]

  5%|██████▌                                                                                                                  | 909/16807 [00:05<01:35, 166.94it/s][A
  6%|██████▋                                                                                                                  | 927/16807 [00:05<01:34, 168.44it/s][A
  6%|██████▊                                                                                                                  | 947/16807 [00:05<01:30, 176.00it/s][A
  6%|██████▉                                                                                                                  | 970/16807 [00:05<01:23, 190.76it/s][A
  6%|███████▏                                                                                                                 | 992/16807 [00:05<01:20, 196.59it/s][A
  6%|███████▏                                                                                                                | 1012/16807 [00:05<01:23, 189.99it/s][

 11%|█████████████▍                                                                                                          | 1877/16807 [00:10<01:20, 186.36it/s][A
 11%|█████████████▌                                                                                                          | 1899/16807 [00:10<01:16, 194.24it/s][A
 11%|█████████████▋                                                                                                          | 1920/16807 [00:10<01:15, 197.00it/s][A
 12%|█████████████▊                                                                                                          | 1940/16807 [00:10<01:15, 197.46it/s][A
 12%|█████████████▉                                                                                                          | 1960/16807 [00:11<01:20, 184.23it/s][A
 12%|██████████████▏                                                                                                         | 1979/16807 [00:11<01:20, 183.19it/s][

 17%|████████████████████▏                                                                                                   | 2832/16807 [00:15<01:24, 164.91it/s][A
 17%|████████████████████▎                                                                                                   | 2853/16807 [00:15<01:19, 176.18it/s][A
 17%|████████████████████▌                                                                                                   | 2872/16807 [00:16<01:18, 177.17it/s][A
 17%|████████████████████▋                                                                                                   | 2890/16807 [00:16<01:18, 177.06it/s][A
 17%|████████████████████▊                                                                                                   | 2909/16807 [00:16<01:17, 179.28it/s][A
 17%|████████████████████▉                                                                                                   | 2929/16807 [00:16<01:15, 184.05it/s][

 22%|██████████████████████████▊                                                                                             | 3760/16807 [00:21<01:12, 179.95it/s][A
 22%|██████████████████████████▉                                                                                             | 3780/16807 [00:21<01:10, 185.64it/s][A
 23%|███████████████████████████                                                                                             | 3799/16807 [00:21<01:14, 174.30it/s][A
 23%|███████████████████████████▎                                                                                            | 3817/16807 [00:21<01:13, 175.64it/s][A
 23%|███████████████████████████▍                                                                                            | 3835/16807 [00:21<01:14, 173.31it/s][A
 23%|███████████████████████████▌                                                                                            | 3853/16807 [00:21<01:15, 170.97it/s][

 28%|█████████████████████████████████▍                                                                                      | 4691/16807 [00:26<01:16, 158.09it/s][A
 28%|█████████████████████████████████▌                                                                                      | 4708/16807 [00:26<01:15, 160.07it/s][A
 28%|█████████████████████████████████▋                                                                                      | 4726/16807 [00:26<01:13, 164.83it/s][A
 28%|█████████████████████████████████▊                                                                                      | 4743/16807 [00:26<01:15, 159.36it/s][A
 28%|█████████████████████████████████▉                                                                                      | 4761/16807 [00:26<01:14, 162.62it/s][A
 28%|██████████████████████████████████▏                                                                                     | 4782/16807 [00:26<01:08, 174.74it/s][

 34%|████████████████████████████████████████▎                                                                               | 5644/16807 [00:31<01:10, 158.65it/s][A
 34%|████████████████████████████████████████▍                                                                               | 5662/16807 [00:31<01:07, 163.95it/s][A
 34%|████████████████████████████████████████▌                                                                               | 5679/16807 [00:31<01:07, 163.75it/s][A
 34%|████████████████████████████████████████▋                                                                               | 5698/16807 [00:32<01:05, 170.58it/s][A
 34%|████████████████████████████████████████▊                                                                               | 5721/16807 [00:32<00:59, 186.85it/s][A
 34%|█████████████████████████████████████████                                                                               | 5743/16807 [00:32<00:56, 196.47it/s][

 39%|███████████████████████████████████████████████                                                                         | 6600/16807 [00:37<00:58, 173.83it/s][A
 39%|███████████████████████████████████████████████▎                                                                        | 6618/16807 [00:37<01:01, 166.65it/s][A
 39%|███████████████████████████████████████████████▍                                                                        | 6636/16807 [00:37<01:00, 167.84it/s][A
 40%|███████████████████████████████████████████████▌                                                                        | 6653/16807 [00:37<01:06, 153.23it/s][A
 40%|███████████████████████████████████████████████▋                                                                        | 6672/16807 [00:37<01:02, 160.91it/s][A
 40%|███████████████████████████████████████████████▊                                                                        | 6689/16807 [00:37<01:02, 162.66it/s][

 44%|█████████████████████████████████████████████████████▏                                                                  | 7452/16807 [00:42<00:57, 163.29it/s][A
 44%|█████████████████████████████████████████████████████▎                                                                  | 7469/16807 [00:42<00:57, 162.49it/s][A
 45%|█████████████████████████████████████████████████████▍                                                                  | 7486/16807 [00:42<01:01, 151.41it/s][A
 45%|█████████████████████████████████████████████████████▌                                                                  | 7502/16807 [00:42<01:05, 142.88it/s][A
 45%|█████████████████████████████████████████████████████▋                                                                  | 7519/16807 [00:42<01:03, 146.87it/s][A
 45%|█████████████████████████████████████████████████████▊                                                                  | 7536/16807 [00:43<01:01, 151.55it/s][

 50%|███████████████████████████████████████████████████████████▋                                                            | 8363/16807 [00:47<00:43, 194.38it/s][A
 50%|███████████████████████████████████████████████████████████▉                                                            | 8386/16807 [00:47<00:41, 203.40it/s][A
 50%|████████████████████████████████████████████████████████████                                                            | 8408/16807 [00:47<00:40, 207.55it/s][A
 50%|████████████████████████████████████████████████████████████▏                                                           | 8430/16807 [00:47<00:40, 208.83it/s][A
 50%|████████████████████████████████████████████████████████████▎                                                           | 8453/16807 [00:48<00:38, 214.79it/s][A
 50%|████████████████████████████████████████████████████████████▌                                                           | 8475/16807 [00:48<00:39, 209.04it/s][

 55%|██████████████████████████████████████████████████████████████████▎                                                     | 9295/16807 [00:53<00:52, 143.56it/s][A
 55%|██████████████████████████████████████████████████████████████████▌                                                     | 9315/16807 [00:53<00:48, 155.10it/s][A
 56%|██████████████████████████████████████████████████████████████████▌                                                     | 9331/16807 [00:53<00:49, 151.45it/s][A
 56%|██████████████████████████████████████████████████████████████████▋                                                     | 9347/16807 [00:53<00:48, 153.34it/s][A
 56%|██████████████████████████████████████████████████████████████████▊                                                     | 9364/16807 [00:53<00:47, 156.14it/s][A
 56%|███████████████████████████████████████████████████████████████████                                                     | 9384/16807 [00:53<00:44, 167.36it/s][

 61%|████████████████████████████████████████████████████████████████████████▏                                              | 10197/16807 [00:58<00:36, 180.04it/s][A
 61%|████████████████████████████████████████████████████████████████████████▎                                              | 10216/16807 [00:58<00:37, 177.00it/s][A
 61%|████████████████████████████████████████████████████████████████████████▍                                              | 10237/16807 [00:58<00:35, 185.40it/s][A
 61%|████████████████████████████████████████████████████████████████████████▌                                              | 10256/16807 [00:59<00:36, 177.07it/s][A
 61%|████████████████████████████████████████████████████████████████████████▋                                              | 10274/16807 [00:59<00:38, 168.71it/s][A
 61%|████████████████████████████████████████████████████████████████████████▉                                              | 10293/16807 [00:59<00:37, 172.23it/s][

 66%|███████████████████████████████████████████████████████████████████████████████                                        | 11164/16807 [01:04<00:29, 188.13it/s][A
 67%|███████████████████████████████████████████████████████████████████████████████▏                                       | 11183/16807 [01:04<00:30, 183.81it/s][A
 67%|███████████████████████████████████████████████████████████████████████████████▎                                       | 11202/16807 [01:04<00:30, 181.22it/s][A
 67%|███████████████████████████████████████████████████████████████████████████████▍                                       | 11221/16807 [01:04<00:30, 181.28it/s][A
 67%|███████████████████████████████████████████████████████████████████████████████▌                                       | 11241/16807 [01:04<00:30, 185.04it/s][A
 67%|███████████████████████████████████████████████████████████████████████████████▋                                       | 11261/16807 [01:04<00:29, 188.61it/s][

 72%|█████████████████████████████████████████████████████████████████████████████████████▊                                 | 12128/16807 [01:09<00:25, 182.57it/s][A
 72%|██████████████████████████████████████████████████████████████████████████████████████                                 | 12147/16807 [01:09<00:26, 178.53it/s][A
 72%|██████████████████████████████████████████████████████████████████████████████████████▏                                | 12166/16807 [01:09<00:25, 181.13it/s][A
 72%|██████████████████████████████████████████████████████████████████████████████████████▎                                | 12185/16807 [01:09<00:25, 182.05it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████████████▍                                | 12204/16807 [01:09<00:25, 181.10it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████████████▌                                | 12223/16807 [01:09<00:25, 183.29it/s][

 78%|████████████████████████████████████████████████████████████████████████████████████████████▊                          | 13100/16807 [01:14<00:19, 192.84it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████████████████▉                          | 13120/16807 [01:14<00:19, 187.07it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████████                          | 13139/16807 [01:14<00:20, 176.51it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████████▏                         | 13158/16807 [01:14<00:20, 178.12it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████████████████▎                         | 13176/16807 [01:14<00:20, 173.72it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████████████▍                         | 13194/16807 [01:15<00:22, 157.48it/s][

 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 14071/16807 [01:19<00:14, 195.08it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 14091/16807 [01:19<00:14, 190.94it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 14111/16807 [01:20<00:14, 191.54it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████████                   | 14134/16807 [01:20<00:13, 202.56it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 14155/16807 [01:20<00:13, 199.99it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 14176/16807 [01:20<00:13, 200.11it/s][

 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 15065/16807 [01:25<00:08, 193.85it/s][A
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 15085/16807 [01:25<00:09, 188.99it/s][A
 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 15104/16807 [01:25<00:09, 180.79it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████            | 15123/16807 [01:25<00:09, 182.11it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 15142/16807 [01:25<00:09, 177.36it/s][A
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 15161/16807 [01:25<00:09, 180.74it/s][

 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 16091/16807 [01:30<00:03, 196.63it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 16113/16807 [01:30<00:03, 201.82it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 16134/16807 [01:30<00:03, 186.91it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 16153/16807 [01:30<00:03, 187.74it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 16176/16807 [01:30<00:03, 194.60it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 16196/16807 [01:31<00:03, 194.69it/s][

In [48]:
relations[:50]

['is unhappy',
 'was in',
 'discovered',
 'lasted',
 'felt',
 'been at',
 'walked off',
 'woke',
 'embraced',
 'thought',
 'was',
 'be sure',
 'giving',
 'was in',
 'remembered',
 'twinkled',
 'was nice',
 'dropped',
 'stretched',
 'remembered',
 'Ah',
 'muttered',
 'was present',
 'forgive',
 'is',
 'reflected',
 'kept',
 'was',
 'fussing',
 '’s',
 'this',
 'was',
 'happened to',
 'succeed in',
 'reflected',
 'smile',
 'shuddered',
 'refused',
 'thought',
 '’s',
 'said to',
 'was',
 'was incapable',
 'at',
 'was',
 'felt',
 'managed',
 'thought',
 'supposed',
 'turned']

### Create the KG using entities and relationships

In [49]:
source = [i[0] for i in e_pairs]
target = [i[1] for i in e_pairs]

In [52]:
kg_df = pd.DataFrame({'source': source, 'target': target, 'relation': relations})
kg_df.head()

Unnamed: 0,source,target,relation
0,unhappy family,own way,is unhappy
1,Everything,Oblonskys house,was in
2,she,same him,discovered
3,only husband,painfully it,lasted
4,stray people,common Oblonskys,felt
