In [1]:
import json
import os
import pandas as pd
import numpy as np
from pathlib import Path
import collections
from sklearn.model_selection import train_test_split
from sklearn import metrics

import sys
sys.path.append("../")
from datatools.analyzer import *

from datatools.maneger import DataManager
from datatools.preproc import Preprocessor

In [2]:
def is_valid_utt(utt:str):
    if "「" in utt or "」" in utt:
        return False
    return True

def format_utt(utt:str):
    utt = utt.replace("-", "")
    return utt

In [3]:
def load_novel(path):
    with open(path, mode="r") as f:
        data = json.load(f)
    utt_list = data["utt"]
    return utt_list

In [4]:
novel_path = "../../corpus/novel/novels_50.json"

In [5]:
utt_list = load_novel(novel_path)

In [6]:
utt_list = sorted( [ format_utt(u) for u in utt_list if is_valid_utt(u)] ) 

In [7]:
t = utt_list[50000]

In [8]:
len(utt_list)

495962

In [9]:
def dependency_suit(text):
    # 解析が必要か否か
    if isinstance(text, spacy.tokens.doc.Doc):
        doc = text
    elif isinstance(text, str):
        doc = nlp(text)
    suit_list = []
    for i, token in enumerate( doc ):
        if token.dep_!="punct" and token.head:
            suit_list.append([token.orth_, token.dep_, token.head.lemma_])
    return suit_list

In [10]:
t

'いえ、僕も楽しませていただきました。遅くまで彼女を引き留めてしまったのは、僕なんです。本当にすみません。どうか、愛理沙さんを責めないであげてください。'

In [11]:
dependency_suit(t)

[['いえ', 'dep', '楽しむ'],
 ['僕', 'nsubj', '楽しむ'],
 ['も', 'case', '僕'],
 ['楽しま', 'ROOT', '楽しむ'],
 ['せ', 'aux', '楽しむ'],
 ['て', 'mark', '楽しむ'],
 ['いただき', 'fixed', 'て'],
 ['まし', 'aux', '楽しむ'],
 ['た', 'aux', '楽しむ'],
 ['遅く', 'obl', '引き留める'],
 ['まで', 'case', '遅く'],
 ['彼女', 'obj', '引き留める'],
 ['を', 'case', '彼女'],
 ['引き留め', 'csubj', '僕'],
 ['て', 'mark', '引き留める'],
 ['しまっ', 'fixed', 'て'],
 ['た', 'aux', '引き留める'],
 ['の', 'mark', '引き留める'],
 ['は', 'case', '引き留める'],
 ['僕', 'ROOT', '僕'],
 ['な', 'cop', '僕'],
 ['ん', 'mark', '僕'],
 ['です', 'fixed', 'ん'],
 ['本当', 'obl', 'すむ'],
 ['に', 'case', '本当'],
 ['すみ', 'ROOT', 'すむ'],
 ['ませ', 'aux', 'すむ'],
 ['ん', 'aux', 'すむ'],
 ['どう', 'advmod', 'あげる'],
 ['か', 'case', 'どう'],
 ['愛理沙', 'compound', 'さん'],
 ['さん', 'obj', '責める'],
 ['を', 'case', 'さん'],
 ['責め', 'advcl', 'あげる'],
 ['ない', 'aux', '責める'],
 ['で', 'mark', '責める'],
 ['あげ', 'ROOT', 'あげる'],
 ['て', 'mark', 'あげる'],
 ['ください', 'fixed', 'て']]

In [12]:
from spacy import displacy
displacy.render(nlp(t), style='dep', jupyter=True, options={'compact':True, 'distance': 90})

In [15]:
t = "この時期から資格を取りますねぇ"
t = "北海道に始めます"

displacy.render(nlp(t), style='dep', jupyter=True, options={'compact':True, 'distance': 90})
dependency_suit(t)

[['北海道', 'obl', '始める'],
 ['から', 'case', '北海道'],
 ['始め', 'ROOT', '始める'],
 ['ます', 'aux', '始める']]

In [17]:
t = "北海道で始めます"

displacy.render(nlp(t), style='dep', jupyter=True, options={'compact':True, 'distance': 90})
dependency_suit(t)

[['北海道', 'obl', '始める'],
 ['で', 'case', '北海道'],
 ['始め', 'ROOT', '始める'],
 ['ます', 'aux', '始める']]