In [1]:
import sys
from typing import List
from pprint import pprint
import spacy
import ginza

import pandas as pd

In [2]:
# 日本語自然言語処理のパイプラインを構築されたGiNZAをspaCyから読み込む
nlp = spacy.load('ja_ginza_electra')  

doc = nlp("『小岩井農場』日本最大の総合農場に行ってきましたの！【前編】 #小岩井農場 #上丸牛舎 #牛 #羊 #馬 #雫石 #滝沢 #岩手 #はてなブログ 『小岩井農場』日本最大の民間総合農場に行ってきましたの！【前編】 - 元IT土方の供述")

    
def tokenize(text: str) -> List[List[str]]:
    """
    日本語文を形態素解析する。
    Parameters
    ----------
    text : str
        解析対象の日本語テキスト。
    Returns
    -------
    List[List[str]]
        形態素解析結果。
    Notes
    -----
    * Token 属性の詳細については次のリンク先をご覧ください。
      https://spacy.io/api/token#attributes
    * Token.lemma_ の値は SudachiPy の Morpheme.dictionary_form() です。
    * Token.ent_type_ の詳細については次のリンク先をご覧ください。
      http://liat-aip.sakura.ne.jp/ene/ene8/definition_jp/html/enedetail.html
    """
    doc = nlp(text)

    attrs_list = []
    for token in doc:
        token_attrs = [
            token.i,  # トークン番号
            token.text,  # テキスト
            token.lemma_,  # 基本形
            ginza.reading_form(token),  # 読みカナ
            token.pos_,  # 品詞
            token.tag_,  # 品詞詳細
            ginza.inflection(token),  # 活用情報
            token.ent_type_  # 固有表現
        ]
        attrs_list.append([str(a) for a in token_attrs])

    return attrs_list

# pprint(tokenize("『小岩井農場』日本最大の総合農場に行ってきましたの！【前編】 #小岩井農場 #上丸牛舎 #牛 #羊 #馬 #雫石 #滝沢 #岩手 #はてなブログ 『小岩井農場』日本最大の民間総合農場に行ってきましたの！【前編】 - 元IT土方の供述"))

In [4]:
df_test = pd.read_csv('../textdata_from_twitter.csv', names=["text", "label1", "label2", "label3", "label4", "label5"])
df_val = df_test['text']

raw_inputs = df_val.values.tolist()
raw_inputs = [str(t) for t in raw_inputs]

In [5]:
for text in raw_inputs:
    pprint(tokenize(text))

[['0', 'ブログ', 'ブログ', 'ブログ', 'NOUN', '名詞-普通名詞-一般', '', ''],
 ['1', 'を', 'を', 'ヲ', 'ADP', '助詞-格助詞', '', ''],
 ['2', '更新', '更新', 'コウシン', 'VERB', '名詞-普通名詞-サ変可能', '', ''],
 ['3', 'し', 'する', 'シ', 'AUX', '動詞-非自立可能', 'サ行変格,連用形-一般', ''],
 ['4', 'まし', 'ます', 'マシ', 'AUX', '助動詞', '助動詞-マス,連用形-一般', ''],
 ['5', 'た', 'た', 'タ', 'AUX', '助動詞', '助動詞-タ,終止形-一般', ''],
 ['6', '若林', '若林', 'ワカバヤシ', 'PROPN', '名詞-固有名詞-人名-姓', '', 'Person'],
 ['7', '愛', '愛', 'アイ', 'PROPN', '名詞-普通名詞-一般', '', 'Person'],
 ['8', '「', '「', 'キゴウ', 'PUNCT', '補助記号-括弧開', '', ''],
 ['9', '木管', '木管', 'モッカン', 'NOUN', '名詞-普通名詞-一般', '', 'Doctrine_Method_Other'],
 ['10', '五', '五', 'ゴ', 'NUM', '名詞-数詞', '', 'Doctrine_Method_Other'],
 ['11', '重', '重', 'ジュウ', 'NOUN', '名詞-普通名詞-助数詞可能', '', 'Doctrine_Method_Other'],
 ['12', '奏', '奏', 'ソウ', 'NOUN', '名詞-普通名詞-一般', '', 'Doctrine_Method_Other'],
 ['13', 'カラフル', 'カラフル', 'カラフル', 'NOUN', '形状詞-一般', '', 'Doctrine_Method_Other'],
 ['14',
  'アウトリーチ',
  'アウトリーチ',
  'アウトリーチ',
  'NOUN',
  '名詞-普通名詞-一般',
  '',
  'Doctrin