下記は青空文庫「吾輩は猫である」の文章をGiNZAとMeCab×neologdnで形態素解析したtxtファイルをカレントディレクトリに保存した状態で実行する

In [1]:
import spacy
import pandas as pd
import numpy as np

# 可視化用のライブラリ
from matplotlib import pyplot as plt
import seaborn as sns
%matplotlib inline

import neologdn
import MeCab

In [2]:
def basic_check(df):
    '''
    読み込んだデータフレームの
    ・行と列の長さ
    ・各カラムの欠損値の数
    ・各カラムのデータの型
    ・先頭&末尾から5行目まで
    を確認する

    '''
    print('行と列の長さ\n{}'.format(df.shape))
    print('-'*50)
    print('各カラムの欠損値の数\n{}'.format(df.isnull().sum()))
    print('-'*50)
    print(df.info())
    print('-'*50)
    print('各カラムのデータ型\n{}'.format(df.dtypes))
    display(df.head(), df.tail())

### 形態素解析して保存したテキストファイルを読み込みデータフレーム型で保存する

In [3]:
def text_to_dataframe(text, separation, col_names:list):
    '''
    関数内容
    ・txtファイルをデータフレームとして読み込む関数
    Input
    ・text：テキストファイル名
    ・separation：タブ区切り('\t')orカンマ区切り(',')を指定
    ・col_names：指定したいカラム名、リスト型で与える必要あり
    関数使用方法
    ・test_text = text_to_dataframe('neko.txt.ginza', '\t', ['index', 'surface', 'original', 'type'])
    '''
    text_df = pd.read_csv(text, sep=separation, names=col_names)
    
    return text_df

In [4]:
'''GiNZA側'''
#g_text = pd.read_csv('neko.txt.ginza', sep='\t', names=['index', 'surface', 'original', 'type'])
g_text = text_to_dataframe('neko.txt.ginza',  '\t', ['index', 'surface', 'original', 'type'])
basic_check(g_text)

行と列の長さ
(216573, 4)
--------------------------------------------------
各カラムの欠損値の数
index          0
surface     9429
original    9429
type        9429
dtype: int64
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 216573 entries, 0 to 216572
Data columns (total 4 columns):
index       216573 non-null object
surface     207144 non-null object
original    207144 non-null object
type        207144 non-null object
dtypes: object(4)
memory usage: 6.6+ MB
None
--------------------------------------------------
各カラムのデータ型
index       object
surface     object
original    object
type        object
dtype: object


Unnamed: 0,index,surface,original,type
0,0,﻿,﻿,"補助記号,一般,*,*"
1,1,一,一,"名詞,数詞,*,*"
2,EOS,,,
3,0,吾輩,我が輩,"代名詞,*,*,*"
4,1,は,は,"助詞,係助詞,*,*"


Unnamed: 0,index,surface,original,type
216568,EOS,,,
216569,0,ありがたい,有り難い,"形容詞,一般,*,*"
216570,1,ありがたい,有り難い,"形容詞,一般,*,*"
216571,2,。,。,"補助記号,句点,*,*"
216572,EOS,,,


In [5]:
# indexカラム&欠損値があるレコードを削除
g_text2 = g_text.drop(['index'], axis=1).dropna()

basic_check(g_text2)

行と列の長さ
(207144, 3)
--------------------------------------------------
各カラムの欠損値の数
surface     0
original    0
type        0
dtype: int64
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
Int64Index: 207144 entries, 0 to 216571
Data columns (total 3 columns):
surface     207144 non-null object
original    207144 non-null object
type        207144 non-null object
dtypes: object(3)
memory usage: 6.3+ MB
None
--------------------------------------------------
各カラムのデータ型
surface     object
original    object
type        object
dtype: object


Unnamed: 0,surface,original,type
0,﻿,﻿,"補助記号,一般,*,*"
1,一,一,"名詞,数詞,*,*"
3,吾輩,我が輩,"代名詞,*,*,*"
4,は,は,"助詞,係助詞,*,*"
5,猫,猫,"名詞,普通名詞,一般,*"


Unnamed: 0,surface,original,type
216566,南無阿弥陀仏,南無阿弥陀仏,"名詞,普通名詞,一般,*"
216567,。,。,"補助記号,句点,*,*"
216569,ありがたい,有り難い,"形容詞,一般,*,*"
216570,ありがたい,有り難い,"形容詞,一般,*,*"
216571,。,。,"補助記号,句点,*,*"


In [6]:
'''MeCab×neologdn側'''
#m_text = pd.read_csv('neko.txt.mecab', sep='\t', names=['surface', 'katakana', 'original', 'type','katsuyoukei', 'katsuyoukata'])
m_text = text_to_dataframe('neko.txt.mecab', '\t', ['surface', 'katakana', 'original', 'type','katsuyoukei', 'katsuyoukata'])

basic_check(m_text)

行と列の長さ
(202696, 6)
--------------------------------------------------
各カラムの欠損値の数
surface              1
katakana             1
original             1
type                 1
katsuyoukei     152054
katsuyoukata    152054
dtype: int64
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 202696 entries, 0 to 202695
Data columns (total 6 columns):
surface         202695 non-null object
katakana        202695 non-null object
original        202695 non-null object
type            202695 non-null object
katsuyoukei     50642 non-null object
katsuyoukata    50642 non-null object
dtypes: object(6)
memory usage: 9.3+ MB
None
--------------------------------------------------
各カラムのデータ型
surface         object
katakana        object
original        object
type            object
katsuyoukei     object
katsuyoukata    object
dtype: object


Unnamed: 0,surface,katakana,original,type,katsuyoukei,katsuyoukata
0,,﻿,﻿,記号-一般,,
1,一,イチ,一,名詞-数,,
2,,,,記号-空白,,
3,吾輩は猫である,ワガハイハネコデアル,吾輩は猫である,名詞-固有名詞-一般,,
4,。,。,。,記号-句点,,


Unnamed: 0,surface,katakana,original,type,katsuyoukei,katsuyoukata
202691,。,。,。,記号-句点,,
202692,ありがたい,アリガタイ,ありがたい,形容詞-自立,形容詞・アウオ段,基本形
202693,ありがたい,アリガタイ,ありがたい,形容詞-自立,形容詞・アウオ段,基本形
202694,。,。,。,記号-句点,,
202695,EOS,,,,,


In [7]:
# surfaceが「EOS」or 欠損値となっているレコードを削除
m_text2 = m_text[m_text['surface']!='EOS'].dropna(subset=['surface'])

basic_check(m_text2)

行と列の長さ
(202694, 6)
--------------------------------------------------
各カラムの欠損値の数
surface              0
katakana             0
original             0
type                 0
katsuyoukei     152052
katsuyoukata    152052
dtype: int64
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
Int64Index: 202694 entries, 1 to 202694
Data columns (total 6 columns):
surface         202694 non-null object
katakana        202694 non-null object
original        202694 non-null object
type            202694 non-null object
katsuyoukei     50642 non-null object
katsuyoukata    50642 non-null object
dtypes: object(6)
memory usage: 10.8+ MB
None
--------------------------------------------------
各カラムのデータ型
surface         object
katakana        object
original        object
type            object
katsuyoukei     object
katsuyoukata    object
dtype: object


Unnamed: 0,surface,katakana,original,type,katsuyoukei,katsuyoukata
1,一,イチ,一,名詞-数,,
2,,,,記号-空白,,
3,吾輩は猫である,ワガハイハネコデアル,吾輩は猫である,名詞-固有名詞-一般,,
4,。,。,。,記号-句点,,
5,名前,ナマエ,名前,名詞-一般,,


Unnamed: 0,surface,katakana,original,type,katsuyoukei,katsuyoukata
202690,南無阿弥陀仏,ナムアミダブツ,南無阿弥陀仏,名詞-一般,,
202691,。,。,。,記号-句点,,
202692,ありがたい,アリガタイ,ありがたい,形容詞-自立,形容詞・アウオ段,基本形
202693,ありがたい,アリガタイ,ありがたい,形容詞-自立,形容詞・アウオ段,基本形
202694,。,。,。,記号-句点,,


### 品詞の度数を確認

In [8]:
'''GiNZA側'''
g_text2.groupby('type').count().iloc[:, :1].rename(columns={'surface':'度数'}).sort_values('度数', ascending=False)

Unnamed: 0_level_0,度数
type,Unnamed: 1_level_1
"助詞,格助詞,*,*",33119
"名詞,普通名詞,一般,*",26778
"助動詞,*,*,*",20222
"動詞,一般,*,*",15289
"動詞,非自立可能,*,*",14061
"助詞,接続助詞,*,*",12326
"助詞,係助詞,*,*",9778
"補助記号,句点,*,*",8065
"補助記号,読点,*,*",6773
"副詞,*,*,*",6205


In [9]:
'''MeCab×neologdn側'''
m_text2.groupby('type').count().iloc[:, :1].rename(columns={'surface':'度数'}).sort_values('度数', ascending=False)

Unnamed: 0_level_0,度数
type,Unnamed: 1_level_1
名詞-一般,26349
動詞-自立,23854
助詞-格助詞-一般,20304
助動詞,19137
助詞-接続助詞,11756
助詞-係助詞,9000
記号-句点,7484
助詞-連体化,6989
記号-読点,6772
名詞-非自立-一般,5226


## 単語の度数を算出

In [10]:
'''GiNZA側'''
g_text2.groupby('surface').count().iloc[:, :1].rename(columns={'original':'度数'}).sort_values('度数', ascending=False).head(20)

Unnamed: 0_level_0,度数
surface,Unnamed: 1_level_1
の,9541
。,7486
て,7401
に,7057
、,6773
は,6485
と,6147
を,6118
が,5394
で,4542


In [11]:
'''MeCab×neologdn側'''
m_text2.groupby('surface').count().iloc[:, :1].rename(columns={'katakana':'度数'}).sort_values('度数', ascending=False).head(20)

Unnamed: 0_level_0,度数
surface,Unnamed: 1_level_1
の,9108
。,7484
、,6772
て,6702
は,6385
に,6178
を,6068
と,5483
が,5260
た,3916
