# NLP Basics 日本語

Date: 2023/11/07

Reference: https://realpython.com/nltk-nlp-python/
Reference: https://www.nltk.org/book-jp

In [1]:
import nltk

In [2]:
# Bing Chatへ「日本語３０００文字で自然言語処理とは何か説明してください。」と質問したら以下の回答。

example_string = '''\
自然言語処理とは、人間が日常的に使用する言語をコンピューターが理解し、処理する技術です。自然言語処理は、テキストデータの分析、音声認識、機械翻訳、対話型AIチャットボット、検索エンジン、テキストマイニングなど、多岐にわたる分野で活用されています。
自然言語処理は、自然言語をコンピューターが理解できるようにするため、自然言語の曖昧さや文脈を考慮する必要があります。自然言語処理の仕組みは、機械可読目録、コーパス、形態素解析、構文解析、意味解析、文脈解析などの手順で構成されます。
自然言語処理は、ビジネスや社会の多くの分野で注目されており、業務の効率化や人材不足の解消などに貢献しています。今後も、自然言語処理の進化によって、より高度な自然言語処理が可能になることが期待されています。
'''

In [3]:
example_string

'自然言語処理とは、人間が日常的に使用する言語をコンピューターが理解し、処理する技術です。自然言語処理は、テキストデータの分析、音声認識、機械翻訳、対話型AIチャットボット、検索エンジン、テキストマイニングなど、多岐にわたる分野で活用されています。\n自然言語処理は、自然言語をコンピューターが理解できるようにするため、自然言語の曖昧さや文脈を考慮する必要があります。自然言語処理の仕組みは、機械可読目録、コーパス、形態素解析、構文解析、意味解析、文脈解析などの手順で構成されます。\n自然言語処理は、ビジネスや社会の多くの分野で注目されており、業務の効率化や人材不足の解消などに貢献しています。今後も、自然言語処理の進化によって、より高度な自然言語処理が可能になることが期待されています。\n'

In [4]:
#!pip3 install chardet
import chardet

encoding = chardet.detect(example_string.encode())['encoding']
encoding

'utf-8'

## Tokenize : sentences

In [5]:
from nltk.tokenize import sent_tokenize, word_tokenize
sentences = sent_tokenize(example_string)

In [6]:
sentences

['自然言語処理とは、人間が日常的に使用する言語をコンピューターが理解し、処理する技術です。自然言語処理は、テキストデータの分析、音声認識、機械翻訳、対話型AIチャットボット、検索エンジン、テキストマイニングなど、多岐にわたる分野で活用されています。\n自然言語処理は、自然言語をコンピューターが理解できるようにするため、自然言語の曖昧さや文脈を考慮する必要があります。自然言語処理の仕組みは、機械可読目録、コーパス、形態素解析、構文解析、意味解析、文脈解析などの手順で構成されます。\n自然言語処理は、ビジネスや社会の多くの分野で注目されており、業務の効率化や人材不足の解消などに貢献しています。今後も、自然言語処理の進化によって、より高度な自然言語処理が可能になることが期待されています。']

In [7]:
def print_sentences(sentences):
    i = 1
    for s in sentences:
        print('{}. {}'.format(i, s))
        i += 1

In [8]:
print_sentences(sentences)

1. 自然言語処理とは、人間が日常的に使用する言語をコンピューターが理解し、処理する技術です。自然言語処理は、テキストデータの分析、音声認識、機械翻訳、対話型AIチャットボット、検索エンジン、テキストマイニングなど、多岐にわたる分野で活用されています。
自然言語処理は、自然言語をコンピューターが理解できるようにするため、自然言語の曖昧さや文脈を考慮する必要があります。自然言語処理の仕組みは、機械可読目録、コーパス、形態素解析、構文解析、意味解析、文脈解析などの手順で構成されます。
自然言語処理は、ビジネスや社会の多くの分野で注目されており、業務の効率化や人材不足の解消などに貢献しています。今後も、自然言語処理の進化によって、より高度な自然言語処理が可能になることが期待されています。


In [9]:
# 日本語用正規表現Toknizer

jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^　「」！？。\n\r]*[！？。]')

In [10]:
type(jp_sent_tokenizer)

nltk.tokenize.regexp.RegexpTokenizer

In [11]:
sentences = jp_sent_tokenizer.tokenize(example_string)

In [12]:
print_sentences(sentences)

1. 自然言語処理とは、人間が日常的に使用する言語をコンピューターが理解し、処理する技術です。
2. 自然言語処理は、テキストデータの分析、音声認識、機械翻訳、対話型AIチャットボット、検索エンジン、テキストマイニングなど、多岐にわたる分野で活用されています。
3. 自然言語処理は、自然言語をコンピューターが理解できるようにするため、自然言語の曖昧さや文脈を考慮する必要があります。
4. 自然言語処理の仕組みは、機械可読目録、コーパス、形態素解析、構文解析、意味解析、文脈解析などの手順で構成されます。
5. 自然言語処理は、ビジネスや社会の多くの分野で注目されており、業務の効率化や人材不足の解消などに貢献しています。
6. 今後も、自然言語処理の進化によって、より高度な自然言語処理が可能になることが期待されています。


## Tokenize: words

In [13]:
words = word_tokenize(example_string)
words

['自然言語処理とは、人間が日常的に使用する言語をコンピューターが理解し、処理する技術です。自然言語処理は、テキストデータの分析、音声認識、機械翻訳、対話型AIチャットボット、検索エンジン、テキストマイニングなど、多岐にわたる分野で活用されています。',
 '自然言語処理は、自然言語をコンピューターが理解できるようにするため、自然言語の曖昧さや文脈を考慮する必要があります。自然言語処理の仕組みは、機械可読目録、コーパス、形態素解析、構文解析、意味解析、文脈解析などの手順で構成されます。',
 '自然言語処理は、ビジネスや社会の多くの分野で注目されており、業務の効率化や人材不足の解消などに貢献しています。今後も、自然言語処理の進化によって、より高度な自然言語処理が可能になることが期待されています。']

In [14]:
jp_chartype_tokenizer = nltk.RegexpTokenizer(u'([ぁ-んー]+|[ァ-ンー]+|[\u4e00-\u9FFF]+|[^ぁ-んァ-ンー\u4e00-\u9FFF]+)')

In [15]:
import re

words = jp_chartype_tokenizer.tokenize(re.sub('[\n]*', '', example_string))
words

['自然言語処理',
 'とは',
 '、',
 '人間',
 'が',
 '日常的',
 'に',
 '使用',
 'する',
 '言語',
 'を',
 'コンピューター',
 'が',
 '理解',
 'し',
 '、',
 '処理',
 'する',
 '技術',
 'です',
 '。',
 '自然言語処理',
 'は',
 '、',
 'テキストデータ',
 'の',
 '分析',
 '、',
 '音声認識',
 '、',
 '機械翻訳',
 '、',
 '対話型',
 'AI',
 'チャットボット',
 '、',
 '検索',
 'エンジン',
 '、',
 'テキストマイニング',
 'など',
 '、',
 '多岐',
 'にわたる',
 '分野',
 'で',
 '活用',
 'されています',
 '。',
 '自然言語処理',
 'は',
 '、',
 '自然言語',
 'を',
 'コンピューター',
 'が',
 '理解',
 'できるようにするため',
 '、',
 '自然言語',
 'の',
 '曖昧',
 'さや',
 '文脈',
 'を',
 '考慮',
 'する',
 '必要',
 'があります',
 '。',
 '自然言語処理',
 'の',
 '仕組',
 'みは',
 '、',
 '機械可読目録',
 '、',
 'コーパス',
 '、',
 '形態素解析',
 '、',
 '構文解析',
 '、',
 '意味解析',
 '、',
 '文脈解析',
 'などの',
 '手順',
 'で',
 '構成',
 'されます',
 '。',
 '自然言語処理',
 'は',
 '、',
 'ビジネス',
 'や',
 '社会',
 'の',
 '多',
 'くの',
 '分野',
 'で',
 '注目',
 'されており',
 '、',
 '業務',
 'の',
 '効率化',
 'や',
 '人材不足',
 'の',
 '解消',
 'などに',
 '貢献',
 'しています',
 '。',
 '今後',
 'も',
 '、',
 '自然言語処理',
 'の',
 '進化',
 'によって',
 '、',
 'より',
 '高度',
 'な',
 '自然言語処理',
 'が',
 '可能',
 'になることが',
 '期待',
 '

In [16]:
stop_words = ['、', '。']
meaningful_words = lambda text: [word for word in text if word not in stop_words]

In [17]:
from nltk import FreqDist

In [18]:
frequency_distribution = FreqDist(meaningful_words(words))
frequency_distribution

FreqDist({'自然言語処理': 7, 'の': 7, 'が': 4, 'する': 3, 'を': 3, 'は': 3, 'で': 3, 'コンピューター': 2, '理解': 2, '分野': 2, ...})