In [21]:
# adopted from https://textblob.readthedocs.io/en/dev/quickstart.html#quickstart
# create a TextBlob

!wget http://nltk.org/data.html
%pip install textblob
from textblob import TextBlob

wiki = TextBlob("Python is a high-level, general-purpose programming language.") #wiki에는 영어본
wiki2 = TextBlob("Python은 고급 범용 프로그래밍 언어입니다.") #wiki2는 번역본

# 오류 발생시에는 python -m textblob.download_corpora 를 통해서 terminal에 실행 후 다음 code를 출력할 것.


--2024-05-06 02:07:08--  http://nltk.org/data.html
Resolving nltk.org (nltk.org)... 15.197.142.173, 3.33.152.147
Connecting to nltk.org (nltk.org)|15.197.142.173|:80... connected.
HTTP request sent, awaiting response... 404 Not Found
2024-05-06 02:07:08 ERROR 404: Not Found.

Note: you may need to restart the kernel to use updated packages.


# Part-of-speech taging

In [22]:
# console에서 python -m textblob.download_corpora 먼저 실행
# Part-of-speech Tagging¶

# 기존의 wiki에 저장된 값을 나눠서 품사별로 분류

# NNP : 명사
# VBZ : 동사
# DT : determiner(한정사, (a/the/none))
# JJ : 형용사
# NN : 명사

wiki.tags

[('Python', 'NNP'),
 ('is', 'VBZ'),
 ('a', 'DT'),
 ('high-level', 'JJ'),
 ('general-purpose', 'JJ'),
 ('programming', 'NN'),
 ('language', 'NN')]

In [23]:
# 기존의 wiki2에 저장된 한국어 문장을 품사별로 분류

# NNP : 명사
# VBZ : 동사
# DT : determiner(한정사, (a/the/none))
# JJ : 형용사
# NN : 명사

# 하지만 분류가 틀렸는데 인식 즉 분류가 불가능하기에 NNP로 일괄 출력하는데 -> 영어를 사용해야 함을 확인 가능함.

wiki2.tags

[('Python은', 'NNP'),
 ('고급', 'NNP'),
 ('범용', 'NNP'),
 ('프로그래밍', 'NNP'),
 ('언어입니다', 'NNP')]

In [24]:
# KoNLPy는 한국어 자연어 처리를 위한 Python 라이브러리
# 상단의 wiki2.tags를 통해 한국어 분류가 불가능하기 때문에 KoNLPy를 사용한다.
# POS 태깅을 포함해 한국어 텍스트 분석에 적합한 여러 도구에 대한 액세스를 제공
# KoNLPy는 Mecab, Komoran, Hannanum, Kkma, and Twitter (Okt)등 다양한 한국어 NLP 도구를 지원

%pip install konlpy

from konlpy.tag import Okt
okt = Okt()
wiki2 = "Python은 고급 범용 프로그래밍 언어입니다."
pos_tags = okt.pos(wiki2)
print(pos_tags)

# 하지만 KoNLPy도 인식 및 품사 분류를 정확하게는 하지 못함.

Note: you may need to restart the kernel to use updated packages.
[('Python', 'Alpha'), ('은', 'Noun'), ('고급', 'Noun'), ('범용', 'Noun'), ('프로그래밍', 'Noun'), ('언어', 'Noun'), ('입니다', 'Adjective'), ('.', 'Punctuation')]


따라서 한국어는 아직은 NLP를 통한 분류가 쉽지 않음을 확인 가능하며 우선은 영어 즉 wiki에 저장된 영어 문장을 활용하여 NLP 처리 과정을 확인해 보겠다.

하단의 코드를 통해서는 중요한 과정이 왜? 이런 결과가 나왔는지에 대한 이해를 중심으로 결과의 도출 이유, 맞은 이유, 틀린 이유, 개선의 가능성에 대한 분석이 가능해야 함에 따라 설명을 할 줄 알아야 한다.

In [26]:
# Noun Phrase Extraction¶

wiki.noun_phrases

WordList(['python'])

# Sentiment Analysis

In [30]:
# Sentiment(polarity, subjectivity) #긍정/부정[-1 ~ 1], 객관/주관[0 ~ 1]에 대한 수치를 값으로 판단함
# The polarity score is a float within the range [-1.0, 1.0].
# The subjectivity is a float within the range [0.0, 1.0] where 0.0 is very objective and 1.0 is very subjective # 0은 객관적, 1은 주관적

testimonial = TextBlob("Textblob is amazingly simple to use. What great fun!")
testimonial.sentiment

# 긍정의 문장을 넣으면 polarity의 값이 높아야 할 것이고, subjectivity의 값이 높으면 주관적임을 의미함.
# polarity : 긍/부정 # subjectivity : 객/주관적


Sentiment(polarity=0.39166666666666666, subjectivity=0.4357142857142857)

# Tokenization

In [34]:
# Tokenization
# 단어를 문장에서 하나씩 분리하여 추출하는 방법

zen = TextBlob(
    "Beautiful is better than ugly. "
    "Explicit is better than implicit. "
    "Simple is better than complex."
)
zen.words

WordList(['Beautiful', 'is', 'better', 'than', 'ugly', 'Explicit', 'is', 'better', 'than', 'implicit', 'Simple', 'is', 'better', 'than', 'complex'])

In [36]:
# 문장을 뽑는 방법 (sentences)

zen.sentences

[Sentence("Beautiful is better than ugly."),
 Sentence("Explicit is better than implicit."),
 Sentence("Simple is better than complex.")]

# Words Inflection and Lemmatization

In [38]:
# Words Inflection and Lemmatization (과거, 현재, 미래 진행 형을 모두 기본형으로 바꾸는 방법임)

sentence = TextBlob("Use 4 spaces per indentation level.")
sentence.words

WordList(['Use', '4', 'spaces', 'per', 'indentation', 'level'])

In [40]:
# singularize() : 단어의 단수화

sentence.words[2].singularize()

'space'

In [41]:
# pluuralize() : 단어의 복수화

sentence.words[-1].pluralize()

'levels'

In [44]:
# Words can be lemmatized by calling the lemmatize method.
# 복수형 단어을 주고 단수형으로 찾아라

from textblob import Word
w = Word("octopi")
w.lemmatize()

'octopus'

In [46]:
# 과거형 단어를 주고 현재형(기본형)으로 바꿔라

w = Word("went")
w.lemmatize("v")  # Pass in WordNet part of speech (verb)

'go'

In [48]:
# WordNet Integration¶
# You can access the synsets for a Word via the synsets property or the get_synsets method, optionally passing in a part of speech.

from textblob import Word
from textblob.wordnet import VERB
word = Word("octopus")
word.synsets

# synsets를 통해 의미의 종류를 출력 (의미가 많을 경우 많이 있음)

[Synset('octopus.n.01'), Synset('octopus.n.02')]

In [50]:
# 영어 단어 "hack"의 의미의 종류를 출력 (8개)

Word("hack").get_synsets(pos=VERB)

[Synset('chop.v.05'),
 Synset('hack.v.02'),
 Synset('hack.v.03'),
 Synset('hack.v.04'),
 Synset('hack.v.05'),
 Synset('hack.v.06'),
 Synset('hack.v.07'),
 Synset('hack.v.08')]

In [52]:
# You can access the definitions for each synset via the definitions property or the define() method, which can also take an optional part-of-speech argument.
# 정의 속성 또는 definite() 메서드를 통해 각 synset에 대한 정의에 액세스할 수 있으며, 이 메서드는 선택적인 품사 인수를 취할 수도 있습니다.

Word("octopus").definitions

# 즉 definitions()를 통해 위에서 synsets를 통해서 확인 가능한 의미의 종류를 모두 세부적으로 보여줌

['tentacles of octopus prepared as food',
 'bottom-living cephalopod having a soft oval body with eight long tentacles']

In [54]:
# 즉 definitions()를 통해 위에서 synsets를 통해서 확인 가능한 의미의 종류를 모두 세부적으로 보여줌

Word("hack").definitions


['one who works hard at boring tasks',
 'a politician who belongs to a small clique that controls a political party for private rather than public ends',
 'a mediocre and disdained writer',
 'a tool (as a hoe or pick or mattock) used for breaking up the surface of the soil',
 'a car driven by a person whose job is to take passengers where they want to go in exchange for money',
 'an old or over-worked horse',
 'a horse kept for hire',
 'a saddle horse used for transportation rather than sport etc.',
 'cut with a hacking tool',
 'be able to manage or manage successfully',
 'cut away',
 'kick on the arms',
 'kick on the shins',
 'fix a computer program piecemeal until it works',
 'significantly cut up a manuscript',
 'cough spasmodically']

# 임베딩의 원조로 볼 수 있는 부분인데, 단어에 해당하는 특정 의미간의 가까운 정도(친밀성)을 확인하는 방법이다.

즉 특정 단어의 특정 의미간의 관계를 수치값으로 확인하는 것으로 (0 ~ 1)로 관계 없음 ~ 관계 있음으로 수치를 통해 확인 가능하다.

In [60]:
from textblob.wordnet import Synset
octopus = Synset("octopus.n.02")
shrimp = Synset("shrimp.n.03")
octopus.path_similarity(shrimp)

0.1111111111111111

In [61]:
from textblob.wordnet import Synset
octopus = Synset("octopus.n.02")
hack = Synset("hack.n.02")
octopus.path_similarity(hack)

0.09090909090909091

In [62]:
Word("dog").get_synsets()

[Synset('dog.n.01'),
 Synset('frump.n.01'),
 Synset('dog.n.03'),
 Synset('cad.n.01'),
 Synset('frank.n.02'),
 Synset('pawl.n.01'),
 Synset('andiron.n.01'),
 Synset('chase.v.01')]

In [63]:
dog = Synset("doc.n.01")
octopus.path_similarity(dog)

0.07692307692307693

In [64]:
# A WordList is a Python list with additional methods.

animals = TextBlob("cat dog octopus")
animals.words

WordList(['cat', 'dog', 'octopus'])

In [65]:
animals.words.pluralize()

WordList(['cats', 'dogs', 'octopodes'])

# 맞춤법, 문법이 틀린 것을 고쳐주는 기능 (correct())

In [67]:
# Spelling Correction
# Use the correct() method to attempt spelling correction.

b = TextBlob("I havv goood speling!")
print(b.correct())


I have good spelling!


In [68]:
# Word objects have a spellcheck() Word.spellcheck() method that returns a list of (word, confidence) tuples with spelling suggestions.

from textblob import Word
w = Word("falibility")
w.spellcheck()

[('fallibility', 1.0)]

# 특정 단어의 빈도수를 확인 하는 방법 word_counts['단어']

In [70]:
# Get Word and Noun Phrase Frequencies¶
# The first is through the word_counts dictionary.


monty = TextBlob("We are no longer the Knights who say Ni. "
                    "We are now the Knights who say Ekki ekki ekki PTANG.")
monty.word_counts['ekki']

3

In [None]:
# The second way is to use the count() method.

monty.words.count('ekki')

In [71]:
# You can specify whether or not the search should be case-sensitive (default is False).

monty.words.count('ekki', case_sensitive=True)

2

In [72]:
# Each of these methods can also be used with noun phrases.

wiki.noun_phrases.count('python')

1

# Parsing

파싱(Parsing)은 문장을 문법 규칙과 여러 종류의 규칙을 이용하여 구조화 한 것을 의미한다. 

이 파싱을 하는 프로그램을 파서(Parser) 혹은 구문 분석기(Syntax Analyzer)라고 하고 문장을 수식과 결합 관계의 트리 구조로 표현한다. 

In [78]:
# Parsing
# By default, TextBlob uses pattern’s parser

b = TextBlob("And now for something completely different.")
print(b.parse())

And/CC/O/O now/RB/B-ADVP/O for/IN/B-PP/B-PNP something/NN/B-NP/I-PNP completely/RB/B-ADJP/O different/JJ/I-ADJP/O ././O/O


# n-grams

연속적으로 있는 단어를 찾아주는 방법이다.

In [79]:
# n-grams
# The TextBlob.ngrams() method returns a list of tuples of n successive words.

blob = TextBlob("Now is better than never.")
blob.ngrams(n=3)

[WordList(['Now', 'is', 'better']),
 WordList(['is', 'better', 'than']),
 WordList(['better', 'than', 'never'])]