# 1 `textblob` - 객체지향 NLP 라이브러리

`textblob`은 `NLTK`를 기반으로 하여 텍스트 처리를 수월하게 할 수 있도록 다양한 기능을 많이 포함하고 있다. [textblob](https://textblob.readthedocs.io/en/latest/) 웹사이틀 통해서 소개에 나와 있듯이 "Simplified Text Processing"을 모토로 TextBlob 객체를 생성시키면 주요 메쏘드를 통해서 텍스트 처리 작업이 단순해 진다.

In [1]:
!pip install textblob








In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from textblob import TextBlob

In [3]:
text = "In this course we will learn how to perform NLP with TextBlob. TextBlob is a Phython package that's built on top of the famous Python package called NLTK."

In [4]:
# blob을 생성

blob = TextBlob(text)

In [10]:
type(blob)

textblob.blob.TextBlob

In [11]:
# word (단어를 확인)
# .words 하면 단어단위로 토큰화
result = blob.words
type(result), result

(textblob.blob.WordList,
 WordList(['In', 'this', 'course', 'we', 'will', 'learn', 'how', 'to', 'perform', 'NLP', 'with', 'TextBlob', 'TextBlob', 'is', 'a', 'Phython', 'package', 'that', "'s", 'built', 'on', 'top', 'of', 'the', 'famous', 'Python', 'package', 'called', 'NLTK']))

In [12]:
type(result[0]), result[0]

(textblob.blob.Word, 'In')

In [13]:
# 타입 확인
new_string = "Test " + result[0]
new_string, type(new_string)

('Test In', str)

In [14]:
# 문자열 출력
# 딱히 이전과 다른점은 없어보임
result[0].string

'In'

In [15]:
type(result[0]), type(result[0].string)

(textblob.blob.Word, str)

In [16]:
#문장단위로 쪼개줌
sentences = blob.sentences
type(sentences), sentences

(list,
 [Sentence("In this course we will learn how to perform NLP with TextBlob."),
  Sentence("TextBlob is a Phython package that's built on top of the famous Python package called NLTK.")])

In [17]:
# 1번째 문장 타입을 출력 후 확인
sentences[0], type(sentences[0])

(Sentence("In this course we will learn how to perform NLP with TextBlob."),
 textblob.blob.Sentence)

In [18]:
# 두번째 문장을 출력
sentence = sentences[1]
sentence

Sentence("TextBlob is a Phython package that's built on top of the famous Python package called NLTK.")

In [19]:
# print로 출력하면 Sentence("TextBlob is a Phython package that's built on top of the famous Python package called NLTK.")에서 sentence()가 지워짐
print(sentence)

TextBlob is a Phython package that's built on top of the famous Python package called NLTK.


In [17]:
# 문자열 형태로 변환후 출력
# 딱히 이상한점은 없음
print(sentence.string)

TextBlob is a Phython package that's built on top of the famous Python package called NLTK.


In [18]:
# 하지만 타입이 다르다는 점은 알고 있어야 함
type(sentence), type(sentence.string)

(textblob.blob.Sentence, str)

In [21]:
# 본래는 어떤 언어인지를 확인해 주지만 출력은 잘 안됨
print(sentence.detect_language)

<bound method BaseBlob.detect_language of Sentence("TextBlob is a Phython package that's built on top of the famous Python package called NLTK.")>


In [22]:
text_2 = "test test\ntest\ttest"
text_2

'test test\ntest\ttest'

In [23]:
# 토큰화 해주기
blob2 = TextBlob(text_2)
blob2.tokens

WordList(['test', 'test', 'test', 'test'])

In [25]:
blob_3 = TextBlob("I ran a race in Seoul.")

In [26]:
# 태깅해주기
pos = blob_3.tags

In [27]:
pos

[('I', 'PRP'),
 ('ran', 'VBD'),
 ('a', 'DT'),
 ('race', 'NN'),
 ('in', 'IN'),
 ('Seoul', 'NNP')]

In [28]:
# 사용자가 입력을 하면, 모든 고유 명사의 문자열 리스트를 생성

In [29]:
result = input()

In [30]:
print(result)

i am iron man


In [31]:
# NNP  : 고유명사 단수
# NNPS : 고유명사 복수

user_input = input()

user_blob = TextBlob(user_input)

In [32]:
user_blob.tags

[('Koreans', 'NNS'), ('live', 'VBP'), ('in', 'IN'), ('Korea', 'NNP')]

In [33]:

results = []
tags = ["NNS", "NNP"]

In [34]:
for pos_tuple in user_blob.tags: # 4번 반복 [('Koreans', 'NNS'), ('live', 'VBP'), ('in', 'IN'), ('Korea', 'NNP')]
    if pos_tuple[1] in tags:# (1번쨰 반복에서) ["NNS", "NNP"] 안에 'NNS'가 있다면 (2번째 )'VBP'가 있다면....
        results.append(pos_tuple[0].string)# 해당 단어를 추가하기

In [36]:
print(results)

['Koreans', 'Korea']
