In [1]:
from nltk.tokenize import word_tokenize
text="Happy, New Year! Don't stop. "
result = word_tokenize(text)
print(result)

['Happy', ',', 'New', 'Year', '!', 'Do', "n't", 'stop', '.']


In [2]:
from nltk.tokenize import WordPunctTokenizer
text="Happy, New Year! Don't stop. "
wp_tokenizer = WordPunctTokenizer()
result = wp_tokenizer.tokenize(text)
print(result)


['Happy', ',', 'New', 'Year', '!', 'Don', "'", 't', 'stop', '.']


In [3]:
from nltk import sent_tokenize
text = 'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'
result = sent_tokenize(text)
print(result)


['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


In [5]:
from nltk import sent_tokenize
text = 'I am actively looking for Ph.D. students. and you are a Ph.D student.'
result = sent_tokenize(text)
print(result)


['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [8]:
import re
text = "I was wondering if anyone out there could enlighten me on this car."
# 길이가 1~2인 단어들 정규 표현식 이용하여 삭제
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


In [10]:
from nltk.corpus import stopwords # 불용어 패키지 다운로드
from nltk.tokenize import word_tokenize 
stop_words_list = stopwords.words( 'english' )
print('불용어 개수 :', len(stop_words_list))
print('불용어 20개 출력 :',stop_words_list[:20])

불용어 개수 : 179
불용어 20개 출력 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [12]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 
word_tokens = word_tokenize(example)
result = []
for word in word_tokens: 
    if word not in stop_words: result.append(word) 
print(f'불용어 제거 전 : {word_tokens}, 불용어 제거 후 : {result}')


불용어 제거 전 : ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.'], 불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


시소러스(어휘분류사전, Thesaurus)
- 단어 의미의 계층적 구조를 분석, 분류 후 구축된 데이터베이스
영어 어휘목록/거대한 Database - WordNet
• 프린스턴 대학 심리학 교수 조지 A. 밀러의 인지 과학 연구소에서 개발
• 유의어 집단으로 분류하고 간략하고 일반적인 정의 제공
• 어휘목록 사이의 다양한 의미 관계 기록
• 목적
  사전(단어집)과 시소러스(유의어·반의어 사전) 구성으로 직관적으로 사용 가능
  자동화된 본문 분석과 인공 지능 응용 뒷받침

• 전치사, 관사, 대명사 같은 기능어들 제외
• 명사, 동사, 형용사, 부사 정보만 제공
• Synset 개념 : 동의어 또는 의미적 동일한 데이터 그룹
    • synonym : 동의어
    • antonym : 반의어
    • hypernym : 상의어
    • hyponym : 하위어
    • coordinate term : 동의어
    • holonym : 전체어
    • meronym : 부분어

In [13]:
from nltk.corpus import wordnet
syn = wordnet.synsets('cookbook')[0] # 단어 유의어 집단 객체 추출
print(f'단어 객체 : {syn}') # 객체 이름
print(f'객체 이름 : {syn.name()}') # 객체 이름
print(f'단어 추출 : {syn.lemmas()[0].name()}') # 단어만 표시
print(f'단어 정의 : {syn.definition()}') 

단어 객체 : Synset('cookbook.n.01')
객체 이름 : cookbook.n.01
단어 추출 : cookbook
단어 정의 : a book of recipes and cooking directions


In [14]:
# 상의어(hypernym)
print(f'상의어 : {syn.hypernyms()}')
print(f'하의어 : {syn.hypernyms()[0].hyponyms()}')
print(f'루트 상의어 : {syn.root_hypernyms()}')

상의어 : [Synset('reference_book.n.01')]
하의어 : [Synset('annual.n.02'), Synset('atlas.n.02'), Synset('cookbook.n.01'), Synset('directory.n.01'), Synset('encyclopedia.n.01'), Synset('handbook.n.01'), Synset('instruction_book.n.01'), Synset('source_book.n.01'), Synset('wordbook.n.01')]
루트 상의어 : [Synset('entity.n.01')]


In [15]:
# 어근 추출
syn = wordnet.synsets('cooked')[0]
print(f'{syn.name()} 단어 원형 : {syn.lemmas()}')

cook.v.01 단어 원형 : [Lemma('cook.v.01.cook')]


In [16]:
# 상의어(hypernym)트리 구성 ==> 단어간의 유사도(similarity) 계산에 사용
cb = wordnet.synset('cookbook.n.01')
ib = wordnet.synset('instruction_book.n.01')
print(f'{cb}와 {ib} 유사도 : {cb.wup_similarity(ib)}')

Synset('cookbook.n.01')와 Synset('instruction_book.n.01') 유사도 : 0.9166666666666666


In [18]:
from nltk.stem import LancasterStemmer 

stemmer = LancasterStemmer()

print( stemmer.stem('working'), stemmer.stem('works') ,stemmer.stem('worked'))
print( stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print( stemmer.stem('happier'), stemmer.stem('happiest') )
print( stemmer.stem('fancier'), stemmer.stem('fanciest') )

work work work
amus amus amus
happy happiest
fant fanciest


In [19]:
from nltk.stem import WordNetLemmatizer 
lemma = WordNetLemmatizer( ) ## nltk.download('wordnet')
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

amuse amuse amuse
happy happy
fancy fancy


In [34]:
from nltk.stem import PorterStemmer # 정밀하게 설계되어 정확도 높음, 영어 어간 추출에 좋은 성능
from nltk.stem import LancasterStemmer # Porter의 약 2배인 100개 이상의 규칙 

words=["I","am", "the going to the" ,"having"]
porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()
print('포터 어간 추출 후:',[porter_stemmer.stem(w) for w in words])
print('랭커스터 어간 추출 후:',[lancaster_stemmer.stem(w) for w in words])

포터 어간 추출 후: ['i', 'am', 'the going to th', 'have']
랭커스터 어간 추출 후: ['i', 'am', 'the going to th', 'hav']


In [25]:
from nltk.stem import WordNetLemmatizer # 표제어 추출 => 원형만을 뽑음 
words = ['policy', 'the going', 'am', 'doing', 'organization', 'having', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
lemmatizer = WordNetLemmatizer()
result = [ lemmatizer.lemmatize(word) for word in words ]
print(f'표제어 추출 전 :{words}')
print(f'표제어 추출 후 :{result}')


표제어 추출 전 :['policy', 'the going', 'am', 'doing', 'organization', 'having', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 :['policy', 'the going', 'am', 'doing', 'organization', 'having', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [28]:
import re
r = re.compile("a.c") # a와 c 사이 어떤 1개 문자
ret1=r.search("kkk") 
ret2=r.search('abc')
print(f'fret1=> {ret1} \nret1=> {ret2}')


fret1=> None 
ret1=> <re.Match object; span=(0, 3), match='abc'>


In [29]:
import re
r = re.compile("a.c") # a와 c 사이 어떤 1개 문자
ret1=r.match ("kkka4b") 
ret2=r.match('abc')
print(f'fret1=> {ret1} \nret1=> {ret2}')


fret1=> None 
ret1=> <re.Match object; span=(0, 3), match='abc'>


In [31]:
import re
p = re.compile('[a-z]+')
ret2=p.match("abab")
if ret2:
    print(f'ret2:{ret2}\n{ ret2.group()}') #group() 매치된 문자열 리턴
else:
    print('No Match')


ret2:<re.Match object; span=(0, 4), match='abab'>
abab


In [33]:
from nltk.tokenize import RegexpTokenizer
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"
tokenizer1 = RegexpTokenizer("[\w]+")
tokenizer2 = RegexpTokenizer("\s+", gaps=True)
print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
