In [1]:
pip install nltk

Collecting nltk
  Downloading nltk-3.7-py3-none-any.whl (1.5 MB)
Collecting tqdm
  Downloading tqdm-4.63.0-py2.py3-none-any.whl (76 kB)
Collecting click
  Downloading click-8.0.4-py3-none-any.whl (97 kB)
Collecting regex>=2021.8.3
  Downloading regex-2022.3.15-cp38-cp38-win_amd64.whl (274 kB)
Installing collected packages: tqdm, regex, click, nltk
Successfully installed click-8.0.4 nltk-3.7 regex-2022.3.15 tqdm-4.63.0
Note: you may need to restart the kernel to use updated packages.


In [5]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'

# 문장 토큰화는 각 문장이 가지는 시맨틱적인 의미가 중요한 요소로 사용될 경우에 사용
sentences = sent_tokenize(text = text_sample) # 각각의 문장으로 구성된 list 객체 반환
print(sentences)

['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\HOME\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [6]:
from nltk import word_tokenize

# 문장을 단어로 토큰화 -> 공백, 콤마, 마침표, 개행문자, 정규표현식 등으로 분리 
# 단어의 순서가 중요하지 않는 경우 단어 토큰화만 사용해도 충분
sentence = 'The Matrix is everywhere its all around us, here even in this room.'
words = word_tokenize(sentence)
print(words)

['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [19]:
from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):

    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

# 여러 문장에 대해 문장별 단어 토큰화 수행
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

# 3개의 문장을 문장별로 먼저 토큰화 했으므로 word_tokens 변수는 3개의 리스트 객체를 내포하는 리스트
# 내포된 리스트 객체는 각각 문장별로 토큰화된 단어를 요소로 가지고 있다.

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


In [11]:
# 스톱 워드 제거 -> 문맥적으로 큰 의미가 없는 단어
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\HOME\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [12]:
# 문맥적 큰 의미가 없는 단어가 빈번하게 나타나면 제거해줘야함 why? 빈번하게 나타나면 중요한 단어로 인지 될 수 있으므로
print('영어 stop words 개수 : ', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수 :  179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [20]:
import nltk
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

# 상기 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
    filtered_words=[]

# 개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
for word in sentence:
    # 소문자로 모두 변환
    word = word.lower()
    # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
    if word not in stopwords:
        filtered_words.append(word)
all_tokens.append(filtered_words)

print(all_tokens)

[['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


In [28]:
# [과제] 위의 word_tokens에서 stopwords를 제거한 후 출력하세요

In [23]:
# Steming and Lematization
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer() # 객체 생성

# steming 정확한 원형을 찾지 못하고 원형 단어에서 철자가 다른 어근 단어로 인식하는 경우가 발생
# 의미론적인것들을 반영못하고 형태론적인것만 반영
print(stemmer.stem('working'), stemmer.stem('work'),stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [25]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()

# stemmer 보다 정확하게 원형 단어 추출
print(lemma.lemmatize('amusing','v'), lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'), lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'), lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\HOME\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


amuse amuse amuse
happy happy
fancy fancy


In [27]:
# 희소 행렬 - COO 형식
import numpy as np
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
                 [1,4,0,3,2,5],
                 [0,6,0,3,0,0],
                 [2,0,0,0,0,0],
                 [0,0,0,7,0,8],
                 [1,0,0,0,0,0]])
# 0이 아닌 데이터 추출
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

# 행 위치와 열 위치를 각각 array로 생성.
row_pos = [0,0,1,1,1,1,1,2,2,3,4,4,5]
col_pos = [2,5,0,1,3,4,5,1,3,0,3,5,0]

# COO형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))
print(sparse_coo,'\n')
print(sparse_coo.toarray())

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1 

[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [29]:
# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0,2,7,9,10,12,13])  # 끝 인덱스에서 +1 하나 더 넣어줌

sparse_csr = sparse.csr_matrix((data2,col_pos,row_pos_ind))
print(sparse_csr,'\n')
print(sparse_csr.toarray())

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1 

[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
