<a href="https://colab.research.google.com/github/lizardnote/NLP_practice/blob/main/NLTK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

NLTK


In [None]:
from google.colab import files
uploaded = files.upload()

In [4]:
# ✅ 1. 필수 라이브러리 설치 (필요할 경우만)
# !pip install lightgbm transformers konlpy etc...

# ✅ 2. nltk 리소스 다운로드 (한 번은 필수)
import nltk
nltk.download('punkt')

# ✅ 3. 사용할 토크나이저 설정
from nltk.tokenize import PunktSentenceTokenizer, RegexpTokenizer

# ✅ 문장 분리기
sent_tokenizer = PunktSentenceTokenizer()

# ✅ 단어 분리기: 정규표현식 기반 (단어 기준으로 잘라줌)
word_tokenizer = RegexpTokenizer(r'\w+')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


# Text Analytics
- 테스트 사전 준비작업(전처리)
- 피쳐 벡터화/추출
- ML모델 수립 및 학습/예측 평가

In [None]:
#연습
text = "카드를 재발급 받고 싶어요. 한도 조회는 어디서 하나요?"

# 문장 분리
print("문장 분리:", sent_tokenizer.tokenize(text))

# 단어 분리 (단순하지만 안정적!)
print("단어 분리:", word_tokenizer.tokenize(text))

문장 분리: ['카드를 재발급 받고 싶어요.', '한도 조회는 어디서 하나요?']
단어 분리: ['카드를', '재발급', '받고', '싶어요', '한도', '조회는', '어디서', '하나요']


In [1]:
import pandas as pd
import re
from sklearn.preprocessing import LabelEncoder
from nltk.tokenize import RegexpTokenizer

## 텍스트 전처리
- 클렌징 : html 태그 같은 특정 기호, 불필요한 문자 제거
- 토큰화 : 주로 마침표, 개행문자 등 문장의 마지막을 뜻하는 기호에 따라 분리, 정규표현식으로도 토큰화 가능
- 필터링/스톱 워드 제거/철자 수정
- Stemming
- Lemmatization

In [5]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [6]:
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

### sent_tokenize
- 각 문장으로 구성된 객체 list 반환
- 문장이 가지는 시맨틱적 의미가 중요한 요소로 사용될 때 문장 토큰화 필요

In [7]:
from nltk import sent_tokenize
import nltk


text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
              You can see it out your window or on your television \
              You feel it when you go to work, or go to chuch or pay your taxes.'
sentences = sent_tokenize(text=text_sample)

In [8]:
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 2
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television               You feel it when you go to work, or go to chuch or pay your taxes.']


### word_tokenize


In [9]:
from nltk import word_tokenize

sentence = "The matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [10]:
from nltk import word_tokenize, sent_tokenize

#여러개 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성

def tokenize_text(text):

  sentences = sent_tokenize(text)                        #문장별 분리 토큰
  word_tokens = [word_tokenize(i) for i in sentences]    #분리된 문장별 단어 토큰화
  return word_tokens


#여러 문장에 대한 문장별 단어 토큰화
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)


<class 'list'> 2
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', 'You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'chuch', 'or', 'pay', 'your', 'taxes', '.']]


## Stop Word 제거하기

In [11]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [14]:
print('영어 stop words 갯수:', len(nltk.corpus.stopwords.words('english')))

영어 stop words 갯수: 198


In [15]:
print(nltk.corpus.stopwords.words('english')[:20])

['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been']


In [18]:
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

#위 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 stop word 제거
for sentence in word_tokens:
  filtered_words = []
  #개별 문장별로 토큰화된 문장 list에서 stop word 제거
  for word in sentence:
    word = word.lower()  #소문자 변환
    if word not in stopwords:
      filtered_words.append(word)


  all_tokens.append(filtered_words)

print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', 'feel', 'go', 'work', ',', 'go', 'chuch', 'pay', 'taxes', '.']]


### Stemming and Lemmatization
: 단어 원형 찾기
  - stemming : 원래 단어에서 일부 철자가 훼손된 언근 단어를 추출하는 방식
  - lemmatization : 품사가 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 찾는 방식
  - Porter, lancaster, snowball stemmer 등 제공
  - WordNetlemmatizer 제공

In [19]:
from nltk.stem import LancasterStemmer

stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))

work work work
amus amus amus


In [20]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))

[nltk_data] Downloading package wordnet to /root/nltk_data...


amuse amuse amuse


In [24]:
print(lemma.lemmatize('happiest', 'a'), lemma.lemmatize('happier', 'a'))

happy happy


# Bag of words : Bow
---
- bow모델은 쉽고 빠른 구축이 가능함 / 발생 횟수 기반
- 단, 문맥 의미 반영이 부족하고 희소 행렬 문제로 NLP연구에 제약이 있음

### Bow 피쳐 벡터화
- 카운트 기반의 벡터화 : count를 부여하는 방식
- TF-IDF 기반의 벡터화 : count 하면서 가중치(개별 문서) / 패널티를 주며 벡터화 함(모든 문서에 자주 등장하는 단어는 패널티를 주는 식)


### CountVectorizer , TfidfVectorizer
1.   문자들 소문자로 변경(전처리 작업)
2.   default: 단어 기준  / n_gram_range 반영해 각 단어 토큰화 가능
3.   텍스트 정규화(stop_word 필터링 / 어근 변환 - stemming, lemmatization)
4.   파라미터로 토큰화된 단어 피쳐로 추출, 빈도수 벡터화




### 희소 행렬 : COO ,CSR
- 희소행렬을 물리적으로 적은 메모리 공간을 차지하게 변환하는 방식

#### COO (coordinate 좌표)
- 0이 아닌 데이터만 별도의 데이터 배열에 저장
- 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장

#### CSR (compressed sparse row)
- 행 위치 배열의 고유한 값의 시작 위치만 표기해 반복을 제거
- 위치의 위치를 표시하는 배열을 생성

In [31]:
# COO
import numpy as np

dense = np.array([ [3,0,1] , [0,2,0]])
print(dense)

[[3 0 1]
 [0 2 0]]


In [32]:
from scipy import sparse

# 0이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 배열로 생성
row_pos = np.array([0, 0, 1])
col_pos = np.array([0, 2, 1])

# sparse 패키지의 coo_matrix로 coo형식 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))
print(sparse_coo)

<COOrdinate sparse matrix of dtype 'int64'
	with 3 stored elements and shape (2, 3)>
  Coords	Values
  (0, 0)	3
  (0, 2)	1
  (1, 1)	2


In [29]:
sparse_coo.toarray()  #밀집행렬로 다실 출력

array([[3, 0, 1],
       [0, 2, 0]])

In [34]:
# CSR
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

# 0이 아닌 데이터
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

#행 위치와 열 위치
row_pos = np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos = np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

# coo 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0,2,7,9,10,12,13])

# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 확인')
print(sparse_csr.toarray())


COO 변환된 데이터가 제대로 되었는지 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [35]:
dense3 = np.array([[0,0,1,0,0,5],
                   [1,4,0,3,2,5],
                   [0,6,0,3,0,0],
                   [2,0,0,0,0,0],
                   [0,0,0,7,0,8],
                   [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)