<a href="https://colab.research.google.com/github/ShinwooChoi/ESAA-OB/blob/main/9_26_ESAA_OB_%ED%95%84%EC%82%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

범위: <파이썬 머신러닝 완벽 가이드> 8장 p.488-508

텍스트 분석 이해
  - 정의: 비정형 텍스트 데이터를 머신러닝에 적용하기 위한 과정
  - 핵심: 텍스트를 수치 벡터로 변환(피처 벡터화)
  - 기법: BOW, Word2Vec

텍스트 분석 수행 프로세스
  - 텍스트 사전 준비(전처리): 클렌징, 토큰화, 불용어 제거, 어근 추출
  - 피처 벡터화/추출: BOW, TF-IDF, Word2Vec 등
  - ML 모델 학습/평가: 벡터화된 데이터로 모델 학습 및 예측

주요 NLP 패키지
  - NLTK: 전통적 NLP 패키지, 데이터셋·모듈 방대 (속도 한계 있음)
  - Gensim: 토픽 모델링, Word2Vec 지원
  - SpaCy: 빠른 성능, 최근 업무 활용多

텍스트 전처리(정규화)
  - 클렌징: 불필요 문자, 기호 제거 (예: HTML 태그)
  - 문장 토큰화: 문장 단위 분리
  - 단어 토큰화: 공백, 구두점 기준 단어 분리
  - 불용어 제거: 의미 없는 단어 제거 (예: the, is, a 등)
  - Stemming: 단순 규칙 기반 어근 추출 (예: working → work)
  - Lemmatization: 문법·의미 고려한 정확한 원형 복원 (예: better → good)
Bag of Words (BOW)
  - 문서의 모든 단어를 순서/문맥 무시하고 단순 단어 등장 횟수로 표현
  - 장점: 구현 간단, 단어 빈도 기반으로 문서 특징 잘 표현
  - 단점: 문맥 반영 불가, 희소 행렬 발생 → 비효율적

BOW 피처 벡터화
  - 모든 문서에서 단어를 추출 → 각 문서를 단어 벡터로 변환
  - 카운트 기반 벡터화: 단어 등장 횟수로 표현
  - TF-IDF 벡터화: 자주 등장하는 단어 가중치 낮추고, 드문 단어 가중치 높임

CountVectorizer & TfidfVectorizer
  - CountVectorizer: 카운트 기반 벡터화
  - TfidfVectorizer: TF-IDF 기반 벡터화
  - 사이킷런에서 제공, 텍스트 전처리와 피처 변환 동시에 가능

희소 행렬 (Sparse Matrix)
  - 대부분 값이 0인 행렬
  - 문서-단어 벡터화 후 발생
  - 효율적 저장과 연산 필요

COO 형식 (Coordinate)
  - 0이 아닌 데이터만 (row, col, value) 형태로 저장
  - 메모리 절약 가능
  - Scipy의 sparse 모듈로 변환 가능

CSR 형식 (Compressed Sparse Row)
  - COO에서 행 기준으로 압축
  - 0이 아닌 값 + 열 인덱스 + 행 시작 위치로 표현
  - 대규모 데이터 처리에 효율적


In [1]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

text_sample='The Matrix is everywhere its all around us, here even in this room. \
            You can see it out your window or on your television. \
            You feel it when you go to work, or go to church or pay your taxes.'
sentences=sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


In [2]:
from nltk import word_tokenize

sentence="The Matrix is everywhere its all around us, here even in this room."
words=word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [3]:
from nltk import word_tokenize, sent_tokenize

#여러 개의 문장으로 된 입력 데이터를 문장 별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):

    #문장 별로 분리 토큰
    sentences=sent_tokenize(text)
    #분리된 문장 별 단어 토큰화
    word_tokens=[word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#여러 문장에 대해 문장 별 단어 토큰화 수행
word_tokens=tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


In [4]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [5]:
print('영어 stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수: 198
['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been']


In [6]:
import nltk

stopwords=nltk.corpus.stopwords.words('english')
all_tokens=[]
#위 예제에서 3개의 문장 별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
    filtered_words=[]
    #개별 문장 별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
    for word in sentence:
        #소문자로 모두 변환합니다.
        word=word.lower()
        #토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)

print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


In [7]:
from nltk.stem import LancasterStemmer
stemmer=LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [8]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma=WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

[nltk_data] Downloading package wordnet to /root/nltk_data...


amuse amuse amuse
happy happy
fancy fancy


In [9]:
import numpy as np

dense=np.array([[3,0,1], [0,2,0]])

In [10]:
from scipy import sparse

#0이 아닌 데이터 추출
data=np.array([3,1,2])

#행 위치와 열 위치를 각각 배열로 생성
row_pos=np.array([0,0,1])
col_pos=np.array([0,2,1])

#sparse 패키지의 coo_matrix를 이용해 COO 형식으로 희소 행렬 생성
sparse_coo=sparse.coo_matrix((data, (row_pos, col_pos)))

In [11]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

In [12]:
[[0,0,1,0,0,5], [1,4,0,3,2,5], [0,6,0,3,0,0], [2,0,0,0,0,0], [0,0,0,7,0,8], [1,0,0,0,0,0]]

[[0, 0, 1, 0, 0, 5],
 [1, 4, 0, 3, 2, 5],
 [0, 6, 0, 3, 0, 0],
 [2, 0, 0, 0, 0, 0],
 [0, 0, 0, 7, 0, 8],
 [1, 0, 0, 0, 0, 0]]

In [13]:
from scipy import sparse

dense2=np.array([[0, 0, 1, 0, 0, 5],
                [1, 4, 0, 3, 2, 5],
                [0, 6, 0, 3, 0, 0],
                [2, 0, 0, 0, 0, 0],
                [0, 0, 0, 7, 0, 8],
                [1, 0, 0, 0, 0, 0]])

#0이 아닌 데이터 추출
data2=np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

#행 위치와 열 위치를 각각 array로 생성
row_pos=np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos=np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

#COO 형식으로 변환
sparse_coo=sparse.coo_matrix((data2, (row_pos, col_pos)))

#행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind=np.array([0,2,7,9,10,12,13])

#CRS 형식으로 변환
sparse_csr=sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [14]:
dense3=np.array([[0, 0, 1, 0, 0, 5],
                [1, 4, 0, 3, 2, 5],
                [0, 6, 0, 3, 0, 0],
                [2, 0, 0, 0, 0, 0],
                [0, 0, 0, 7, 0, 8],
                [1, 0, 0, 0, 0, 0]])

coo=sparse.coo_matrix(dense3)
csr=sparse.csr_matrix(dense3)