# 텍스트분석

## 클렌징

## 텍스트 토큰화

### 문장 토큰화
- 문장의 마침표, 개행문자 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것

In [2]:
from nltk import sent_tokenize
import nltk

# 마침표, 개행문자 등 데이터 세트 다운로드
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [9]:
text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'

sentences = sent_tokenize(text = text_sample)

print(f' sent_tokenize 객체 타입: \n{type(sentences)},\n\n 문장 개수:{len(sentences)}\n')
print(f' 출력: \n{sentences}')

 sent_tokenize 객체 타입: 
<class 'list'>,

 문장 개수:3

 출력: 
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


### 단어 토큰화
- 문장을 단어로 토큰화
- 공백, 쉼포, 마침표, 개행문자 등으로 단어를 분리 혹은 정규표현식을 이용해 분리

In [11]:
from nltk import word_tokenize

sentence = sentences[0]

words = word_tokenize(sentence)

print(f' word_tokenize 객체 타입: \n{type(words)},\n\n 단어 개수:{len(words)}\n')
print(f' 출력: \n{words}')

 word_tokenize 객체 타입: 
<class 'list'>,

 단어 개수:15

 출력: 
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


### 문장 및 단어 토큰화

In [29]:
from nltk import sent_tokenize, word_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하도록 만드는 사용자 함수 생성
def tokenize_text(text):
    ## 문장 토큰화
    sentences = sent_tokenize(text)
    
    ## 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    
    return word_tokens

# 수행
word_tokens = tokenize_text(text_sample)
print(f' word_tokenize 객체 타입: \n{type(word_tokens)},\n\n 단어 개수:{len(word_tokens)}\n')
print(f' 출력:')
word_tokens

 word_tokenize 객체 타입: 
<class 'list'>,

 단어 개수:3

 출력:


[['The',
  'Matrix',
  'is',
  'everywhere',
  'its',
  'all',
  'around',
  'us',
  ',',
  'here',
  'even',
  'in',
  'this',
  'room',
  '.'],
 ['You',
  'can',
  'see',
  'it',
  'out',
  'your',
  'window',
  'or',
  'on',
  'your',
  'television',
  '.'],
 ['You',
  'feel',
  'it',
  'when',
  'you',
  'go',
  'to',
  'work',
  ',',
  'or',
  'go',
  'to',
  'church',
  'or',
  'pay',
  'your',
  'taxes',
  '.']]

### n_gram
- 연속된 n개의 단어를 하나의 토큰화 단위로 분리해 내는 것

## 스톱워드 제거
- 문장을 구성하는 필수 문법 요소지만 문맥적으로 큰 의미가 없는 단어를 사전에 제거
- 빈번하게 텍스트에 나타나면 중요 단어로 인지될 수 있기 때문에 중요한 작업임

In [15]:
import nltk

# 스톱워드 목록 다운로드
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [44]:
print('스톱워드 리스트 내 단어 개수:')
len(nltk.corpus.stopwords.words('english'))

스톱워드 리스트 내 단어 개수:


179

In [46]:
print('스톱워드 리스트:')
nltk.corpus.stopwords.words('english')[:20]

스톱워드 리스트:


['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his']

In [42]:
import nltk

# 스톱워드 리스트 생성
stopwords = nltk.corpus.stopwords.words('english')


all_tokens = []
for sentence in word_tokens:
    
    filtered_words = []
    for word in sentence:
        # 소문자로 변환
        word = word.lower()
        # 토큰화된 개별 단어가 스톱워드 리스트에 포함되지 않으면 리스트에 담기
        if word not in stopwords:
            filtered_words.append(word)
        # 문장별 걸러진 단어를 최종 리스트에 담기    
    all_tokens.append(filtered_words)
        
all_tokens

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'],
 ['see', 'window', 'television', '.'],
 ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]