## 자연어 처리(Natural Language Processing)
+ 자연어는 일상 생활에서 사용하는 언어
+ 자연어 처리는 자연어의 의미를 분석 처리하는 일
+ 응용 => 텍스트 분류, 감성 분석, 문서 요약, 번역, 질의 응답, 음성 인식, 챗봇

### 텍스트 처리

In [1]:
s = 'No pain no gain'

'pain' in s

True

In [2]:
print(s.split())
print(s.split()[1])
print(s.split()[2][::-1])   #뒤에서부터 접근

['No', 'pain', 'no', 'gain']
pain
on


In [3]:
s.index('n')

6

### 대소문자 통합
+ 컴퓨터는 s와 S를 다른 글자로 인식
+ lower(), upper() 를 통해 간단하게 통합 가능

In [4]:
s = 'AbCdEFgH'

print(s.upper())
print(s.lower())

ABCDEFGH
abcdefgh


### 정규화(Normalization)

In [5]:
s = 'I visited UK from US on 2022-09-20'

print(s.replace('UK', 'United Kingdom'))
print(s.replace('US', 'United States'))
print(s.replace('22-', '21-'))

I visited United Kingdom from US on 2022-09-20
I visited UK from United States on 2022-09-20
I visited UK from US on 2021-09-20


### 정규표현식
+ 특정 문자들을 편리하게 지정, 추가/삭제 가능
+ 데이터 전처리에서 많이 사용됨
+ 파이썬의 re 패키지 사용 가능

* 정규 표현식 문법
  
| 특수문자 | 설명 |
| - | - |
| `.` | 앞의 문자 1개를 표현 |
| `?` | 문자 한개를 표현하나 존재할 수도, 존재하지 않을 수도 있음(0개 또는 1개) |
| `*` | 앞의 문자가 0개 이상 |
| `+` | 앞의 문자가 최소 1개 이상 |
| `^` | 뒤의 문자로 문자열이 시작 |
| `\$` | 앞의 문자로 문자열이 끝남 |
| `\{n\}` | `n`번만큼 반복 |
| `\{n1, n2\}` | `n1` 이상, `n2` 이하만큼 반복, n2를 지정하지 않으면 `n1` 이상만 반복 |
| `\[ abc \]` | 안에 문자들 중 한 개의 문자와 매치, a-z처럼 범위도 지정 가능 |
| `\[ ^a \]` | 해당 문자를 제외하고 매치 |
| `a\|b` | `a` 또는 `b`를 나타냄 |

* 정규 표현식에 자주 사용하는 역슬래시(\\)를 이용한 문자 규칙

| 문자 | 설명 |
| - | - |
| `\\` | 역슬래시 자체를 의미 |
| `\d` | 모든 숫자를 의미, [0-9]와 동일 |
| `\D` | 숫자를 제외한 모든 문자를 의미, [^0-9]와 동일 |
| `\s` | 공백을 의미, [ \t\n\r\f\v]와 동일|
| `\S` | 공백을 제외한 모든 문자를 의미, [^ \t\n\r\f\v]와 동일 |
| `\w` | 문자와 숫자를 의미, [a-zA-Z0-9]와 동일 |
| `\W` | 문자와 숫자를 제외한 다른 문자를 의미, [^a-zA-Z0-9]와 동일 |

In [71]:
import re

#re.match(pattern, string)
print(re.match('ab.', 'abc'))  #'ab.'  => [ab 뒤에 문자 하나]인 패턴
print(re.match('ab.', 'ab'))
print(re.match('ab.', 'c'))
print()
print(re.match('[ㄱ-ㅎ]+', 'ㅎㅎ안녕'))
print(re.match('[ㄱ-ㅎ]+', '안녕ㅎㅎ'))
print(re.match('[가-힣]+', '안녕ㅎㅎ'))
print()

#re.compile(pattern) 객체에 .match() 적용
print(re.compile('ab.').match('abc'))

<re.Match object; span=(0, 3), match='abc'>
None
None

<re.Match object; span=(0, 2), match='ㅎㅎ'>
None
<re.Match object; span=(0, 2), match='안녕'>

<re.Match object; span=(0, 3), match='abc'>


In [72]:
#re.search() => match와 달리 문자열 전체를 검사
print(re.search('a', 'ab?'))    #'ab?' => [a 뒤에 b가 있거나/없거나]인 패턴
print(re.search('ab', 'ab?'))
print(re.search('abc', 'ab?'))
print()
print(re.search('[ㄱ-ㅎ|ㅏ-ㅣ]+', 'ㄱㅏ나다라'))
print(re.match('[ㄱ-ㅎ|ㅏ-ㅣ]+', '안 ㄱㅏ'))
print(re.search('[ㄱ-ㅎ|ㅏ-ㅣ]+', '안 ㄱㅏ'))

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 2), match='ab'>
None

<re.Match object; span=(0, 2), match='ㄱㅏ'>
None
<re.Match object; span=(2, 4), match='ㄱㅏ'>


In [8]:
#split => 정규표현식에 해당하는 문자열을 기준으로 문자열 나누기
print(re.compile(' ').split('ab cd ef'))
print(re.compile('c').split('ab cd ef'))
print(re.compile('[1-9]').split('a1bc 2d3e 4fgh 5i'))

['ab', 'cd', 'ef']
['ab ', 'd ef']
['a', 'bc ', 'd', 'e ', 'fgh ', 'i']


In [9]:
#sub => 정규표현식와 일치하는 부분을 다른 문자열로 대체
print(re.sub('[a-z]', 'abcdefg가나다123', '1'))
print(re.sub('[^a-z]', 'abcdefg가나다123', '1'))

1
abcdefg가나다123


In [10]:
#findall => compile한 정규표현식과 맞는 모든 문자(열)을 list로 반환
print(re.findall('[\d]', '1ab 2cd 3ef 4gh!'))  #\d : 숫자
print(re.findall('[\D]', '1ab 2cd 3ef 4gh!'))  #\D : 숫자가 아닌 것(문자, 특수문자)
print(re.findall('[\w]', '1ab 2cd 3ef 4gh!'))  #\w : 문자, 숫자
print(re.findall('[\W]', '1ab 2cd 3ef 4gh!'))  #\W : 문자, 숫자가 아닌 것(특수문자)

['1', '2', '3', '4']
['a', 'b', ' ', 'c', 'd', ' ', 'e', 'f', ' ', 'g', 'h', '!']
['1', 'a', 'b', '2', 'c', 'd', '3', 'e', 'f', '4', 'g', 'h']
[' ', ' ', ' ', '!']


In [11]:
#finditer => compile한 정규표현식과 맞는 모든 문자(열)을 iterator 객체로 반환 => 생성된 객체를 하나씩 자동으로 가져올 수 있어 처리가 간편함
iter1 = re.finditer('[\d]', '1ab 2cd 3ef 4gh!')
print(iter1)
for i in iter1:
    print(i)

<callable_iterator object at 0x00000208DABA4B00>
<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(4, 5), match='2'>
<re.Match object; span=(8, 9), match='3'>
<re.Match object; span=(12, 13), match='4'>


### 토큰화(tokenization)
+ 특수문자에 대한 처리
    + 단어에 일반적으로 사용되는 알파벳, 숫자와 달리 별도의 처리 필요
    + 일괄적으로 특수문자를 제거할 수도 있지만, 특수문자의 의미를 학습에 반영해야 할 수도 있음
    + 따라서 일괄적으로 제거하기 보다는, 데이터의 특성을 파악하고 처리하는 것이 중요



+ 특정 단어에 대한 토큰 분리 방법
    + United States처럼 두 단어가 모여 새로운 의미를 가지는 경우, 사용자가 단어의 특성을 고려해 토큰을 분리해야 학습에 유리

In [12]:
#.split() 사용
s = 'Time is gold'
p = 'The world is a beautiful book.\nBut of little use to him who cannot read it.'

s_tokens = [x for x in s.split(' ')]
p_tokens = [x for x in p.split('\n')]

print(s_tokens)
print(p_tokens)

['Time', 'is', 'gold']
['The world is a beautiful book.', 'But of little use to him who cannot read it.']


In [13]:
#nltk 패키지(natural language tool kit)의 tokenize 모듈의 word_tokenize(), sent_tokenize() 사용
#!pip install nltk
#nltk.download('punkt')

from nltk.tokenize import word_tokenize, sent_tokenize

s_tokens = word_tokenize(s)
p_tokens = sent_tokenize(p)

print(s_tokens)
print(p_tokens)

['Time', 'is', 'gold']
['The world is a beautiful book.', 'But of little use to him who cannot read it.']


In [14]:
#정규표현식을 이용한 토큰화
from nltk.tokenize import RegexpTokenizer

s = 'Where there\'s a will, there\'s a way'

tokenizer = RegexpTokenizer('[\w]+')               #\w => 문자 또는 숫자
print(tokenizer.tokenize(s))

tokenizer = RegexpTokenizer('[\S]+')               #\S => 공백문자가 아닌 것
print(tokenizer.tokenize(s))

tokenizer = RegexpTokenizer('[\s]+', gaps=True)    #\s => 공백문자, gaps => 그 패턴을 이용해 토큰 분리
print(tokenizer.tokenize(s))

['Where', 'there', 's', 'a', 'will', 'there', 's', 'a', 'way']
['Where', "there's", 'a', 'will,', "there's", 'a', 'way']
['Where', "there's", 'a', 'will,', "there's", 'a', 'way']


In [15]:
#keras를 이용한 토큰화
from tensorflow.keras.preprocessing.text import text_to_word_sequence

text_to_word_sequence(s)

['where', "there's", 'a', 'will', "there's", 'a', 'way']

In [16]:
#TextBlob을 이용한 토큰화
from textblob import TextBlob

print(TextBlob(s))
print(TextBlob(s).words)

Where there's a will, there's a way
['Where', 'there', "'s", 'a', 'will', 'there', "'s", 'a', 'way']


#### +) 기타 토크나이저
+ WhiteSpaceTokenizer : 공백을 기준으로 토큰화
+ WordPunktTokenizer : 텍스트를 알파벳, 숫자, 알파벳 외 문자 list로 토큰화
+ MWETokenizer : Multi Word Expression의 약자로, 'United States'처럼 여러 단어로 이루어진 특정 그룹을 한 개체로 취급
+ TweetTokenizer : 트위터에서 사용되는 문장의 토큰화를 위해 만들어졌으며, 문장 속 감성/감정을 다룸

In [23]:
#n-gram 추출 : n개의 어절/음절을 연쇄적으로 분류해 빈도를 분석
from nltk import ngrams
from textblob import TextBlob

s = 'There is no royal road to learning'

bigram = list(ngrams(s.split(), 2))
trigram = list(ngrams(s.split(), 3))
blob_bigram = TextBlob(s).ngrams(n=2)

print('n-gram(2) with nltk =>', bigram)
print('n-gram(3) with nltk =>', trigram)
print('n_gram(2) with textblob =>', blob_bigram)

n-gram(2) with nltk => [('There', 'is'), ('is', 'no'), ('no', 'royal'), ('royal', 'road'), ('road', 'to'), ('to', 'learning')]
n-gram(3) with nltk => [('There', 'is', 'no'), ('is', 'no', 'royal'), ('no', 'royal', 'road'), ('royal', 'road', 'to'), ('road', 'to', 'learning')]
n_gram(2) with textblob => [WordList(['There', 'is']), WordList(['is', 'no']), WordList(['no', 'royal']), WordList(['royal', 'road']), WordList(['road', 'to']), WordList(['to', 'learning'])]


In [27]:
#PoS(Parts of Speech) 태깅 : 문장 내에서 각 단어에 해당하는 품사를 태깅
import nltk
#nltk.download('punkt')
#nltk.download('averaged_perceptron_tagger')
from nltk import word_tokenize

s = 'Think like man of action and act like man of thought.'
words = word_tokenize(s)   #띄어쓰기 기준 토큰화
print(words)

print(nltk.pos_tag(words)) #각 토큰의 품사 태깅

['Think', 'like', 'man', 'of', 'action', 'and', 'act', 'like', 'man', 'of', 'thought', '.']
[('Think', 'VBP'), ('like', 'IN'), ('man', 'NN'), ('of', 'IN'), ('action', 'NN'), ('and', 'CC'), ('act', 'NN'), ('like', 'IN'), ('man', 'NN'), ('of', 'IN'), ('thought', 'NN'), ('.', '.')]


### 불용어 제거
+ 영어의 전치사(on, in), 한국어의 전치사(을/를) 등은 분석에 필요하지 않은 경우가 많음
+ 길이가 짧은 단어, 빈도 수가 적은 단어들도 분석에 큰 영향을 주지 않음
+ 일반적으로 사용되는 도구들은 해당 단어들을 제거해주지만, 완벽하게 제거되지는 않음  
=> 사용자가 불용어 사전을 만들어 해당 단어들을 제거하는 것이 좋음  
=> 도구들이 걸러주지 않는 전치사, 조사 등을 불용어 사전으로 만들면 됨

In [28]:
#직접 불용어 사전 만들기
stop_words = ['on', 'in', 'the']
s = 'singer on the stage'.split()

nouns = []
for noun in s:
    if noun not in stop_words:
        nouns.append(noun)
        
nouns

['singer', 'stage']

In [32]:
#nltk의 불용어 리스트 사용
#nltk.download('stopwords')
from nltk.corpus import stopwords

stop_words = stopwords.words('english')
print(len(stop_words))
print(stop_words[:10])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


In [35]:
s = 'If you do not walk today, you will have to run tomorrow'
words = word_tokenize(s)

no_stop_words = []
for w in words:
    if w not in stop_words:
        no_stop_words.append(w)
        
no_stop_words

['If', 'walk', 'today', ',', 'run', 'tomorrow']

### 오타 교정
+ 텍스트에 오탈자가 존재하는 경우, 사람은 적절한 추정을 통해 이해하는 데에 문제가 없지만, 컴퓨터는 오탈자를 그대로 받아들여 처리함
+ 철자 교정 알고리즘은 이미 개발되어, 워드 프로세서 등 다양한 서비스에서 많이 적용됨

In [39]:
#!pip install autocorrect
from autocorrect import Speller

speller = Speller('en')   #영어

print(speller('peoplle'))
print(speller('aplle'))
print(speller('langage'))

people
apple
language


In [41]:
s = word_tokenize('Earlly biird catchess the womm.')
ss = [speller(i) for i in s]

print(s)
print(ss)

['Earlly', 'biird', 'catchess', 'the', 'womm', '.']
['Early', 'bird', 'catches', 'the', 'worm', '.']


### 언어의 단수화, 복수화

In [48]:
fruit = 'apple banana orange grape tooth'
fruits = 'apples bananas oranges grapes teeth'

tb = TextBlob(fruit)
tbs = TextBlob(fruits)

print(tb.words.pluralize())      #단수 => 복수
print(tbs.words.singularize())   #복수 => 단수

['apples', 'bananas', 'oranges', 'grapes', 'teeth']
['apple', 'banana', 'orange', 'grape', 'tooth']


### 어간(stemming) 추출

In [59]:
stemmer = nltk.stem.PorterStemmer()

print(stemmer.stem('application'))
print(stemmer.stem('beginning'))
print(stemmer.stem('catches'))
print(stemmer.stem('education'))

applic
begin
catch
educ


### 표제어(lemmatization) 추출

In [58]:
#nltk.download('wordnet')
#nltk.download('omw-1.4')
from nltk.stem.wordnet import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize('application'))
print(lemmatizer.lemmatize('beginning'))
print(lemmatizer.lemmatize('catches'))
print(lemmatizer.lemmatize('education'))

application
beginning
catch
education


### 개체명 인식(named entity recognition)

In [64]:
#nltk.download('maxent_ne_chunker')
#nltk.download('words')

s = 'Rome was not built in a day'

tags = nltk.pos_tag(word_tokenize(s))
print(tags)

entities = nltk.ne_chunk(tags, binary=True)
print(entities)   #NE(Named Entity) 태그가 붙은 'Rome'이 개체명임을 알 수 있음

[('Rome', 'NNP'), ('was', 'VBD'), ('not', 'RB'), ('built', 'VBN'), ('in', 'IN'), ('a', 'DT'), ('day', 'NN')]
(S (NE Rome/NNP) was/VBD not/RB built/VBN in/IN a/DT day/NN)


### 단어 중의성(lexical ambiguity)

In [65]:
from nltk.wsd import lesk

s = 'I saw bats.'   #나는, 봤다/톱질했다, 박쥐들/야구배트들

print(lesk(word_tokenize(s), 'saw'))    #verb(동사)
print(lesk(word_tokenize(s), 'bats'))   #noun(명사)

Synset('saw.v.01')
Synset('squash_racket.n.01')


## 한국어 토큰화
+ 한국어는 띄어쓰기가 완벽하지 않아도 의미가 전달되는 경우가 많고, 띄어쓰기가 지켜지지 않았을 가능성 존재
+ 띄어쓰기가 지켜지지 않으면 정상적인 토큰 분리가 어려움
+ 한국어에는 형태소라는 개념이 있어 추가로 고려해줘야 함
+ '그는', '그가' 같은 단어들은 의미는 'he'로 같지만 텍스트 처리에서 다르게 받아들일 수 있어 처리 필요

### 단어 토큰화
+ 띄어쓰기 기준으로 단어를 분리해도 조사, 접속사 등이 남아있어 분석에 어려움이 있음
+ konlpy, MeCab 등 라이브러리를 이용해 조사, 접속사를 분리/제거 가능
+ 그러나 라이브러리를 사용해도 한국어의 전치표현 등으로 인해 제대로 토큰화가 어려움 => 사용자가 별도 처리 필요

In [86]:
#한국어 자연어처리 konlpy, 형태소 분석기 MeCab
#!pip install konlpy
#windows에서 MeCab 설치하는 방법 : https://uwgdqo.tistory.com/363
from konlpy.tag import Mecab

mecab = Mecab(dicpath=r"C:/mecab/mecab-ko-dic")

print('토큰화만 =>', mecab.morphs('아버지가방에들어가신다.'))
print('형태소분석 =>', mecab.pos('아버지가방에들어가신다.'))
print('명사만 =>', mecab.nouns('아버지가방에들어가신다.'))    #조사, 접속사 등 제거

토큰화만 => ['아버지', '가', '방', '에', '들어가', '신다', '.']
형태소분석 => [('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('신다', 'EP+EF'), ('.', 'SF')]
명사만 => ['아버지', '방']


In [91]:
#!pip install kss
import kss

s = '진짜? 내일 어디 가지... 이렇게 문장이 여러개 연결되어 있어도 나눠질까? 밥은 먹었어? 나는...'

kss.split_sentences(s)

['진짜? 내일 어디 가지...', '이렇게 문장이 여러개 연결되어 있어도 나눠질까?', '밥은 먹었어?', '나는...']

In [95]:
#정규표현식을 이용한 토큰화
s = '안녕하세요 ㅋㅋ 저는 자연어 처리(NLP)에 관심이 있는ㄴ 학생입니다.'   #비문으로 테스트

tokenizer = RegexpTokenizer('[가-힣]+')
tokens = tokenizer.tokenize(s)
print(tokens)

tokenizer = RegexpTokenizer('[ㄱ-ㅎ]+', gaps=True)
tokens = tokenizer.tokenize(s)
print(tokens)

['안녕하세요', '저는', '자연어', '처리', '에', '관심이', '있는', '학생입니다']
['안녕하세요 ', ' 저는 자연어 처리(NLP)에 관심이 있는', ' 학생입니다.']


In [96]:
#keras를 이용한 토큰화
s = '성공의 비결은 단 한가지, 잘할 수 있는 일에 광적으로 집중하는 것이다.'

text_to_word_sequence(s)

['성공의', '비결은', '단', '한가지', '잘할', '수', '있는', '일에', '광적으로', '집중하는', '것이다']

In [98]:
#TextBlob을 이용한 토큰화

TextBlob(s).words

WordList(['성공의', '비결은', '단', '한가지', '잘할', '수', '있는', '일에', '광적으로', '집중하는', '것이다'])

## BoW(Bag of Words)

In [100]:
from sklearn.feature_extraction.text import CountVectorizer

s = ['Think like a man of action and act like a man of thought.']

cv = CountVectorizer()
bow = cv.fit_transform(s)

print(bow.toarray())    #인덱스별 등장횟수
print(cv.vocabulary_)   #단어:인덱스

[[1 1 1 2 2 2 1 1]]
{'think': 6, 'like': 3, 'man': 4, 'of': 5, 'action': 1, 'and': 2, 'act': 0, 'thought': 7}


In [101]:
cv = CountVectorizer(stop_words='english')   #불용어 추가
bow = cv.fit_transform(s)

print(bow.toarray())    #인덱스별 등장횟수
print(cv.vocabulary_)   #단어:인덱스

[[1 1 2 2 1 1]]
{'think': 4, 'like': 2, 'man': 3, 'action': 1, 'act': 0, 'thought': 5}


In [105]:
s = ['평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라.']

cv = CountVectorizer()
bow = cv.fit_transform(s)

print(bow.toarray())    #인덱스별 등장횟수
print(cv.vocabulary_)   #단어:인덱스

[[2 1 1 1 1 1 1 1 1]]
{'평생': 8, '것처럼': 0, '꿈을': 3, '꾸어라': 2, '그리고': 1, '내일': 4, '죽을': 7, '오늘을': 6, '살아라': 5}


In [108]:
s = '평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라.'

mecab = Mecab(dicpath=r"C:/mecab/mecab-ko-dic")
tokens = mecab.morphs(re.sub('(\.)', '', s))

vocab, bow = {}, []

for token in tokens:
    if token not in vocab.keys():
        vocab[token] = len(vocab)
        bow.insert(len(vocab)-1, 1)
    else:
        index = vocab.get(token)
        bow[index] += 1
        
print(bow)
print(vocab)

[1, 2, 2, 2, 1, 3, 1, 1, 1, 1, 1, 1, 1]
{'평생': 0, '살': 1, '것': 2, '처럼': 3, '꿈': 4, '을': 5, '꾸': 6, '어라': 7, '그리고': 8, '내일': 9, '죽': 10, '오늘': 11, '아라': 12}


### DTM(Document Term Matrix, 문서 단어 행렬)
+ 문서에 등장하는 여러 단어들의 빈도를 행렬로 표현
+ 즉, 각 문서에 대한 BoW를 하나의 행렬로 표현한 것

In [110]:
s = ['Think like a man of action and act like man of thought.',
     'Try not to become a man of success but rather try to become a man of value.',
     'Give me liberty, or give me death.']

cv = CountVectorizer(stop_words='english')   
bow = cv.fit_transform(s)

print(bow.toarray())  
print(sorted(cv.vocabulary_.items()))

[[1 1 0 0 2 2 0 1 1 0 0]
 [0 0 0 0 0 2 1 0 0 2 1]
 [0 0 1 1 0 0 0 0 0 0 0]]
[('act', 0), ('action', 1), ('death', 2), ('liberty', 3), ('like', 4), ('man', 5), ('success', 6), ('think', 7), ('thought', 8), ('try', 9), ('value', 10)]


In [113]:
import pandas as pd

columns = []
for k, v in sorted(cv.vocabulary_.items(), key=lambda item:item[1]):
    columns.append(k)
    
pd.DataFrame(bow.toarray(), columns=columns)

Unnamed: 0,act,action,death,liberty,like,man,success,think,thought,try,value
0,1,1,0,0,2,2,0,1,1,0,0
1,0,0,0,0,0,2,1,0,0,2,1
2,0,0,1,1,0,0,0,0,0,0,0


### TF-IDF(Term Frequency-Inverse Document Frequency, 어휘빈도-문서역빈도 분석)
+ 단순히 빈도수가 높은 단어를 핵심어로 보는 것이 아니라, 해당 단어가 특정 문서에만 집중적으로 등장할 때를 주목

In [116]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(stop_words='english').fit(s)

print(tfidf.transform(s).toarray())
print(sorted(tfidf.vocabulary_.items()))

[[0.311383   0.311383   0.         0.         0.62276601 0.4736296
  0.         0.311383   0.311383   0.         0.        ]
 [0.         0.         0.         0.         0.         0.52753275
  0.34682109 0.         0.         0.69364217 0.34682109]
 [0.         0.         0.70710678 0.70710678 0.         0.
  0.         0.         0.         0.         0.        ]]
[('act', 0), ('action', 1), ('death', 2), ('liberty', 3), ('like', 4), ('man', 5), ('success', 6), ('think', 7), ('thought', 8), ('try', 9), ('value', 10)]


In [119]:
columns = []
for k, v in sorted(tfidf.vocabulary_.items(), key=lambda item:item[1]):
    columns.append(k)
    
pd.DataFrame(tfidf.transform(s).toarray(), columns=columns)  #값이 클수록 해당 문서에서 중요한 단어

Unnamed: 0,act,action,death,liberty,like,man,success,think,thought,try,value
0,0.311383,0.311383,0.0,0.0,0.622766,0.47363,0.0,0.311383,0.311383,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.527533,0.346821,0.0,0.0,0.693642,0.346821
2,0.0,0.0,0.707107,0.707107,0.0,0.0,0.0,0.0,0.0,0.0,0.0
