# 자연어 데이터 처리
- nltk 모듈
- konlpy 모듈: 한국어 처리 모듈

### 토큰화(Tokenization)
- 크롤링 등으로 얻은 데이터를 사용하고자 하는 용도에 맞게 처리하는 과정
- 토큰화(Tokenization)/정제(Cleaning)/정규화(Normalization) 진행
- 토큰화: 주어진 데이터에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 함
- 단어 토큰화의 경우 token은 단어를 의미한다고 생각하면 됨

### 한글 형태소 분석
- 형태소(morpheme): 뜻을 가진 가장 작은 말의 단위
* 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소(체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등)
* 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간 등을 말함

#### Konlpy 형태소 분석

In [1]:
import matplotlib.pyplot as plt
import platform

if platform.system() == "Darwin":  # 맥
    plt.rc('font', family='AppleGothic')
elif platform.system() == "Windows":  # 윈도우
    plt.rc('font', family='Malgun Gothic')
elif platform.system() == "Linux":  # 리눅스 = 코랩
    plt.rc('font', family='Malgun Gothic')

In [2]:
# nltk, Konlpy 설치
#!pip install nltk
#!pip install Konlpy

In [3]:
## konlpy을 이용한 형태소 확인
from konlpy.tag import Okt

text="한국어 분석을 시작합니다. 형태소별로 추출합니다."

okt=Okt()

# 명사 추출
okt.nouns(text)  

['한국어', '분석', '시작', '형태소', '별로', '추출']

Okt 형태소 분석기 토큰화 기능
- morphs : 형태소 추출
-  pos : 품사 태깅(Part-of-speech tagging)
-  nouns : 명사 추출

In [4]:
# 단어를 분류하고 형태소별로 출력
okt.pos(text)

[('한국어', 'Noun'),
 ('분석', 'Noun'),
 ('을', 'Josa'),
 ('시작', 'Noun'),
 ('합니다', 'Verb'),
 ('.', 'Punctuation'),
 ('형태소', 'Noun'),
 ('별로', 'Noun'),
 ('추출', 'Noun'),
 ('합니다', 'Verb'),
 ('.', 'Punctuation')]

### 파일을 가져와 처리하기
- 파일: it-life-hack-6292880.txt

In [5]:
# 파일 오픈
f = open('./data/it-life/it-life-hack-6292880.txt', encoding='utf-8')

# 파일 내용 읽어오기
text = f.read()

# 데이터 내용 확인하기
print(text)

# 파일 닫기
f.close()

http://news.livedoor.com/article/detail/6292880/
2012-02-19T13 : 00 : 00 + 0900
구형 Mac에서 금단의 파워 업! 최신 PC 나 소프트웨어를 한꺼번에 체크 [IT 플래시백]
텔레비전이나 Twitter와 연계 할 수있는 PC 나 프로세서, 전환 PC 등 재미있는 PC가 속속 등장했다. 구형 Mac의 금단이라고도 할 수있는 파워 업 방법에서 NEC의 최신 PC, 화제의 ThinkPad X1 Hybrid, 새로운 보안 소프트웨어까지 한꺼번에 소개합니다.

■ 인텔 SSD 520을 Mac에 장착! 구형 Mac은 얼마나 빨라질 것인가? (위)
인텔이 최신 SSD '520 시리즈'를 출시했다. 현재 SSD 중에서도 최고의 성능을 자랑하는 이 제품을 구형 Mac의 고속화를 도모한다는 점에서 리뷰 해 보았다. 조금 색다른 리뷰가되지만, 어느 정도의 효과가 있는지, 기대가 크다.


■ http : //itlifehack.jp/archives/6716997.html
ThinkPad X1 Hybrid는 사용하는 CPU가 x86 (인텔 Core i 등)에서 ARM으로 전환가능한 하이브리드 PC, 하지만 이와 동시에 OS도 바뀐다.


■ 초기 비용, 업데이트 비용 모두 무료! 저스트시스템, 도마뱀로그가 인상적인 보안 소프트웨어
현재는 많은 사용자들이 PC에 보안 프로그램을 도입하고 있지만, 그 대부분은 매년 5,000 엔 정도 드는 업데이트 비용 과 그 절차에 대해 불만을 가지고있다. 유료 소프트웨어를 이용하는 사용자의 약 80 %는 무료 보안 소프트웨어를 알고 있음에도 불구하고, 성능면에서 뒤 떨어지는 게 아니냐는 불안에서 도입을 미루고 있는 상황이다.


■ 텔레비전의 새로운 활용 방법을 제안! NEC의 봄 신상 PC는 TV와 Twitter를 연계
NEC는 2012 년 2 월 14 일, 개인용 데스크톱 PC 인 'VALUESTAR "시리즈 3 종류 16 모델을 2 월 16 일부터 판매한다고 발표했다. 신상품은 더 

In [6]:
from konlpy.tag import Okt

# 인스턴스 객체 생성
okt = Okt()

# 형태소(토큰) 분석
tokens = okt.pos(text)
#print(tokens)

for token in tokens:
    print(token)

('http://news.livedoor.com/article/detail/6292880/', 'URL')
('\n', 'Foreign')
('2012-02', 'Number')
('-', 'Punctuation')
('19', 'Number')
('T', 'Alpha')
('13', 'Number')
(':', 'Punctuation')
('00', 'Number')
(':', 'Punctuation')
('00', 'Number')
('+', 'Punctuation')
('0900', 'Number')
('\n', 'Foreign')
('구형', 'Noun')
('Mac', 'Alpha')
('에서', 'Josa')
('금단', 'Noun')
('의', 'Josa')
('파워', 'Noun')
('업', 'Noun')
('!', 'Punctuation')
('최신', 'Noun')
('PC', 'Alpha')
('나', 'Noun')
('소프트웨어', 'Noun')
('를', 'Josa')
('한꺼', 'Verb')
('번', 'Noun')
('에', 'Josa')
('체크', 'Noun')
('[', 'Punctuation')
('IT', 'Alpha')
('플래시백', 'Noun')
(']', 'Punctuation')
('\n', 'Foreign')
('텔레비전', 'Noun')
('이나', 'Josa')
('Twitter', 'Alpha')
('와', 'Verb')
('연', 'Modifier')
('계', 'Noun')
('할', 'Verb')
('수', 'Noun')
('있는', 'Adjective')
('PC', 'Alpha')
('나', 'Noun')
('프로세서', 'Noun')
(',', 'Punctuation')
('전환', 'Noun')
('PC', 'Alpha')
('등', 'Noun')
('재미있는', 'Adjective')
('PC', 'Alpha')
('가', 'Verb')
('속속', 'Adverb')
('등장', 'Noun'

### 텍스트 데이터 정제 및 정규화
- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듬

1. 규칙에 기반한 표기가 다른 단어들의 통합
2. 영문인 경우 대, 소문자 통합
3. 불필요한 단어(노이즈 데이터)의 제거
 * 등장 빈도가 적은 단어
 * 길이가 짧은 단어

- 정규 표현법을 통한 노이즈 데이터 제거 

In [9]:
import re

# 숫자, 영문자 등 문자열 제거
reg_text = re.sub(r'[0-9a-zA-Z]+', "", text)
print(reg_text)
print("===============================================")

# 불필요한 기호 제거
reg_text = re.sub(r'[:;+/\.,[]-]', "", reg_text)
print(reg_text)

://..////
-- :  :  + 
구형 에서 금단의 파워 업! 최신  나 소프트웨어를 한꺼번에 체크 [ 플래시백]
텔레비전이나 와 연계 할 수있는  나 프로세서, 전환  등 재미있는 가 속속 등장했다. 구형 의 금단이라고도 할 수있는 파워 업 방법에서 의 최신 , 화제의   , 새로운 보안 소프트웨어까지 한꺼번에 소개합니다.

■ 인텔  을 에 장착! 구형 은 얼마나 빨라질 것인가? (위)
인텔이 최신  ' 시리즈'를 출시했다. 현재  중에서도 최고의 성능을 자랑하는 이 제품을 구형 의 고속화를 도모한다는 점에서 리뷰 해 보았다. 조금 색다른 리뷰가되지만, 어느 정도의 효과가 있는지, 기대가 크다.


■  : //.//.
  는 사용하는 가  (인텔   등)에서 으로 전환가능한 하이브리드 , 하지만 이와 동시에 도 바뀐다.


■ 초기 비용, 업데이트 비용 모두 무료! 저스트시스템, 도마뱀로그가 인상적인 보안 소프트웨어
현재는 많은 사용자들이 에 보안 프로그램을 도입하고 있지만, 그 대부분은 매년 , 엔 정도 드는 업데이트 비용 과 그 절차에 대해 불만을 가지고있다. 유료 소프트웨어를 이용하는 사용자의 약  %는 무료 보안 소프트웨어를 알고 있음에도 불구하고, 성능면에서 뒤 떨어지는 게 아니냐는 불안에서 도입을 미루고 있는 상황이다.


■ 텔레비전의 새로운 활용 방법을 제안! 의 봄 신상 는 와 를 연계
는  년  월  일, 개인용 데스크톱  인 ' "시리즈  종류  모델을  월  일부터 판매한다고 발표했다. 신상품은 더 강력해진 녹화 기능 외에도  시청 · 녹화 기능에 더해서 업계 최초로 인기 를 연계한 ' 트위트 플러스'를 추가하는 등  컴퓨터 만의 기능을 탑재. 스마트 폰 홈 네트워크 대응도 강화하고, "안심 간단 쾌적"한 디지털 엔터테인먼트를 제안하여, 주요 모델에 대해 다음과 같이 기능 강화를 실시했다.


■ 마치 축제같은 출하식! 렛츠 노트  출하 시작
 월  일에 발매되는 '  / 의 출하식이  월  일 국내 제조 거점인 고베 공장에서 

In [10]:
### \n/\s를  " " 로 변경
reg_text = re.sub(r'[\n\s]+', "", reg_text)
print(reg_text)

://..////--::+구형에서금단의파워업!최신나소프트웨어를한꺼번에체크[플래시백]텔레비전이나와연계할수있는나프로세서,전환등재미있는가속속등장했다.구형의금단이라고도할수있는파워업방법에서의최신,화제의,새로운보안소프트웨어까지한꺼번에소개합니다.■인텔을에장착!구형은얼마나빨라질것인가?(위)인텔이최신'시리즈'를출시했다.현재중에서도최고의성능을자랑하는이제품을구형의고속화를도모한다는점에서리뷰해보았다.조금색다른리뷰가되지만,어느정도의효과가있는지,기대가크다.■://.//.는사용하는가(인텔등)에서으로전환가능한하이브리드,하지만이와동시에도바뀐다.■초기비용,업데이트비용모두무료!저스트시스템,도마뱀로그가인상적인보안소프트웨어현재는많은사용자들이에보안프로그램을도입하고있지만,그대부분은매년,엔정도드는업데이트비용과그절차에대해불만을가지고있다.유료소프트웨어를이용하는사용자의약%는무료보안소프트웨어를알고있음에도불구하고,성능면에서뒤떨어지는게아니냐는불안에서도입을미루고있는상황이다.■텔레비전의새로운활용방법을제안!의봄신상는와를연계는년월일,개인용데스크톱인'"시리즈종류모델을월일부터판매한다고발표했다.신상품은더강력해진녹화기능외에도시청·녹화기능에더해서업계최초로인기를연계한'트위트플러스'를추가하는등컴퓨터만의기능을탑재.스마트폰홈네트워크대응도강화하고,"안심간단쾌적"한디지털엔터테인먼트를제안하여,주요모델에대해다음과같이기능강화를실시했다.■마치축제같은출하식!렛츠노트출하시작월일에발매되는'/의출하식이월일국내제조거점인고베공장에서열렸다.동사의컴퓨터로는처음실시하는출하식으로,이제품에얼마나힘이들어가있는지알수있다.[엡손정품잉크]잉크카트리지색세트엡손출판사:..입소문을본다


### 한국어 어간 어미 추출
- 어간(stem) : 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분
- 어미(ending): 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분

In [11]:
from konlpy.tag import Okt

# 인스턴스 객체 생성
okt = Okt()

# 숫자, 영문자 등 문자열 제거
reg_text = re.sub(r'[^가-힣]', "", text)
print(reg_text)

# 형태소(토큰) 분석
tokens = okt.morphs(reg_text)
for token in tokens:
    print(token)

구형에서금단의파워업최신나소프트웨어를한꺼번에체크플래시백텔레비전이나와연계할수있는나프로세서전환등재미있는가속속등장했다구형의금단이라고도할수있는파워업방법에서의최신화제의새로운보안소프트웨어까지한꺼번에소개합니다인텔을에장착구형은얼마나빨라질것인가위인텔이최신시리즈를출시했다현재중에서도최고의성능을자랑하는이제품을구형의고속화를도모한다는점에서리뷰해보았다조금색다른리뷰가되지만어느정도의효과가있는지기대가크다는사용하는가인텔등에서으로전환가능한하이브리드하지만이와동시에도바뀐다초기비용업데이트비용모두무료저스트시스템도마뱀로그가인상적인보안소프트웨어현재는많은사용자들이에보안프로그램을도입하고있지만그대부분은매년엔정도드는업데이트비용과그절차에대해불만을가지고있다유료소프트웨어를이용하는사용자의약는무료보안소프트웨어를알고있음에도불구하고성능면에서뒤떨어지는게아니냐는불안에서도입을미루고있는상황이다텔레비전의새로운활용방법을제안의봄신상는와를연계는년월일개인용데스크톱인시리즈종류모델을월일부터판매한다고발표했다신상품은더강력해진녹화기능외에도시청녹화기능에더해서업계최초로인기를연계한트위트플러스를추가하는등컴퓨터만의기능을탑재스마트폰홈네트워크대응도강화하고안심간단쾌적한디지털엔터테인먼트를제안하여주요모델에대해다음과같이기능강화를실시했다마치축제같은출하식렛츠노트출하시작월일에발매되는의출하식이월일국내제조거점인고베공장에서열렸다동사의컴퓨터로는처음실시하는출하식으로이제품에얼마나힘이들어가있는지알수있다엡손정품잉크잉크카트리지색세트엡손출판사입소문을본다
구형
에서
금단
의
파워
업
최신
나
소프트웨어
를
한꺼
번
에
체크
플래시백
텔레비전
이나
와
연
계
할수있는나
프로세서
전환
등
재미있는가
속속
등장
했다
구형
의
금단
이라고도
할수있는
파워
업
방법
에서의
최신
화제
의
새로운
보안
소프트웨어
까지
한
꺼번
에
소개
합니다
인텔
을
에
장착
구형
은
얼마나
빨라질
것
인
가위
인텔
이
최신
시리즈
를
출시
했다
현재
중
에서도
최고
의
성능
을
자랑
하
는
이
제품
을
구형
의
고속
화
를
도모
한다는
점
에서
리뷰
해보았다
조금
색다른
리뷰
가
되지만
어느
정도
의
효과
가
있는지기
대

### 불용어(Stopword) 제거
- 갖고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해서는 큰 의미가 없는 단어 토큰을 제거하는 작업
- 한글 보편적 불용어: https://www.ranks.nl/stopwords/korean


In [12]:
f=open('Stopwords.txt', encoding='utf-8')
stopword=f.read()
print(stopword.split("\n"))
stopword=stopword.split("\n")

['아', '휴', '아이구', '아이쿠', '아이고', '어', '나', '우리', '저희', '따라', '의해', '을', '를', '에', '의', '가', '으로', '로', '에게', '뿐이다', '의거하여', '근거하여', '입각하여', '기준으로', '예하면', '예를 들면', '예를 들자면', '저', '소인', '소생', '저희', '지말고', '하지마', '하지마라', '다른', '물론', '또한', '그리고', '비길수 없다', '해서는 안된다', '뿐만 아니라', '만이 아니다', '만은 아니다', '막론하고', '관계없이', '그치지 않다', '그러나', '그런데', '하지만', '든간에', '논하지 않다', '따지지 않다', '설사', '비록', '더라도', '아니면', '만 못하다', '하는 편이 낫다', '불문하고', '향하여', '향해서', '향하다', '쪽으로', '틈타', '이용하여', '타다', '오르다', '제외하고', '이 외에', '이 밖에', '하여야', '비로소', '한다면 몰라도', '외에도', '이곳', '여기', '부터', '기점으로', '따라서', '할 생각이다', '하려고하다', '이리하여', '그리하여', '그렇게 함으로써', '하지만', '일때', '할때', '앞에서', '중에서', '보는데서', '으로써', '로써', '까지', '해야한다', '일것이다', '반드시', '할줄알다', '할수있다', '할수있어', '임에 틀림없다', '한다면', '등', '등등', '제', '겨우', '단지', '다만', '할뿐', '딩동', '댕그', '대해서', '대하여', '대하면', '훨씬', '얼마나', '얼마만큼', '얼마큼', '남짓', '여', '얼마간', '약간', '다소', '좀', '조금', '다수', '몇', '얼마', '지만', '하물며', '또한', '그러나', '그렇지만', '하지만', '이외에도', '대해 말하자면', '뿐이다', '다음에', '반대로', '반대로 말하자면', '이와 반대로',

In [13]:
tokens_word =[]

for token in tokens:
    if token not in stopword:
        tokens_word.append(token)

tokens_word

['구형',
 '금단',
 '파워',
 '업',
 '최신',
 '소프트웨어',
 '한꺼',
 '번',
 '체크',
 '플래시백',
 '텔레비전',
 '이나',
 '연',
 '계',
 '할수있는나',
 '프로세서',
 '전환',
 '재미있는가',
 '속속',
 '등장',
 '했다',
 '구형',
 '금단',
 '이라고도',
 '할수있는',
 '파워',
 '업',
 '방법',
 '에서의',
 '최신',
 '화제',
 '새로운',
 '보안',
 '소프트웨어',
 '한',
 '꺼번',
 '소개',
 '합니다',
 '인텔',
 '장착',
 '구형',
 '은',
 '빨라질',
 '인',
 '가위',
 '인텔',
 '최신',
 '시리즈',
 '출시',
 '했다',
 '현재',
 '중',
 '에서도',
 '최고',
 '성능',
 '자랑',
 '는',
 '제품',
 '구형',
 '고속',
 '화',
 '도모',
 '한다는',
 '점',
 '리뷰',
 '해보았다',
 '색다른',
 '리뷰',
 '되지만',
 '정도',
 '효과',
 '있는지기',
 '대가',
 '크다는',
 '사용',
 '는가',
 '인텔',
 '전환',
 '가능한',
 '하이브리드',
 '와동',
 '시',
 '에도',
 '바뀐다',
 '초기',
 '비용',
 '업데이트',
 '비용',
 '무료',
 '저스트',
 '시스템',
 '도마뱀',
 '로그',
 '인상',
 '적',
 '인',
 '보안',
 '소프트웨어',
 '현재',
 '는',
 '많은',
 '사용자',
 '보안',
 '프로그램',
 '도입',
 '하고',
 '있지만',
 '대부분',
 '은',
 '매년',
 '엔',
 '정도',
 '드는',
 '업데이트',
 '비용',
 '절차',
 '대해',
 '불만',
 '가지',
 '고',
 '유료',
 '소프트웨어',
 '이용',
 '는',
 '사용자',
 '의약',
 '는',
 '무료',
 '보안',
 '소프트웨어',
 '알',
 '고',
 '있음에도',
 '불구',
 '하고',
 '성능',
 '면',


### 단어에 대한 빈도수

In [14]:
from collections import Counter
from konlpy.tag import Okt

okt = Okt()

tokens_pos = okt.pos(reg_text)
tokens_nouns = okt.nouns(reg_text)

tokens_nouns

# 단어에 대한 출현 건수 확인(빈도수)
cnt = Counter(tokens_nouns)
cnt   # 데이터 빈도스를 딕셔너리 구조로 출력

Counter({'구형': 4,
         '금단': 2,
         '파워': 2,
         '업': 2,
         '최신': 3,
         '소프트웨어': 5,
         '번': 1,
         '체크': 1,
         '플래시백': 1,
         '텔레비전': 2,
         '연': 3,
         '프로세서': 1,
         '전환': 2,
         '등': 3,
         '등장': 1,
         '방법': 2,
         '화제': 1,
         '보안': 4,
         '꺼번': 1,
         '소개': 1,
         '인텔': 3,
         '장착': 1,
         '얼마나': 2,
         '것': 1,
         '가위': 1,
         '시리즈': 2,
         '출시': 1,
         '현재': 2,
         '최고': 1,
         '성능': 2,
         '자랑': 1,
         '제품': 2,
         '고속': 1,
         '도모': 1,
         '점': 1,
         '리뷰': 2,
         '조금': 1,
         '정도': 2,
         '효과': 1,
         '대가': 1,
         '사용': 1,
         '는가': 1,
         '하이브리드': 1,
         '와동': 1,
         '시': 1,
         '초기': 1,
         '비용': 3,
         '업데이트': 2,
         '모두': 1,
         '무료': 2,
         '저스트': 1,
         '시스템': 1,
         '도마뱀': 1,
         '로그': 1,
         '인상': 1

In [15]:
# 상위 50개
print(cnt.most_common(50))
#print(cnt.most_common())

[('소프트웨어', 5), ('구형', 4), ('보안', 4), ('기능', 4), ('출하', 4), ('최신', 3), ('연', 3), ('등', 3), ('인텔', 3), ('비용', 3), ('금단', 2), ('파워', 2), ('업', 2), ('텔레비전', 2), ('전환', 2), ('방법', 2), ('얼마나', 2), ('시리즈', 2), ('현재', 2), ('성능', 2), ('제품', 2), ('리뷰', 2), ('정도', 2), ('업데이트', 2), ('무료', 2), ('사용자', 2), ('도입', 2), ('대해', 2), ('제안', 2), ('모델', 2), ('월일', 2), ('녹화', 2), ('컴퓨터', 2), ('실시', 2), ('엡손', 2), ('잉크', 2), ('번', 1), ('체크', 1), ('플래시백', 1), ('프로세서', 1), ('등장', 1), ('화제', 1), ('꺼번', 1), ('소개', 1), ('장착', 1), ('것', 1), ('가위', 1), ('출시', 1), ('최고', 1), ('자랑', 1)]


In [16]:
import pandas as pd

df = pd.DataFrame(cnt.most_common())
df

Unnamed: 0,0,1
0,소프트웨어,5
1,구형,4
2,보안,4
3,기능,4
4,출하,4
...,...,...
135,색,1
136,세트,1
137,출판사,1
138,입,1


### 워드클라우드

### 기사 전체를 이용한 형태소 분석

In [17]:
import os
import re
from konlpy.tag import Okt
import pandas as pd

In [18]:
f=open('Stopwords.txt', encoding='utf-8')
stopword=f.read()
print(stopword.split("\n"))
stopword=stopword.split("\n")

['아', '휴', '아이구', '아이쿠', '아이고', '어', '나', '우리', '저희', '따라', '의해', '을', '를', '에', '의', '가', '으로', '로', '에게', '뿐이다', '의거하여', '근거하여', '입각하여', '기준으로', '예하면', '예를 들면', '예를 들자면', '저', '소인', '소생', '저희', '지말고', '하지마', '하지마라', '다른', '물론', '또한', '그리고', '비길수 없다', '해서는 안된다', '뿐만 아니라', '만이 아니다', '만은 아니다', '막론하고', '관계없이', '그치지 않다', '그러나', '그런데', '하지만', '든간에', '논하지 않다', '따지지 않다', '설사', '비록', '더라도', '아니면', '만 못하다', '하는 편이 낫다', '불문하고', '향하여', '향해서', '향하다', '쪽으로', '틈타', '이용하여', '타다', '오르다', '제외하고', '이 외에', '이 밖에', '하여야', '비로소', '한다면 몰라도', '외에도', '이곳', '여기', '부터', '기점으로', '따라서', '할 생각이다', '하려고하다', '이리하여', '그리하여', '그렇게 함으로써', '하지만', '일때', '할때', '앞에서', '중에서', '보는데서', '으로써', '로써', '까지', '해야한다', '일것이다', '반드시', '할줄알다', '할수있다', '할수있어', '임에 틀림없다', '한다면', '등', '등등', '제', '겨우', '단지', '다만', '할뿐', '딩동', '댕그', '대해서', '대하여', '대하면', '훨씬', '얼마나', '얼마만큼', '얼마큼', '남짓', '여', '얼마간', '약간', '다소', '좀', '조금', '다수', '몇', '얼마', '지만', '하물며', '또한', '그러나', '그렇지만', '하지만', '이외에도', '대해 말하자면', '뿐이다', '다음에', '반대로', '반대로 말하자면', '이와 반대로',

In [20]:
okt = Okt()

# 기사별 폴더 지정
fdir = ['it-life', 'move']

doc_tmp = []   # 데이터 설명변수
label = []     # 레이블(목적) 변수

# 각 폴더에 파일을 각각 읽어와 표시
for i, v in enumerate(fdir):

    # 폴더에 있는 파일 목록 가져오기
    files = os.listdir("./data/" + v )
    
    # 파일을 하나씩 읽어오기
    for file in files:
        tmp1 = []      # 파일단위 token 저장
        tmp2 = ""      # 파일단위 token 텍스트 저장

        f = open("./data/" + v + "/" + file, 'r', encoding='utf-8')
        text = f.read()

        # 불필요한 문자열 제거하기(정규 표현식 사용)
        reg_text = re.sub(r'[0-9a-zA-Z]', "", text)    # [0-9a-zA-Z] => \w
        reg_text = re.sub(r'[ \t\n\r]', "", reg_text)  # [ \t\n\r\f\v]  => [\s]
        reg_text = re.sub(r'[::/\-+.[]!?■]', "", reg_text)

        # 제거된 문자열을 기준으로 명사만 추출하는 형태소 분석
        tokens=okt.nouns(reg_text)
        for token in tokens:
            if token not in stopword:   # 불용어 처리
                tmp1.append(token)      # tmp1 리스트에 추가
            
        tmp2 = " ".join(tmp1)           # 리스트 형식을 " "로 구분된 텍스트로 변경
        doc_tmp.append(tmp2)            # 기사별/파일별 로 단어 추가

        label.append(i)   # 레이블에 폴더 index 값 추가
        f.close()         # 파일 닫기

pd.DataFrame(doc_tmp).head()  # DataFrame 으로 변경후 확인

Unnamed: 0,0
0,호화 캐스팅 생글생글초회 슈퍼 스테이지 출연자 발표 인터넷 서비스 니코니코 동화 실...
1,사진 쪽 손 사장 선언 화제 소프트뱅크 그룹 대표 손정 씨 통해 발언 의의 선언 인...
2,검 율 무시 용 안티바이러스 소프트웨어 비교 테스트 설계 보안 보안 소프트웨어 비교...
3,브라우저 게임 환경 때문 다용 사이트 제대로 표시 문제 브라우저 실행 게임 동작 도...
4,인터넷 부담 포토북 편집 주문 드림 페이지 리뷰 어명 모집 소셜 리뷰 커뮤니티 제드...


In [21]:
# 첫번째 기사/마지막 기사 내용 확인하기
print(doc_tmp[0])
print(doc_tmp[-1])

호화 캐스팅 생글생글초회 슈퍼 스테이지 출연자 발표 인터넷 서비스 니코니코 동화 실세 재현 해 웅장 프로젝트 생글생글초회 개최 장소 마쿠하리멧세 슈퍼 회의 장소 마련 스페셜 스테이지 개 등장 출연자 가일 니코니코 생방송 니코 정식 발표 니코 공식 프로그램 유래 출연 자초 호화 멤버 발표 시청 사용자 움 소리 니코니코 생방송 프로그램 니코 생글생글초회 최신 정보 전하 울트라 회의 기획 월요일 니코 생글생글초회 대형 속보 발표 스페셜 장내 마련 스페셜 스테이지 출연자 로서 마츠오카 미츠루 카미 츠 히로 캬 리파 뮤파뮤 등호 멤버 발표 니코 니코니코 생방송 방송 라디오 프로그램 월요일 목요일 개성 야마다 사시 도우미 백화 요란 과세 미카 루 공식 프로그램 프로그램 내 생글생글 회의 매우 파티 이벤트 홀 별도 티켓 이필 외 홀 개 스테이지 스페셜 스테이지 마련 니코니코 생방송 공식 프로그램 인연 연예인 출연 이벤트 공식 발표 스페셜 스테이지 생글생글초 회의 입장료 예매 당일 꽤 배짱 용의 발표 프로그램 시청자 시청자 티켓 가격 이배 도구 입 한인 야적 움 기쁨 코멘트 공식 프로그램 출연자 슈퍼 회의 스페셜 스테이지 출연자 목록 순서 경칭 생략 프로그램 출연자 의순 표기 초 마츠오카 미츠루 세상 타 투성이 마츠오카 미츠루 슈퍼 히다카 츠 히로 날로 히다카 미츠 히로 슈퍼 캐리 웨이웨이 채널 캬 리파 뮤파뮤 초폭렬 악몽 악몽 초 비쥬 얼 배틀로얄 의심 초 전파 구사 자키 타케시 이마이 마미 키사 치하 역 징거 마야 코 카츠 키 이역 하라 유미 시조 타카네 역 아사 쿠라 아즈미 기와 유키 호역 하세가와 아키코 호시이 미키 역 역시 슈퍼 회의 가제 에비스 마 스캇 츠 슈퍼 회의 스페셜 가제 업업 걸즈 가짜 스마이레이지 라이프 핵 편집 부도 생글생글 회의 취재 해 정보 제공 생각 생글생글초회 스페셜 스테이지 생글생글초회 대응 카메라 화소 오토포커스 마이크 내장 이어폰 포함 블랙 입 소문
괴물 토끼 손짓 공포 유원지 환영 동물 방과후 운동장 초등학생 토끼 충격 장면 서막 연 영

In [22]:
# 첫번째 기사/마지막 기사에 대한 레이블 확인
print(label[0])
print(label[-1])

0
1


In [23]:
# 전체 데이터 개수 확인
print(len(doc_tmp))

400


In [24]:
print(label)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 

In [25]:
pd.concat([pd.DataFrame(doc_tmp), pd.DataFrame(label)], axis=1).head()

Unnamed: 0,0,0.1
0,호화 캐스팅 생글생글초회 슈퍼 스테이지 출연자 발표 인터넷 서비스 니코니코 동화 실...,0
1,사진 쪽 손 사장 선언 화제 소프트뱅크 그룹 대표 손정 씨 통해 발언 의의 선언 인...,0
2,검 율 무시 용 안티바이러스 소프트웨어 비교 테스트 설계 보안 보안 소프트웨어 비교...,0
3,브라우저 게임 환경 때문 다용 사이트 제대로 표시 문제 브라우저 실행 게임 동작 도...,0
4,인터넷 부담 포토북 편집 주문 드림 페이지 리뷰 어명 모집 소셜 리뷰 커뮤니티 제드...,0


In [26]:
import numpy as np

news_data = np.concatenate((np.array(doc_tmp).reshape(400, 1), np.array(label).reshape(-1, 1)), axis=1)
news_data[:5]

array([['호화 캐스팅 생글생글초회 슈퍼 스테이지 출연자 발표 인터넷 서비스 니코니코 동화 실세 재현 해 웅장 프로젝트 생글생글초회 개최 장소 마쿠하리멧세 슈퍼 회의 장소 마련 스페셜 스테이지 개 등장 출연자 가일 니코니코 생방송 니코 정식 발표 니코 공식 프로그램 유래 출연 자초 호화 멤버 발표 시청 사용자 움 소리 니코니코 생방송 프로그램 니코 생글생글초회 최신 정보 전하 울트라 회의 기획 월요일 니코 생글생글초회 대형 속보 발표 스페셜 장내 마련 스페셜 스테이지 출연자 로서 마츠오카 미츠루 카미 츠 히로 캬 리파 뮤파뮤 등호 멤버 발표 니코 니코니코 생방송 방송 라디오 프로그램 월요일 목요일 개성 야마다 사시 도우미 백화 요란 과세 미카 루 공식 프로그램 프로그램 내 생글생글 회의 매우 파티 이벤트 홀 별도 티켓 이필 외 홀 개 스테이지 스페셜 스테이지 마련 니코니코 생방송 공식 프로그램 인연 연예인 출연 이벤트 공식 발표 스페셜 스테이지 생글생글초 회의 입장료 예매 당일 꽤 배짱 용의 발표 프로그램 시청자 시청자 티켓 가격 이배 도구 입 한인 야적 움 기쁨 코멘트 공식 프로그램 출연자 슈퍼 회의 스페셜 스테이지 출연자 목록 순서 경칭 생략 프로그램 출연자 의순 표기 초 마츠오카 미츠루 세상 타 투성이 마츠오카 미츠루 슈퍼 히다카 츠 히로 날로 히다카 미츠 히로 슈퍼 캐리 웨이웨이 채널 캬 리파 뮤파뮤 초폭렬 악몽 악몽 초 비쥬 얼 배틀로얄 의심 초 전파 구사 자키 타케시 이마이 마미 키사 치하 역 징거 마야 코 카츠 키 이역 하라 유미 시조 타카네 역 아사 쿠라 아즈미 기와 유키 호역 하세가와 아키코 호시이 미키 역 역시 슈퍼 회의 가제 에비스 마 스캇 츠 슈퍼 회의 스페셜 가제 업업 걸즈 가짜 스마이레이지 라이프 핵 편집 부도 생글생글 회의 취재 해 정보 제공 생각 생글생글초회 스페셜 스테이지 생글생글초회 대응 카메라 화소 오토포커스 마이크 내장 이어폰 포함 블랙 입 소문',
        '0'],
       ['사진 쪽 손 사장 선언 화제 

In [27]:
np.array(doc_tmp).reshape(-1,1).shape

(400, 1)

### 문서단어행렬(Document-Term Matrix, DTM)

In [28]:
# 첫번째 데이터에 대한 빈도수
from collections import Counter

word_c1 = Counter(doc_tmp[0].split())
print(word_c1)
word_c1_lst=word_c1.most_common()
print(word_c1_lst)

word_c1_df = pd.DataFrame(word_c1_lst)
display(word_c1_df.head())

word_c1_df=word_c1_df.set_index(0)
display(word_c1_df.head())

word_c1_df1=word_c1_df.T      # word_c1_df.transpose()
word_c1_df1

Counter({'프로그램': 9, '스테이지': 8, '회의': 8, '스페셜': 8, '슈퍼': 7, '발표': 7, '생글생글초회': 6, '출연자': 6, '니코니코': 5, '니코': 5, '공식': 5, '생방송': 4, '마련': 3, '마츠오카': 3, '미츠루': 3, '츠': 3, '히로': 3, '초': 3, '역': 3, '호화': 2, '해': 2, '장소': 2, '개': 2, '출연': 2, '멤버': 2, '움': 2, '정보': 2, '월요일': 2, '캬': 2, '리파': 2, '뮤파뮤': 2, '생글생글': 2, '이벤트': 2, '홀': 2, '티켓': 2, '시청자': 2, '입': 2, '히다카': 2, '악몽': 2, '가제': 2, '캐스팅': 1, '인터넷': 1, '서비스': 1, '동화': 1, '실세': 1, '재현': 1, '웅장': 1, '프로젝트': 1, '개최': 1, '마쿠하리멧세': 1, '등장': 1, '가일': 1, '정식': 1, '유래': 1, '자초': 1, '시청': 1, '사용자': 1, '소리': 1, '최신': 1, '전하': 1, '울트라': 1, '기획': 1, '대형': 1, '속보': 1, '장내': 1, '로서': 1, '카미': 1, '등호': 1, '방송': 1, '라디오': 1, '목요일': 1, '개성': 1, '야마다': 1, '사시': 1, '도우미': 1, '백화': 1, '요란': 1, '과세': 1, '미카': 1, '루': 1, '내': 1, '매우': 1, '파티': 1, '별도': 1, '이필': 1, '외': 1, '인연': 1, '연예인': 1, '생글생글초': 1, '입장료': 1, '예매': 1, '당일': 1, '꽤': 1, '배짱': 1, '용의': 1, '가격': 1, '이배': 1, '도구': 1, '한인': 1, '야적': 1, '기쁨': 1, '코멘트': 1, '목록': 1, '순서': 1, '경칭': 1, '생략': 1, '의순': 

Unnamed: 0,0,1
0,프로그램,9
1,스테이지,8
2,회의,8
3,스페셜,8
4,슈퍼,7


Unnamed: 0_level_0,1
0,Unnamed: 1_level_1
프로그램,9
스테이지,8
회의,8
스페셜,8
슈퍼,7


Unnamed: 0,프로그램,스테이지,회의,스페셜,슈퍼,발표,생글생글초회,출연자,니코니코,니코,...,대응,카메라,화소,오토포커스,마이크,내장,이어폰,포함,블랙,소문
1,9,8,8,8,7,7,6,6,5,5,...,1,1,1,1,1,1,1,1,1,1


In [29]:
# 2번째 데이터가져와 행/열 변환 후 기존 데이터에 추가하기
from collections import Counter

word_c1_df1 = pd.DataFrame()

for i in range(len(doc_tmp)):
    word_c1 = Counter(doc_tmp[i].split())
    word_c1_lst=word_c1.most_common()
    word_c1_df = pd.DataFrame(word_c1_lst)
    word_c1_df=word_c1_df.set_index(0)
    # 기존 1번째 데이터의 행/열 변환 값에 2번째 데이터 추가
    word_c1_df1= pd.concat([word_c1_df1, word_c1_df.T], axis=0, ignore_index=True)

display(word_c1_df1)


Unnamed: 0,프로그램,스테이지,회의,스페셜,슈퍼,발표,생글생글초회,출연자,니코니코,니코,...,타계,실어증,계모,항심,팽창,한순간,원리,불능,무언,엎치락뒤치락
0,9.0,8.0,8.0,8.0,7.0,7.0,6.0,6.0,5.0,5.0,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,1.0,,1.0,,,1.0,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,,,,,,,,,,,...,,,,,,,,,,
396,,,,,,,,,,,...,,,,,,,,,,
397,,,,,,,,,,,...,,,,,,,,,,
398,,,,,,,,,,,...,,,,,,,,,,


In [40]:
# Na값 0으로 변경
word_c1_df1=word_c1_df1.fillna(0)

# 모든 데이터를 int형으로 변경
word_c1_df1=word_c1_df1.astype(int)
display(word_c1_df1.head())


# 단어 길이가 2개 이상인 데이터만 추출
colName = word_c1_df1.columns
new_colName = []
for cn in colName:
    if len(cn) >= 2:
        new_colName.append(cn)

# 열 이름을 기준으로 오름차순 정렬


# 필요한 데이터만 추출해 word_c1_df_new에 저장
word_c1_df_new = word_c1_df1[new_colName].copy()
print(len(word_c1_df_new.columns))

Unnamed: 0,프로그램,스테이지,회의,스페셜,슈퍼,발표,생글생글초회,출연자,니코니코,니코,...,타계,실어증,계모,항심,팽창,한순간,원리,불능,무언,엎치락뒤치락
0,9,8,8,8,7,7,6,6,5,5,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,0,1,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


10869


In [41]:
# 컬럼명을 index로 변경
colName_num =[]

for i, name in enumerate(new_colName):
    colName_num.append(i)

word_c1_df_new.columns = colName_num

In [42]:
# 어휘 빈도 확인(TF)
display(word_c1_df_new.head())
word_c1_df_new.values

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,10859,10860,10861,10862,10863,10864,10865,10866,10867,10868
0,9,8,8,8,7,7,6,6,5,5,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,0,1,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


array([[9, 8, 8, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [1, 0, 1, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 1, 1, 1]])

### 문서 역빈도(IDF)

In [52]:
# 역문서 빈도(IDF)
# 특정 단어가 가지는 문서에서 출현하는 빈도수: 기사 1개에서 단어가 있으면 1, 없으면 0 => 모든 기사를 기준으로 더한 값
# 총문서수(행의 갯수)
# log(총문서수/(특정 단어가 가지는 문서에서 출현하는 빈도수)) + 1



In [44]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

# 단어의 출현건수 카운트
cv = CountVectorizer()
doct_cv = cv.fit_transform(np.array(doc_tmp))
doct_cnt = doct_cv.toarray()

print(doct_cnt[:5])

display(pd.DataFrame(doct_cnt).head())

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 1]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,10859,10860,10861,10862,10863,10864,10865,10866,10867,10868
0,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [45]:
# 데이터 사이즈
print(pd.DataFrame(doct_cnt).shape)

(400, 10869)


In [46]:
print(cv.get_feature_names()[:50])
print(colName[:50])

['가가', '가가호호', '가각본', '가감', '가게', '가격', '가계', '가고시마', '가곡면', '가공', '가과', '가관', '가굉장', '가교', '가구', '가군', '가그에', '가극', '가극장', '가기', '가까이', '가끔', '가나', '가나가와현', '가나타', '가내', '가년', '가능', '가능성', '가다해', '가담', '가대', '가도', '가동', '가두', '가드', '가득', '가든', '가디스', '가라', '가라데', '가라오케', '가라테', '가랑이', '가량', '가렛', '가로', '가로막', '가로세로', '가로수']
Index(['프로그램', '스테이지', '회의', '스페셜', '슈퍼', '발표', '생글생글초회', '출연자', '니코니코', '니코',
       '공식', '생방송', '마련', '마츠오카', '미츠루', '츠', '히로', '초', '역', '호화', '해', '장소',
       '개', '출연', '멤버', '움', '정보', '월요일', '캬', '리파', '뮤파뮤', '생글생글', '이벤트', '홀',
       '티켓', '시청자', '입', '히다카', '악몽', '가제', '캐스팅', '인터넷', '서비스', '동화', '실세',
       '재현', '웅장', '프로젝트', '개최', '마쿠하리멧세'],
      dtype='object', name=0)




In [47]:
# 단어의 출현 빈도수 카우트
# 단어의 출현건수 카운트
cv = CountVectorizer(min_df=0.01, max_df=0.5)
doct_cv = cv.fit_transform(np.array(doc_tmp))
doct_cnt = doct_cv.toarray()

display(pd.DataFrame(doct_cnt).head())

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,3118,3119,3120,3121,3122,3123,3124,3125,3126,3127
0,0,0,1,0,0,0,0,0,0,0,...,0,3,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [48]:
pd.DataFrame(doct_cnt).shape

(400, 3128)

In [49]:
print(cv.get_feature_names()[:50])

['가가', '가게', '가격', '가공', '가기', '가까이', '가끔', '가나', '가년', '가능', '가능성', '가담', '가도', '가득', '가라데', '가로', '가로막', '가면', '가면라이더', '가모', '가발', '가방', '가브리엘', '가사', '가상', '가속', '가수', '가슴', '가시', '가신', '가약', '가연', '가요', '가운데', '가위', '가을', '가의', '가이드', '가일', '가입', '가장', '가전', '가정', '가족', '가주', '가지', '가집', '가짜', '가차', '가출']




### 어휘빈도-문서역빈도(TF-IDF) 분석(교재 173p~)
- DF-IDF = TF * IDF
- 엑셀파일 참조

In [50]:
# TF-IDF: TF * IDF
# pandas 또는 numpy를 이용해 직접 작업하세요.

In [51]:
from sklearn.feature_extraction.text import TfidfVectorizer

## TF-IDF
tv = TfidfVectorizer(min_df=0.01, max_df=0.5, sublinear_tf=True)
doc_tv = tv.fit_transform(np.array(doc_tmp))
doc_Tfidf = doc_tv.toarray()

display(pd.DataFrame(doc_Tfidf).head())

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,3118,3119,3120,3121,3122,3123,3124,3125,3126,3127
0,0.0,0.0,0.050089,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.150465,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.117645,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.09149,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
