In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.linear_model import LogisticRegression, LinearRegression, Ridge
from sklearn.pipeline import make_pipeline
import pandas as pd
import numpy as np


In [3]:
data = pd.read_csv('7m_after_prepro.csv')

df2 = data.sample(frac=1).reset_index(drop=True)
print(df2.iloc[0:10,2])

0    2
1    0
2    1
3    3
4    3
5    0
6    3
7    0
8    2
9    2
Name: 2, dtype: int64


In [4]:
X = df2.iloc[:, 1].values
y = df2.iloc[:, 2].values

In [6]:

X_train_text, X_test_text, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [7]:
print(len(X_train_text))
print(X_train_text[0])
print(y_train[:10])

80633
라디오스타 조현우 하이라이트 영상 많이 봤 솔직 이미지 원본 엑 스포츠 뉴스 오수정 기자 라디오스타 조현우 자신 하이라이트 영상 많이 봤 솔직 말 했 일 방송 예능 라디오 스타 년 후 제발 특집 까 방 까 방지 획득 주인공 조현우 김영권 이용 이승우 명 월드컵 국가 대표 축구 선수 출연 해 이야기 나눴 이날 조현우 자신 한국 말 자신 소개 했 이어 월드컵 후 근황 대해 하이라이트 영상 대해 언급 했 이 조현우 사실 많이 봤 러시아 봤 솔직 말 해 웃음 자아냈 이용 자신 소개 경기 급소 은 먼저 언급 했 이후 김구라 이용 급소 괜찮 이용 튼튼 자신 는 모습 웃음 자아냈 또 김영원 자신 국민 욕 히어로 됐 독일 전 골 은 재치 언급 해 눈길 그리고 이승우 선수 향해 김구라 이천수 선수 냄새 좋 은 말 했 이승우 역시 이천수 선수 저 굉장히 좋 해 말 했 사진 방송 화면 아이돌 팬 엑 스포츠 뉴스 네이버 엑 스포츠 뉴스 공식 페이스북 트위터 이슈 퀸 엑 스포츠 뉴스 무단 전재 및 배포 금지 
[3 2 1 3 3 1 3 1 2 0]


In [9]:
pipe = make_pipeline(TfidfVectorizer(min_df=5), LogisticRegression())
param_grid = {
    'logisticregression__C' : [0.001, 0.01, 0.1, 1, 10]
}

grid = GridSearchCV(pipe, param_grid, cv=5)
#print(y_train.shape)
grid.fit(X_train_text, y_train)
print("최상의 교차 검증 점수 : %.2f" %(grid.best_score_))

최상의 교차 검증 점수 : 0.97


In [10]:

print(" 테스트 점수 : %.2f" %(grid.score(X_test_text, y_test)))

 테스트 점수 : 0.97


In [11]:
vector = grid.best_estimator_.named_steps["tfidfvectorizer"]
X_train = vector.transform(X_train_text)
#특성별로 가장 큰 값을 찾는다.
max_value = X_train.max(axis=0).toarray().ravel()
sorted_by_tfidf = max_value.argsort()

#특성 이름을 구한다.

feature_names = np.array(vector.get_feature_names())

print("tfidf가 가장 낮은 특성 20 개 : \n", feature_names[sorted_by_tfidf[:20]])
print("tfidf가 가장 높은 특성 20 개 : \n ", feature_names[sorted_by_tfidf[-20:]])

tfidf가 가장 낮은 특성 20 개 : 
 ['서호경' '암정' '정낭' '마려워' '방광경' '병창' '구자현' '임파' '메디신' '형암' '자빠' '잠열' '정전기력'
 '홍성범' '최명식' '이은성' '베이더우' '뇌중풍' '커져도' '동남극']
tfidf가 가장 높은 특성 20 개 : 
  ['김승환' '쉐어링' '맥심' '캐처' '스텔스' '탁현민' '정미홍' '제시카' '공증' '설리' '다이아몬드' '와인' '머크'
 '포켓몬' '하연수' '프로젝터' '골판지' '김현중' '복권' '티맥스']


In [12]:
sorted_by_idf = np.argsort(vector.idf_)
print("idf가 가장 낮은 특성 100개 \n", feature_names[sorted_by_idf[:100]])

idf가 가장 낮은 특성 100개 
 ['기자' '금지' '배포' '무단' '전재' '위한' '추가' '오류' '우회' '함수' '뉴스' '이미지' '서울' '원본'
 '사진' '오후' '밝혔' '한다' '통해' '경제' '다는' '위해' '지난' '저작권자' '페이스북' '바로' '함께' '채널'
 '이날' '네이버' '대한' '방송' '된다' '한국' '이번' '제보' '진행' '기사' '열린' '제공' '시간' '구독'
 '공개' '대표' '관련' '가능' '시작' '예정' '모습' '정보' '이후' '대해' '사람' '한편' '참석' '확인'
 '우리' '이상' '스타' '설명' '라는' '특히' '최근' '정부' '계획' '시장' '자신' '이야기' '미국' '문제'
 '기업' '관계자' '기술' '상황' '배우' '필요' '모두' '포토' '공식' '러시아' '연합뉴스' '세계' '해야' '다양'
 '영상' '현재' '언론' '월드컵' '코리아' '국내' '따라' '발표' '오늘' '가장' '결과' '경우' '직접' '그룹'
 '생각' '대통령']


In [14]:

print("tfidf가 가장 높은 특성 1000 개 : \n ", feature_names[sorted_by_tfidf[-1000:]])

tfidf가 가장 높은 특성 1000 개 : 
  ['지애' '로또' '윈도' '대영' '이무송' '하현우' '쇼핑' '대탈출' '림프관' '염상' '방제' '부엉이' '화장품'
 '헬프' '후지필름' '애플' '펜스' '셰프' '화석' '필립스' '수거' '김동현' '크리에이터' '쓰리' '주진우'
 '박테리아' '보험료' '하석진' '김보성' '노조' '시계' '연희' '이영준' '헤니' '이지영' '송민호' '차명' '카이'
 '쿠팡' '나연' '에로' '소프트웨어' '함양' '소스' '한충호' '윤승아' '산림' '베트남' '정유미' '노트' '장준하'
 '시외버스' '레오' '홍지윤' '마일리지' '이다희' '신준섭' '각성' '이동건' '비빔면' '대강' '류상욱' '제습기'
 '블링' '예천' '김유정' '김미소' '당비' '노치' '새우' '진도' '예산' '근로' '공모주' '취객' '허경환'
 '유다인' '비앤비' '김구라' '그래핀' '와치' '언서' '청소년' '영풍' '무주' '시인' '승재' '탁재훈' '미우'
 '아쿠아' '서문탁' '농협' '루나' '마크롱' '필라테스' '난초' '승리' '차현우' '월렛' '모기' '차예련' '하정우'
 '어비스' '지구' '당사' '조승희' '최동열' '카카오톡' '벤틀리' '전진' '판빙빙' '아드' '빙고' '사료' '우영'
 '빗소리' '미술관' '잔트' '에티오피아' '혜리' '민수' '이혜원' '이종혁' '서현' '벅스' '에버랜드' '올레드'
 '이성경' '라멘' '이재룡' '고나은' '인바디' '소방' '독감' '이규형' '산다라박' '송윤아' '바이러스' '박준형'
 '연금' '이지훈' '준무' '출원' '자전거' '주상욱' '유민주' '도지한' '외통' '창호' '송은이' '바이브' '석탄'
 '프렌즈' '강지영' '고윤' '빕스' '임현주' '서핑' '태백' '장수' '장신영' '수송기' '급식비' '협동조합' '미라'
 '난임' '미얀마' '정다은' '경영주' '경제자유구역'