In [1]:
import math
import re
import operator
import csv
import pandas as pd
import numpy as np
import os
from sklearn.feature_extraction.text import CountVectorizer

work_dir = 'd:/document/project/phone_csf'
os.chdir(work_dir)

### text feature extraction example

In [191]:
ex_vectorizer = CountVectorizer(min_df=1)
ex_corpus = np.array(['This is the first document.',
          'This is the second second document.',
          'And the third one.',
          'Is this the first document?'])
ex_X = ex_vectorizer.fit_transform(ex_corpus)
ex_X

<4x9 sparse matrix of type '<class 'numpy.int64'>'
	with 19 stored elements in Compressed Sparse Row format>

In [192]:
ex_vectorizer.get_feature_names()

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']

In [193]:
ex_X.toarray().sum(axis=0)

array([1, 3, 2, 3, 1, 2, 4, 1, 3], dtype=int64)

### apply

In [7]:
raw_text = pd.read_csv('./dataframes/phone_fullframe(title_only).csv', encoding='utf-8')
raw_text['contents'] = raw_text['title'] + ' ' + raw_text['content']
del raw_text['title']
del raw_text['content']
corpus = np.array(raw_text['contents'])
print(len(corpus))
print(corpus[0:3])

raw_text.tail()

23755
['g5 친구 끼리끼리 추천 이벤트 합니다. 저의 추천 코드는 : g5-cv74b 입니다.'
 'ㅅㅋㄱㅂ g5 40이 안뜨네요. 더 기다립니다.'
 '[g5] 어제 네이버 지도랑 전화부 어플 켰을 때 데이터통신 안 되던게 그래서였나 자꾸 진입 못 하고 로딩상태에서 계속 머무르더라구요. 근데 오늘 g5 데이터통신 관련 소프트웨어 결함 기사...ㅋㅋㅋㅋ 근데 웃긴 건 다른 어플이나 인터넷할 땐 데이터 잘 됐는데 저 두 어플만 안 됐다는 거. 그리고 오늘 다시 실행해보니 또 됨. -_- 허허허']


Unnamed: 0,id,date,product,ref,contents
23750,http://www.ppomppu.co.kr/zboard/view.php?id=ph...,170401,g6,ppomppu,G6 약 그라데이션+붉은액정 a/s 후기 섭센터 가서 보여주니 기사 본인은 비슷해...
23751,http://www.ppomppu.co.kr/zboard/view.php?id=ph...,170401,g6,ppomppu,목요일 개통한 G6 배터리 상태가 이상한거 같습니다. ? ? 제가 개통한건 아니고...
23752,http://www.ppomppu.co.kr/zboard/view.php?id=ph...,170401,g6,ppomppu,S8과 G6 사은품 팔려고생각하면 G6가 더 낫네요. S8 - 레벨박스 스피커 +...
23753,http://www.ppomppu.co.kr/zboard/view.php?id=ph...,170401,g6,ppomppu,g6 홈 터치 버튼 좀 알려주세여 ㅠㅠ 추가하려고 설정에 가봐도 세줄짜리 메뉴버튼...
23754,http://www.ppomppu.co.kr/zboard/view.php?id=ph...,170401,g6,ppomppu,G6 미라캐스트(미러링) 되는지요? 미라캐스트 가능한지요? 삼성은 미러링 엘지는 ...


In [238]:
vectorizer = CountVectorizer(min_df = 0.001, token_pattern=r'\w+')
X = vectorizer.fit(corpus)
X_t = vectorizer.fit_transform(corpus)
X_t

<33502x3061 sparse matrix of type '<class 'numpy.int64'>'
	with 707649 stored elements in Compressed Sparse Row format>

In [239]:
print(len(X.vocabulary_))
print(len(vectorizer.get_feature_names()))
vectorizer.get_feature_names()

3061
3061


['114',
 '11번가',
 '20',
 '20대',
 '29요금제',
 '2년약정',
 '30대',
 '32g',
 '32gb',
 '35mm',
 '3d',
 '3g',
 '4g',
 '4gb',
 '4k',
 '4s',
 '5',
 '50',
 '51요금제',
 '59',
 '599',
 '599요금제',
 '59요금',
 '59요금제',
 '5s',
 '5x',
 '64g',
 '64gb',
 '6p',
 '6s',
 '6개월유',
 '7엣지',
 '9요금제',
 'a',
 'a3',
 'a5',
 'a7',
 'a8',
 'af',
 'aid',
 'always',
 'and',
 'aod',
 'ap',
 'as',
 'auto',
 'average',
 'b',
 'be',
 'by',
 'c',
 'camera',
 'cat',
 'cat6',
 'centre',
 'cj',
 'co',
 'com',
 'compulsory',
 'cpu',
 'd',
 'dac',
 'dap',
 'daum',
 'dc',
 'display',
 'do',
 'dslr',
 'e',
 'edge',
 'equiv',
 'ev',
 'f1',
 'f2',
 'feat',
 'fhd',
 'fi',
 'fired',
 'flac',
 'flash',
 'for',
 'freeboard',
 'from',
 'g',
 'g2',
 'g3',
 'g4',
 'g5',
 'g50',
 'g530',
 'g5나',
 'g5보',
 'g5사',
 'g5중',
 'g6',
 'g6사',
 'g7',
 'galaxy',
 'gps',
 'gpu',
 'h',
 'h3',
 'hbs',
 'hd',
 'hdr',
 'hi',
 'hifi',
 'htc',
 'html',
 'http',
 'https',
 'i',
 'i5',
 'in',
 'ios',
 'ios7',
 'ip68',
 'iphone',
 'ips',
 'iso',
 'it',
 'j5',
 'j7',
 '

In [240]:
word_sum = X_t.toarray().sum(axis=0)
word_name = vectorizer.get_feature_names()
word_dict = {}

for i in range(len(word_sum)):
    word_dict[word_name[i]] = word_sum[i]

In [241]:
print(vectorizer.get_feature_names()[150:160])
print(word_sum[150:160])

['note', 'o', 'of', 'official', 'oid', 'ois', 'on', 'or', 'os', 'p']
[ 56 553 186 501 268  53 174 272 133 631]


In [242]:
word_dict

{'전달': 62,
 '인증': 208,
 '금일': 38,
 '달고': 144,
 '뜨': 2399,
 '기도': 34,
 '보정': 160,
 '다음': 533,
 '부1': 55,
 '꿈': 37,
 '이런걸': 51,
 's7엣': 38,
 '자전거': 54,
 '쓰레기': 171,
 'youtube': 176,
 '5s': 137,
 '측정': 131,
 '선택지': 45,
 '쏙': 39,
 '능력': 46,
 '반면': 87,
 '부족': 312,
 '주': 481,
 '로': 957,
 '편리': 122,
 '스냅드래곤': 203,
 'mwc': 145,
 '확보': 51,
 '양해': 42,
 '아깝': 91,
 '예민': 57,
 '상향': 67,
 '주요': 64,
 '집': 526,
 '교품하': 77,
 '쿼드비트': 49,
 '가야': 242,
 '누': 69,
 '양호': 52,
 '못하': 1081,
 '시크릿': 133,
 'ㅇㅇ': 130,
 'cat6': 53,
 '진짜': 1684,
 '프리미엄': 223,
 '녹음': 65,
 '추천': 1354,
 '컴터': 62,
 '대전': 84,
 '셔터': 76,
 '주로': 223,
 '들': 525,
 '공기계': 457,
 '답': 323,
 '내년': 97,
 '의미': 224,
 '연동': 70,
 '고민': 2579,
 '픽셀': 65,
 '하도': 87,
 '너무': 257,
 '보이': 932,
 '골드': 605,
 '도착': 227,
 '누가': 66,
 '한시': 59,
 '대단': 120,
 '공정': 55,
 '인지': 62,
 '별다르': 47,
 '뛰': 119,
 'aid': 242,
 '주의': 75,
 '본체': 217,
 '청구': 298,
 '주네': 39,
 '머': 206,
 '등등': 398,
 '녀석': 45,
 '간혹': 48,
 '비교적': 48,
 '자': 97,
 '하나씩': 75,
 'camera': 48,
 '형태': 149,


In [243]:
with open('csf_freq(after_para).csv', 'w') as f:  # Just use 'w' mode in 3.x
    w = csv.DictWriter(f, word_dict.keys(), delimiter=',', lineterminator='\n')
    w.writeheader()
    w.writerow(word_dict)

In [2]:
para_df = pd.read_csv('dataframes/pcsf_dataframe(ap).csv', encoding='cp949')
para_df.tail()

Unnamed: 0,id,date,product,ref,contents
33497,http://www.ilbe.com/index.php?mid=smartphone&s...,160731,s7,ilbe,g3 에 s7엣지 갈아타 기기3년약정햇는데 약정 39만원뜸 씨1발이제 2년다써가는데...
33498,http://www.ilbe.com/index.php?mid=smartphone&s...,160731,s7,ilbe,갓럭시s7 카메라 경쟁 실제 카메라 보 일단 갤럭시s7 가볍 바르 이런건 살필요없다...
33499,http://www.ilbe.com/index.php?mid=smartphone&s...,160731,s7,ilbe,s7 미개 vs 노트5 중고 군대가는데 끄
33500,http://www.ilbe.com/index.php?mid=smartphone&s...,160731,s7,ilbe,스마트폰 바꿀려는데 전문가 나와 이기 산 s6 엣지 요금 요금 데이타 안심 짜 쓰고...
33501,http://www.ilbe.com/index.php?mid=smartphone&s...,160731,s7,ilbe,어제 산 갤럭시 s7 엣지 배터리 준수한거 냐


### paraphrasing

In [3]:
da = ['좋', '힘들', '어둡', '잘되',  '나쁘', '거슬리', '즐겁', '안타깝',
        '부럽', '안되', '빠르', '부드럽', '괜찮', '심하', '잘하', '편하',
        '귀찮', '무겁', '어렵', '느리', '끌리', '오래가', '뜨겁', '비싸',
        '예쁘', '신경쓰', '새롭', '늦', '이쁘', '싫', '아쉽', '가볍']
hada = ['욕', '잘못', '망', '무난']
noun = ['고장', '짜증']

para_dict = {'para_da': da, 'para_hada': hada, 'to_noun': noun}

def paralst_create(*args):
    para_lst = []
    for lst in args:
        for i in lst:
            para_lst.append(i)
    return para_lst

para_lst = paralst_create(da, hada, noun)

In [None]:
for i in range(0, len(para_df)):
    for word in para_lst:
        para = re.compile(r'{}\w*'.format(word))

        if word in para_dict['para_da']:
            para_df['contents'][i] = para.sub(' {}다 '.format(word), para_df['contents'][i])

        elif word in para_dict['para_hada']:
            para_df['contents'][i] = para.sub(' {}하다 '.format(word), para_df['contents'][i])

        elif word in para_dict['to_noun']:
            para_df['contents'][i] = para.sub(' {} '.format(word), para_df['contents'][i])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


In [79]:
after_para.tail()

Unnamed: 0,V1
33497,지5 핑크 ㅋㅌㄱㅂ 어제 오전 주문넣었 저녁 해피콜받 오늘배송받았네 ㅎㅎ 부산 서울...
33498,[g5 어제 네이버 지도 전화 어플 크 때 데이터통신 안 되 자꾸 진입 로딩 근데 ...
33499,ㅎㄴㅁㄷ님 ㅅㅋs7기변좀 부탁 징징 잉이 요
33500,ㅅㅋㄱㅂ g5 뜨 기다 다
33501,g5 친구 끼리 추천 이벤트 저의 추천 코드 g5 cv74b 입 다


In [9]:
raw_text.to_csv('123.csv', index=False)