# 前處理

In [1]:
import pandas as pd
import numpy as np
import jieba
import jieba.analyse
import re

In [2]:
# 讀入CSV檔案
df = pd.read_csv('data/apple_crawler_0826_1.csv')

# np.any(df.isnull()) == True 

# 去除空值
# 0砍整列，1砍整行
df = df.dropna(axis=0,how='any')

# 重新設定index
df = df.reset_index(drop=True)
df

Unnamed: 0,類別,title,content
0,news,孫安佐案28日開庭李文估「至少要5年服刑」,孫鵬與狄鶯的18歲獨子孫安佐在美國涉恐攻威脅，3月26日被捕至今已邁入第152天，聯邦法院8...
1,news,柯智棠首戰TICC全家動員文青開唱耍流浪風,創作歌手柯智棠今在台北國際會議中心（TICC）開唱，舉辦「吟遊」演唱會，這是他首度以個唱站上...
2,news,安那攻蛋尬舞打頭陣替阿妹外送珍奶挺舞團,超硬電司趴今在台北小巨蛋登場，找來JR紀言愷、安那、鼓鼓、頑童MJ116等藝人拼場，安那打頭...
3,news,【狗仔偷拍】邵雨薇瘦到令人擔心紙片人連道具都吃,女星邵雨薇外型甜美可人，帶點嬰兒肥的臉龐成為記憶點之一，但紙片人般瘦到沒胸的身材更讓人印象深...
4,news,海倫清桃評選台越小姐舊愛新歡齊聚給祝福,海倫清桃（桃子）靠緋聞男友黃景裕的山本堂集團提供7位數金額贊助所主辦的「台越全球小姐大賽」，...
5,news,夏于喬《粽邪》可望搶「鬼后」她難回現實泣不成聲,取材台灣民俗「送肉粽」的驚悚片《粽邪》，特別選在中元節子時在西門町國賓影院巨幕廳舉辦千人試映...
6,news,【有雷】《延禧》大結局受注目她吐黑血超虐心,清宮劇《延禧攻略》在兩岸掀起追劇熱潮，全劇將在明天迎來大結局，魏瓔珞（吳謹言飾）被皇上盛寵1...
7,news,傅達仁兒繼承遺志推《安樂法》號召全民連署公投,（新增動新聞）傅達仁生前極力推動《安樂法》，深知台灣洗腎王國、臥床插管和癌末病患自殺率皆世界...
8,news,魏嘉瑩眼睛「被帥傷」揪元兇竟是鼓鼓,創作歌手魏嘉瑩今在台北Legacy舉辦個人首場演唱會，1000張門票完售 ，下午開放彩排探班...
9,news,Red Velvet加入9月韓星大戰！922、923台大連唱2天,韓國女團「Red Velvet」又要來啦！近來剛推出新專輯的「Red Velvet」，以主打...


In [3]:
# 共有幾個類別
category = list()
for i in df.類別.unique():
    category.append(i)
    
print('共有',len(category),'個類別')
print('分別是',category)

共有 11 個類別
分別是 ['news', 'hot', 'enterainment', 'local', 'international', 'politics', 'life', '3C', 'lifestyle', 'sports', 'finance']


In [12]:
from pandas.core.frame import DataFrame

df_category=DataFrame(category)
df_category.to_csv('category/category.csv', encoding='utf-8-sig', index=False)

# Jieba斷詞

In [4]:
jieba.set_dictionary('extra_dict/dict.txt.big')

# 引入停用詞
with open('stopwords/stopWords.txt', encoding = 'utf8') as f:
    stops = f.read().split('\n')

len(stops)

4635

In [5]:
news_lst = []

for i in range(df['content'].size):
    word = []
    content = df['content'][i]
    content_re = re.sub('[0-9\r\t\n\f\s]', '', content)

    text = jieba.cut(content_re, cut_all=False)
    
    for t in text:
        if t not in stops:
            word.append(t)
    news_lst.append(word)

Building prefix dict from C:\Users\hp\Desktop\news_classification\extra_dict\dict.txt.big ...
Dumping model to file cache C:\Users\hp\AppData\Local\Temp\jieba.u98b371b3ace35ef97232d6cac9cb04df.cache
Loading model cost 3.310 seconds.
Prefix dict has been built succesfully.


In [6]:
news_txt = list()
for line in news_lst:
    sentence = " ".join(line)
    news_txt.append(sentence)
len(news_txt)

1442

In [7]:
# dataframe建立新欄位
df['new content'] = pd.Series(news_lst, index=df.index)
df = df.drop(['content'], axis=1)
df

Unnamed: 0,類別,title,new content
0,news,孫安佐案28日開庭李文估「至少要5年服刑」,"[孫鵬, 狄鶯, 歲, 獨, 子孫, 安佐, 美國, 涉恐攻, 威脅, 月, 日, 被捕, ..."
1,news,柯智棠首戰TICC全家動員文青開唱耍流浪風,"[創作, 歌手, 柯智棠, 台北, 國際會議中心, TICC, 開唱, 舉辦, 吟遊, 演唱..."
2,news,安那攻蛋尬舞打頭陣替阿妹外送珍奶挺舞團,"[超硬, 電司, 趴今, 台北, 巨蛋, 登場, 找來, JR, 紀言愷, 安那, 鼓鼓, ..."
3,news,【狗仔偷拍】邵雨薇瘦到令人擔心紙片人連道具都吃,"[女星, 邵雨薇, 外型, 甜美, 可人, 帶點, 嬰兒, 肥, 臉龐, 成為, 記憶, 點..."
4,news,海倫清桃評選台越小姐舊愛新歡齊聚給祝福,"[海倫, 清桃, 桃子, 緋聞, 男友, 黃景, 裕, 山, 本堂, 集團, 提供, 位數,..."
5,news,夏于喬《粽邪》可望搶「鬼后」她難回現實泣不成聲,"[取材, 台灣, 民俗, 送肉, 粽, 驚悚片, 粽邪, 特別, 選在, 中元節, 子時, ..."
6,news,【有雷】《延禧》大結局受注目她吐黑血超虐心,"[清宮, 劇, 延禧, 攻略, 兩岸, 掀起, 追劇, 熱潮, 全劇, 將在, 明天, 迎來..."
7,news,傅達仁兒繼承遺志推《安樂法》號召全民連署公投,"[新增, 動, 新聞, 傅達仁, 生前, 推動, 安樂, 法, 深知, 台灣, 洗, 腎, ..."
8,news,魏嘉瑩眼睛「被帥傷」揪元兇竟是鼓鼓,"[創作, 歌手, 魏嘉瑩, 台北, Legacy, 舉辦, 首場, 演唱會, 張, 門票, ..."
9,news,Red Velvet加入9月韓星大戰！922、923台大連唱2天,"[韓國, 女團, RedVelvet, 要來, 剛, 推出, 新專輯, RedVelvet,..."


In [9]:
# 輸出成csv
df.to_csv('preprocessing_output/segmented_news.csv', encoding='utf-8-sig', index=False)