In [2]:
import pandas as pd
import numpy as np 
import jieba as jb
import re

In [3]:
train_path="data/news_train.csv"
train_data=pd.read_csv(train_path,sep="\t")
train_data.head(3)

Unnamed: 0,content,label
0,来源：第２９届奥林匹克运动会官方网站　作者：摄影／李威北京奥运官网６月４日讯　６月４日，北...,奥运
1,葡萄牙两个前锋一人一球，算是给球迷一个交代，但是球队整体低迷的状态，让葡萄牙轻松丢了３球，最...,体育
2,我来说两句作者：张仪瑞士巴塞尔当地时间６月２０日晚（北京时间２１日凌晨），荷兰队在巴塞尔...,体育


# 数据预处理，过滤掉特殊字符以及标点符号

In [4]:
#中文数字以及英文的匹配正则表达式
CH_EN_DIG=re.compile(r"[\u4e00-\u9fa5a-zA-Z0-9]+")
stopwords=["的","你","我","他"]

In [9]:
#过滤特殊字符的函数
def filterOutSpecialCharacters(content,thePattern):
    matched=re.findall(thePattern,content)
    return ' '.join(matched) if len(matched)>0 else np.nan

#分词以及过滤停用词的函数
def cutWords(content,stopWords):
    try:
        words=[w for w in jb.cut(content) if w not in stopWords]
        return words if len(words)>0 else np.nan
    except:
        print(content)
        return np.nan

In [7]:
train_data['content']=train_data['content'].apply(lambda x:filterOutSpecialCharacters(x,CH_EN_DIG))
train_data.head(3)

Unnamed: 0,content,label
0,来源 第 届奥林匹克运动会官方网站 作者 摄影 李威 北京奥运官网 月 日讯 月 日 北京奥...,奥运
1,葡萄牙两个前锋一人一球 算是给球迷一个交代 但是球队整体低迷的状态 让葡萄牙轻松丢了 球 最...,体育
2,我来说两句 作者 张仪 瑞士巴塞尔当地时间 月 日晚 北京时间 日凌晨 荷兰队在巴塞尔圣雅各...,体育


In [10]:
train_data['content']=train_data['content'].apply(lambda x:cutWords(x,stopwords))
train_data.head(3)

nan


Unnamed: 0,content,label
0,"[来源, , 第, , 届, 奥林匹克运动会, 官方网站, , 作者, , 摄影, ...",奥运
1,"[葡萄牙, 两个, 前锋, 一人, 一球, , 算是, 给, 球迷, 一个, 交代, ,...",体育
2,"[来说, 两句, , 作者, , 张仪, , 瑞士, 巴塞尔, 当地, 时间, , ...",体育


In [16]:
print(train_data.shape)
train_data=train_data.dropna()
print(train_data.shape)
train_data['content']=train_data['content'].apply(lambda x:' '.join(x))

(132579, 2)
(132579, 2)


In [17]:
#拆分样本以及分类
X=train_data['content']
y=train_data['label']

In [13]:
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer

In [18]:
#对类别编码
encoder=LabelEncoder()
y_encode=encoder.fit_transform(y)

In [22]:
vectorizer=TfidfVectorizer(min_df=20)
X_vec=vectorizer.fit_transform(X)

In [23]:
X_vec.shape

(132579, 50401)

In [24]:
from sklearn.linear_model import LogisticRegression

In [25]:
clf=LogisticRegression(multi_class='ovr')
clf.fit(X_vec,y_encode)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False)

In [26]:
print(clf.score(X_vec,y_encode))

0.9841075886829739


# 下面进行测试

In [28]:
test_path="data/news_test.csv"
test_data=pd.read_csv(test_path,sep="\t")
test_data.head(3)

Unnamed: 0,content,label
0,来源：深圳新闻网－深圳特区报本报讯北京时间６月１６日河南济源消息，中国男篮以８０∶７６第三...,体育
1,随着北京奥运盛会临近，今年７月、８月、９月也变得与以往不同，起码在汽车商家眼中是这样。“北...,汽车
2,足坛聚焦＿中国足球,体育


In [29]:
test_data['content']=test_data['content'].apply(lambda x:filterOutSpecialCharacters(x,CH_EN_DIG))
test_data.head(3)

Unnamed: 0,content,label
0,来源 深圳新闻网 深圳特区报 本报讯北京时间 月 日河南济源消息 中国男篮以 第三次战胜克罗...,体育
1,随着北京奥运盛会临近 今年 月 月 月也变得与以往不同 起码在汽车商家眼中是这样 北京有可能...,汽车
2,足坛聚焦 中国足球,体育


In [30]:
test_data['content']=test_data['content'].apply(lambda x:cutWords(x,stopwords))
test_data.head(3)

nan
nan


Unnamed: 0,content,label
0,"[来源, , 深圳, 新闻网, , 深圳特区, 报, , 本报讯, 北京, 时间, ...",体育
1,"[随着, 北京奥运, 盛会, 临近, , 今年, , 月, , 月, , 月, 也,...",汽车
2,"[足坛, 聚焦, , 中国, 足球]",体育


In [31]:
print(test_data.shape)
test_data=test_data.dropna()
print(test_data.shape)
test_data['content']=test_data['content'].apply(lambda x:' '.join(x))

(65302, 2)
(65300, 2)


In [32]:
X_test=vectorizer.transform(test_data['content'])
y_test=encoder.transform(test_data['label'])

In [33]:
print(clf.score(X_test,y_test))
y_pred=clf.predict(X_test)
y_pred_inverse=pd.DataFrame(encoder.inverse_transform(y_pred),columns=['predict'])

0.9780245022970904


In [37]:
test_data_2=pd.read_csv(test_path,sep="\t")
test_data_pred=pd.concat([test_data_2,y_pred_inverse],axis=1)
print(test_data_pred.head(5))

                                             content label predict
0  来源：深圳新闻网－深圳特区报本报讯北京时间６月１６日河南济源消息，中国男篮以８０∶７６第三...    体育      体育
1  随着北京奥运盛会临近，今年７月、８月、９月也变得与以往不同，起码在汽车商家眼中是这样。“北...    汽车      汽车
2                                          足坛聚焦＿中国足球    体育      体育
3  姜灿中国人民银行杭州房贷工作会议透露，买期房不再提供按揭贷款昨天，参加中国人民银行杭州房...    房产      房产
4  一周新闻留言榜共２００条　这是第１－７０条　上一页　｜　１　２　３　｜　下一页共２００条...    房产      房产
