In [1]:
# 导入依赖包
import os
import csv
import numpy as np
import pandas as pd
import json
from nltk import word_tokenize
from nltk.corpus import words
import nltk
# 导入自定义依赖包
import LoadFileDemo as lf
import SeparateWordDemo as sw

In [2]:
# 提取词干
# 对于提取词干后判断单词是否有效，无效单词则用回提取词干前单词
porter = nltk.PorterStemmer()
lancaster=nltk.LancasterStemmer()
word_list = set(words.words())

def get_stem(word_before):
    word_after = porter.stem(word_before) # 还可以选择使用lancaster.stem(t)
    if word_after in word_list: # 判断是否有含义的英语单词
        return word_after
    else:
        return word_before


In [3]:
# 定义停用词集合，java项目保留关键字集合
stop_use_word_java = ['private','protected','public',
                      'abstract','class','extends','final','implements','interface','native','new','static','strictfp','synchronized','transient','volatile',
                      'break','continue','return','do','while','if','else','for','instanceof','switch','case','deault',
                      'catch','finally','throw','throws','try',
                      'import','package',
                      'boolean','byte','char','double','float','int','long','short','null','true','false',
                      'super','this','void',
                      'const','goto',
                      'this'
                     ]


In [4]:
# 特征处理
def clean_word(word = ''):
    # 去掉中文、去掉无效字符、去掉停用词
    if not(word.isalpha()) or (word in stop_use_word_java):
        return 'this_word_is_illegle'
    # 提取词干、单词全部小写
    rs = get_stem(word).lower()
    return rs

def clean_text(text = ['']):
    # 遍历文章每个分词
    print('本次处理文章的长度：%i ' % len(text))
    return [clean_word(word) for word in text if not(clean_word(word) == 'this_word_is_illegle')]

def word_clean(text_list):
    # 遍历每篇文章
    return [clean_text(text) for text in text_list]


In [5]:
lf.log('初始化')
path_folder = '/Users/hata/Develop/' \
    + 'workspace_python/jupyter-notebook/' \
    + 'CodePortrait/data/'
data_folder=os.path.join(path_folder,"books")
print('导入的数据集是： %s ' % data_folder)


------------------初始化-------------------
导入的数据集是： /Users/hata/Develop/workspace_python/jupyter-notebook/CodePortrait/data/books 


In [6]:
lf.log('测试加载样本数据')
documents, filenames, paths = lf.load_project_data(data_folder)
lf.log('检查加载样本数据')
print('documents length: %i ' % len(documents))
print('filenames length: %i ' % len(filenames))
print('paths length: %i ' % len(paths))


------------------测试加载样本数据-------------------
输入目录地址：/Users/hata/Develop/workspace_python/jupyter-notebook/CodePortrait/data/books
－－－－－－－－－－－
当前目录地址：/Users/hata/Develop/workspace_python/jupyter-notebook/CodePortrait/data/books
含有文件：['.DS_Store', '2400 2.txt', '2400.txt']
－－－－－－－－－－－
当前目录地址：/Users/hata/Develop/workspace_python/jupyter-notebook/CodePortrait/data/books/burton
含有文件：['.DS_Store', '18506.txt', '2400.txt', '4657.txt', '4658.txt', '5760.txt', '5761.txt', '6036.txt', '6886.txt', '7111.txt', '7113.txt', '8821.txt']
－－－－－－－－－－－
当前目录地址：/Users/hata/Develop/workspace_python/jupyter-notebook/CodePortrait/data/books/burton/sub
含有文件：['.DS_Store', '2400.txt']
－－－－－－－－－－－
当前目录地址：/Users/hata/Develop/workspace_python/jupyter-notebook/CodePortrait/data/books/burton/sub/sub
含有文件：['2400.txt']
－－－－－－－－－－－
当前目录地址：/Users/hata/Develop/workspace_python/jupyter-notebook/CodePortrait/data/books/test
含有文件：['2400.txt']
------------------检查加载样本数据-------------------
documents length: 16 
filenames leng

In [7]:
lf.log('测试分词效果')
output_text_list = sw.separate_texts(documents)
print('output_text_list length: %i ' % len(output_text_list))


------------------测试分词效果-------------------
分词符号集合: ['\r\n', '\r', '\n', '\t', ' ', '_', '.', ',', '+', '-', '=', ';', ':', '/', '*', '#', '@', '?', '!', '%', '^', "'", '"', '(', ')', '[', ']', '{', '}', '&', '~', '|', '-'] 
目标分词符号:   
分词符号集合: ['\r\n', '\r', '\n', '\t', ' ', '_', '.', ',', '+', '-', '=', ';', ':', '/', '*', '#', '@', '?', '!', '%', '^', "'", '"', '(', ')', '[', ']', '{', '}', '&', '~', '|', '-'] 
目标分词符号:   
分词符号集合: ['\r\n', '\r', '\n', '\t', ' ', '_', '.', ',', '+', '-', '=', ';', ':', '/', '*', '#', '@', '?', '!', '%', '^', "'", '"', '(', ')', '[', ']', '{', '}', '&', '~', '|', '-'] 
目标分词符号:   
分词符号集合: ['\r\n', '\r', '\n', '\t', ' ', '_', '.', ',', '+', '-', '=', ';', ':', '/', '*', '#', '@', '?', '!', '%', '^', "'", '"', '(', ')', '[', ']', '{', '}', '&', '~', '|', '-'] 
目标分词符号:   
分词符号集合: ['\r\n', '\r', '\n', '\t', ' ', '_', '.', ',', '+', '-', '=', ';', ':', '/', '*', '#', '@', '?', '!', '%', '^', "'", '"', '(', ')', '[', ']', '{', '}', '&', '~', '|', '-'] 
目标分词符号:

In [8]:
lf.log('测试提取词干')
print([get_stem(t) for t in ['rrr r','678tttt','testTT','tests','tested','rrr','8rred8ttf','tew']])

------------------测试提取词干-------------------
['rrr r', '678tttt', 'testTT', 'test', 'test', 'rrr', '8rred8ttf', 'tew']


In [9]:
lf.log('测试特征预处理')
print(clean_word('lejrocjojeewi1jfow'))
print( word_clean([['rrr r','678tttt','testTT','tests','tested','rrr','8rred8ttf','tew'],['rrr_r','123','tttt']]) )

------------------测试特征预处理-------------------
this_word_is_illegle
本次处理文章的长度：8 
本次处理文章的长度：3 
[['testtt', 'test', 'test', 'rrr', 'tew'], ['tttt']]


In [10]:
lf.log('测试特征预处理（全部）')
text_done_list = word_clean(output_text_list)
print('text_done_list length: %i ' % len(text_done_list))
#print(text_done_list[0])

------------------测试特征预处理（全部）-------------------
本次处理文章的长度：78346 
本次处理文章的长度：78346 
本次处理文章的长度：92655 
本次处理文章的长度：78346 
本次处理文章的长度：159099 
本次处理文章的长度：171913 
本次处理文章的长度：61974 
本次处理文章的长度：80226 
本次处理文章的长度：21009 
本次处理文章的长度：127159 
本次处理文章的长度：86520 
本次处理文章的长度：76196 
本次处理文章的长度：87547 
本次处理文章的长度：78346 
本次处理文章的长度：78346 
本次处理文章的长度：78346 
text_done_list length: 16 
