**1 CFG 上下文无关文法**

In [1]:
simple_grammar = """
sentence => noun_phrase verb_phrase
noun_phrase => Article Adj* noun
Adj* => null | Adj Adj*
verb_phrase => verb noun_phrase
Article =>  一个 | 这个
noun =>   女人 |  篮球 | 桌子 | 小猫
verb => 看着   |  坐在 |  听着 | 看见 | 喝着
Adj =>  蓝色的 | 好看的 | 小小的
"""

#Adj*表示零个或多个

In [2]:
import random
def adj(): return random.choice('蓝色的 | 好看的 | 小小的'.split('|')).split()[0] #定义生成形容词???

In [3]:
adj() #调用函数


'小小的'

In [4]:
def adj_star():
    return random.choice([None, adj() + adj()])

In [5]:
adj_star()

In [24]:
def adj_star():
    return random.choice([lambda : '', lambda :adj() + adj_star()])

In [16]:
adj_star()

<function __main__.adj_star.<locals>.<lambda>()>

In [None]:
#问题：如果我们更换了语法，会发现所有写过的程序，都要重新写

**2 CFG改进**

In [7]:
adj_grammar = """
Adj* => null | Adj Adj*
Adj =>  蓝色的 | 好看的 | 小小的
"""
grammar = {}
for line in adj_grammar.split('\n'):
    if not line.strip():continue
        
    exp, stmt = line.split('=>')
    grammar[exp] =stmt.split('|')    

In [8]:
grammar

{'Adj* ': [' null ', ' Adj Adj*'], 'Adj ': ['  蓝色的 ', ' 好看的 ', ' 小小的']}

**3 程序优化**

In [13]:
adj_grammar = """
Adj* => null | Adj Adj*
Adj =>  蓝色的 | 好看的 | 小小的
"""

grammar = {}

for line in adj_grammar.split('\n'):
    if not line.strip():continue
        
    exp, stmt = line.split('=>')
    grammar[exp.strip()] = [s.split() for s in stmt.split('|')]

In [17]:
#grammar['Adj']
grammar['Adj*']

[['null'], ['Adj', 'Adj*']]

**4生成语言-Adj**

In [26]:
adj_grammar = """
Adj* => null | Adj Adj*
Adj =>  蓝色的 | 好看的 | 小小的
"""

grammar = {}

for line in adj_grammar.split('\n'):
    if not line.strip():continue
        
    exp, stmt = line.split('=>')
    grammar[exp.strip()] = [s.split() for s in stmt.split('|')]

def generate(gram, target):
    if target in gram :#
        new_expanded = random.choice(gram[target])
        return ''.join(generate(gram, t) for t in new_expanded)
    else:
        return target

In [29]:
generate(gram=grammar, target='Adj')

'好看的'

**5生成所有的形容词**

In [126]:
adj_grammar = """
Adj* => null | Adj Adj*
Adj =>  蓝色的 | 好看的 | 小小的
"""

grammar = {}

for line in adj_grammar.split('\n'):
    if not line.strip():continue
        
    exp, stmt = line.split('=>')
    grammar[exp.strip()] = [s.split() for s in stmt.split('|')]

def generate(gram,target):
    if target not in gram: return target # 意味着target是个终端，直接返回
    return ''.join(generate(gram, t) for t in random.choice(gram[target]))

In [127]:
generate(gram=grammar, target='Adj*')

'小小的蓝色的null'

**6随机生成句子完整的**

In [189]:
simple_grammar = """
sentence => noun_phrase verb_phrase
noun_phrase => Article Adj* noun
Adj* => null | Adj Adj*
verb_phrase => verb noun_phrase
Article =>  一个 | 这个
noun =>   女人 |  篮球 | 桌子 | 小猫
verb => 看着   |  坐在 |  听着 | 看见 
Adj =>  蓝色的 | 好看的 | 小小的
"""

In [190]:
import random

In [191]:
choice = random.choice #随机选择

def generate(gram, target):
    if target not in gram: return target # 意味着target是个终端，直接返回
    
    expaned = [generate(gram, t) for t in choice(gram[target])] #
    #return ' '.join(generate(gram,t) for t in choice(gram[target]))
    return ''.join([e for e in expaned if e != 'null'])
    #return ''.join([e if e != '/n' else '\n' for e in expaned if e !='null']) #去掉null 

In [192]:
#def create_grammar(grammar_str, split='=>', line_split='\n'): #输入的是grammar的字符表征
def create_grammer(grammar_str):
    grammar = {} #定义一个语法
    for line in grammar_str.split(line_split):
        if not line.strip(): continue
        exp, stmt = line.split('=>')  #stmt=stament
        grammar[exp.strip()] = [s.split() for s in stmt.split('|')]
    return grammar

In [193]:
example_grammar = create_grammar(simple_grammar)

In [194]:
example_grammar

{'sentence': [['noun_phrase', 'verb_phrase']],
 'noun_phrase': [['Article', 'Adj*', 'noun']],
 'Adj*': [['null'], ['Adj', 'Adj*']],
 'verb_phrase': [['verb', 'noun_phrase']],
 'Article': [['一个'], ['这个']],
 'noun': [['女人'], ['篮球'], ['桌子'], ['小猫']],
 'verb': [['看着'], ['坐在'], ['听着'], ['看见']],
 'Adj': [['蓝色的'], ['好看的'], ['小小的']]}

In [195]:
generate(gram=example_grammar, target='sentence')

'一个篮球听着这个小小的篮球'

In [174]:
##这个地方找错都用了1个小时##

**7案例 西部世界语言生成**

In [278]:
#在西部世界里，一个”人类“的语言可以定义为：

human = """
human = 自己 寻找 活动
自己 = 我 | 俺 | 我们 
寻找 = 找找 | 想找点 
活动 = 乐子 | 玩的
"""


#一个“接待员”的语言可以定义为

host = """
host = 寒暄 报数 询问 业务相关 结尾 
报数 = 我是 数字 号 ,
数字 = 单个数字 | 数字 单个数字 
单个数字 = 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 
寒暄 = 称谓 打招呼 | 打招呼
称谓 = 人称 ,
人称 = 先生 | 女士 | 小朋友
打招呼 = 你好 | 您好 
询问 = 请问你要 | 您需要
业务相关 = 玩玩 具体业务
玩玩 = null
具体业务 = 喝酒 | 打牌 | 打猎 | 赌博
结尾 = 吗？
"""



In [279]:
import random

In [280]:
choice = random.choice #随机选择

def generate(gram, target):
    if target not in gram: return target # 意味着target是个终端，直接返回
    
    expaned = [generate(gram, t) for t in choice(gram[target])] #
    #return ' '.join(generate(gram,t) for t in choice(gram[target]))
    return ''.join([e for e in expaned if e != 'null'])
    #return ''.join([e if e != '/n' else '\n' for e in expaned if e !='null']) #去掉null 

In [281]:
#def create_grammar(grammar_str, split='=>', line_split='\n'): #因为语法定义不是=，所以要加参数split='=>'
def create_grammer(grammar_str):
    grammar = {} #定义一个语法
    for line in grammar_str.split(line_split):
        if not line.strip(): continue
        exp, stmt = line.split(split)
        grammar[exp.strip()] = [s.split() for s in stmt.split('|')]
    return grammar

In [282]:
example_grammar = create_grammar(simple_grammar)

In [283]:
example_grammar

{'sentence': [['noun_phrase', 'verb_phrase']],
 'noun_phrase': [['Article', 'Adj*', 'noun']],
 'Adj*': [['null'], ['Adj', 'Adj*']],
 'verb_phrase': [['verb', 'noun_phrase']],
 'Article': [['一个'], ['这个']],
 'noun': [['女人'], ['篮球'], ['桌子'], ['小猫']],
 'verb': [['看着'], ['坐在'], ['听着'], ['看见']],
 'Adj': [['蓝色的'], ['好看的'], ['小小的']]}

In [284]:
generate(gram=create_grammar(host,split='='),target='host')

'小朋友,您好我是6号,您需要打猎吗？'

In [285]:
generate(gram=create_grammar(human,split='='),target='human') #换成人类的语言

'俺想找点玩的'

In [288]:
for i in range(20): #循环20次
    print(generate(gram=create_grammar(human,split='='),target='human'))

我找找乐子
我们想找点玩的
俺找找玩的
俺找找玩的
我想找点玩的
我们找找乐子
我找找乐子
俺想找点玩的
我们找找玩的
我找找玩的
俺找找玩的
我们想找点玩的
俺找找玩的
我想找点乐子
我们想找点玩的
我找找乐子
我找找玩的
俺找找乐子
我们找找乐子
俺找找乐子


In [None]:
#上面的思想是data drive, 目标是希望写一个程序，然后输入的数据变化，不用重新写，需要变得通用Generalization.
#AI思考，如何自动化解决，输入变了，方法不变。
#以上的方法都是给定一个句子，通过语言学的方法，拆分句子。宾西法利亚大学在做，计算机请语言学家来做。后来
# Every time I fire a linguist, the performance of the speech recognizer goes up

**8生成计算编程语言**

In [267]:
programming = """
stmt => if_exp | while_exp | assignment 
assignment => var = var
if_exp => if ( var ) { /n .... stmt }
while_exp => while ( var ) { /n .... stmt }
var => chars number
chars => char | char char
char => a | b | c | d | e
number => 1 | 2 | 3
"""

In [268]:
import random

In [269]:
choice = random.choice #随机选择

def generate(gram, target):
    if target not in gram: return target # 意味着target是个终端，直接返回
    
    expaned = [generate(gram, t) for t in choice(gram[target])] #
    #return ' '.join(generate(gram,t) for t in choice(gram[target]))
    #return ''.join([e for e in expaned if e != 'null'])
    return ''.join([e if e != '/n' else '\n' for e in expaned if e !='null']) #去掉null 

In [270]:
def create_grammar(grammar_str, split='=>', line_split='\n'): #因为语法定义不是=，所以要加参数split='=>'
#def create_grammer(grammar_str):
    grammar = {} #定义一个语法
    for line in grammar_str.split(line_split):
        if not line.strip(): continue
        exp, stmt = line.split(split)
        grammar[exp.strip()] = [s.split() for s in stmt.split('|')]
    return grammar

In [277]:
#generate(gram=create_grammar(programming,split='=>'),target='stmt')
print(generate(gram=create_grammar(programming,split='=>'),target='stmt')) #生成的结果表什么意思

while(aa1){
....dd3=c3}


**9语言模型-基于概率**

$$ language\_model(String) = Probability(String) \in (0, 1) $$

$$ Pro(w_1 w_2 w_3 w_4) = Pr(w_1 | w_2 w_3 w_ 4) * P(w2 | w_3 w_4) * Pr(w_3 | w_4) * Pr(w_4)$$ 

𝑃𝑟𝑜(𝑤1𝑤2𝑤3𝑤4)∼𝑃𝑟(𝑤1|𝑤2)∗𝑃(𝑤2|𝑤3)∗𝑃𝑟(𝑤3|𝑤4)∗𝑃𝑟(𝑤4)

how to get $ Pr(w1 | w2 w3 w4) $ ?

**技巧：随机生成一个数字**

In [290]:
#import random
#random.choice(range(100))

43

**读取和查看数据**

In [1]:
filename = "D:/NLP/sqlResult_1558435.csv"

In [2]:
import pandas as pd

In [3]:
content = pd.read_csv(filename,encoding='gb18030')

In [4]:
content.head()

Unnamed: 0,id,author,source,content,feature,title,url
0,89617,,快科技@http://www.kkj.cn/,此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""37""...",小米MIUI 9首批机型曝光：共计15款,http://www.cnbeta.com/articles/tech/623597.htm
1,89616,,快科技@http://www.kkj.cn/,骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""15""...",骁龙835在Windows 10上的性能表现有望改善,http://www.cnbeta.com/articles/tech/623599.htm
2,89615,,快科技@http://www.kkj.cn/,此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""18""...",一加手机5细节曝光：3300mAh、充半小时用1天,http://www.cnbeta.com/articles/tech/623601.htm
3,89614,,新华社,这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n,"{""type"":""国际新闻"",""site"":""环球"",""commentNum"":""0"",""j...",葡森林火灾造成至少62人死亡 政府宣布进入紧急状态（组图）,http://world.huanqiu.com/hot/2017-06/10866126....
4,89613,胡淑丽_MN7479,深圳大件事,（原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...,"{""type"":""新闻"",""site"":""网易热门"",""commentNum"":""978"",...",44岁女子约网友被拒暴雨中裸奔 交警为其披衣相随,http://news.163.com/17/0618/00/CN617P3Q0001875...


In [5]:
content['content']

0        此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...
1        骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...
2        此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...
3          这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n
4        （原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...
5        　　受到A股被纳入MSCI指数的利好消息刺激，A股市场从周三开始再度上演龙马行情，周四上午金...
6        虽然至今夏普智能手机在市场上无法排得上号，已经完全没落，并于 2013 年退出中国市场，但是...
7        　　沙漠雄鹰：震荡有利消化套牢筹码\r\n　　周四开盘上证50在银行券商大蓝筹带动下一度涨近...
8        （原标题：武汉警方一下子抓了808人，还都是俊男靓女！原来他们每天偷偷摸摸干这事！）\r\n...
9        　　6月21日，A股纳入MSCI指数尘埃落定，但当天被寄予厚望的券商股并未扛起反弹大旗。22...
10       　　证券时报网（www.stcn.com）06月23日讯\r\n　　据上证报道，6月初以来，...
11       ?\r\n　　巨丰早评：市场将再次探底\r\n　　【巨丰观点】\r\n　　周四大盘冲高回落，...
12       中新网6月19日电 据外媒报道，美国底特律一名男子1976年因为一根头发被定谋杀罪，监禁41...
13       　　曹先生：风格转换前的阵痛\r\n　　今日早盘两地低开，之后一度震荡走高，领涨的仍然是上证...
14       6月21日，MSCI在官网发布公告称，从明年6月起将中国A股纳入MSCI新兴市场指数和MSC...
15       　　中国证券网讯（记者 费天元）沪深两市周五临近午盘出现快速跳水，沪指连续跌穿5日、10日及...
16       九成以上的源包用逐位对应的方式构建，未来版本的 Debian 还将提供验证包的工具和元数据；.

In [6]:
articles = content['content'].tolist() #tolist将数组或矩阵转换为列表

In [7]:
len(articles) #查看长度

89611

In [8]:
articles[110] #查看110的数据

'在外国名著《麦田里的守望者》中，作者想要守护麦田里如自己内心一般纯真的孩子们。而驻村干部们，也在这个炎热的夏天里撸袖子上阵，真正做起了村民们的“麦田守望者”。\r\n三夏时节不等人\r\n你看到了吗？不停翻涌起伏、仿若铺陈至天边的金黄麦浪中，那若隐若现的人影，是自治区新闻出版广电局驻和田市肖尔巴格乡合尼村工作队的队员与工作队组织的青年志愿者。\r\n在这个炎热的夏季，他们深入田间地头，帮助村民们收割小麦。扛起收麦机，麦田中的每个人都显得兴致勃勃，一天下来就近22亩小麦收割完毕。\r\n志愿者麦麦提亚森擦去满脸的汗水，高兴地告诉驻村队员：“我们青年志愿者应该多做贡献，为村里的脱贫致富出把力。工作队带着我们为村里的老人服务，看到那些像我爷爷奶奶一样的老人赞许感谢的目光，我体会到了帮助他人的快乐。”（自治区新闻出版广电局驻村工作队孙敏 艾力依布拉音）\r\n麦收时节 我们在一起\r\n6月中旬的和田墨玉，麦田金黄，静待收割。\r\n6月14日、15日两天，自治区高级人民法院驻和田地区墨玉县吐外特乡罕勒克艾日克村工作队与48名村民志愿者一道，帮助村里29户有需要的村民进行小麦收割工作。\r\n田间地头，罕勒克艾日克村志愿队的红旗迎风飘扬，格外醒目。10余台割麦机一起轰鸣，男人们在用机器收割小麦的同时，几名妇女也加入到志愿队，构成了一道美丽的麦收风景。\r\n休息空闲，工作队员和村民们坐在树荫下、田埂上，互相问好、聊天。语言交流有困难，就用手势、动作比划着聊天，有趣地交流方式不时引来阵阵欢笑。大家在一同享受丰收和喜悦，也一同增进着彼此的情感和友谊。（自治区高级人民法院驻村工作队周春梅 艾地艾木·阿不拉）\r\n细看稻菽千重浪\r\n6月15日，自治区煤田灭火工程局的干部职工们再一次跋涉1000多公里来到了叶城县萨依巴格乡阿亚格欧尔达贝格村，见到了自己的亲戚。现场处处都透出掩盖不住的喜悦，一声声亲切的“谢谢”、一个个结实的拥抱，都透露出浓浓的亲情。\r\n没坐一会儿，在嘘寒问暖中大家了解到在麦收的关键时刻，部分村民家中却存在收割难的问题。小麦成熟期短，收获的时间集中，天气的变化对小麦最终产量的影响极大，如果不能及时收割，会有不小损失的。于是，大家几乎立刻就决定要帮助亲戚们收割麦子。\r\n在茂密的麦地里，干部们每人手持一把镰刀，一字排开，挽起衣袖、卷起裤腿，挥舞着镰刀进行着无

**正则表达式**

定义：定义一种模式，找出里面的内容

正则很重要，需要好好学习

In [9]:
import re

In [10]:
def token(string):
    return re.findall('\w+', string)  #'\w'找出所有单词

In [11]:
''.join(token(articles[110]))

'在外国名著麦田里的守望者中作者想要守护麦田里如自己内心一般纯真的孩子们而驻村干部们也在这个炎热的夏天里撸袖子上阵真正做起了村民们的麦田守望者三夏时节不等人你看到了吗不停翻涌起伏仿若铺陈至天边的金黄麦浪中那若隐若现的人影是自治区新闻出版广电局驻和田市肖尔巴格乡合尼村工作队的队员与工作队组织的青年志愿者在这个炎热的夏季他们深入田间地头帮助村民们收割小麦扛起收麦机麦田中的每个人都显得兴致勃勃一天下来就近22亩小麦收割完毕志愿者麦麦提亚森擦去满脸的汗水高兴地告诉驻村队员我们青年志愿者应该多做贡献为村里的脱贫致富出把力工作队带着我们为村里的老人服务看到那些像我爷爷奶奶一样的老人赞许感谢的目光我体会到了帮助他人的快乐自治区新闻出版广电局驻村工作队孙敏艾力依布拉音麦收时节我们在一起6月中旬的和田墨玉麦田金黄静待收割6月14日15日两天自治区高级人民法院驻和田地区墨玉县吐外特乡罕勒克艾日克村工作队与48名村民志愿者一道帮助村里29户有需要的村民进行小麦收割工作田间地头罕勒克艾日克村志愿队的红旗迎风飘扬格外醒目10余台割麦机一起轰鸣男人们在用机器收割小麦的同时几名妇女也加入到志愿队构成了一道美丽的麦收风景休息空闲工作队员和村民们坐在树荫下田埂上互相问好聊天语言交流有困难就用手势动作比划着聊天有趣地交流方式不时引来阵阵欢笑大家在一同享受丰收和喜悦也一同增进着彼此的情感和友谊自治区高级人民法院驻村工作队周春梅艾地艾木阿不拉细看稻菽千重浪6月15日自治区煤田灭火工程局的干部职工们再一次跋涉1000多公里来到了叶城县萨依巴格乡阿亚格欧尔达贝格村见到了自己的亲戚现场处处都透出掩盖不住的喜悦一声声亲切的谢谢一个个结实的拥抱都透露出浓浓的亲情没坐一会儿在嘘寒问暖中大家了解到在麦收的关键时刻部分村民家中却存在收割难的问题小麦成熟期短收获的时间集中天气的变化对小麦最终产量的影响极大如果不能及时收割会有不小损失的于是大家几乎立刻就决定要帮助亲戚们收割麦子在茂密的麦地里干部们每人手持一把镰刀一字排开挽起衣袖卷起裤腿挥舞着镰刀进行着无声的竞赛骄阳似火汗如雨下但这都挡不住大家的热情随着此起彼伏的镰刀割倒麦子的刷刷声响不一会一束束沉甸甸的麦穗就被整齐地堆放了起来当看到自己亲手收割的金黄色麦穗被一簇簇地打成捆运送到晒场每个人的脸上都露出了灿烂的笑容自治区煤田灭火工程局驻村工作队马浩南这是一个收获多多的季节6月1

In [13]:
#**结巴分词**
#如果直接用结巴分词的问题,出现最多的就是有很多噪音，求概率的时候就错了

import jieba
from collections import Counter
with_jieba_cut = Counter(jieba.cut(articles[110]))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Geoffrey\AppData\Local\Temp\jieba.cache
Loading model cost 0.765 seconds.
Prefix dict has been built succesfully.


In [14]:
with_jieba_cut.most_common()[:10]   #查看结巴分词的前10个词

[('，', 88),
 ('的', 73),
 ('。', 39),
 ('\r\n', 27),
 ('了', 20),
 ('们', 18),
 ('工作队', 16),
 ('村民', 15),
 ('收割', 14),
 ('、', 12)]

In [15]:
articles_clearn = [''.join(token(str(a))) for a in articles]

In [16]:
articles_clearn[0]

'此外自本周6月12日起除小米手机6等15款机型外其余机型已暂停更新发布含开发版体验版内测稳定版暂不受影响以确保工程师可以集中全部精力进行系统优化工作有人猜测这也是将精力主要用到MIUI9的研发之中MIUI8去年5月发布距今已有一年有余也是时候更新换代了当然关于MIUI9的确切信息我们还是等待官方消息'

In [None]:
**经过处理后用结巴分词**

In [23]:
#def cut(string):return list(jieba.cut(string))

In [25]:
#articles_words = [
#    cut(string) for string in articles_clearn 
#]

In [None]:
#分词时间需要比较长

**加乘数字函数技巧**

In [26]:
#from functools import reduce

In [27]:
#from operator import add,mul

In [28]:
#reduce(add,[1,2,3,4,5]) #[]里面数字相加
#reduce(mul,[1,2,3,4,5])  #[]里面数字相乘

120

In [29]:
#TOKENS = []  #定义一个空列表

In [None]:
#TOKENS = reduce(add,articles_words) #把单词加起来就知道单词的频率了

In [17]:
#TOKEN也比较耗时，可以将articles_clean设置成10000条[:10000]

def cut(string): return list(jieba.cut(string))
articles_words = [
    cut(string) for string in articles_clearn[:10000]
]


In [18]:
TOKENS = []

In [19]:
from functools import reduce

In [20]:
from operator import add, mul

In [None]:
TOKEN = reduce(add,articles_words) #因为电脑问题所以在这一步断了

**根据单词判断出现的概率**

In [None]:
#重新开始

In [2]:
filename = "D:/NLP/sqlResult_1558435.csv"

In [3]:
import pandas as pd

In [4]:
content = pd.read_csv(filename,encoding='gb18030')

In [7]:
content.head()

Unnamed: 0,id,author,source,content,feature,title,url
0,89617,,快科技@http://www.kkj.cn/,此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""37""...",小米MIUI 9首批机型曝光：共计15款,http://www.cnbeta.com/articles/tech/623597.htm
1,89616,,快科技@http://www.kkj.cn/,骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""15""...",骁龙835在Windows 10上的性能表现有望改善,http://www.cnbeta.com/articles/tech/623599.htm
2,89615,,快科技@http://www.kkj.cn/,此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""18""...",一加手机5细节曝光：3300mAh、充半小时用1天,http://www.cnbeta.com/articles/tech/623601.htm
3,89614,,新华社,这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n,"{""type"":""国际新闻"",""site"":""环球"",""commentNum"":""0"",""j...",葡森林火灾造成至少62人死亡 政府宣布进入紧急状态（组图）,http://world.huanqiu.com/hot/2017-06/10866126....
4,89613,胡淑丽_MN7479,深圳大件事,（原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...,"{""type"":""新闻"",""site"":""网易热门"",""commentNum"":""978"",...",44岁女子约网友被拒暴雨中裸奔 交警为其披衣相随,http://news.163.com/17/0618/00/CN617P3Q0001875...


In [5]:
articles = content['content'].tolist()

In [6]:
len(articles)

89611

In [9]:
import re

In [10]:
def token(string):
    return re.findall('\w+',string)

In [11]:
import jieba

In [12]:
from collections import Counter

In [13]:
with_jieba_cut = Counter(jieba.cut(articles[110]))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Geoffrey\AppData\Local\Temp\jieba.cache
Loading model cost 0.792 seconds.
Prefix dict has been built succesfully.


In [14]:
with_jieba_cut.most_common()[:10]

[('，', 88),
 ('的', 73),
 ('。', 39),
 ('\r\n', 27),
 ('了', 20),
 ('们', 18),
 ('工作队', 16),
 ('村民', 15),
 ('收割', 14),
 ('、', 12)]

In [15]:
''.join(token(articles[110]))

'在外国名著麦田里的守望者中作者想要守护麦田里如自己内心一般纯真的孩子们而驻村干部们也在这个炎热的夏天里撸袖子上阵真正做起了村民们的麦田守望者三夏时节不等人你看到了吗不停翻涌起伏仿若铺陈至天边的金黄麦浪中那若隐若现的人影是自治区新闻出版广电局驻和田市肖尔巴格乡合尼村工作队的队员与工作队组织的青年志愿者在这个炎热的夏季他们深入田间地头帮助村民们收割小麦扛起收麦机麦田中的每个人都显得兴致勃勃一天下来就近22亩小麦收割完毕志愿者麦麦提亚森擦去满脸的汗水高兴地告诉驻村队员我们青年志愿者应该多做贡献为村里的脱贫致富出把力工作队带着我们为村里的老人服务看到那些像我爷爷奶奶一样的老人赞许感谢的目光我体会到了帮助他人的快乐自治区新闻出版广电局驻村工作队孙敏艾力依布拉音麦收时节我们在一起6月中旬的和田墨玉麦田金黄静待收割6月14日15日两天自治区高级人民法院驻和田地区墨玉县吐外特乡罕勒克艾日克村工作队与48名村民志愿者一道帮助村里29户有需要的村民进行小麦收割工作田间地头罕勒克艾日克村志愿队的红旗迎风飘扬格外醒目10余台割麦机一起轰鸣男人们在用机器收割小麦的同时几名妇女也加入到志愿队构成了一道美丽的麦收风景休息空闲工作队员和村民们坐在树荫下田埂上互相问好聊天语言交流有困难就用手势动作比划着聊天有趣地交流方式不时引来阵阵欢笑大家在一同享受丰收和喜悦也一同增进着彼此的情感和友谊自治区高级人民法院驻村工作队周春梅艾地艾木阿不拉细看稻菽千重浪6月15日自治区煤田灭火工程局的干部职工们再一次跋涉1000多公里来到了叶城县萨依巴格乡阿亚格欧尔达贝格村见到了自己的亲戚现场处处都透出掩盖不住的喜悦一声声亲切的谢谢一个个结实的拥抱都透露出浓浓的亲情没坐一会儿在嘘寒问暖中大家了解到在麦收的关键时刻部分村民家中却存在收割难的问题小麦成熟期短收获的时间集中天气的变化对小麦最终产量的影响极大如果不能及时收割会有不小损失的于是大家几乎立刻就决定要帮助亲戚们收割麦子在茂密的麦地里干部们每人手持一把镰刀一字排开挽起衣袖卷起裤腿挥舞着镰刀进行着无声的竞赛骄阳似火汗如雨下但这都挡不住大家的热情随着此起彼伏的镰刀割倒麦子的刷刷声响不一会一束束沉甸甸的麦穗就被整齐地堆放了起来当看到自己亲手收割的金黄色麦穗被一簇簇地打成捆运送到晒场每个人的脸上都露出了灿烂的笑容自治区煤田灭火工程局驻村工作队马浩南这是一个收获多多的季节6月1

In [16]:
articles_clean = [''.join(token(str(a))) for a in articles]

In [17]:
len(articles_clean)

89611

In [23]:
写到文件作为缓存
with open('article_9k.txt','w') as f:
    for a in articles_clean:
        for.write(a + '\n')

SyntaxError: invalid syntax (<ipython-input-23-ef1cf6ae8619>, line 4)

In [18]:
pwd

'D:\\NLP\\机器学习'

In [28]:
TOKENS = []

In [33]:
def cut(string):return list(jieba.cut(string))

In [34]:
TOKENS = cut(open(r'article_9k.txt',encoding='utf-8').read())

In [22]:
for i, line in enumerate((open('article_9k.txt',encoding='utf-8'))):
    if i % 100 == 0:print(i)
        
    if i > 10000: break
    TOKEN += cut(line)

0


NameError: name 'cut' is not defined