# 文本向量化
### 基本的one-hot向量化
1. 首先构建词典：词典来源可以来源于现有文本中抽取，得到本地词典。
> 在词典构建之前首先必须进行分词，英文直接使用str.split()即可，但中文分词需要使用其他工具
2. 在本地词典基础上，通过one-hot可以构建最基本的文本向量矩阵，在词典中出现的为1，没有出现的为0

---
* 实现英文的文本one-hot 向量化构建
* 实现基于sklearn的one-hot 向量化构建
* 实现中文one-hot 向量化构建

In [None]:
import numpy as np
import pandas as pd
import jieba 
 
 
def token2onehot(words)->pd.DataFrame:
    words_set=sorted(set(words))
    print("分词后list转化为集合，去重，并进行排序处理",words_set)
    diction={}
    for index,value in enumerate(words_set):
       diction[index]=value
    print("转换后的本地词典：",diction)

    column=len(words)
    row=len(diction)
    onehotMatrix=np.zeros((row,column),dtype=float)
    print("one-hot矩阵大小：",onehotMatrix.shape)
    for i in range(len(words)):
        for j in range(len(diction)):
          if words[i]==diction[j]:
              
             onehotMatrix[j,i]=1
    df=pd.DataFrame(onehotMatrix)
    df.columns=words
    return(df)
if __name__=="__main__":
    print("英文one-hot，词典中单词来源于原文")
    sents="Life is like music. It must be composed by ear, feeling and instinct, not by rule."
    words=sents.split()
    df=token2onehot(words)
    #print(df)
    print("中文one-hot，词典中单词来源于原文")
    sents="中国国家统计局15日公布的70个大中城市房价数据显示"
    words=list(jieba.cut(sents))
    df2=token2onehot(words)
    print(df2)

In [None]:
# 自然语言处理书中方法
import numpy as np 
sentence="Life is like music. It must be composed by ear, feeling and instinct, not by rule."
token=sentence.split()
vocad=sorted(set(token))# 对英文文本进行排序，数字最先，大写在前，小写在后
 
','.join(vocad)
print(token)
print(vocad)
num_tokens=len(token)
vocad_size=len(vocad)
#print(num_tokens)
#print(vocad_size)
onehot_vec=np.zeros((num_tokens,vocad_size),int)
print(onehot_vec)
for i, word in enumerate(token):
        onehot_vec[i,vocad.index(word)]=1
        
print(onehot_vec)
#
from sklearn.feature_extraction.text import CountVectorizer
#  CountVectorizer函数，属于常见的特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率，将文本中的词语转换为词频矩阵。CountVectorizer同样适用于中文。
vectorizer = CountVectorizer(binary=True)

In [None]:
# 自然语言处理书中方法
import numpy as np 
sentence="Life is like music. It must be composed by ear, feeling and instinct, not by rule."
token=sentence.split()
vocad=sorted(set(token))# 对英文文本进行排序，数字最先，大写在前，小写在后
 
','.join(vocad)
print(token)
print(vocad)
num_tokens=len(token)
vocad_size=len(vocad)
#print(num_tokens)
#print(vocad_size)
onehot_vec=np.zeros((num_tokens,vocad_size),int)
print(onehot_vec)
for i, word in enumerate(token):
        onehot_vec[i,vocad.index(word)]=1
        
print(onehot_vec)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(binary=True)

In [None]:
import pandas as pd 
df=pd.DataFrame(onehot_vec,columns=vocad)
print(df)

In [None]:
sentence_bow={}
for token in sentence.split():
    sentence_bow[token]=1
print(type(sentence_bow))
sorted(sentence_bow.items())

In [None]:
s=pd.Series(sentence_bow)
df2=pd.DataFrame(s,columns=["sent"])
df2=df2.T
print(df2)

In [None]:
sents="To be both a speaker of words and a doer of deeds.\n"
sents+="Only they who fulfill their duties in everyday matters will fulfill them on great occasions.\n"
sents+="The shortest way to do many things is to only one thing at a time. \n"
sents+="Life is like music. It must be composed by ear, feeling and instinct, not by rule.\n"
sents+="Life is a great big canvas, and you should throw all the paint on it you can."

### n-gram
one-hot 方法虽然能够完全数值化非结构化的文本，任何语义信息没有丢失是其优点。但是其矩阵太大，不易处理。实际上可以将其进行降维，矩阵中数值代表不是是否出现，而是出现的次数（频次）。
> 对比
### n-gram
n-gram 是一个最多包含n个元素的序列，这些元素从由他们组成的序列（通常是字符串）中提取而成。一般而言，n-gram的“元素”可以是字符、音节、词，甚至像“A”、“T”、“G”、“C”等表示DNA的符号。
实际上，单个汉字（或字符）也可以形成n-gram，但一般的单位是词，例如。

“今天天气真好呀。”
对用的2-gram为
今天 天天 天气 

如果1-gram实际就是对单个汉字的分析


In [3]:
from nltk.util import ngrams
sents="To be both a speaker of words and a doer of deeds."
token=sents.split()
gramList=list(ngrams(token,2))
print("基于ntlk实现2-gram，并转换为list")
list([" ".join(x) for x in gramList ])
sents="To be both a speaker of words and a doer of deeds."
token=sents.split()
gramList=list(ngrams(token,2))
print("基于ntlk实现2-gram，并转换为list")
list([" ".join(x) for x in gramList ])

基于ntlk实现2-gram，并转换为list
基于ntlk实现2-gram，并转换为list


['To be',
 'be both',
 'both a',
 'a speaker',
 'speaker of',
 'of words',
 'words and',
 'and a',
 'a doer',
 'doer of',
 'of deeds.']

In [None]:
!pip install nltk

在词袋基础上，进一步可以对文本进行分析，为了简化one-hot以及提供更多信息，在向量矩阵中，不保存词是否在词典中出现，而是记录其在文本中的出现频率，或者tf-idf等信息。

<font color='red'>概念</font>
* 词袋-词出现的频率或词频向量
* n-gram袋: 词对（2-gram)、三元对（3-gram）等的计数

collections.Counter对象是一个无序集合（collection），也称为袋（bag）或者多重集合（multiset）。以下通过Counter计算词频，形成词袋。

In [4]:
import jieba

 
from collections import Counter
 
#print(bag_of_words)
 
def countWord(sents)->dict:
    """计算词频并返回相应数据
    
    Args:
        sents:输入原始汉语句子。
    
    Returns:
        返回dict形式的词袋，形如{词：词频}
    """
    tokens=jieba.cut(sents)
    bag_of_words=Counter(tokens)#
    tf={}
    len_word=len(bag_of_words)
    for word in bag_of_words:
     
        count=bag_of_words[word]
        tf_w=count/len_word
        tf[word]=tf_w
    return(tf)
if __name__=="__main__":
    sents="""
游侠客是一家提供网络出游和线路服务的公司，总部在浙江杭州。此次安排龙漕沟行程的是成都分公司。8月15日，部分遇险团友对游侠客公司提出正式追责诉求。
此前，据澎湃新闻报道，彭州山洪亲历者张先生称，其报名游侠客旅行社跟团到龙漕沟耍水，质疑旅行社设计路线时未考虑风险。该旅行社客服表示，会加强产品安全评估。"""
    tf=countWord(sents)
    print(tf)

{'\n': 0.029411764705882353, '游': 0.029411764705882353, '侠客': 0.04411764705882353, '是': 0.029411764705882353, '一家': 0.014705882352941176, '提供': 0.014705882352941176, '网络': 0.014705882352941176, '出游': 0.014705882352941176, '和': 0.014705882352941176, '线路': 0.014705882352941176, '服务': 0.014705882352941176, '的': 0.029411764705882353, '公司': 0.029411764705882353, '，': 0.10294117647058823, '总部': 0.014705882352941176, '在': 0.014705882352941176, '浙江': 0.014705882352941176, '杭州': 0.014705882352941176, '。': 0.07352941176470588, '此次': 0.014705882352941176, '安排': 0.014705882352941176, '龙': 0.029411764705882353, '漕沟': 0.029411764705882353, '行程': 0.014705882352941176, '成都': 0.014705882352941176, '分公司': 0.014705882352941176, '8': 0.014705882352941176, '月': 0.014705882352941176, '15': 0.014705882352941176, '日': 0.014705882352941176, '部分': 0.014705882352941176, '遇险': 0.014705882352941176, '团友': 0.014705882352941176, '对游': 0.014705882352941176, '提出': 0.014705882352941176, '正式': 0.014705882352941176, '追责'

实现文档的向量化

>单独对一篇文档对应一个向量意义不大，需要对应多个文档，并为每篇文档创建其对应的向量。
这需要实现每篇文档对应向量的值相对于其他向量有可比性，或者说一致性。需要进行以下步骤。
1. 创建词库（lexicon），构成一个词库向量
2. 计算多个文档中，每个文档的词袋，并于词库对应，构成每个文档的词袋向量。
3. 注意文档向量与词库向量必须对应，包括长度一致；词位置一致。可以使用
``` python
np.zero_like(lexicon)
```
来构建与词库相同的0向量

**使用方式构建的词向量矩阵，每一行对应一个文本，其顺序都为词典顺序而非原文顺序，或者说这种方式丢失了原文的词序语义信息**

---
<font color='red'>词频（TF）归一化</font>

在构建多个文档对应向量构成矩阵时候，必须进行一致性处理，其涉及两个方面：

1. 词频的归一化：之前的词频为$tf= \frac{词在对应文档出现次数}{对应文档长度}$，所对应的是一个文档。但对于多个文档而言，为使得标准统一归一化词频为$tf_{归一化}=\frac{词在对应出现次数}{词典长度}$。
2. 向量长度与位置统一：


In [5]:
import numpy as np 
import jieba 
from collections import Counter

 
def createLexicon(doc_vec:np.array)->list:
    """ 创建词典
    
    Args:
        doc_vec:输入矩阵形式的原始句子集。
        
    Returns:
        去重并排序后得词典，list形式
    """
    lexicon=[]
    for sent in doc_vect:
        doc_token=list(jieba.cut(sent))
        lexicon.append(doc_token)
    lex=sum(lexicon,[])
    lex_set=sorted(set(lex))
    return lex_set
def countWord(sents,lexicon):
    """计算词频并返回相应数据
    
    Args:
        sents:输入原始汉语句子。
    
    Returns:
        返回dict形式的词袋，形如{词：词频}
    """
    tokens=jieba.cut(sents)
    bag_of_words=Counter(tokens)
    len_lexicon=len(lexicon)#字典中单词数目
    tf={}
    for word in bag_of_words:
     
        count=bag_of_words[word]
        tf_w=count/len_lexicon
        tf[word]=tf_w
    return tf

if __name__=="__main__":
    doc_list=[]
    doc_list.append("买那么多，妈妈住一套，爸爸住一套，子女各住一套，这下子50平都不挤了。")
    doc_list.append("我有一个大胆的想法，公务员的工资拿房子顶账，怎么样？")
    doc_list.append("把视频发到台湾，感化他们早日回归祖国的怀抱！")
    doc_list.append("然后开始贪钱买房，过一段再给抓起来")
    doc_list.append("娘妈的，房子又不能吃，你可以多贪几套，贫农买不起。")
    doc_vect=np.array(doc_list)
    lexicon=createLexicon(doc_vect)
    print("字典单词数（维度数）：",len(lexicon))
    print("字典内容：",lexicon)
    #import copy 
    #vec=copy.copy(lexicon)
    #print(vec)
 
    sent_matrix=np.zeros((len(doc_list),len(lexicon)))
    print("构建一个矩阵，保存词袋向量，行为文本数量，列为字典单词数目，实现文本的统一：",sent_matrix.shape)
    j=0
    for sent in doc_list:
         
        count=countWord(sent,lexicon)
        #print(count)
        for key,value in count.items():#通过查找在字典中的index，为对应行中值赋值。
            index=lexicon.index(key)
            #print("词:",key)
            #print("对应字典index",index)
            #sent_matrix[j,index]=value
            sent_matrix[j,index]=value
        print(sent_matrix)
        j=j+1# 换行
#print(sent_matrix)
    #print(count)
    

字典单词数（维度数）： 60
字典内容： ['50', '。', '一个', '一套', '一段', '不', '不能', '买', '买不起', '买房', '了', '他们', '住', '你', '公务员', '再', '几套', '又', '发到', '可以', '台湾', '吃', '各住', '回归祖国', '多', '大胆', '妈妈', '娘妈', '子女', '工资', '平都', '开始', '怀抱', '怎么样', '想法', '感化', '我', '房子', '把', '抓', '拿', '挤', '早日', '有', '然后', '爸爸', '的', '给', '视频', '贪', '贪钱', '贫农', '起来', '过', '这下子', '那么', '顶账', '！', '，', '？']
构建一个矩阵，保存词袋向量，行为文本数量，列为字典单词数目，实现文本的统一： (5, 60)
[[0.01666667 0.01666667 0.         0.05       0.         0.01666667
  0.         0.01666667 0.         0.         0.01666667 0.
  0.03333333 0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.01666667 0.
  0.01666667 0.         0.01666667 0.         0.01666667 0.
  0.01666667 0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.01666667
  0.         0.         0.         0.01666667 0.         0.
  0.         0.         0.         0.         0.         0.
  0.01666667 0.01666667 0.      

In [None]:
#基于书中方法
from collections import OrderedDict
zero_vec=OrderedDict((token,0) for token in lexicon) 
print(zero_vec)
import copy 
doc_vec=[]
doc_list=[]
doc_list.append("买那么多，妈妈住一套，爸爸住一套，子女各住一套，这下子50平都不挤了。")
doc_list.append("我有一个大胆的想法，公务员的工资拿房子顶账，怎么样？")
doc_list.append("把视频发到台湾，感化他们早日回归祖国的怀抱！")
doc_list.append("然后开始贪钱买房，过一段再给抓起来")
doc_list.append("娘妈的，房子又不能吃，你可以多贪几套，贫农买不起。")
for doc in doc_list:
    vec=copy.copy(zero_vec)
    tokens=list(jieba.cut(doc))
    token_count=Counter(tokens)
    #print(token_count) 
    for key,value in token_count.items():

        vec[key]=value/len(lexicon)
    doc_vec.append(vec)
    print(doc_vec)

## 文本相似度计算
在对文本进行词袋向量化的基础上，基于向量dot可以计算不同向量（文本）的$\cos(\theta)$从而得到向量的接近程度。
$$\cos(\theta)=\frac{\vec{v1}dot\vec{v2}}{|vec1||vec2|}$$

<font color='red'>文本向量空间的维度</font>

对于自然语言文档的空间向量，向量空间的维度是整个语料库（字典）中出现的不同词的数量，词库中有K个词就称为$K$维空间。

在学术论文中也称为$|V|$，例如上面的代码中词库lexicon有50个词，那么其为50维空间。

###齐普夫定律
>　齐普夫定律是美国语言学家G.K.齐普夫（George Kingsley Zipf）于本世纪40年代提出的词频分布定律。它可以表述为：如果把一篇较长文章中每个词出现的频次统计起来，按照高频词在前、低频词在后的递减顺序排列，并用自然数个这些词编上的等级序号，即频次最高的词等级为1，频次次之的等级为2，......，频次最小的词等级为D，。若用f表示频次，r 表示序号，则有fr=C（C为常数）。人们称该式为齐普夫定律。

>齐普夫定律是描述一系列实际现象的特点非常到位的经验定律之一。它认为，如果我们按照大小或者流行程度给某个大集合中的各项进行排序，集合中第二项的比重大约是第一项的一半，而第三项的比重大约是第一项的三分之一，以此类推。换句话来说，一般来讲，排在第k位的项目其比重为第一项的1/k。

>齐普夫定律还从定量角度描述了目前流行的一个主题: 长尾巴定律（The Long Tail）。以一个集合中按流行程度排名的物品（如亚马逊网站上销售的图书）为例。表示流行程度的图表会向下倾斜，位于左上角的是几十本最流行的图书。该图会向右下角逐渐下降，那条长尾巴会列出每年销量只有一两本的几十万种图书。换成英文即齐普夫定律最初应用的领域，这条长尾巴就是你很少会遇到的几十万个单词，譬如floriferous或者refulgent。

>把流行程度作为大致衡量价值的标准，齐普夫定律随后就会得出每一个物品的价值。也就是说，假设有100万个物品，那么最流行的100个物品将贡献总价值的三分之一，其次的10000个物品将贡献另外的三分之一; 剩余的98.99万个将贡献剩下的三分之一。有n个物品的集合其价值与log(n)成正比。

<img src="https://p1.ssl.qhimg.com/t01caf1e134491a0504.png"/>

### 使用TF-IDF替代TF构建文本向量
之前词向量的构建单纯使用TF（Term Frequency）词频作为向量中值，但这种方法无法体现文档的特征。故一般结合“逆文档频率"（Inverse Document Frequency，缩写为IDF），使用
$$tf \times idf$$
代表每个词的特征，并载入词典对应向量位置，构建文本向量，其步骤如下：
1. 对所有文档进行切词
2. 构建词典（lexicon），包括去重、排序
3. 对每个文档进行词典对应，即统一文档对应向量长度都为词典的长度，每个词对应一个槽位（slot），对应词库中位置。
4. 槽位中的值为该词的TF-IDF值，完成文本向量构建，返回一个矩阵，矩阵大小为[len(文本数),len(lexicon)]

---

* 定义idf方法
* 计算文档tf-idf并构建文本向量
* 计算cos文本相似度
* 使用sklearn实现tf-idf向量构建

In [1]:
#z'j
import numpy as np 
import numpy as np 
import jieba 
from collections import Counter

 
def createLexicon(doc_vec:np.array)->list:
    """构建字典
    
    Parameter:
       doc_vec:输入一个包含多个文本的数组。
    
    Returns:
       返回一个list包含去重，排序后的词典。
    """
    lexicon=[]
    for sent in doc_vect:
        doc_token=list(jieba.cut(sent))
        lexicon.append(doc_token)
    lex=sum(lexicon,[])
    lex_set=sorted(set(lex))
    return lex_set
def tf(sents,lexicon):
    """计算词频并返回相应数据
    
    Parameter:
        sents:输入原始汉语句子。
    
    Returns:
        返回dict形式的词袋，形如{词：词频}
    """
    tokens=jieba.cut(sents)
    bag_of_words=Counter(tokens)# Counter 返回一个词出现次数的集合
    len_lexicon=len(lexicon)#字典中单词数目
    tf={}
    for word in bag_of_words:
     
        count=bag_of_words[word]#返回词出现次数
        tf_w=count/len_lexicon #于词典中词数目相除
        tf[word]=tf_w#得到该词对应的tf
    return tf

def cos_sim(vec1:np.array,vec2:np.array)->float:
    """计算两个向量的cos夹角值"""
    n1=np.linalg.norm(vec1)
    n2=np.linalg.norm(vec2)
    v1_2=vec1@vec2
    cos=v1_2/(n1*n2)
    return cos
def tf_idf(sents:np.array,lexicon:list)->np.array:
    """计算tf_idf并返回相应数据
    
    Parameter:
        sents:输入包含所有文本。
        lexicon:词典
    
    Returns:
        返回矩阵，包含向量化后的文本，对应槽位上为tf-idf值
    """
    sent_matrix=np.zeros((len(sents),len(lexicon)))#构建一个矩阵，保存词袋向量，行为文本数量，列为字典单词数目，实现文本的统一
    j=0#矩阵起始行数
    for sent in sents:   
        tokens=jieba.cut(sent)
        bag_of_words=Counter(tokens)# Counter 返回一个词出现次数的集合
        len_lexicon=len(lexicon)#字典中单词数目
        tf={}
        for word,value in bag_of_words.items():
             
            word_contain=0
            for _doc in sents:
                if word in _doc:
                    word_contain+=1
            count=bag_of_words[word]#返回词出现次数
            tf_w=count/len_lexicon #于词典中词数目相除
           
            idf=np.log(len(sents)/(word_contain+1))
            
            tf_idf=tf_w*idf
            tf[word]=tf_idf#得到该词对应的tf_idf
            index=lexicon.index(word)
            sent_matrix[j,index]=tf_idf
        j=j+1# 换行
    return sent_matrix
 
    
if __name__=="__main__":
    doc_list=[]
    doc_list.append("买那么多，妈妈住一套，爸爸住一套，子女各住一套，这下子50平都不挤了。")
    doc_list.append("我有一个大胆的想法，公务员的工资拿房子顶账，怎么样？")
    doc_list.append("把视频发到台湾，感化他们早日回归祖国的怀抱！")
    doc_list.append("然后开始贪钱买房，过一段再给抓起来")
    doc_list.append("娘妈的，房子又不能吃，你可以多贪几套，贫农买不起。")
    doc_list.append("规定期限内没有完成商品房购置任务的干部职工，将交流到其他单位工作。")
    doc_vect=np.array(doc_list)
    lexicon=createLexicon(doc_vect)
    print("字典单词数（维度数）：",len(lexicon))
    print("字典内容：",lexicon)
    sent_matrix=tf_idf(doc_vect,lexicon)
    #print(sent_matrix)
    test1=sent_matrix[0,:]
    test2=sent_matrix[2,:]
    rs=cos_sim(test1,test2)
    print("文本向量相关度：",rs)
    

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\tomis\AppData\Local\Temp\jieba.cache
Loading model cost 1.672 seconds.
Prefix dict has been built successfully.


字典单词数（维度数）： 74
字典内容： ['50', '。', '一个', '一套', '一段', '不', '不能', '买', '买不起', '买房', '了', '交流', '他们', '任务', '住', '你', '公务员', '其他', '再', '几套', '到', '单位', '又', '发到', '可以', '台湾', '吃', '各住', '商品房', '回归祖国', '多', '大胆', '妈妈', '娘妈', '子女', '完成', '将', '工作', '工资', '干部职工', '平都', '开始', '怀抱', '怎么样', '想法', '感化', '我', '房子', '把', '抓', '拿', '挤', '早日', '有', '期限内', '没有', '然后', '爸爸', '的', '给', '规定', '视频', '贪', '贪钱', '贫农', '购置', '起来', '过', '这下子', '那么', '顶账', '！', '，', '？']
文本向量相关度： 0.0050314144312208885



sklearn 可以构建tf-idf文本向量，但对于中文需要进行一些处理

https://blog.csdn.net/word_mhg/article/details/90317975

In [4]:
!pip install jieba

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting jieba
  Using cached jieba-0.42.1-py3-none-any.whl
Installing collected packages: jieba
Successfully installed jieba-0.42.1


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
doc_list=[]
doc_list.append("买那么多，妈妈住一套，爸爸住一套，子女各住一套，这下子50平都不挤了。")
doc_list.append("我有一个大胆的想法，公务员的工资拿房子顶账，怎么样？")
doc_list.append("把视频发到台湾，感化他们早日回归祖国的怀抱！")
doc_list.append("然后开始贪钱买房，过一段再给抓起来")
doc_list.append("娘妈的，房子又不能吃，你可以多贪几套，贫农买不起。")
doc_list.append("规定期限内没有完成商品房购置任务的干部职工，将交流到其他单位工作。")
doc_list
doc_cut_list=[list(jieba.cut(sent)) for sent in doc_list]

doc=[" ".join(s) for s in doc_cut_list]

vec=TfidfVectorizer(token_pattern=r"(?u)\b\w+\b") #  token_pattern这个参数使用正则表达式来分词，其默认参数为r"(?u)\b\w\w+\b"，其中的两个\w决定了其匹配长度至少为2的单词，所以这边减到1个。对这个参数进行更多修改，可以满足其他要求，比如这里依然没有得到标点符号， 

model=vec.fit(doc)
lexcion=model.vocabulary_
print("通过slearn建立的词典：",lexcion)
print("词典长度",len(lexcion))
sparse_result = model.transform(doc)
print(sparse_result)
sklearn_matrix=sparse_result.todense().round(2)
print(sklearn_matrix)

In [10]:
doc_list

['买那么多，妈妈住一套，爸爸住一套，子女各住一套，这下子50平都不挤了。',
 '我有一个大胆的想法，公务员的工资拿房子顶账，怎么样？',
 '把视频发到台湾，感化他们早日回归祖国的怀抱！',
 '然后开始贪钱买房，过一段再给抓起来',
 '娘妈的，房子又不能吃，你可以多贪几套，贫农买不起。',
 '规定期限内没有完成商品房购置任务的干部职工，将交流到其他单位工作。']

分词
在NLP中，分词（tokenization）是一种特殊的文档切分（segmentation）过程。而文档切分能够将文本拆分成更小的文本块或片段，其中含有更为集中的信息内容。

文档切分可以是将文档分成段落，将段落分成句子，将句子分为短语，将短语分成词条（通常是词），和标点。

分词 是 NLP 流水线 的 第一步，因此他对流水线的后续处理有重要影响。分词器将自然语言文本这种非结构化数据切分成多个信息块，每个块都可以看成可计数的离散元素。这些元素在文档中的出现频率可以直接用于该文档向量表示。 上述过程立即将非结构化字符串（文本文档）转化为适合机器学习的数值型数据结构。元素出现频率可以直接被计算机用于触发有用的行动回复。或者也可以以特制方式用于某个机器学习流水线来触发更复杂的决策或行为。通过这种方式构建的词袋向量最常应用于文档检索或搜索。

新增加一列，保存切词后的结果（word） 停用词：定义函数，去除停用词，其中停用词可以使用现有词表。

用户自定义字典：
可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率

用法： jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径

词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），

用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。

词频省略时使用自动计算的能保证分出该词的词频。 例如：

创新办 3 i

云计算 5

凱特琳 nz

台中