# 词条化

In [23]:
import tensorflow as tf

In [24]:
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
#这里用的是分词器 Tokenizer，可以快速产生词典创建词向量

In [25]:
#将两个句子放到一个list中。
sentences = ['I love my dog',
                        'I love my cat']

In [26]:
tokenizer = Tokenizer(num_words=100)#表示我们要建立一个100个单词的词典，如果说我们的单词
#数量超过100，分词器 tokenizer将选择词频最高的100个词放入词典，因为词频小的单词对精确度影响小 却会极大的增加训练时间
tokenizer.fit_on_texts(sentences)#会对sentences list中的单词频率进行排序，前100的会放入词典中
word_index = tokenizer.word_index #tokenizer提供了一个word_index方法来查看词典中的数据,也就是一个 dict()包括键值与关键字
#关键字是单词，键值是编码

In [27]:
print(word_index)#显示一下,首先tokenizer去除了句子中的符号，并且呢 是按照词频进行给键值的。

{'i': 1, 'love': 2, 'my': 3, 'dog': 4, 'cat': 5}


In [28]:
sentences.append('Hit my dog!')

In [29]:
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
word_index #感叹号并没有加进来

{'my': 1, 'i': 2, 'love': 3, 'dog': 4, 'cat': 5, 'hit': 6}

# 序列化

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
sentense = ['I love my dog',
                    'I love my cat',
                    'You love my dog!',
                    'Do you think my dog is amazing?']

In [None]:
tokenizer = Tokenizer(num_words=100)
tokenizer.fit_on_texts(sentense)
word_index = tokenizer.word_index

In [None]:
sequences = tokenizer.texts_to_sequences(sentense)#通过这个方法将sentense list序列化

In [None]:
sequences #句子中所有的单词都已经进行了替换

In [None]:
word_index

## 添加一个测试集

In [None]:
test_data = ['i really love my',
                    'my dog loves my manatee']

In [None]:
test_seq = tokenizer.texts_to_sequences(test_data)
test_seq#我们看到really 这个词丢失了，因为really不在词典中

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
sentense = ['I love my dog',
                    'I love my cat',
                    'You love my dog!',
                    'Do you think my dog is amazing?']

In [21]:
#针对在训练集中不存在，在测试集中存在的词，解决方法
#我们在Tokenizer中添加一个oov_token属性
tokenizer = Tokenizer(num_words=100, oov_token='<OOV>')#我们用oov_token来标记未登陆的词，引号里的可以是任何东西，但必须唯一且不能与真实单词混淆

In [1]:
tokenizer.fit_on_texts(sentense)

NameError: name 'tokenizer' is not defined

In [None]:
sequences = tokenizer.texts_to_sequences(sentense)

In [None]:
sequences

In [22]:
test_seq = tokenizer.texts_to_sequences(test_data)
test_seq

[[None, None, None, None], [None, None, None, None, None]]

In [26]:
word_index = tokenizer.word_index
word_index

{'<OOV>': 1,
 'my': 2,
 'love': 3,
 'dog': 4,
 'i': 5,
 'you': 6,
 'cat': 7,
 'do': 8,
 'think': 9,
 'is': 10,
 'amazing': 11}

In [None]:
#字典中没有的词 字典的键值都是1

## 实现编码后长度一致性

In [2]:
# 通过 pad_sequences 实现对句子的长度一致编码,可以实现填充，也可以实现截断
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [3]:
sentense = ['I love my dog',
                    'I love my cat',
                    'You love my dog!',
                    'Do you think my dog is amazing?']

In [4]:
tokenizer = Tokenizer(num_words=100,oov_token='OOV')

In [5]:
tokenizer.fit_on_texts(sentense)

In [6]:
word_index = tokenizer.word_index

In [7]:
word_index

{'OOV': 1,
 'my': 2,
 'love': 3,
 'dog': 4,
 'i': 5,
 'you': 6,
 'cat': 7,
 'do': 8,
 'think': 9,
 'is': 10,
 'amazing': 11}

In [8]:
sequences = tokenizer.texts_to_sequences(sentense)

In [9]:
sequences

[[5, 3, 2, 4], [5, 3, 2, 7], [6, 3, 2, 4], [8, 6, 9, 2, 4, 10, 11]]

In [10]:
padd = pad_sequences(sequences)
padd#实际上就是补全成了array

array([[ 0,  0,  0,  5,  3,  2,  4],
       [ 0,  0,  0,  5,  3,  2,  7],
       [ 0,  0,  0,  6,  3,  2,  4],
       [ 8,  6,  9,  2,  4, 10, 11]], dtype=int32)

In [12]:
#如果想将0填到后面可以这样做
padd = pad_sequences(sequences,padding='post')
padd

array([[ 5,  3,  2,  4,  0,  0,  0],
       [ 5,  3,  2,  7,  0,  0,  0],
       [ 6,  3,  2,  4,  0,  0,  0],
       [ 8,  6,  9,  2,  4, 10, 11]], dtype=int32)

In [13]:
#还可以是由maxlen来控制array的长度
padd = pad_sequences(sequences,padding='post',maxlen=5)
padd

array([[ 5,  3,  2,  4,  0],
       [ 5,  3,  2,  7,  0],
       [ 6,  3,  2,  4,  0],
       [ 9,  2,  4, 10, 11]], dtype=int32)

In [14]:
#如果我们的maxlen比句子断，那么肯定是要丢失部分信息的，丢失的是哪部分信息呢？
#采用truncating='post'这样丢失的就是后面的信息,和padding一样他的默认值是pre 这一位置从句子开头开始丢失信息
padd = pad_sequences(sequences, padding='post',maxlen=5,truncating='post')
padd

array([[5, 3, 2, 4, 0],
       [5, 3, 2, 7, 0],
       [6, 3, 2, 4, 0],
       [8, 6, 9, 2, 4]], dtype=int32)