In [1]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer  #词向量化
from tensorflow.keras.preprocessing.sequence import pad_sequences  #序列矩阵

# 1、词向量化

In [9]:
sentence=[
    "I love my dog",
    "I love my cat"
]
tokenizer=Tokenizer(num_words=100)  #建立100哥单词的词典
tokenizer.fit_on_texts(sentence)  #向量化，分局单词出现的频率进行排序
word_index=tokenizer.word_index   #查看词向量(dict)
print("词典\n",word_index)


词典
 {'i': 1, 'love': 2, 'my': 3, 'dog': 4, 'cat': 5}


In [10]:
sentence=[
    "I love my dog",
    "I love my cat",
    "you love my dog!"
]
tokenizer=Tokenizer(num_words=100)  #建立100哥单词的词典
tokenizer.fit_on_texts(sentence)  #向量化，分局单词出现的频率进行排序
word_index=tokenizer.word_index   #查看词向量(dict)
print("词典\n",word_index)

词典
 {'love': 1, 'my': 2, 'i': 3, 'dog': 4, 'cat': 5, 'you': 6}


# 2、词序列化

In [12]:
sentence=[
    "I love my dog",
    "I love my cat",
    "you really love my dog and i love your cat"
]
tokenizer=Tokenizer(num_words=100)  #建立100哥单词的词典
tokenizer.fit_on_texts(sentence)  #向量化，分局单词出现的频率进行排序
word_index=tokenizer.word_index   #查看词向量(dict)
print("词典\n",word_index)
#根据序列
seq=tokenizer.texts_to_sequences(sentence)
print(sentence)
print("序列化\n",seq)

词典
 {'love': 1, 'i': 2, 'my': 3, 'dog': 4, 'cat': 5, 'you': 6, 'really': 7, 'and': 8, 'your': 9}
['I love my dog', 'I love my cat', 'you really love my dog and i love your cat']
序列化
 [[2, 1, 3, 4], [2, 1, 3, 5], [6, 7, 1, 3, 4, 8, 2, 1, 9, 5]]


In [13]:
'''当词典中出现新的单词时，用oov代替'''
sentence=[
    "I love my dog",
    "I love my cat",
    "you really love my dog and i love your cat"
]
tokenizer=Tokenizer(num_words=100, 
                    oov_token="oov"  #当词典没有这个单词时，用oov代替
                    )  #建立100哥单词的词典
tokenizer.fit_on_texts(sentence)  #构建词典
word_index=tokenizer.word_index
print("词典\n",word_index)

test_data=[
    "I love todoy's weather"
]
test_seq=tokenizer.texts_to_sequences(test_data)
print("序列化\n",test_seq)


词典
 {'oov': 1, 'love': 2, 'i': 3, 'my': 4, 'dog': 5, 'cat': 6, 'you': 7, 'really': 8, 'and': 9, 'your': 10}
序列化
 [[3, 2, 1, 1]]


## 2.1构建词矩阵

In [6]:
sentence=[
    "I love my dog",
    "I love my cat",
    "you really love my dog and i love your cat"
]
tokenizer=Tokenizer(num_words=100, 
                    oov_token="oov"  #当词典没有这个单词时，用oov代替
                    )  #建立100哥单词的词典
tokenizer.fit_on_texts(sentence)  #构建词典
#向量化
word_index=tokenizer.word_index 
print(word_index) 
#序列化
seq=tokenizer.texts_to_sequences(sentence) 
print("序列化：",seq)
#构建词序列矩阵
pad=pad_sequences(seq)
print("词矩阵\n",pad)

pad=pad_sequences(seq,
                padding="post"  #将0填充在后面
                ) 
print("0设置在后面\n",pad)

pad=pad_sequences(seq,padding="post",
                maxlen=5,  #设置最多列数
                truncating="post"  #选择从后面丢失信息
                )
print("选择从后面丢失信息\n",pad)

{'oov': 1, 'love': 2, 'i': 3, 'my': 4, 'dog': 5, 'cat': 6, 'you': 7, 'really': 8, 'and': 9, 'your': 10}
序列化： [[3, 2, 4, 5], [3, 2, 4, 6], [7, 8, 2, 4, 5, 9, 3, 2, 10, 6]]
词矩阵
 [[ 0  0  0  0  0  0  3  2  4  5]
 [ 0  0  0  0  0  0  3  2  4  6]
 [ 7  8  2  4  5  9  3  2 10  6]]
0设置在后面
 [[ 3  2  4  5  0  0  0  0  0  0]
 [ 3  2  4  6  0  0  0  0  0  0]
 [ 7  8  2  4  5  9  3  2 10  6]]
选择从后面丢失信息
 [[3 2 4 5 0]
 [3 2 4 6 0]
 [7 8 2 4 5]]
