In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfTransformer # TF-IDF
from sklearn.model_selection import train_test_split         # 切分数据集

import warnings
warnings.filterwarnings("ignore") # 忽略警告

In [2]:
pi = pd.read_csv('data\个人信息.csv')

In [3]:
pi.fillna(0., inplace=True)    # 0和None值表示未知，故将None值填充为0，全部用0表示
pi.sex.value_counts()

0.0    6973
1.0    2754
2.0    1234
Name: sex, dtype: int64

性别：性别为1表示男性，2表示女性，0表示未知。  
有6973个缺失值，考虑不同性别主播在用户昵称上有较大的区别（女性多用可爱字眼如"鸭、哇、妹妹"等），决定通过用户昵称来对性别进行分类，用于缺失值的填充。

> 假设特征之间是独立的

**第一步：分词**  

In [4]:
# 去除停用词、每个字为一个特征，处理后的昵称都存放在datalist
dataList = pi[pi.sex!=0].昵称.map(list).map(lambda x: ' '.join(x)).to_list()
classList = pi[pi.sex!=0].sex     # 类别
dataList[:3]

['时 代 - 十 四 剑 姬', 'D a e - 北 枫 c', '时 代 - 老 枪 赵 信 【 李 弟 】']

**第二步：划分数据集**

In [5]:
X_train, X_test, Y_train, Y_test = train_test_split(dataList, classList, test_size=300, random_state=123)

**第三步：转为词频矩阵**

In [8]:
from sklearn.feature_extraction.text import CountVectorizer
# 去除停用词
stop_words = list('!"#$%&\'·丨『』☆()（）*+,-./:：;<=>?@，。?★、…【】《》？“”‘！[\\]^_`{|}~') + [' ', '\x83', '®', '°', '͡', 'ζ', '۞', '۩', 'އ', 'ޓ', 'ั', '๑', '๛', '\u200d', '—', '•', '₀', '₁', '₅', '₆', '₈', 'ₑ', '√', '⌒', '◆', '◇', '☀', '☁', '☂', '☜', '☞', '♂', '♏', '♔', '♡', '♬', '✿', '❀', '❤', '〆']
count_vect = CountVectorizer(stop_words=stop_words, analyzer="char", lowercase=False)
X_train_counts = count_vect.fit_transform(X_train)  # 拟合模型，并返回文本矩阵
# 将文本中的词语转换为词频矩阵。即各个词语出现的次数，通过get_feature_names()可看到所有文本的关键字，通过toarray()可看到词频矩阵的结果。

In [9]:
X_train_counts.toarray()

array([[3, 0, 0, ..., 0, 0, 0],
       [1, 0, 0, ..., 0, 0, 0],
       [2, 0, 0, ..., 0, 0, 0],
       ...,
       [6, 0, 0, ..., 0, 0, 0],
       [5, 0, 0, ..., 0, 0, 0],
       [2, 0, 0, ..., 0, 0, 0]], dtype=int64)

矩阵元素a[i][j] 表示j词在第i个文本下的词频。其中第1列的文本是' '，侧面反映了文本长度。

In [10]:
X_train_counts.shape

(3688, 2160)

共有3998个昵称，词典中共有2219个单词/中文。

In [11]:
# 查看第一个昵称的相关信息
A = X_train_counts[0]
print(A.data)     # 各个单词出现的次数
print(A.indptr)   # 一共有多少单词
print(A.indices)  # 各个单词的编号
print(count_vect.get_feature_names()[A.indices[0]]) # 打印某一个序号所对应的单词

[1 3 1 1 1]
[0 5]
[1332    0 1011 1405  682]
爱


**第四步：朴素贝叶斯分类**

In [12]:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(X_train_counts, Y_train)

测试集分类效果

In [14]:
X_test_counts = count_vect.transform(X_test)   # 转为词向量
predicted = clf.predict(X_test_counts)
np.mean(predicted==Y_test)

0.73

应用到未知性别的数据（pre_data）分类中。

In [30]:
pre_data = pi[pi.sex==0].昵称.map(list).map(lambda x: ' '.join(x)).to_list()
pre_data = count_vect.transform(pre_data)     # 转为词频矩阵

pre = clf.predict(pre_data)
pi.loc[pi.sex==0, 'sex'] = pre

**第五步：保存到`用户id_性别字典.txt`中**

In [40]:
sex_dict = pi.set_index('用户id').sex.to_dict()
with open('data\用户id_性别字典.txt', 'w') as f:
    f.write(str(sex_dict))