# Assignment: 文本分类

- 本次作业的目标是实现一个文本分类的完整流程，包含数据预处理和二分类器。
- 输入为电子邮件的文本，需要将其分类为 1(spam，垃圾邮件)或 0(ham，非垃圾邮件)，具体形式如下
- 数据集(训练集)
```python
    └── train
        ├── ham
        │   ├── 0001.1999-12-10.farmer.ham.txt
        │   ├── 0001.1999-12-10.kaminski.ham.txt
        ......
        │   ├── 5851.2001-05-22.kaminski.ham.txt
        │   └── 5856.2001-05-22.kaminski.ham.txt
        └── spam
            ├── 0002.2001-05-25.SA_and_HP.spam.txt
            ├── 0004.2004-08-01.BG.spam.txt
            ......
            ├── 5854.2005-07-22.SA_and_HP.spam.txt
            └── 5857.2005-07-22.SA_and_HP.spam.txt
    2 directories, 12406 files
```

----
## 具体而言，你的任务是：

### 1、完成对文本数据的预处理
- 划分训练集和验证集
- 用词向量等各种各样的形式对文本进行表征，方法包括但不限于'TF-IDF'

### 2、选择一个课堂上学过的分类器，编写代码实现该分类器，可以调库

### 3、在训练集上训练你的分类器
- 模型输入为文本数据集所在的目录，输出应当为在你自己划分的验证集上的分类“准确率”与“召回率”与“F1-Score”

### 4、提供可供 TA 一键测试的代码
----

## 评分规则：

### 1、独立完成100 x 50%
- 指你的代码可以一键运行不出bug

### 2、测试集上的F1-Score x 100 x 50%
- 如果测试集上的F1-Score 低于 0.6， 则视为0

### 3、互相抄袭（指代码极其相似）的现象一经发现并核实，无论谁抄谁，双方本次作业成绩为0
----

## 一些可用组件 & 示例
- TA 提供了一些脚本函数可供使用

In [1]:
import os
import pandas as pd
import numpy as np
from sklearn.metrics import precision_score, recall_score, f1_score

# 将 list 写入到文件中
def write_csv(data, file_name):
    df = pd.DataFrame(data)
    df.to_csv(file_name, encoding='utf_8_sig')
    
# 从文件中读入数据
def read_in_csv(file_name):
    df = pd.read_csv(file_name)
    return df

# 获取某个路径下所有文件的路径，返回列表
def file_name(file_dir):
    L = []
    path = []
    for root, dirs, files in os.walk(file_dir):
        for file in files:
            xx = os.path.splitext(file)
            if xx[1] == '.txt':
                L.append(xx[0] + xx[1])
                path.append(root)
    return L, path

# 评估指标
def evaluation(true_label, pred_label):
    precision = precision_score(true_label, pred_label)
    recall = recall_score(true_label, pred_label)
    F1_Score = f1_score(true_label, pred_label)
    return precision, recall, F1_Score


- 随便打开一个邮件看看

In [29]:
L, path = file_name('./train')
with open(path[0] + '/' + L[0], "r", encoding='ISO-8859-1') as f:  
    str = f.read()   
    print(str)
    

Subject: christmas tree farm pictures



----
## 接下来，实现你的文本分类模型吧！
- 数据预处理



In [2]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier

In [3]:
# 输入为训练数据的路径
train_data_path = './train'
L, path = file_name(train_data_path)
data=[]
for i in range(len(L)):
    with open(path[i] + '/' + L[i], "r", encoding='ISO-8859-1') as f:  
        s = f.read()
    data.append(s)
label=(np.array(path)==train_data_path+'\\ham').astype('int')

# 你需要将其划分为训练集和验证集
Xtrain,Xtest,Ytrain,Ytest=train_test_split(data,label,test_size=0.2)

# 选择一种你喜欢的形式将邮件文本表征成向量
vectorizer=CountVectorizer()
Xtrain=vectorizer.fit_transform(Xtrain)
vectorizer2=CountVectorizer(vocabulary=vectorizer.vocabulary_)
Xtest=vectorizer2.fit_transform(Xtest)


- 实现并训练分类器

In [4]:
precision = 0.00000
recall = 0.00000
F1_Score = 0.00000

#↓↓↓↓↓↓↓↓你的训练代码放在这↓↓↓↓↓↓↓↓#
rfc=RandomForestClassifier(random_state=0)
rfc=rfc.fit(Xtrain,Ytrain)
precision, recall, F1_Score=evaluation(Ytest, rfc.predict(Xtest))
#↑↑↑↑↑↑↑↑你的训练代码放在这↑↑↑↑↑↑↑↑#

print('Precision = %.3f'% precision)
print('Recall = %.3f'% recall)
print('F1_Score = %.3f'% F1_Score)


Precision = 0.961
Recall = 0.992
F1_Score = 0.976


- 实现测试代码

In [9]:
#你可以自行将./train目录下的文件划分一部分作为测试集，并运行下一个cell中的代码查看分类器效果。上交作业后，TA 会将'test_data_path'变量的值修改为'test_data_path='./test'，./test不公开，文件组织形式与./train相同'
test_data_path = './test'
#你需要保证你的代码在./train上可以正常运行不出bug

In [10]:
precision = 0.00000
recall = 0.00000
F1_Score = 0.00000

#↓↓↓↓↓↓↓↓测试代码放在这↓↓↓↓↓↓↓↓#
L, path = file_name(test_data_path)
data=[]
for i in range(len(L)):
    with open(path[i] + '/' + L[i], "r", encoding='ISO-8859-1') as f:  
        s = f.read()
    data.append(s)

label=(np.array(path)==test_data_path+'\\ham').astype('int')
Xtest=data
# 不要忘记对测试数据进行向量化
vectorizer3=CountVectorizer(vocabulary=vectorizer.vocabulary_)
Xtest=vectorizer3.fit_transform(Xtest)
precision, recall, F1_Score=evaluation(label, rfc.predict(Xtest))
#↑↑↑↑↑↑↑↑测试代码放在这↑↑↑↑↑↑↑↑#
print('Precision = %.3f'% precision)
print('Recall = %.3f'% recall)
print('F1_Score = %.3f'% F1_Score)

Precision = 1.000
Recall = 1.000
F1_Score = 1.000
