# Type Token Ratio

In [7]:
import re
import plotly.graph_objs as go
import random


class TTRCompare(object):
    """
    Usage Example:
    ```
    ttrs_obj = TTRCompare("Pubmed.txt", "Brow Corpus.txt", repeat=15)
    ttrs_obj.shape()
    ttrs_obj.visual()
    ttrs_obj.ttrs_detail()
    ```
    """
    def __init__(self, path1, path2, repeat=1, encoding="utf-8", max_words_num=40000):
        self._path1 = path1
        self._path2 = path2
        self.repeat = repeat
        self.nums1 = None
        self.nums2 = None
        self.max_length = 0
        self.ttrs1 = None
        self.ttrs2 = None
        self.words1 = None
        self.words2 = None
        self.encoding = encoding
        self.max_words_num = max_words_num

    def shape(self):
        self.words1 = self._load_data(self._path1)
        self.words2 = self._load_data(self._path2)
        self.max_length = min(len(self.words1), len(self.words2), self.max_words_num)
        self.nums1, self.ttrs1 = self.find_ttr_continuous(self.words1, repeat=self.repeat)
        self.nums2, self.ttrs2 = self.find_ttr_continuous(self.words2, repeat=self.repeat)

    def _words_count(self, word_sequence: list) -> list:
        """
        统计每个单词数出现的字数
        返回单词和其出现的次数
        return example : [("apple", 5)]
        """
        words = dict()
        for word in word_sequence:
            if word == "":
                continue
            words[word] = words.get(word, 0) + 1
        return list(words.items())

    def _load_data(self, path):
        """
        通过路径加载数据
        return example : ["apple", "banana", "apple"]
        """
        with open(path, "r+", encoding=self.encoding) as fp:
            data = re.split(r"[ \'\"(){}!-=/@#$%^&*~?\n_.]", fp.read())
            ans = []
            for char in data:
                if not char == "":
                    ans.append(char)
            return ans

    def _random_choice(self, words: list, num: int) -> list:
        """
        从words中随机抽取num个单词
        """
        if num > len(words):
            raise ValueError("num is bigger than length of words list")
        return random.choices(words, k=num)

    def find_ttr_continuous(self, word_count, repeat=10):
        """
        从word_count抽取k个单词重复计算repeat词，去ttr的平均值
        k = 1, 2, 3, ..., len(word_count)
        """
        nums = [i for i in range(1, self.max_length)]
        ttrs = []
        for num in nums:
            ttr = 0
            for i in range(repeat):
                ttr += self.calculate_ttr(self._words_count(self._random_choice(word_count,
                                                                              num)))
            ttrs.append(ttr / repeat)
        return nums, ttrs

    def visual(self):
        """
        可视化ttr随单词数目变化情况
        """
        fig = go.Figure([go.Scatter(x=self.nums1, y=self.ttrs1, name="Average" + self._path1.split(r".")[0]),
                         go.Scatter(x=self.nums1, y=[sum(self.ttrs1) / len(self.ttrs1)] * len(self.nums1)
                                    , name="Average" + self._path1.split(r".")[0]),
                         go.Scatter(x=self.nums1, y=self.ttrs2, name="Average" + self._path2.split(r".")[0]),
                         go.Scatter(x=self.nums1, y=[sum(self.ttrs2) / len(self.ttrs2)] * len(self.nums1)
                                    , name="Average" + self._path2.split(r".")[0])])
        fig.update_layout(xaxis_title="words_num", yaxis_title="ttr",
                          title="ttr随单词数目变化情况")
        fig.show()

    def calculate_ttr(self, words):
        return len(words) / sum([item[1] for item in words])

    def ttrs_detail(self):
        return {
            "path1_detail": self.ttrs1,
            "path1_average": sum(self.ttrs1) / len(self.ttrs1),
            "path2_detail": self.ttrs2,
            "path2_average": sum(self.ttrs2) / len(self.ttrs2),
        }


In [9]:
ttrs_obj = TTRCompare("../Pubmed.txt", "../Brow Corpus.txt", repeat=1, max_words_num=4000)
ttrs_obj.shape()

In [112]:
ttrs_obj.visual()

In [114]:
fig = go.Figure([go.Scatter(x=ttrs_obj.nums1, y=ttrs_obj.ttrs1, name="Detail PubMed"),
                         go.Scatter(x=ttrs_obj.nums1, y=[sum(ttrs_obj.ttrs1) / len(ttrs_obj.ttrs1)] * len(ttrs_obj.nums1)
                                    , name="Average PubMed"),
                         go.Scatter(x=ttrs_obj.nums1, y=ttrs_obj.ttrs2, name="Detail BrownCorpus"),
                         go.Scatter(x=ttrs_obj.nums1, y=[sum(ttrs_obj.ttrs2) / len(ttrs_obj.ttrs2)] * len(ttrs_obj.nums1)
                                    , name="Average BrownCorpus")])
fig.update_layout(xaxis_title="随机抽取的单词数目", yaxis_title="Type Token Ratio",
                  title="Type Token Ratio 随单词数目变化情况")
fig.show()

# Naive Bayes Classifier

In [1]:
import numpy as np


class NBClassifier(object):

    def __init__(self, X=None, Y=None, feature_size=None):
        super(NBClassifier, self).__init__()
        if feature_size is None:
            raise RuntimeError("feature_size is a int type, instead of None")
        self.X = X
        self.Y = Y
        self.p_y_1 = 0
        self.p_y_0 = 0
        self.y_data = []
        self.n_data = []
        self.x_y = None
        self.x_n = None

    def fit(self, X=None, Y=None):
        if not (X is None):
            self.X = X
        if not (Y is None):
            self.Y = Y
        y = 0
        n = 0
        for item in self.Y:
            if item == 1:
                y += 1
            else:
                n += 1
        self.p_y_0 = n / len(self.X)
        self.p_y_1 = y / len(self.X)
        y_data = []
        n_data = []
        for idx, item in enumerate(self.X):
            if self.Y[idx] == 1:
                y_data.append(item)
            else:
                n_data.append(item)
        y_data = np.array(y_data)
        n_data = np.array(n_data)
        self.x_y = y_data.sum(0) / len(y_data)
        self.x_n = n_data.sum(0) / len(n_data)

    def predict(self, x):
        ans1, ans2 = self.prob(x)
        ans = np.zeros_like(ans1)
        ans[ans1 > ans2] = 1
        return ans

    def prob(self, x):
        if x.ndim != 2:
            raise RuntimeError(f"x's dim is 2, instead of {x.ndim}")
        ans1 = list()
        ans2 = list()
        for item in x:
            prob_y = self.p_y_1
            prob_n = self.p_y_0
            for idx, val in enumerate(item):
                if val == 1:
                    prob_y *= self.x_y[idx]
                    prob_n *= self.x_n[idx]
                else:
                    prob_y *= (1 - self.x_y[idx])
                    prob_n *= (1 - self.x_n[idx])
            ans1.append(prob_y)
            ans2.append(prob_n)
        ans1, ans2 = np.array(ans1), np.array(ans2)
        ans1, ans2 = ans1 / (ans1 + ans2), ans2 / (ans1 + ans2)
        return ans1, ans2

    def score(self, X, Y):
        ans = self.predict(X)
        ans = ans - Y
        return np.sum(ans == 0) / len(Y)


In [2]:
data_real = np.random.randn(100, 10)
data_real = np.where(data_real > 0, 1, 0)
data_fake = np.random.rand(100, 10)
data_fake = np.where(data_fake > 0.8, 1, 0)

In [3]:
nbc = NBClassifier(feature_size=10)

In [4]:
data = np.vstack((data_fake, data_real))
y = np.hstack((np.zeros(100), np.ones(100)))

In [5]:
y

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [6]:
nbc.fit(data, y)

In [7]:
nbc.predict(data_fake)

array([0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 1., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 1., 0., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [8]:
nbc.predict(data_real)

array([1., 1., 0., 0., 1., 0., 1., 1., 1., 1., 0., 1., 1., 0., 1., 1., 1.,
       1., 0., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 0., 1., 1., 1., 0., 1., 1., 0., 1., 1., 1., 1., 0., 0., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 0., 1.])

In [9]:
nbc.predict(np.vstack((data_real, data_fake)))

array([1., 1., 0., 0., 1., 0., 1., 1., 1., 1., 0., 1., 1., 0., 1., 1., 1.,
       1., 0., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 0., 1., 1., 1., 0., 1., 1., 0., 1., 1., 1., 1., 0., 0., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 0., 1., 0., 0.,
       0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 1., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1.,
       0., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [10]:
nbc.score(data, y)

0.87

In [11]:
data = np.load("final set.npz")

In [12]:
data.allow_pickle = True

In [13]:
dufu = data["dataset"].item()["dufu"]
sushi = data["dataset"].item()["sushi"]

In [14]:
data = np.vstack((dufu, sushi))

In [15]:
data

array([[   0,    0,    0, ..., 4024, 3507, 4682],
       [   0,    0,    0, ..., 1200, 3507, 4682],
       [   0,    0,    0, ..., 1834, 3507, 4682],
       ...,
       [   0,    0,    0, ..., 3124, 3507, 4682],
       [   0,    0,    0, ...,  216, 3507, 4682],
       [   0,    0,    0, ..., 4316, 3507, 4682]])

In [16]:
y = np.hstack((np.ones(len(dufu)), np.zeros(len(sushi))))

In [17]:
y

array([1., 1., 1., ..., 0., 0., 0.])

In [18]:
real_data = np.zeros((len(data), 4683))

In [19]:
data.shape

(2300, 1210)

In [20]:

for idx, item in enumerate(data):
    for i in item:
        real_data[idx, i] = 1

In [21]:
from sklearn import naive_bayes
from sklearn.model_selection import train_test_split
from sklearn import neighbors
from sklearn import svm

In [22]:
real_data.shape

(2300, 4683)

In [55]:
X_train, X_test, y_train, y_test = train_test_split(data, y, test_size=0.2, random_state=42)

In [56]:
clf = KMeans(2)
clf.fit(X_train, y_train)
(sum(clf.predict(X_test) == y_test)) / len(y_test)

0.6543478260869565

In [57]:
clf = naive_bayes.GaussianNB()
clf = clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.7152173913043478

In [58]:
clf = naive_bayes.BernoulliNB()
clf = clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.7152173913043478

In [64]:
clf = neighbors.KNeighborsClassifier()
clf = clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.8717391304347826

In [59]:
clf = neighbors.KNeighborsClassifier(2)
clf = clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.8108695652173913

In [60]:
clf = svm.SVC()
clf = clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.8934782608695652

In [61]:
clf = NBClassifier(X_train, y_train, 4683)

In [62]:
clf.fit()

In [63]:
clf.score(X_test, y_test)



0.5021739130434782

In [49]:
X_train, X_test, y_train, y_test = train_test_split(real_data, y, test_size=0.2, random_state=42)

In [50]:
clf = naive_bayes.GaussianNB()
clf = clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.7304347826086957

In [68]:
clf = KMeans(2)
clf.fit(X_train, y_train)
(sum(clf.predict(X_test) == y_test)) / len(y_test)

0.6543478260869565

In [51]:
clf = naive_bayes.BernoulliNB()
clf = clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.7608695652173914

In [53]:
clf = neighbors.KNeighborsClassifier()
clf = clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.5108695652173914

In [35]:
clf = svm.SVC()
clf = clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.9347826086956522

In [36]:
clf = NBClassifier(X_train, y_train, 4683)
clf.fit()
clf.score(X_test, y_test)



0.6304347826086957

In [37]:
from sklearn.cluster import KMeans

In [42]:
clf = KMeans?

In [None]:
clf = KMeans

In [45]:
clf = KMeans(2)
clf.fit(X_train, y_train)
(sum(clf.predict(X_test) == y_test)) / len(y_test)

0.3760869565217391