# TF-IDF TEST

In [13]:
import json
import numpy as np
from collections import Counter
from sklearn.feature_extraction.text import TfidfVectorizer


In [14]:
class News:
    def __init__(self, id, date, title, content, url, siteType):
        self.id = id
        self.date = date
        self.title = title
        self.content = content
        self.url = url
        self.siteType = siteType
    
    @classmethod
    def from_json(cls, json_str):
        json_dict = json.loads(json_str)
        return cls(**json_dict)

In [15]:
news = []
with open('/data/kasandra/year/all.normalized.json', encoding="utf8") as f:
    for line in f:
        news.append(News.from_json(line))

In [16]:
words = []

sub_news = news

for n in sub_news:
    words.extend(n.content.split())
counts = Counter(words)
one_time = [k for k, v in dict(counts).items() if v == 1]
print("total words: %s" % (len(words) - len(one_time)))

news_content = [x.content for x in sub_news]

total words: 47479434


In [17]:
def print_scores(vectorizer):
    tfidf_matrix = vectorizer.fit_transform(news_content)
    print("Количество слов после векторизации: %s" % len(tfidf_vectorizer.vocabulary_))

    print("Максимальное значение вектота: %s" % tfidf_matrix.max())
    print("Минимальное значение вектора: %s" % tfidf_matrix.min())

    lengths = [np.linalg.norm(t.toarray()) for t in tfidf_matrix]

    print("Максимальная длинна вектора: %s" % max(lengths))
    print("Минимальная длинна вектора: %s" % min(lengths))
    print("Средняя длинна вектора: %s" % np.mean(lengths))

## Без нормализации

In [18]:
tfidf_vectorizer = TfidfVectorizer(norm=None, use_idf=True, tokenizer=lambda text: text.split(" "))
print_scores(tfidf_vectorizer)

Количество слов после векторизации: 282835
Максимальное значение вектота: 2282.32747898
Минимальное значение вектора: 0.0
Максимальная длинна вектора: 4960.29299023
Минимальная длинна вектора: 3.27803954116
Средняя длинна вектора: 99.0915486984


## L2 Нормализация

https://en.wikipedia.org/wiki/Norm_(mathematics)#Euclidean_norm

http://www.chioka.in/differences-between-the-l1-norm-and-the-l2-norm-least-absolute-deviations-and-least-squares/

In [19]:
tfidf_vectorizer = TfidfVectorizer(norm='l2', use_idf=True, tokenizer=lambda text: text.split(" "))
print_scores(tfidf_vectorizer)

Количество слов после векторизации: 282835
Максимальное значение вектота: 1.0
Минимальное значение вектора: 0.0
Максимальная длинна вектора: 1.0
Минимальная длинна вектора: 1.0
Средняя длинна вектора: 1.0
