## Классификация текстов (mini_newsgroups) по тематикам ##

In [24]:
import os
import re
from pprint import pprint

Готовим тексты и метки классов = темы

In [25]:
texts = []
labels = []
start_path = '/Users/evgenia/mini_newsgroups'
for path, dirs, files in os.walk(start_path):
    # print('where am i:', path)
    # print('folders here:', dirs)
    # print('files here:', files)
    for fname in files:
        if not fname.startswith('.'):   # чтобы игнорировать служебные файлы
            with open(os.path.join(path, fname), encoding='cp1251') as f:
                raw_text = f.read()
                # наивная нормализация: оставляем только строки без двоеточий
                text = '\n'.join([line for line in raw_text.split('\n') if ':' not in line and line.strip()])
                texts.append(re.sub('[\W\d]+', ' ', text.lower()))
                labels.append(path.split('/')[-1])    # осторожно, /
print(len(texts), 'files,', len(labels), 'labels')

2000 files, 2000 labels


Делим коллекцию на обучающую и проверочную выборки:

In [26]:
from sklearn.model_selection import train_test_split

texts_train, texts_test, labels_train, labels_test = train_test_split(texts,
                                                    labels,
                                                    test_size=0.2)
print(len(texts_train), len(texts_test), len(labels_train), len(labels_test))

1600 400 1600 400


Строим матрицу документ-терм для обучающей выборки:

In [27]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(ngram_range=(1, 1),
                             stop_words='english',
                             min_df=2,
                             max_df=0.9)
X_train = vectorizer.fit_transform(texts_train)
print("X_train shape:", X_train.shape)

X_train shape: (1600, 12079)


Применяем тот же векторайзер для тест-сета:

In [28]:
X_test = vectorizer.transform(texts_test)
print("X_test shape:", X_test.shape)

X_test shape: (400, 12079)


Создадим классификатор, например, Naive_Bayes:

http://scikit-learn.org/stable/modules/naive_bayes.html

http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html#sklearn.naive_bayes.MultinomialNB

In [29]:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()    # сейчас — с дефолтными параметрами

Обучаем на training set:

In [30]:
clf.fit(X_train, labels_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

Предсказываем для проверочной выборки:

In [31]:
labels_pred = clf.predict(X_test)
len(labels_pred)

400

Оценим точность, полноту, F-меру: для этого надо сравнить список предсказанных ответов и список правильных ответов. Classification_report выдаст точность, полноту, F-меру для каждого класса, а также укажет, на каком количестве текстов была произведена оценка.

http://scikit-learn.org/stable/modules/model_evaluation.html

http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html

In [34]:
from sklearn.metrics import classification_report

print(classification_report(y_pred=labels_pred, y_true=labels_test))

                          precision    recall  f1-score   support

             alt.atheism       0.88      0.37      0.52        19
           comp.graphics       0.62      0.68      0.65        19
 comp.os.ms-windows.misc       0.60      0.48      0.53        25
comp.sys.ibm.pc.hardware       0.40      0.67      0.50        18
   comp.sys.mac.hardware       0.54      0.78      0.64        18
          comp.windows.x       0.67      0.60      0.63        20
            misc.forsale       1.00      0.58      0.73        26
               rec.autos       0.76      0.52      0.62        25
         rec.motorcycles       0.73      0.94      0.82        17
      rec.sport.baseball       0.75      0.79      0.77        19
        rec.sport.hockey       0.91      1.00      0.95        20
               sci.crypt       1.00      0.74      0.85        23
         sci.electronics       0.58      0.39      0.47        18
                 sci.med       1.00      0.83      0.91        24
         