При помощи встроенного функционала разархивируем tarball сразу в Python

In [4]:
import tarfile 
with tarfile.open('aclImdb_v1.tar.gz', 'r:gz') as tar:
    tar.extractall()

После извлечения,  собираем все в одиночный csv файл.

In [5]:
pip install pyprind

Note: you may need to restart the kernel to use updated packages.


In [3]:
import pyprind 
import pandas as pd
import os

basepath = 'aclImdb'

labels = {'pos': 1, 'neg': 0}
pbar = pyprind.ProgBar(50000)
df = pd.DataFrame()
for s in ('test', 'train'):
    for l in ('pos', 'neg'):
        path = os.path.join(basepath, s, l)
        for file in sorted(os.listdir(path)):
            with open(os.path.join(path, file),
                    'r', encoding = 'utf-8') as infile:
                txt = infile.read()
            df = df.append([[txt, labels[l]]], ignore_index=True)
            pbar.update()
df.columns = ['review', 'sentiment']

0% [##############################] 100% | ETA: 00:00:00
Total time elapsed: 00:10:14


Заранее перетасуем и сохраним в csv формате наши файлы, так как сейчас они отсортированы, а в бдущем данная сотрировка будет нам мешать при разбиении набора данных на обучающие и испытательные наборыю

In [4]:
import numpy as np

np.random.seed(0)
df = df.reindex(np.random.permutation(df.index))
df.to_csv('movie_data.csv', index=False, encoding='utf-8')

так как в будущем, нам придется работать с данными, заранее проведем проверку набора. возьмем для теста первые при образца.


In [5]:
df = pd.read_csv('movie_data.csv', encoding='utf-8')
df.head(3)

Unnamed: 0,review,sentiment
0,"In 1974, the teenager Martha Moxley (Maggie Gr...",1
1,OK... so... I really like Kris Kristofferson a...,0
2,"***SPOILER*** Do not read this, if you think a...",0


так же проведем проверку, что датафрейм при переходах не потеряд данные и все 50000 строк на месте

In [6]:
df.shape

(50000, 2)

Трансформирование слов в векторы признаков 

модель суммирования слов, 
сначала создаем глоссарий уникальных лексем

In [7]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer()
docs = np.array(['The Financial University under the Government of', 
                 'the Russian Federation'])
bag = count.fit_transform(docs)

In [8]:
print(count.vocabulary_)

{'the': 5, 'financial': 1, 'university': 7, 'under': 6, 'government': 2, 'of': 3, 'russian': 4, 'federation': 0}


Попрабуем вывести векторы признаков, которые создали только что. питон отображает уникальные слова на целочисленные индексы

In [9]:
print(bag.toarray())

[[0 1 1 1 0 2 1 1]
 [1 0 0 0 1 1 0 0]]


оценка важности слов с помощью приема tf-idf

In [10]:
from sklearn.feature_extraction.text import TfidfTransformer
tfidf = TfidfTransformer(use_idf = True,
                       norm = 'l2',
                       smooth_idf=True)
np.set_printoptions(precision=2)
print(tfidf.fit_transform(count.fit_transform(docs)).toarray())

[[0.   0.38 0.38 0.38 0.   0.54 0.38 0.38]
 [0.63 0.   0.   0.   0.63 0.45 0.   0.  ]]


Очистка текстовых данных 


In [11]:
df.loc[0, 'review'][-50:]

'is seven.<br /><br />Title (Brazil): Not Available'

убираем не нужную html разметку
оставим только эмотиконы и то не все.

In [12]:
import re
def preprocessor(text):
    text = re.sub('<[^>]*>', '', text)
    emoticons = re.findall('(?::|;|=)(?:-)?(?:\)|\(|D|P)',
                           text)
    text = (re.sub('[\W]+', ' ', text.lower()) +
            ' '.join(emoticons).replace('-', ''))
    return text

In [13]:
preprocessor(df.loc[0, 'review'][-50:])

'is seven title brazil not available'

In [14]:
preprocessor("</a>This :) is :( a test :-)!")

'this is a test :) :( :)'

In [15]:
df['review'] = df['review'].apply(preprocessor)

переработка документов в лексемы

In [16]:
def tokenizer(text):
    return text.split()
tokenizer('The Financial University under the Government of the Russian Federation')

['The',
 'Financial',
 'University',
 'under',
 'the',
 'Government',
 'of',
 'the',
 'Russian',
 'Federation']

In [20]:
pip install nltk




далее продемонстрируем применение алгоритма стемминга Портера:
    

In [19]:
from nltk.stem.porter import PorterStemmer
porter = PorterStemmer()
def tokenizer_porter(text):
    return [porter.stem(word) for word in text.split()]
tokenizer_porter('The Financial University under the Government of the Russian Federation')

['the',
 'financi',
 'univers',
 'under',
 'the',
 'govern',
 'of',
 'the',
 'russian',
 'feder']

In [20]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\airsh\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [21]:
from nltk.corpus import stopwords
stop = stopwords.words('english')
[w for w in tokenizer_porter('The Financial University under the Government of the Russian Federation')[-10:] if w not in stop]

['financi', 'univers', 'govern', 'russian', 'feder']

Обучение логистической регрессионной модели для классификации документов 


In [28]:
X_train = df.loc[:25000, 'review'].values
y_train = df.loc[:25000, 'sentiment'].values
X_test = df.loc[25000:, 'review'].values
y_test = df.loc[25000:, 'sentiment'].values

Далее мы воспользуемся объектов GridSearchCV, для поиска оптимального набора параметров для создаваемой нами логистической регрессионной модели, будем применять в этом случае стратифицированную перекрестную проверку празу по пяти разным блокам

In [29]:
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer


tfidf = TfidfVectorizer(strip_accents=None,
                        lowercase=False,
                        preprocessor=None)

param_grid = [{'vect__ngram_range': [(1, 1)],
               'vect__stop_words': [stop, None],
               'vect__tokenizer': [tokenizer, tokenizer_porter],
               'clf__penalty': ['l1', 'l2'],
               'clf__C': [1.0, 10.0, 100.0]},
              {'vect__ngram_range': [(1, 1)],
               'vect__stop_words': [stop, None],
               'vect__tokenizer': [tokenizer, tokenizer_porter],
               'vect__use_idf':[False],
               'vect__norm':[None],
               'clf__penalty': ['l1', 'l2'],
               'clf__C': [1.0, 10.0, 100.0]},
              ]

lr_tfidf = Pipeline([('vect', tfidf),
                     ('clf', LogisticRegression(random_state=0))])

gs_lr_tfidf = GridSearchCV(lr_tfidf, param_grid,
                           scoring='accuracy',
                           cv=5,
                           verbose=1,
                           n_jobs=-1)

gs_lr_tfidf.fit(X_train, y_train)

Fitting 5 folds for each of 48 candidates, totalling 240 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 8 concurrent workers.
[Parallel(n_jobs=-1)]: Done  34 tasks      | elapsed: 12.3min
[Parallel(n_jobs=-1)]: Done 184 tasks      | elapsed: 63.9min
[Parallel(n_jobs=-1)]: Done 240 out of 240 | elapsed: 84.3min finished
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('vect',
                                        TfidfVectorizer(lowercase=False)),
                                       ('clf',
                                        LogisticRegression(random_state=0))]),
             n_jobs=-1,
             param_grid=[{'clf__C': [1.0, 10.0, 100.0],
                          'clf__penalty': ['l1', 'l2'],
                          'vect__ngram_range': [(1, 1)],
                          'vect__stop_words': [['i', 'me', 'my', 'myself', 'we',
                                                'our', 'ours', 'ourselves',
                                                'you', "you're", "you've",
                                                "you'll", "you'd",...
                                                'our', 'ours', 'ourselves',
                                                'you', "you're", "you've",
                                                "you'll", "you'd", 'your',
           

In [30]:
print('Наилучший набор параметров: %s '
     % gs_lr_tfidf.best_params_)

Наилучший набор параметров: {'clf__C': 10.0, 'clf__penalty': 'l2', 'vect__ngram_range': (1, 1), 'vect__stop_words': None, 'vect__tokenizer': <function tokenizer at 0x000001B49FFEA700>} 


таким образом, мы отпределили оптимальный результат решетчатого поиска. 
далее попробуем вывести среднюю меру правильности по перекрестной проверки сразу по пяти блокам на обучаещем наборе и правильности классификации на испытательном наботе данных 

In [31]:
print('Правильность при перекрестной проверке: %.3f'
     % gs_lr_tfidf.best_score_)

Правильность при перекрестной проверке: 0.897


In [32]:
clf = gs_lr_tfidf.best_estimator_
print('Правильность при испытании: %.3f'
     % clf.score(X_test, y_test))

Правильность при испытании: 0.899


Благодаря данным вычислениям, мы узнали, что модель машинного обучения способна с вероятность 90% спрогнозировать, является ли рецензия на тот или иной фильм отрицателной и положительной.

динамические алгоритмы и внешнее обучение 

классификация текстов с помощью рукуррентных нейронных сетей
определим функцию tokenizer, очищающая необработанные текстовые данные, разбиет его на лексемы, а также удаляет стоп слова. 

In [38]:
import numpy as np
import re 
from nltk.corpus import stopwords
stop = stopwords.words('english')
def tokenizer(text):
    text = re.sub('<[^>]*>', '', text)
    emoticons = re.findall('(?::|=) (?:-)?(?:\)|\(|D|P)', text.lower()) 
    text = re.sub('[\W]+', ' ', text.lower())+' '.join(emoticons).replace('-', '')
    tokenized = [w for w in text.split() if w not in stop]
    return tokenized
    

Далее определяем генераторную функцию, которая читает и возвращаем один документ за раз


In [57]:
def stream_docs(path):
    with open(path, 'r', encoding='utf-8') as csv:
        next(csv)
        for line in csv:
            text, label = line[:-3], int(line[-2])
            yield text, label

проверка функции 

In [58]:
next(stream_docs(path = 'movie_data.csv'))

('"In 1974, the teenager Martha Moxley (Maggie Grace) moves to the high-class area of Belle Haven, Greenwich, Connecticut. On the Mischief Night, eve of Halloween, she was murdered in the backyard of her house and her murder remained unsolved. Twenty-two years later, the writer Mark Fuhrman (Christopher Meloni), who is a former LA detective that has fallen in disgrace for perjury in O.J. Simpson trial and moved to Idaho, decides to investigate the case with his partner Stephen Weeks (Andrew Mitchell) with the purpose of writing a book. The locals squirm and do not welcome them, but with the support of the retired detective Steve Carroll (Robert Forster) that was in charge of the investigation in the 70\'s, they discover the criminal and a net of power and money to cover the murder.<br /><br />""Murder in Greenwich"" is a good TV movie, with the true story of a murder of a fifteen years old girl that was committed by a wealthy teenager whose mother was a Kennedy. The powerful and rich f

Далее определяем функцию, которая будет возвращать определенное заранее количество документов 


In [59]:
def get_minibatch(doc_stream, size):
    docs, y = [], []
    try:
        for _ in range(size):
            text, label = next(doc_stream)
            docs.append(text)
            y.append(label)
    except StopIteration:
        return None, None
    return docs, y

In [63]:
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.linear_model import SGDClassifier
vect = HashingVectorizer(decode_error = 'ignore',
                        n_features=2**21,
                        preprocessor = None,
                        tokenizer = tokenizer)
clf = SGDClassifier(loss='log', random_state = 1)
doc_stream = stream_docs(path='movie_data.csv')

2**21 - количество признаков 


In [64]:
import pyprind 
pbar = pyprind.ProgBar(45)
classes = np.array([0,1])
for _ in range(45):
    X_train, y_train = get_minibatch(docs_stream, size=1000)
    if not X_train:
        break
    X_train = vect.transform(X_train)
    clf.partial_fit(X_train, y_train, classes=classes)
    pbar.update()

0% [###                           ] 100% | ETA: 00:00:25

оценка эффективности модели 

In [65]:
X_test, y_test = get_minibatch(doc_stream, size=5000)
X_test = vect.transform(X_test)
print('Правильность: %.3f' % clf.score(X_test, y_test))

Правильность: 0.848


ниже чем прошлые результаты, но несмотря на это внешнее обучение занимает намного меньше памяти , а так же экономит наше драгоценное время 


In [66]:
clf = clf.partial_fit(X_test, y_test)

Тематическое моделирование с помощью латентного размещения размещения Дирихле
тем мод - в основном помогаем в категоризации 
лат. раз. Дирихле - порождающая вероятностная модель, она пытается отыскать группы слов, характерные для текстов. так модлеь делит тексты на - матрицу отображения документов на темы и слов на темы.

из минусов, мы заранее должны знать количество тем, так как это является основным параметнос данного метода, указывающийся в начале

In [67]:
import pandas as pd
df = pd.read_csv('movie_data.csv', encoding='utf-8')

собираем матрицу суммирования слов 

In [68]:
from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer(stop_words='english',
                       max_df=.1,
                       max_features=5000)
X = count.fit_transform(df['review'].values)

In [69]:
from sklearn.decomposition import LatentDirichletAllocation
lda = LatentDirichletAllocation(n_components=10,
                               random_state=123,
                               learning_method='batch')
X_topics = lda.fit_transform(X)


In [70]:
lda.components_.shape

(10, 5000)

попробуем вывести 5 самых важных слов для каждой из десяти тем. слова будут идти в порядке возрастания важности в тексте.

In [72]:
n_top_words=5
feature_names = count.get_feature_names()
for topic_idx, topic in enumerate(lda.components_):
    print('Тема %d: ' % (topic_idx + 1))
    print(' '.join([feature_names[i]
                   for i in topic.argsort()\
                    [:-n_top_words -1:-1]]))

Тема 1: 
worst minutes awful script stupid
Тема 2: 
family mother father children girl
Тема 3: 
american war dvd music tv
Тема 4: 
human audience cinema art sense
Тема 5: 
police guy car dead murder
Тема 6: 
horror house sex girl woman
Тема 7: 
role performance comedy actor performances
Тема 8: 
series episode war episodes tv
Тема 9: 
book version original read novel
Тема 10: 
action fight guy guys cool


По результатам уже можно предположить какие это фильмы 
1. Фильмы с низким рейтингом, плохие 
2. Семейные фильмы
3. Военные фильмы
4. Фильмы об искусстве 
5. Криминальные фильмы 
6. Фильмы ужасов 
7. Комедии 
8. Возможно обзоры телевизионных шоу
9. Фильмы по книгам 
10. Боевики

Для подтверждения нашей теории попробуем вывести три фильма жанра ужасы - 6 категория, в индексной позиции 5 


In [73]:
horror = X_topics[:, 5].argsort()[::-1]
for iter_idx, movie_idx in enumerate(horror[:3]):
    print('\nФильм ужасов #%d: ' % (iter_idx + 1))
    print(df['review'][movie_idx][:300], '...')


Фильм ужасов #1: 
House of Dracula works from the same basic premise as House of Frankenstein from the year before; namely that Universal's three most famous monsters; Dracula, Frankenstein's Monster and The Wolf Man are appearing in the movie together. Naturally, the film is rather messy therefore, but the fact that ...

Фильм ужасов #2: 
Okay, what the hell kind of TRASH have I been watching now? "The Witches' Mountain" has got to be one of the most incoherent and insane Spanish exploitation flicks ever and yet, at the same time, it's also strangely compelling. There's absolutely nothing that makes sense here and I even doubt there  ...

Фильм ужасов #3: 
<br /><br />Horror movie time, Japanese style. Uzumaki/Spiral was a total freakfest from start to finish. A fun freakfest at that, but at times it was a tad too reliant on kitsch rather than the horror. The story is difficult to summarize succinctly: a carefree, normal teenage girl starts coming fac ...


на основании выведенных данных мы можем утвержадать, что модель работает, но по 2му фильму все еще остаются вопросы, хотя на основании всего  300та символом можно было бы отнести его просто к фильмам с низким рейтингом