# Анализ тональности отзывов на фильмы:строим простые модели

Инструкция по выполнению

В некоторых пунктах нужно получить ответ - число или строку, которые будет нужно набирать в текстовых файлах и прикреплять в ответах на вопросы. Десятичные дроби записывайте через точку.

Создайте список из текстов всех имеющихся отзывов, а также список с классами, которые будет использовать ваш классификатор - 0 для негативных отзывов и 1 для позитивных.
Подсчитайте количество отзывов в выборке.
Подсчитайте долю класса 1 в выборке.
Импортируйте CountVectorizer из sklearn.feature_extraction.text. Попробуйте использовать его с настройками по умолчанию для того, чтобы получить признаковое представление каждого текста. Скорее всего, попытка не увенчается успехом. Разберитесь, в чем причина, и добейтесь того, чтобы метод fit_transform у CountVectorizer успешно отрабатывал. Подсчитайте количество признаков в CountVectorizer. Никакой предварительной обработки текста (удаление стоп-слов, нормализация слов) на этом шаге делать не надо, в качестве признаков должны использоваться частоты слов.
Соберите pipeline из CountVectorizer и LogisticRegression c настройками по-умолчанию и с помощью cross_val_score (также со стандартными настройками) оцените получаемое "из коробки" качество по accuracy.
Аналогично accuracy, оцените качество по ROC AUC.
Обучите логистическую регрессию на всей доступной вам выборке и выведите 5 наиболее важных для модели признаков (подумайте, какие именно признаки стоит считать такими). Вам могут пригодиться метод get_feature_names() или поле vocabulary_ у класса CountVectorizer.

In [1]:
import nltk
from nltk.corpus import movie_reviews

In [2]:
negids = movie_reviews.fileids('neg')
posids = movie_reviews.fileids('pos')

print(negids[:5])

['neg/cv000_29416.txt', 'neg/cv001_19502.txt', 'neg/cv002_17424.txt', 'neg/cv003_12683.txt', 'neg/cv004_12641.txt']


In [3]:
corpus_list = []

Создайте список из текстов всех имеющихся отзывов, а также список с классами, которые будет использовать ваш классификатор - 0 для негативных отзывов и 1 для позитивных.


In [4]:
negfeats = [" ".join(movie_reviews.words(fileids=[f])) for f in negids]
posfeats = [" ".join(movie_reviews.words(fileids=[f])) for f in posids]

texts = negfeats + posfeats
labels = [0] * len(negfeats) + [1] * len(posfeats)


Подсчитайте количество отзывов в выборке. Подсчитайте долю класса 1 в выборке

In [5]:
print(len(labels))
print(len(posfeats))

2000
1000


In [6]:
from sklearn.feature_extraction.text import CountVectorizer

мпортируйте CountVectorizer из sklearn.feature_extraction.text. Попробуйте использовать его с настройками по умолчанию для того, чтобы получить признаковое представление каждого текста. 

In [7]:
vectorizer = CountVectorizer()

In [8]:
X = vectorizer.fit_transform(texts)

In [9]:
print(X.shape)

(2000, 39659)


Соберите pipeline из CountVectorizer и LogisticRegression c настройками по-умолчанию и с помощью cross_val_score (также со стандартными настройками) оцените получаемое "из коробки" качество по accuracy.

In [10]:
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

In [38]:
reg_pipeline = Pipeline(
            [("vectorizer", CountVectorizer()),
            ("regression", LogisticRegression())]
        )


reg_pipeline.fit(texts, labels)

Pipeline(memory=None,
     steps=[('vectorizer', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
       ...penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False))])

In [39]:
res = cross_val_score(reg_pipeline, texts, labels)



 Accuracy в кросс-валидации

In [13]:
print(res.mean())

0.8360216503929078


Аналогично accuracy, оцените качество по ROC AUC

In [14]:
res = cross_val_score(reg_pipeline, texts, labels,scoring='roc_auc')



In [15]:
print(res.mean())

0.9107764937833774


Обучите логистическую регрессию на всей доступной вам выборке и выведите 5 наиболее важных для модели признаков (подумайте, какие именно признаки стоит считать такими). Вам могут пригодиться метод get_feature_names() или поле vocabulary_ у класса CountVectorizer.

In [16]:

X = vectorizer.fit_transform(texts)

logmodel = LogisticRegression()
logmodel.fit(X,labels)
top_features = sorted(zip(abs(logmodel.coef_[0]), vectorizer.get_feature_names()),reverse=True)[:5]

print(top_features)    


[(0.7822544710446759, 'bad'), (0.6366239501417396, 'unfortunately'), (0.5928385147524585, 'worst'), (0.5560506991496287, 'fun'), (0.5081915087333968, 'waste')]


# Настройка параметров

В этом задании вам предстоит поэкспериментировать с параметрами вашей модели для сентимент-анализа. Все задания выполняются на том же датасете, что и на прошлой неделе.

Инструкции

Здесь и далее оценка качества будет выполняться с помощью cross_val_score с cv=5 и остальными параметрами по умолчанию. Оцените среднее качество ( .mean() ) и стандартное отклонение ( .std() ) по fold'ам для: а) pipeline из CountVectorizer() и LogisticRegression(), б) pipeline из TfidfVectorizer() и LogisticRegression(). В соответствующем пункте задания выпишите через пробел среднее в п. а, отклонение в п. а, среднее в п.б и отклонение в п. б

Попробуйте задавать разные значения параметра min_df у CountVectorizer. Оцените качество вашего классификатора с min_df=10 и с min_df=50.

Попробуйте использовать разные классификаторы после CountVectorizer. И vectorizer, и классификатор берите с параметрами по умолчанию. Сравните результаты для LogisticRegression, LinearSVC и SGDClassifier. Выпишите в ответе на соответствующий вопрос самое худшее качество из получившихся.

Подготовьте список стоп-слов с помощью nltk.corpus.stopwords.words('english'), посмотрите на его элементы, и передайте его в соответствующий параметр CountVectorizer. В sklearn также предусмотрен свой список английских стоп-слов - для этого нужно задать соответствующий параметр равным строке 'english'. Оцените качество классификатора в одном и другом случае и выпишете сначала качество в первом варианте, затем во втором в соответствующем вопросе.

Попробуйте в CountVectorizer добавить к словам биграммы и измерить качество модели. А затем постройте модель на частотах буквенных n-грамм c n от 3 до 5, указав соответствующее значение параметра ngram_range и параметр analyzer='char_wb'. Полученные два числа запишите через пробел в ответе на соответствующий вопрос.

Здесь и далее оценка качества будет выполняться с помощью cross_val_score с cv=5 и остальными параметрами по умолчанию. Оцените среднее качество ( .mean() ) и стандартное отклонение ( .std() ) по fold'ам для: а) pipeline из CountVectorizer() и LogisticRegression(), б) pipeline из TfidfVectorizer() и LogisticRegression(). В соответствующем пункте задания выпишите через пробел среднее в п. а, отклонение в п. а, среднее в п.б и отклонение в п. б

In [40]:
mean_cv_log_res = 0.8360216503929078
std_cv_log_res = res.std()

In [43]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [44]:
reg_pipeline_tfidf = Pipeline(
            [("tfidfvectorizer", TfidfVectorizer()),
            ("regression", LogisticRegression())]
        )


reg_pipeline_tfidf.fit(texts, labels)

Pipeline(memory=None,
     steps=[('tfidfvectorizer', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.float64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2', preprocessor=None, smooth...penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False))])

In [45]:
res_tfidf = cross_val_score(reg_pipeline_tfidf, texts, labels)



In [46]:
mean_tfidf_log_res = res_tfidf.mean()

In [47]:
std_tfidf_log_res = res_tfidf.std()

In [48]:
print(mean_cv_log_res,std_cv_log_res,mean_tfidf_log_res,std_tfidf_log_res)

0.8360216503929078 0.015309139640513638 0.8135111159063255 0.01035604041249499


Попробуйте задавать разные значения параметра min_df у CountVectorizer. Оцените качество вашего классификатора с min_df=10 и с min_df=50.

In [61]:
reg_pipeline = Pipeline(
            [("vectorizer", CountVectorizer(min_df=10)),
            ("regression", LogisticRegression())]
        )


reg_pipeline.fit(texts, labels)

Pipeline(memory=None,
     steps=[('vectorizer', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=10,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
      ...penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False))])

In [55]:
res = cross_val_score(reg_pipeline, texts, labels)



In [62]:
mean_cv_log_res_min_df10 = res.mean()


In [63]:
reg_pipeline = Pipeline(
            [("vectorizer", CountVectorizer(min_df=50)),
            ("regression", LogisticRegression())]
        )


reg_pipeline.fit(texts, labels)

Pipeline(memory=None,
     steps=[('vectorizer', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=50,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
      ...penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False))])

In [64]:
mean_cv_log_res_min_df50 = res.mean()

In [65]:
print(mean_cv_log_res_min_df10,mean_cv_log_res_min_df50)

0.8305176433918948 0.8305176433918948


Попробуйте использовать разные классификаторы после CountVectorizer. И vectorizer, и классификатор берите с параметрами по умолчанию. Сравните результаты для LogisticRegression, LinearSVC и SGDClassifier. Выпишите в ответе на соответствующий вопрос самое худшее качество из получившихся.

In [69]:
from sklearn.svm import LinearSVC
from sklearn.linear_model import SGDClassifier

In [75]:
reg_pipeline_svc = Pipeline(
            [("vectorizer", CountVectorizer()),
            ("LinearSVC", LinearSVC())]
        )


reg_pipeline_svc.fit(texts, labels)



Pipeline(memory=None,
     steps=[('vectorizer', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
       ...ax_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0))])

In [76]:
print(cross_val_score(reg_pipeline, texts, labels).mean())



0.811510612408816


In [77]:
reg_pipeline_SGDClassifier = Pipeline(
            [("vectorizer", CountVectorizer()),
            ("SGDClassifier", SGDClassifier())]
        )


reg_pipeline_SGDClassifier.fit(texts, labels)



Pipeline(memory=None,
     steps=[('vectorizer', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
       ...m_state=None, shuffle=True, tol=None,
       validation_fraction=0.1, verbose=0, warm_start=False))])

In [78]:
print(cross_val_score(reg_pipeline_SGDClassifier, texts, labels).mean())



0.7960310610011209


Подготовьте список стоп-слов с помощью nltk.corpus.stopwords.words('english'), посмотрите на его элементы, и передайте его в соответствующий параметр CountVectorizer. В sklearn также предусмотрен свой список английских стоп-слов - для этого нужно задать соответствующий параметр равным строке 'english'. Оцените качество классификатора в одном и другом случае и выпишете сначала качество в первом варианте, затем во втором в соответствующем вопросе.

In [89]:
from nltk.corpus import stopwords

In [93]:
stopwords_list = stopwords.words('english')
print(stopwords_list)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [82]:
reg_pipeline_stop_s = Pipeline(
            [("vectorizer", CountVectorizer(stop_words ="english")),
            ("regression", LogisticRegression())]
        )


reg_pipeline_stop_s.fit(texts, labels)



Pipeline(memory=None,
     steps=[('vectorizer', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words='english',
  ...penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False))])

In [83]:
print(cross_val_score(reg_pipeline_stop_s, texts, labels).mean())



0.8345141548734363


In [95]:
reg_pipeline_stop_nltk = Pipeline(
            [("vectorizer", CountVectorizer(stop_words = stopwords_list)),
            ("regression", LogisticRegression())
            ]
        )


reg_pipeline_stop_nltk.fit(texts, labels)

Pipeline(memory=None,
     steps=[('vectorizer', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None,
        stop_words=['i',...penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False))])

In [96]:
print(cross_val_score(reg_pipeline_stop_nltk, texts, labels).mean())



0.8270171368973763


Попробуйте в CountVectorizer добавить к словам биграммы и измерить качество модели. А затем постройте модель на частотах буквенных n-грамм c n от 3 до 5, указав соответствующее значение параметра ngram_range и параметр analyzer='char_wb'. Полученные два числа запишите через пробел в ответе на соответствующий вопрос.

In [103]:
reg_pipeline_ngramm = Pipeline(
            [("vectorizer", CountVectorizer( ngram_range=(1,2))),
            ("regression", LogisticRegression())
            ]
        )


reg_pipeline_ngramm.fit(texts, labels)

Pipeline(memory=None,
     steps=[('vectorizer', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 2), preprocessor=None, stop_words=None,
       ...penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False))])

In [104]:
print(cross_val_score(reg_pipeline_ngramm, texts, labels).mean())



0.8375261489033944


In [100]:
reg_pipeline_ngramm = Pipeline(
            [("vectorizer", CountVectorizer( ngram_range=(3,5),analyzer='char_wb')),
            ("regression", LogisticRegression())
            ]
        )


reg_pipeline_ngramm.fit(texts, labels)

Pipeline(memory=None,
     steps=[('vectorizer', CountVectorizer(analyzer='char_wb', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(3, 5), preprocessor=None, stop_words=None,
    ...penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False))])

In [102]:
print(cross_val_score(reg_pipeline_ngramm, texts, labels).mean())



0.8205031378684073
