In [1]:
import pandas as pd
import sklearn.metrics
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import SGDClassifier
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split

In [2]:
twitter_message_pos = pd.read_csv('data/positive.csv', sep=';', header=None)
twitter_message_neg = pd.read_csv('data/negative.csv', sep=';', header=None)

In [3]:
twitter_message_pos.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,408906692374446080,1386325927,pleease_shut_up,"@first_timee хоть я и школота, но поверь, у на...",1,0,0,0,7569,62,61,0
1,408906692693221377,1386325927,alinakirpicheva,"Да, все-таки он немного похож на него. Но мой ...",1,0,0,0,11825,59,31,2
2,408906695083954177,1386325927,EvgeshaRe,RT @KatiaCheh: Ну ты идиотка) я испугалась за ...,1,0,1,0,1273,26,27,0
3,408906695356973056,1386325927,ikonnikova_21,"RT @digger2912: ""Кто то в углу сидит и погибае...",1,0,1,0,1549,19,17,0
4,408906761416867842,1386325943,JumpyAlex,@irina_dyshkant Вот что значит страшилка :D\nН...,1,0,0,0,597,16,23,1


In [4]:
twitter_message_all = pd.concat([twitter_message_neg, twitter_message_pos])

In [5]:
twitter_message_all.columns = ["id", "tdate", "tmane", "ttext", "ttype", "trep", "tfav", "tstcount",
                              "trtw", "tfol", "tfrien", "listcount"]

In [6]:
twitter_message_all = shuffle(twitter_message_all)

In [7]:
twitter_message_all.head()

Unnamed: 0,id,tdate,tmane,ttext,ttype,trep,tfav,tstcount,trtw,tfol,tfrien,listcount
12269,410758723397640192,1386767485,gendalph945,"Интернет не радует, YouTube со своими заморочк...",-1,0,0,0,5621,30,14,0
22841,411880361338355712,1387034905,hudeweje,"RT @olugemygp: Спасибо всем, кто поправляет мо...",-1,0,3,0,388,193,194,0
75142,410643380977553408,1386739986,Sashka_freedom,"@_insense ладно, только я хз где достать норм ...",1,0,0,0,3890,93,93,0
25396,409560114971279360,1386481715,alekseykovalik,@Masha_Vilka хотел бы:) а еще хотел бы не испо...,1,0,0,0,9799,505,74,14
72898,410487811943723008,1386702895,vikstiffmc,"RT @Kusushayaa: Чувствую себя крутой Чикой, пр...",1,0,1,0,37,3,5,0


In [8]:
target = twitter_message_all['ttype']
del twitter_message_all['ttype']

In [9]:
X_train, X_test, y_train, y_test = train_test_split(twitter_message_all['ttext'], target, test_size=0.2)

In [10]:
text_clf = sklearn.pipeline.Pipeline([('vect', CountVectorizer()), ('tfidf', TfidfTransformer()),
                     ('clf', SGDClassifier(random_state=12345))])

In [11]:
import re
# кастомный токенайзер: пытаемся очисть текст от пунктуации, ссылок и ников
def twitter_tokenize(text):
    text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text) # удаляем ссылки
    
    if text.startswith('RT ') :
        text = text.replace('RT ', '') # удаляем ретвиты
        
    text = re.sub(r'(^|[^@\w])@(\w{1,15})\b','',text) # удаляем ники
    
    text = re.sub(r'[!"#$%&\'*\+,-./:;<=>?\^_`{|}~()]+',' ',text) # удаляем знаки препинания
    
    return [x for x in text.split(' ') if x != ''] # разделяем по пробелам и удаляем пустые токены

In [12]:
# еще кастомный токенайзер: пытаемся ко всему прочему заменить смайлы на спец токены
def twitter__with_smile_tokenize(text):
    text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text) # удаляем ссылки
    
    goog_smile_patterns = [')))', '))', ')',':‑)',':)',':-]',':]', ':-3', ':3', ':->', ':>','8-)', '8)', ':-}',':}',':o)',':c)',
                           ':^)','=]','=)',':‑D',':D','8‑D','8D','x‑D','xD','X‑D','XD', '=D','=3','B^D', ':-))']
    
    bad_smile_patterns = ['(((', '((', '(', ':‑(', ':(', ':‑c', ':c', ':‑<', ':<',':‑[',':[', ':-||', '>:[', ':{', ':@', '>:(',
                          ':\'‑(',':\'(', ':\'‑)',':\')', 'D‑\':', 'D:<','D:','D8','D;','D=','DX']
   
    for smile in goog_smile_patterns:
        text = text.replace(smile, ' GSMILE ')  # заменяем на спец токен
        
    for smile in bad_smile_patterns:
        text = text.replace(smile, ' BSMILE ')  # заменяем на спец токен
    
    if text.startswith('RT ') :
        text = text.replace('RT ', '') # удаляем ретвиты
        
    text = re.sub(r'(^|[^@\w])@(\w{1,15})\b','',text) # удаляем ники
    
    text = re.sub(r'/:([a-z]{1,10}):/i', '', text) # удаляем смайлы типа :smile:
    
    text = re.sub(r'[!"#$%&\'*\+,-./:;<=>?\^_`{|}~]+',' ',text) # удаляем знаки препинания
    
    
    return [x for x in text.split(' ') if x != ''] # разделяем по пробелам и удаляем пустые токены

In [13]:
# проверка работы токенайзера
print(twitter_message_all['ttext'].iloc[0])
twitter_tokenize(twitter_message_all['ttext'].iloc[0])


Интернет не радует, YouTube со своими заморочками тоже. Так себе  настроенице :(


['Интернет',
 'не',
 'радует',
 'YouTube',
 'со',
 'своими',
 'заморочками',
 'тоже',
 'Так',
 'себе',
 'настроенице']

In [14]:
print(twitter_message_all['ttext'].iloc[1])
twitter__with_smile_tokenize(twitter_message_all['ttext'].iloc[1])

RT @olugemygp: Спасибо всем, кто поправляет мои ошибки в блоге. Да, я действительно забыл русский язык :(


['Спасибо',
 'всем',
 'кто',
 'поправляет',
 'мои',
 'ошибки',
 'в',
 'блоге',
 'Да',
 'я',
 'действительно',
 'забыл',
 'русский',
 'язык',
 'BSMILE']

In [15]:
# для русского языка загрузим стоп-слова
with open('stop_words_ru.txt') as f:
    stop_words = f.read().splitlines()

In [16]:
# перберем gridsearch наши токенайзеры и параметры, чтобы найти оптимальное сочитание
parameters = {
    'vect__max_df': (0.5, 0.75, 1.0),
    'vect__stop_words': (None, stop_words),
    'vect__tokenizer' : (None, twitter_tokenize, twitter__with_smile_tokenize),
}

In [17]:
grid_search = GridSearchCV(text_clf, parameters, n_jobs=-1, verbose=1)

In [18]:
grid_search.fit(X_train, y_train)

Fitting 3 folds for each of 18 candidates, totalling 54 fits


[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed:  5.2min
[Parallel(n_jobs=-1)]: Done  54 out of  54 | elapsed:  7.1min finished


GridSearchCV(cv=None, error_score='raise',
       estimator=Pipeline(steps=[('vect', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip...  penalty='l2', power_t=0.5, random_state=12345, shuffle=True,
       verbose=0, warm_start=False))]),
       fit_params={}, iid=True, n_jobs=-1,
       param_grid={'vect__stop_words': (None, ['c', 'а', 'алло', 'без', 'белый', 'близко', 'более', 'больше', 'большой', 'будем', 'будет', 'будете', 'будешь', 'будто', 'буду', 'будут', 'будь', 'бы', 'бывает', 'бывь', 'был', 'была', 'были', 'было', 'быть', 'в', 'важная', 'важное', 'важные', 'важный', 'вам',...d0fc510>, <function twitter__with_smile_tokenize at 0x1010dd840>), 'vect__max_df': (0.5, 0.75, 1.0)},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
 

In [19]:
best_parameters = grid_search.best_estimator_.get_params()

In [20]:
# наш токенайзер со смайлами дал самый лучший результат на gridsearch
best_parameters

{'clf': SGDClassifier(alpha=0.0001, average=False, class_weight=None, epsilon=0.1,
        eta0=0.0, fit_intercept=True, l1_ratio=0.15,
        learning_rate='optimal', loss='hinge', n_iter=5, n_jobs=1,
        penalty='l2', power_t=0.5, random_state=12345, shuffle=True,
        verbose=0, warm_start=False),
 'clf__alpha': 0.0001,
 'clf__average': False,
 'clf__class_weight': None,
 'clf__epsilon': 0.1,
 'clf__eta0': 0.0,
 'clf__fit_intercept': True,
 'clf__l1_ratio': 0.15,
 'clf__learning_rate': 'optimal',
 'clf__loss': 'hinge',
 'clf__n_iter': 5,
 'clf__n_jobs': 1,
 'clf__penalty': 'l2',
 'clf__power_t': 0.5,
 'clf__random_state': 12345,
 'clf__shuffle': True,
 'clf__verbose': 0,
 'clf__warm_start': False,
 'steps': [('vect',
   CountVectorizer(analyzer='word', binary=False, decode_error='strict',
           dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
           lowercase=True, max_df=0.5, max_features=None, min_df=1,
           ngram_range=(1, 1), preprocessor=No

In [21]:
# возьмем лучший estimator и проверим на тестовой выборке и посмотрим на метрики
predicted = grid_search.best_estimator_.predict(X_test)

In [22]:
# получили интересное качество
print(sklearn.metrics.classification_report(y_test, predicted))

             precision    recall  f1-score   support

         -1       1.00      0.97      0.98     22286
          1       0.97      1.00      0.98     23081

avg / total       0.98      0.98      0.98     45367



In [23]:
sklearn.metrics.confusion_matrix(y_test, predicted).ravel()

array([21559,   727,    38, 23043])

In [24]:
def get_params_from_gridsearch(best_parameters, begin_prefix):
    vect_params = {}
    for key, value in best_parameters.items():
        if key.startswith(begin_prefix):
            key = key.replace(begin_prefix, '')
            vect_params[key] = value
    return vect_params

In [26]:
# воссоздаем весь пайплайн, но меняем токенайзер на вуфолтный, чтобы сравнить с токенайзером, который читерил со смайлами
vect = CountVectorizer()
vect.set_params(**get_params_from_gridsearch(best_parameters, 'vect__'))
vect.tokenizer = None
tfidf = TfidfTransformer()
tfidf.set_params(**get_params_from_gridsearch(best_parameters, 'tfidf__'))
clf = SGDClassifier()
clf.set_params(**get_params_from_gridsearch(best_parameters, 'clf__'))
text_clf = sklearn.pipeline.Pipeline(([('vect', vect), 
                                       ('tfidf', tfidf),
                                        ('clf', clf)]))

In [27]:
text_clf.fit(X_train, y_train)
predicted = text_clf.predict(X_test)

In [28]:
# получили ожидаемо ниже
print(sklearn.metrics.classification_report(y_test, predicted))

             precision    recall  f1-score   support

         -1       0.75      0.65      0.70     22286
          1       0.70      0.79      0.74     23081

avg / total       0.73      0.72      0.72     45367



In [29]:
# воссоздаем весь пайплайн, но меняем токенайзер на twitter_tokenize, чтобы сравнить с токенайзером, который читерил со смайлами
vect.set_params(**get_params_from_gridsearch(best_parameters, 'vect__'))
vect.tokenizer = twitter_tokenize
tfidf = TfidfTransformer()
tfidf.set_params(**get_params_from_gridsearch(best_parameters, 'tfidf__'))
clf = SGDClassifier()
clf.set_params(**get_params_from_gridsearch(best_parameters, 'clf__'))
text_clf = sklearn.pipeline.Pipeline(([('vect', vect), 
                                       ('tfidf', tfidf),
                                        ('clf', clf)]))

In [30]:
text_clf.fit(X_train, y_train)
predicted = text_clf.predict(X_test)

In [31]:
# получили ожидаемо ниже, но лучше, чем с дефолтный токенайзером
print(sklearn.metrics.classification_report(y_test, predicted))

             precision    recall  f1-score   support

         -1       0.74      0.71      0.73     22286
          1       0.73      0.76      0.75     23081

avg / total       0.74      0.74      0.74     45367



In [32]:
# вывод, который могу сделать, предобработка текста в данном примере сыграло ключевую роль, выделение смайликов 
# как отдельных токенов дало максимальный прирост в качестве классификатора сентимента