### Тема “Предобработка текста с помощью Python”

Осуществим предобработку данных с Твиттера, чтобы очищенные данные в дальнейшем
использовать для задачи классификации. Данный датасет содержит негативные (label = 1)
и нейтральные (label = 0) высказывания. Для работы объединим train_df и test_df.

Задания:

1. Удалим @user из всех твитов с помощью паттерна "@[\w]*". Для этого создадим
функцию:
 ● для того, чтобы найти все вхождения паттерна в тексте, необходимо
использовать re.findall(pattern, input_txt)
 ● для для замены @user на пробел, необходимо использовать re.sub()
 
2. Изменим регистр твитов на нижний с помощью .lower().

3. Заменим сокращения с апострофами (пример: ain't, can't) на пробел, используя
apostrophe_dict. Для этого необходимо сделать функцию: для каждого слова в
тексте проверить (for word in text.split()), если слово есть в словаре apostrophe_dict в
качестве ключа (сокращенного слова), то заменить ключ на значение (полную
версию слова).

4. Заменим сокращения на их полные формы, используя short_word_dict. Для этого
воспользуемся функцией, используемой в предыдущем пункте.

5. Заменим эмотиконы (пример: ":)" = "happy") на пробелы, используя emoticon_dict.
Для этого воспользуемся функцией, используемой в предыдущем пункте.

6. Заменим пунктуацию на пробелы, используя re.sub() и паттерн r'[^\w\s]'.

7. Заменим спец. символы на пробелы, используя re.sub() и паттерн r'[^a-zA-Z0-9]'.

8. Заменим числа на пробелы, используя re.sub() и паттерн r'[^a-zA-Z]'.

9. Удалим из текста слова длиной в 1 символ, используя ' '.join([w for w in x.split() if
len(w)>1]).

10. Поделим твиты на токены с помощью nltk.tokenize.word_tokenize, создав новый
столбец 'tweet_token'.

11. Удалим стоп-слова из токенов, используя nltk.corpus.stopwords. Создадим столбец
'tweet_token_filtered' без стоп-слов.

12. Применим стемминг к токенам с помощью nltk.stem.PorterStemmer. Создадим
столбец 'tweet_stemmed' после применения стемминга.

13. Применим лемматизацию к токенам с помощью
nltk.stem.wordnet.WordNetLemmatizer. Создадим столбец 'tweet_lemmatized' после
применения лемматизации.

14. Сохраним результат предобработки в pickle-файл

In [147]:
import pandas as pd
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.stem.wordnet import WordNetLemmatizer

In [155]:
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...


True

In [3]:
TRAIN_PATH = 'train_tweets.csv'
TEST_PATH = 'test_tweets.csv'

In [7]:
train_data = pd.read_csv(TRAIN_PATH, index_col= 'id')

In [8]:
train_data.head()

Unnamed: 0_level_0,label,tweet
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0,@user when a father is dysfunctional and is s...
2,0,@user @user thanks for #lyft credit i can't us...
3,0,bihday your majesty
4,0,#model i love u take with u all the time in ...
5,0,factsguide: society now #motivation


In [24]:
print(train_data['tweet'].iloc[1])
print(re.sub('@[\w]*','', train_data['tweet'].iloc[1]))

@user @user thanks for #lyft credit i can't use cause they don't offer wheelchair vans in pdx.    #disapointed #getthanked
  thanks for #lyft credit i can't use cause they don't offer wheelchair vans in pdx.    #disapointed #getthanked


In [136]:
def del_stop_words(x, stop_set):
    x = [w for w in x if w not in stop_set]
    return x

In [144]:
def stemming(x, stemmer):
    x = [stemmer.stem(w) for w in x]
    return x
    

In [148]:
def lemmatising(x, lemmatiser):
    x = [lemmatiser.lemmatize(w) for w in x]
    return x
    

In [104]:
def replace_apos(y, apostrophe_dict):
    y = y.split()
    for n, word in enumerate(y):
        if word in apostrophe_dict:
            del y[n]
            y = y[:n] + apostrophe_dict[word].split() + y[n:]
    return " ".join(y)

In [76]:
def replace(y, my_dict):    
    for n, word in enumerate(y):
        if word in my_dict:
            y[n] = my_dict[word]            
    return y

In [112]:
def preprocess(x, apostrophe_dict, short_word_dict, emoticon_dict):
    x = re.sub('@[\w]*',' ', x)
    x = replace_apos(x, apostrophe_dict)
    x = re.sub('[^\w\s]',' ', x)
    x = re.sub('[^a-zA-Z0-9]',' ', x)
    x = re.sub('[^a-zA-Z]',' ', x)
    x = x.lower()
    x = x.split()    
    x = replace(x, short_word_dict)
    x = replace(x, emoticon_dict)
    x = ' '.join([w for w in x if len(w)>1])
    return x

In [114]:
apostrophe_dict = {"can't": 'can not'}
short_word_dict = {"pdx" : "paradox"}
emoticon_dict = {":)" : "happy"}

In [115]:
preprocess(train_data['tweet'].iloc[1],  apostrophe_dict, short_word_dict, emoticon_dict)

'thanks for lyft credit can not use cause they don offer wheelchair vans in paradox disapointed getthanked'

In [117]:
train_data['tweet'] = train_data['tweet'].apply(lambda x: preprocess(x,  apostrophe_dict, short_word_dict, emoticon_dict))

In [129]:
train_data['tweet_token'] = train_data['tweet'].apply(lambda x: word_tokenize(x))

In [134]:
stop_words = set(stopwords.words("english"))

In [137]:
train_data['tweet_token_filtered'] = train_data['tweet_token'].apply(lambda x: del_stop_words(x, stop_words) )

In [141]:
stemmer = PorterStemmer()

In [145]:
train_data['tweet_stemmed'] = train_data['tweet_token_filtered'].apply(lambda x: stemming(x, stemmer) )

In [149]:
lemmatiser = WordNetLemmatizer()

In [156]:
train_data['tweet_lemmatized'] = train_data['tweet_token_filtered'].apply(lambda x: lemmatising(x, lemmatiser) )

In [157]:
train_data

Unnamed: 0_level_0,label,tweet,tweet_token,tweet_token_filtered,tweet_stemmed,tweet_lemmatized
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,0,when father is dysfunctional and is so selfish...,"[when, father, is, dysfunctional, and, is, so,...","[father, dysfunctional, selfish, drags, kids, ...","[father, dysfunct, selfish, drag, kid, dysfunc...","[father, dysfunctional, selfish, drag, kid, dy..."
2,0,thanks for lyft credit can not use cause they ...,"[thanks, for, lyft, credit, can, not, use, cau...","[thanks, lyft, credit, use, cause, offer, whee...","[thank, lyft, credit, use, caus, offer, wheelc...","[thanks, lyft, credit, use, cause, offer, whee..."
3,0,bihday your majesty,"[bihday, your, majesty]","[bihday, majesty]","[bihday, majesti]","[bihday, majesty]"
4,0,model love take with all the time in ur,"[model, love, take, with, all, the, time, in, ur]","[model, love, take, time, ur]","[model, love, take, time, ur]","[model, love, take, time, ur]"
5,0,factsguide society now motivation,"[factsguide, society, now, motivation]","[factsguide, society, motivation]","[factsguid, societi, motiv]","[factsguide, society, motivation]"
...,...,...,...,...,...,...
31958,0,ate isz that youuu,"[ate, isz, that, youuu]","[ate, isz, youuu]","[ate, isz, youuu]","[ate, isz, youuu]"
31959,0,to see nina turner on the airwaves trying to w...,"[to, see, nina, turner, on, the, airwaves, try...","[see, nina, turner, airwaves, trying, wrap, ma...","[see, nina, turner, airwav, tri, wrap, mantl, ...","[see, nina, turner, airwave, trying, wrap, man..."
31960,0,listening to sad songs on monday morning otw t...,"[listening, to, sad, songs, on, monday, mornin...","[listening, sad, songs, monday, morning, otw, ...","[listen, sad, song, monday, morn, otw, work, sad]","[listening, sad, song, monday, morning, otw, w..."
31961,1,sikh temple vandalised in in calgary wso conde...,"[sikh, temple, vandalised, in, in, calgary, ws...","[sikh, temple, vandalised, calgary, wso, conde...","[sikh, templ, vandalis, calgari, wso, condemn,...","[sikh, temple, vandalised, calgary, wso, conde..."
