### Import

In [151]:
import pandas as pd

In [152]:
import re
import unicodedata

In [153]:
from collections import Counter

### Read data

In [154]:
df = pd.read_csv('data/lemmatazed-data.csv')

In [155]:
df.head()

Unnamed: 0,text,target
0,персонал магазин не бути знайомий з процес вид...,positive
1,"замовляти з дружина в розетка багато, але пове...",negative
2,після перше|перший коментар про телефон Meizu ...,negative
3,1. за година до доставка я ніхто не подзвонити...,negative
4,зробити замовлення на сайт розетка набір бласт...,positive


### Functions

In [156]:
def unicode_normalization(text):
    """"
    Remove string like "\xa0\"
    """
    normalized_text = unicodedata.normalize("NFKD", text)
    return normalized_text

In [157]:
def remove_paragraph(text_corpus):
    """"
    Remove "\n"
    """
    new_text_corpus = text_corpus.replace('\n','')
    return new_text_corpus

In [158]:
def remove_button_words(text):
    """"
    Remove button words like розгорнути / згорнути
    """
    new_text = text.replace('розгорнути','')
    new_text = new_text.replace('згорнути','')
    return new_text

In [159]:
def to_lowercase(text_corpus):
    """Convert all characters to lowercase from list of tokenized words"""
    words = text_corpus.split(' ')
    new_words = []
    for word in words:
        new_word = word.lower()
        new_words.append(new_word)
    return ' '.join(new_words)

In [160]:
def remove_punctuation(text_corpus):
    """Remove punctuation from list of tokenized words"""
    words = text_corpus.split(' ')
    new_words = []
    for word in words:
        new_word = re.sub(r'[^\w\s]', '', word)
        if new_word != '':
            new_words.append(new_word)
    return ' '.join(new_words)

In [161]:
def remove_numbers(text):
    return ''.join([i for i in text if not i.isdigit()])

In [162]:
def text_normalization(text):
    new_text = unicode_normalization(text)
    new_text = remove_paragraph(new_text)
    new_text = remove_button_words(new_text)
    new_text = to_lowercase(new_text)
    new_text = remove_punctuation(new_text)
    new_text = remove_numbers(new_text)
    return new_text 

### Stop words

In [163]:
# https://www.marazm.org.ua/windows/50_141.html

stop_words = """
а, б, в, г, ґ, д, е, є, ж, з, и, і, ї, й, к, л, м, н, о, п, р, с, т, у, ф, х, ц, ч, ш, щ, ь, ю, я,
без, більш, більше, буде, начебто, би, був, була, були, було, бути, вам, вас, 
адже, увесь, уздовж, раптом, замість, поза, униз, унизу, усередині, в, навколо, от, втім, 
усі, завжди, усього, усіх, усю, ви, де, так, давай, давати, навіть, для, до, досить, інший, 
його, йому, її, її, їй, якщо, є, ще, ще, же, за, за винятком, тут, з, через, з, або, їм, 
мати, іноді, їх, якось, хто, коли, крім, хто, куди, чи, або, між, мене, мені, багато, може, 
моє, моє, мої, мій, ми, на, назавжди, над, треба, нарешті, нас, наш, не, його, ні, небудь, 
ніколи, їм, їх, нічого, але, ну, про, однак, він, вона, вони, воно, знову, від, тому, дуже, 
перед, по, під, після, потім, тому, тому що, майже, при, про, раз, хіба, свою, себе, сказати, 
знову, з, зовсім, так, також, такі, такий, там, ті, тебе, тем, тепер, те, тоді, того, теж, тієї, 
тільки, тому, той, отут, ти, уже, хоч, хоча, чого, чогось, чий, чому, через, що, щось, щоб, 
щоб, ледве, чиє, чия, ця, ці, це, цю, цього, цьому, цей
"""

In [164]:
stop_words = remove_paragraph(stop_words)
stop_words_list = stop_words.split(", ")

In [165]:
len(stop_words_list)

198

In [166]:
def remove_stop_words(text):
    words = text.split(' ')
    new_words = []
    for word in words:
        if word not in stop_words_list:
            new_words.append(word)
    return ' '.join(new_words)

### Data cleaning

In [167]:
df.text = df.text.apply(text_normalization)

In [168]:
df.text = df.text.apply(remove_stop_words)

### Text research

In [169]:
df.target.unique()

array(['positive', 'negative'], dtype=object)

In [170]:
possitive = df.text.loc[df.target=='positive']
len(possitive)

1112

In [171]:
negative = df.text.loc[df.target=='negative']
len(negative)

1922

In [172]:
def text_split(text):
    return text.split(" ")

In [173]:
possitive_splited = possitive.apply(text_split)
counter = Counter()
_ = possitive_splited.apply(lambda x: counter.update(x))

possitive_most_common = counter.most_common(200) 

In [174]:
negative_splited = negative.apply(text_split)
counter = Counter()
_ = negative_splited.apply(lambda x: counter.update(x))

negative_most_common = counter.most_common(200) 

In [175]:
possitive_keys = []
for poss in possitive_most_common:
    possitive_keys.append(poss[0])

In [176]:
negative_keys = []
for negg in negative_most_common:
    negative_keys.append(negg[0])

In [177]:
# unique for possitive

possitive_unique = []
for poss in possitive_most_common:
    if poss[0] not in negative_keys:
        possitive_unique.append(poss)

In [178]:
# unique for negative
    
negative_unique = []
for neg in negative_most_common:
    if neg[0] not in possitive_keys:
        negative_unique.append(neg)

### To csv

In [179]:
possitive_most_common_df = pd.DataFrame(possitive_most_common, columns =['Words', 'Count'])
possitive_most_common_df.head()

Unnamed: 0,Words,Count
0,я,2939
1,,2678
2,магазин,1800
3,товар,1738
4,замовлення,1321


In [180]:
possitive_most_common_df.to_csv('data/possitive_most_common.csv', index=False)

In [181]:
negative_most_common_df = pd.DataFrame(negative_most_common, columns =['Words', 'Count'])
negative_most_common_df.head()

Unnamed: 0,Words,Count
0,я,8591
1,,8154
2,товар,3703
3,магазин,3198
4,цецеи,2942


In [182]:
negative_most_common_df.to_csv('data/negative_most_common.csv', index=False)

In [183]:
possitive_unique_df = pd.DataFrame(possitive_unique, columns =['Words', 'Count'])
possitive_unique_df.head()

Unnamed: 0,Words,Count
0,задоволении,306
1,цілому,220
2,цитрус,210
3,швидко,195
4,великии,188


In [184]:
possitive_unique_df.to_csv('data/possitive_unique.csv', index=False)

In [185]:
negative_unique_df = pd.DataFrame(negative_unique, columns =['Words', 'Count'])
negative_unique_df.head()

Unnamed: 0,Words,Count
0,ніхто,581
1,повідомити,457
2,казати,421
3,результат,329
4,інформація,316


In [186]:
negative_unique_df.to_csv('data/negative_unique.csv', index=False)