### Import

In [201]:
import pandas as pd

In [202]:
import re
import unicodedata

### Read data

In [203]:
df = pd.read_csv('data/not-clean-data.csv')

In [204]:
df = df.drop('Unnamed: 0', 1)
df.head()

Unnamed: 0,text,target
0,4.11.15 замовив ноутбук Lenovo B590 + мишка в ...,positive
1,"замовила Globex GU803, Чохол Globex 8 &#39;+ к...",negative
2,Замовили нову посудомийну машину 11.02\nДостав...,negative
3,"Замовив намет в неділю ввечері, мені вона потр...",negative
4,"Замовив навушники на ""Розетці"" через оплату ча...",negative


### Functions

In [205]:
def unicode_normalization(text):
    """"
    Remove string like "\xa0\"
    """
    normalized_text = unicodedata.normalize("NFKD", text)
    return normalized_text

In [206]:
def remove_paragraph(text_corpus):
    """"
    Remove "\n"
    """
    new_text_corpus = text_corpus.replace('\n','')
    return new_text_corpus

In [207]:
def remove_button_words(text):
    """"
    Remove button words like розгорнути / згорнути
    """
    new_text = text.replace('розгорнути','')
    new_text = new_text.replace('згорнути','')
    return new_text

In [208]:
def to_lowercase(text_corpus):
    """Convert all characters to lowercase from list of tokenized words"""
    words = text_corpus.split(' ')
    new_words = []
    for word in words:
        new_word = word.lower()
        new_words.append(new_word)
    return ' '.join(new_words)

In [209]:
def remove_punctuation(text_corpus):
    """Remove punctuation from list of tokenized words"""
    words = text_corpus.split(' ')
    new_words = []
    for word in words:
        new_word = re.sub(r'[^\w\s]', '', word)
        if new_word != '':
            new_words.append(new_word)
    return ' '.join(new_words)

In [210]:
def remove_numbers(text):
    return ''.join([i for i in text if not i.isdigit()])

In [211]:
def text_normalization(text):
    new_text = unicode_normalization(text)
    new_text = remove_paragraph(new_text)
    new_text = remove_button_words(new_text)
    new_text = to_lowercase(new_text)
    new_text = remove_punctuation(new_text)
    new_text = remove_numbers(new_text)
    return new_text 

### Stop words

In [212]:
# https://www.marazm.org.ua/windows/50_141.html

stop_words = """
а, б, в, г, ґ, д, е, є, ж, з, и, і, ї, й, к, л, м, н, о, п, р, с, т, у, ф, х, ц, ч, ш, щ, ь, ю, я,
без, більш, більше, буде, начебто, би, був, була, були, було, бути, вам, вас, 
адже, увесь, уздовж, раптом, замість, поза, униз, унизу, усередині, в, навколо, от, втім, 
усі, завжди, усього, усіх, усю, ви, де, так, давай, давати, навіть, для, до, досить, інший, 
його, йому, її, її, їй, якщо, є, ще, ще, же, за, за винятком, тут, з, через, з, або, їм, 
мати, іноді, їх, якось, хто, коли, крім, хто, куди, чи, або, між, мене, мені, багато, може, 
моє, моє, мої, мій, ми, на, назавжди, над, треба, нарешті, нас, наш, не, його, ні, небудь, 
ніколи, їм, їх, нічого, але, ну, про, однак, він, вона, вони, воно, знову, від, тому, дуже, 
перед, по, під, після, потім, тому, тому що, майже, при, про, раз, хіба, свою, себе, сказати, 
знову, з, зовсім, так, також, такі, такий, там, ті, тебе, тем, тепер, те, тоді, того, теж, тієї, 
тільки, тому, той, отут, ти, уже, хоч, хоча, чого, чогось, чий, чому, через, що, щось, щоб, 
щоб, ледве, чиє, чия, ця, ці, це, цю, цього, цьому, цей
"""

In [213]:
stop_words = remove_paragraph(stop_words)
stop_words_list = stop_words.split(", ")

In [214]:
len(stop_words_list)

198

In [215]:
def remove_stop_words(text):
    words = text.split(' ')
    new_words = []
    for word in words:
        if word not in stop_words_list:
            new_words.append(word)
    return ' '.join(new_words)

### Data cleaning

In [216]:
df.text = df.text.apply(text_normalization)

In [217]:
text = df.text[456]
text

'зробила замовлення на саиті  листопада  року на vitek vt вибрала бажании час доставки на  листопада мені передзвонили і сказали що доставка буде  листопада я погодилася фен доставили діисно  листопада але при цьому коробка була помята ввечері приишла додому і вирішила випробувати цеи фен що обертається в обидві сторони підсумок так він обертається але тільки в руках а не на волоссі при тому що у мене коротке волосся а далі ще краще кнопка обертання в ліву сторону просто западає після цього я почала розглядати цеи фен і виявила на ньому невеликі подряпини у підсумку на наступнии день поіхала в магазин на вул протасов яр щоб зробити повернення але тут не все так просто повернення ніхто не зробив забрали на діагностику сказали протягом  днів передзвонять сьогодні  листопада я сама передзвонила дізнатися коли ж мені повернуть гроші на що почула відповідь що фен відправлено в офіціинии центр vitek де як мені сказали він може знаходиться в перебігу  днів вкраи не рекомендую цеи магазин ром'

In [218]:
len(text)

998

In [219]:
df.text = df.text.apply(remove_stop_words)

In [220]:
text = df.text[456]
text

'зробила замовлення саиті  листопада  року vitek vt вибрала бажании час доставки  листопада передзвонили сказали доставка  листопада я погодилася фен доставили діисно  листопада коробка помята ввечері приишла додому вирішила випробувати цеи фен обертається обидві сторони підсумок обертається руках волоссі коротке волосся далі краще кнопка обертання ліву сторону просто западає я почала розглядати цеи фен виявила ньому невеликі подряпини підсумку наступнии день поіхала магазин вул протасов яр зробити повернення все просто повернення ніхто зробив забрали діагностику сказали протягом  днів передзвонять сьогодні  листопада я сама передзвонила дізнатися повернуть гроші почула відповідь фен відправлено офіціинии центр vitek як сказали знаходиться перебігу  днів вкраи рекомендую цеи магазин ром'

In [221]:
len(text)

796

### Save cleaned data

In [222]:
df.to_csv('data/simply-cleaned-data-v2.csv', index=False)