### Import

In [3]:
import re
import unicodedata

In [4]:
import inflect

### Functions

In [5]:
def remove_paragraph(text_corpus):
    new_text_corpus = text_corpus.replace('\n','')
    return new_text_corpus

In [6]:
def to_lowercase(text_corpus):
    """Convert all characters to lowercase from list of tokenized words"""
    words = text_corpus.split(' ')
    new_words = []
    for word in words:
        new_word = word.lower()
        new_words.append(new_word)
    return ' '.join(new_words)

In [7]:
def remove_punctuation(text_corpus):
    """Remove punctuation from list of tokenized words"""
    words = text_corpus.split(' ')
    new_words = []
    for word in words:
        new_word = re.sub(r'[^\w\s]', '', word)
        if new_word != '':
            new_words.append(new_word)
    return ' '.join(new_words)

In [8]:
def replace_numbers(text_corpus):
    """Replace all interger occurrences in list of tokenized words with textual representation"""
    words = text_corpus.split(' ')
    p = inflect.engine()
    new_words = []
    for word in words:
        if word.isdigit():
            new_word = p.number_to_words(word)
            new_words.append(new_word)
        else:
            new_words.append(word)
    return ' '.join(new_words)

### Example with ukrainian news - source: BBC Ukraine

Для прикладу ми використаємо новину з BBC Ukraine - [посилання](https://www.bbc.com/ukrainian/news-51767815).

![screen of news](https://github.com/OleksandrKosovan/sentiment-analysis-uk/blob/master/00-img/screen-new-1.png?raw=true)

In [9]:
title = """Коронавірус в Україні: з підозрою перевіряють 9 людей"""

In [10]:
news = """"
Станом на 6 березня з підозрою на коронавірус в Україні перевіряють дев'ятьох людей, повідомили у пресслужбі міністерства здоров'я.

"До Центру громадського здоров'я надійшло 9 повідомлень про підозри на захворювання COVID-19, лабораторні дослідження у вірусологічній референс-лабораторії тривають", - кажуть у відомстві.

Напередодні повідомлялося про шістьох людей, які перебувають під наглядом через можливу наявність коронавірусу.

В усіх випадках йшлося про Чернівецьку область, принаймні двоє зі шпиталізованих раніше подорожували Італією.
"""

### Example

In [11]:
test_news = remove_paragraph(news)
print('Текст після видалення абзаців: \n\n', test_news)

Текст після видалення абзаців: 

 "Станом на 6 березня з підозрою на коронавірус в Україні перевіряють дев'ятьох людей, повідомили у пресслужбі міністерства здоров'я."До Центру громадського здоров'я надійшло 9 повідомлень про підозри на захворювання COVID-19, лабораторні дослідження у вірусологічній референс-лабораторії тривають", - кажуть у відомстві.Напередодні повідомлялося про шістьох людей, які перебувають під наглядом через можливу наявність коронавірусу.В усіх випадках йшлося про Чернівецьку область, принаймні двоє зі шпиталізованих раніше подорожували Італією.


In [12]:
test_news = to_lowercase(test_news)
print('Текст після перетворення всього тексту в малі літери: \n\n', test_news)

Текст після перетворення всього тексту в малі літери: 

 "станом на 6 березня з підозрою на коронавірус в україні перевіряють дев'ятьох людей, повідомили у пресслужбі міністерства здоров'я."до центру громадського здоров'я надійшло 9 повідомлень про підозри на захворювання covid-19, лабораторні дослідження у вірусологічній референс-лабораторії тривають", - кажуть у відомстві.напередодні повідомлялося про шістьох людей, які перебувають під наглядом через можливу наявність коронавірусу.в усіх випадках йшлося про чернівецьку область, принаймні двоє зі шпиталізованих раніше подорожували італією.


In [13]:
test_news = remove_punctuation(test_news)
print('Текст після видалення пунктуації:  \n\n', test_news)

Текст після видалення пунктуації:  

 станом на 6 березня з підозрою на коронавірус в україні перевіряють девятьох людей повідомили у пресслужбі міністерства здоровядо центру громадського здоровя надійшло 9 повідомлень про підозри на захворювання covid19 лабораторні дослідження у вірусологічній референслабораторії тривають кажуть у відомствінапередодні повідомлялося про шістьох людей які перебувають під наглядом через можливу наявність коронавірусув усіх випадках йшлося про чернівецьку область принаймні двоє зі шпиталізованих раніше подорожували італією


In [14]:
test_news = replace_numbers(test_news)
print('Текст після видалення числел:  \n\n', test_news)

Текст після видалення числел:  

 станом на six березня з підозрою на коронавірус в україні перевіряють девятьох людей повідомили у пресслужбі міністерства здоровядо центру громадського здоровя надійшло nine повідомлень про підозри на захворювання covid19 лабораторні дослідження у вірусологічній референслабораторії тривають кажуть у відомствінапередодні повідомлялося про шістьох людей які перебувають під наглядом через можливу наявність коронавірусув усіх випадках йшлося про чернівецьку область принаймні двоє зі шпиталізованих раніше подорожували італією
