## Task 1. Decorators (10 points)
1. Write a decorator, which checks complience of function's signature to given interface
2. Write a decorator, which decorates function with a provided decorator

In [1]:
import inspect
import functools

In [2]:
def check_Signature(function):
    def wrapper(*args, **kwargs):
        if len(inspect.getfullargspec(function)[0]) == len(args):
            result = function(*args, **kwargs)
            return result
        else:
            print('Signature error')
    return wrapper

In [3]:
def decorator(fun):
    @functools.wraps(fun)
    def wrapper(*args, **kwargs):
        return fun(*args, **kwargs)
    return wrapper

In [4]:
@check_Signature
def foo1(a, b):
    return a+b

In [5]:
foo1(3, 3, 4)

Signature error


In [6]:
foo1(3, 3)

6

In [7]:
@decorator(check_Signature)
def foo2(a, b):
    return a - b

In [8]:
foo2(1,2)

-1

In [9]:
foo2(1,2, 3)

Signature error


## Task 2. Text preprocessing (20 points)
Assume we have an arbitrary text and plan to prepare it for a further data analysis. The text might contain html tags, emails, latex commands. The task is to create a configurable text preprocessor, which allows to remove certain elements from provided text. The following filters should be supported:
1. Removal of punctuation symbols from a given list 
2. Removal of stop words from a given list
3. Removal of HTML tags
4. Removal of e-mails

html_tag: https://tutorialedge.net/python/removing-html-from-string/

stop_words:
https://www.geeksforgeeks.org/removing-stop-words-nltk-python/

emails: 
https://stackoverflow.com/questions/44027943/python-regex-to-remove-emails-from-string

punctuation: https://stackoverflow.com/questions/4371231/removing-punctuation-from-python-list-items

In [10]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import string
import nltk
import re
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/alexmal/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [11]:
class Text_preprocessing():
    def __init__(self, text,
                 html = True,
                 email = True,
                 stop_words = True,
                 punctuation = True,
                 emails_tag = None,
                 html_tags = None,
                 stop_word_lang = 'english'):
        self.text = text
        self.html = html
        self.email = email
        self.stop_words = stop_words
        self.punctuation = punctuation
        self.without_stop_words = []
        if html_tags is None:
            self.html_tags = re.compile(r'<[^>]+>')
        else:
            self.html_tags = html_tags
        if emails_tag is None:
            self.emails_tag = re.compile(r'\S*@\S*\s?')
        else:
            self.emails_tag = emails_tag
        self.word_tokens = None
        self.stop_words = None
        self.stop_word_lang = stop_word_lang
    def remove_punctuation_symbols(self):
        if self.word_tokens is None:
            self.word_tokens = word_tokenize(self.text)
        self.without_punctuation = [''.join(c for c in s if c not in string.punctuation)
                                    for s in self.word_tokens]
        self.word_tokens = self.without_punctuation
        self.text = ' '.join(self.without_punctuation)
        return self.without_punctuation
    def remove_stop_words(self):
        if self.word_tokens is None:
            self.word_tokens = word_tokenize(self.text)
        for token in self.word_tokens:
            if not token in self.stop_words:
                self.without_stop_words.append(token)
        self.word_tokens = self.without_stop_words
        self.text = ' '.join(self.without_stop_words)
        return self.without_stop_words
    def remove_tags(self):
        self.without_tags = self.html_tags.sub('', self.text)
        self.text = self.without_tags
        return self.without_tags
    def remove_emails(self):
        self.stop_words = set(stopwords.words(self.stop_word_lang))
        self.without_emails = self.emails_tag.sub('', self.text)
        self.text = self.without_emails
        return self.without_emails
    def preprocessing(self):
        if self.html:
            self.remove_tags()
        if self.email:
            self.remove_emails()
        if self.stop_words:
            self.remove_stop_words()
        if self.punctuation:
            self.remove_punctuation_symbols()
        return self.text

In [12]:
inp = 'abc user@xxx.com 123 any@www foo ... ///  @ bar 78@ppp @5555 aa@111'

In [13]:
example_sent = "This is a sample sentence, showing off the stop words filtration."

In [14]:
markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'

In [15]:
text = inp + ' ' + example_sent + ' ' + markup

In [16]:
prep = Text_preprocessing(text)

In [17]:
prep.__dict__

{'email': True,
 'emails_tag': re.compile(r'\S*@\S*\s?', re.UNICODE),
 'html': True,
 'html_tags': re.compile(r'<[^>]+>', re.UNICODE),
 'punctuation': True,
 'stop_word_lang': 'english',
 'stop_words': None,
 'text': 'abc user@xxx.com 123 any@www foo ... ///  @ bar 78@ppp @5555 aa@111 This is a sample sentence, showing off the stop words filtration. <a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>',
 'without_stop_words': [],
 'word_tokens': None}

In [18]:
prep.preprocessing()

'abc 123 foo   bar This sample sentence  showing stop words filtration  I linked examplecom'

In [19]:
prep.__dict__

{'email': True,
 'emails_tag': re.compile(r'\S*@\S*\s?', re.UNICODE),
 'html': True,
 'html_tags': re.compile(r'<[^>]+>', re.UNICODE),
 'punctuation': True,
 'stop_word_lang': 'english',
 'stop_words': {'a',
  'about',
  'above',
  'after',
  'again',
  'against',
  'ain',
  'all',
  'am',
  'an',
  'and',
  'any',
  'are',
  'aren',
  "aren't",
  'as',
  'at',
  'be',
  'because',
  'been',
  'before',
  'being',
  'below',
  'between',
  'both',
  'but',
  'by',
  'can',
  'couldn',
  "couldn't",
  'd',
  'did',
  'didn',
  "didn't",
  'do',
  'does',
  'doesn',
  "doesn't",
  'doing',
  'don',
  "don't",
  'down',
  'during',
  'each',
  'few',
  'for',
  'from',
  'further',
  'had',
  'hadn',
  "hadn't",
  'has',
  'hasn',
  "hasn't",
  'have',
  'haven',
  "haven't",
  'having',
  'he',
  'her',
  'here',
  'hers',
  'herself',
  'him',
  'himself',
  'his',
  'how',
  'i',
  'if',
  'in',
  'into',
  'is',
  'isn',
  "isn't",
  'it',
  "it's",
  'its',
  'itself',
  'just',
  'l

In [20]:
text_2 = 'Кулити работяги всем доброго здоровья держите рофл: "Все, кто пропустил церемонию инаугурации презедента России Владимира Путина, не расстраивайтесь. Посмотрите в следующий раз." хахаха,ну це таке рофл годный, а новые мемасы спрашивайте по адресу vc.com/alexapitaine или по почте best_rofl_capitaine@gmail.com PS Некоторые знаки припинания сам по безграмотнотси удалил'

In [21]:
text_2

'Кулити работяги всем доброго здоровья держите рофл: "Все, кто пропустил церемонию инаугурации презедента России Владимира Путина, не расстраивайтесь. Посмотрите в следующий раз." хахаха,ну це таке рофл годный, а новые мемасы спрашивайте по адресу vc.com/alexapitaine или по почте best_rofl_capitaine@gmail.com PS Некоторые знаки припинания сам по безграмотнотси удалил'

In [22]:
prep = Text_preprocessing(text_2, stop_word_lang='russian')

In [23]:
prep.preprocessing()

'Кулити работяги всем доброго здоровья держите рофл   Все  пропустил церемонию инаугурации презедента России Владимира Путина  расстраивайтесь  Посмотрите следующий   хахаха  це таке рофл годный  новые мемасы спрашивайте адресу vccomalexapitaine почте PS Некоторые знаки припинания безграмотнотси удалил'