### ML1_1: 
https://www.hackerrank.com/challenges/capturing-non-capturing-groups/problem?isFullScreen=true

In [1]:
Regex_Pattern = r'(?:o[kK]){3}'

### ML1_2: 
https://www.hackerrank.com/challenges/branch-reset-groups/problem?isFullScreen=true

In [2]:
Regex_Pattern = '/^\d{2}(-{3}|:|.|-)(\d{2}\1){2}\d{2}$/'

### ML1_3: 
https://www.hackerrank.com/challenges/detect-html-links/problem?isFullScreen=true

### ML1_4
Реализовать stemming, lemmatization & BoW на следующем датасете: https://cloud.mail.ru/public/Z4L3/vB8GcgTtK (Russian Toxic-abuse comments)

In [3]:
import pandas as pd
import nltk

from nltk.corpus import stopwords
from nltk.stem import  SnowballStemmer

nltk.download('wordnet')
nltk.download('omw-1.4')

from pymorphy2 import MorphAnalyzer

from sklearn.feature_extraction.text import CountVectorizer


[nltk_data] Downloading package wordnet to /Users/matdiv/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /Users/matdiv/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [4]:
data = pd.read_csv('./data/labeled.csv')
data.head()

Unnamed: 0,comment,toxic
0,"Верблюдов-то за что? Дебилы, бл...\n",1.0
1,"Хохлы, это отдушина затюканого россиянина, мол...",1.0
2,Собаке - собачья смерть\n,1.0
3,"Страницу обнови, дебил. Это тоже не оскорблени...",1.0
4,"тебя не убедил 6-страничный пдф в том, что Скр...",1.0


In [5]:
data.shape

(14412, 2)

In [6]:
# удаление пунктуации
data['comment'] = data['comment'].str.replace('[^\w\s]','', regex=True)

In [7]:
data['comment'] = data['comment'].str.replace('[\n]','', regex=True)

In [8]:
#  приведение слов к нижнему регистру

data['comment'] = data['comment'].apply(lambda x: " ".join(x.lower() for x in x.split()))
    


In [9]:
# удаление стоп-слов
stop = stopwords.words('russian')

data['comment'] = data['comment'].apply(lambda x: " ".join(x for x in x.split() if x not in stop))

In [10]:
data.head()

Unnamed: 0,comment,toxic
0,верблюдовто дебилы бл,1.0
1,хохлы это отдушина затюканого россиянина мол в...,1.0
2,собаке собачья смерть,1.0
3,страницу обнови дебил это оскорбление доказанн...,1.0
4,убедил 6страничный пдф скрипалей отравила росс...,1.0


In [11]:
# стемминг

stem = SnowballStemmer("russian")

data['comment_stem'] = data['comment'].apply(lambda x: " ".join([stem.stem(word) for word in x.split()]))


In [12]:
# лемматизация

morph = MorphAnalyzer()

data['comment_lemm'] = data['comment'].apply(lambda x: " ".join([morph.normal_forms(word)[0] for word in x.split()]))


In [13]:
data['comment_lemm_stem'] = data['comment_stem'].apply(lambda x: " ".join([morph.normal_forms(word)[0] for word in x.split()]))
data

Unnamed: 0,comment,toxic,comment_stem,comment_lemm,comment_lemm_stem
0,верблюдовто дебилы бл,1.0,верблюдовт дебил бл,верблюдовто дебил бл,верблюдовт дебил бл
1,хохлы это отдушина затюканого россиянина мол в...,1.0,хохл эт отдушин затюкан россиянин мол вон хохл...,хохол это отдушина затюканый россиянин мол вон...,хохлый эт отдушина затюкать россиянин мол вон ...
2,собаке собачья смерть,1.0,собак собач смерт,собака собачий смерть,собака собач смерт
3,страницу обнови дебил это оскорбление доказанн...,1.0,страниц обнов деб эт оскорблен доказа факт нед...,страница обновить дебил это оскорбление доказа...,страница обнова деб эт оскорбить доказ факт не...
4,убедил 6страничный пдф скрипалей отравила росс...,1.0,убед 6страничн пдф скрипал отрав росс анализир...,убедить 6страничный пдф скрипаль отравить росс...,убеда 6страничн пдф скрипасть отрава росс анал...
...,...,...,...,...,...
14407,вонючий совковый скот прибежал ноет сторонник ...,1.0,вонюч совков скот прибежа ноет сторонник демок...,вонючий совковый скот прибежать ныть сторонник...,вонючий совковый скот прибежа ныть сторонник д...
14408,кого любить гоблина тупорылого чтоли какуюнибу...,1.0,ког люб гоблин тупорыл чтол какуюнибуд продажн...,кто любить гоблин тупорылый чтоль какуюнибудь ...,ког люба гоблин тупорылый чтол какуюнибуд прод...
14409,посмотрел утомленных солнцем 2 оказалось это х...,0.0,посмотрел утомлен солнц 2 оказа эт хорош фильм...,посмотреть утомлённый солнце 2 оказаться это х...,посмотреть утомлённый солнце 2 оказ эт хороший...
14410,крымотред нарушает правила раздела тк нем обсу...,1.0,крымотред наруша прав раздел тк нем обсужден п...,крымотред нарушать правило раздел тк немой обс...,крымотред нарушить право раздел тк немой обсуд...


In [14]:
vectorizer = CountVectorizer()
vectorizer

In [15]:
bow = vectorizer.fit_transform(data['comment_lemm_stem'])

In [16]:
print(bow)

  (0, 5672)	1
  (0, 8532)	1
  (0, 4681)	1
  (1, 32533)	3
  (1, 34042)	1
  (1, 19672)	1
  (1, 11134)	1
  (1, 26427)	1
  (1, 16135)	1
  (1, 6376)	1
  (1, 32654)	1
  (1, 12944)	1
  (1, 23814)	1
  (2, 28099)	1
  (2, 28102)	1
  (2, 27963)	1
  (3, 34042)	2
  (3, 29124)	1
  (3, 18571)	1
  (3, 8525)	1
  (3, 19472)	1
  (3, 9273)	1
  (3, 31606)	1
  (3, 17421)	1
  (3, 16056)	1
  :	:
  (14410, 17307)	1
  (14410, 23647)	1
  (14411, 29609)	1
  (14411, 14146)	1
  (14411, 27083)	1
  (14411, 22834)	1
  (14411, 5866)	1
  (14411, 12733)	1
  (14411, 13152)	1
  (14411, 23257)	1
  (14411, 13535)	1
  (14411, 5693)	1
  (14411, 21358)	1
  (14411, 12508)	1
  (14411, 27228)	1
  (14411, 27004)	1
  (14411, 16689)	1
  (14411, 25964)	1
  (14411, 23269)	1
  (14411, 32558)	1
  (14411, 7850)	1
  (14411, 20925)	1
  (14411, 19359)	1
  (14411, 33647)	1
  (14411, 32593)	1


### Задание 6: 
https://www.hackerrank.com/challenges/matching-specific-string/problem?isFullScreen=true 

Regex_Pattern = r"hackerrank"

### Задание 7: 
https://www.hackerrank.com/challenges/matching-whitespace-non-whitespace-character/problem?isFullScreen=true

Regex_Pattern = r"(\S\S\s)(\S\S\s)(\S\S)"

### Задание 8: 
https://www.hackerrank.com/challenges/matching-start-end/problem?isFullScreen=true

Regex_Pattern = r"^[0-9]{1}[0-9A-Za-z]{2,4}\.$"

### Задание 9: 
https://www.hackerrank.com/challenges/matching-word-boundaries/problem?isFullScreen=true

Regex_Pattern = r'\b[a,e,i,o,u,A,E,I,O,U][A-Za-z]*\b'