# Excel file Preprocessing

### Import Dataset

In [535]:
import pandas as pd

df = pd.read_excel('corpus.xlsx')
df.shape

(2000, 3)

In [536]:
df.head()

Unnamed: 0,ID,Headline,Body
0,32652,В СГТУ пройдет конференция по современным биои...,"<div id=""content-content"">\n<div id=""node-2692..."
1,32651,Продолжается набор слушателей по программам ДПО,"<p style=""text-align: justify;""><img style=""fl..."
2,32650,Студент АМФ - серебряный призер Чемпионата Рос...,"<p style=""text-align: justify;""><img style=""fl..."
3,32643,Сегодня - День Государственного флага РФ,"<p style=""text-align: justify;""><img style=""fl..."
4,58784,Кафедра рекламы и компьютерного дизайна провод...,"_x000D_\n<div style=""text-align: justify;"">Вни..."


Copy column 'Body' to column 'new'

In [537]:
df['new'] = df['Body']
df.head()

Unnamed: 0,ID,Headline,Body,new
0,32652,В СГТУ пройдет конференция по современным биои...,"<div id=""content-content"">\n<div id=""node-2692...","<div id=""content-content"">\n<div id=""node-2692..."
1,32651,Продолжается набор слушателей по программам ДПО,"<p style=""text-align: justify;""><img style=""fl...","<p style=""text-align: justify;""><img style=""fl..."
2,32650,Студент АМФ - серебряный призер Чемпионата Рос...,"<p style=""text-align: justify;""><img style=""fl...","<p style=""text-align: justify;""><img style=""fl..."
3,32643,Сегодня - День Государственного флага РФ,"<p style=""text-align: justify;""><img style=""fl...","<p style=""text-align: justify;""><img style=""fl..."
4,58784,Кафедра рекламы и компьютерного дизайна провод...,"_x000D_\n<div style=""text-align: justify;"">Вни...","_x000D_\n<div style=""text-align: justify;"">Вни..."


### Primary processing

Приведение к нижнему регистру, применение регулярных выражений

In [538]:
import re

df.loc[:,"new"] = df.new.apply(lambda x : str.lower(x))                     # нижний регистр
df.loc[:,"new"] = df.new.apply(lambda x : " ".join(re.findall('[\w]+',x)))  # без пунктуации
df.loc[:,"new"] = df.new.apply(lambda x : " ".join(re.findall('[\D]+',x)))  # без чисел
df.loc[:,"new"] = df.new.apply(lambda x : " ".join(re.findall('[а-я]+',x))) # без английских символов

#df.loc[:,"new"] = df.new.apply(lambda x : " ".join(re.findall(r'\b[а-я]+',x))) # если пробовать одной строкой

In [539]:
df.loc[:,"new"] = df.new.apply(lambda x : x.split(' ')) # создание списка списков слов
df.head()

Unnamed: 0,ID,Headline,Body,new
0,32652,В СГТУ пройдет конференция по современным биои...,"<div id=""content-content"">\n<div id=""node-2692...","[октября, г, на, базе, каф, бма, фтф, и, фмтм,..."
1,32651,Продолжается набор слушателей по программам ДПО,"<p style=""text-align: justify;""><img style=""fl...","[в, саратовском, государственном, техническом,..."
2,32650,Студент АМФ - серебряный призер Чемпионата Рос...,"<p style=""text-align: justify;""><img style=""fl...","[августа, года, в, ставрополе, состоялся, этап..."
3,32643,Сегодня - День Государственного флага РФ,"<p style=""text-align: justify;""><img style=""fl...","[ежегодно, августа, в, россии, отмечается, ден..."
4,58784,Кафедра рекламы и компьютерного дизайна провод...,"_x000D_\n<div style=""text-align: justify;"">Вни...","[вниманию, студентов, и, кураторов, мфпит, мар..."


Очистка слов длиной меньше 3

In [540]:
new = df['new'].values.tolist()

edited_lists = []
for lists in new:
    edited_lists.append(list(filter(lambda x: len(x) > 2, lists)))
    
df['new'] = edited_lists
df.head()

Unnamed: 0,ID,Headline,Body,new
0,32652,В СГТУ пройдет конференция по современным биои...,"<div id=""content-content"">\n<div id=""node-2692...","[октября, базе, каф, бма, фтф, фмтм, инэтм, пр..."
1,32651,Продолжается набор слушателей по программам ДПО,"<p style=""text-align: justify;""><img style=""fl...","[саратовском, государственном, техническом, ун..."
2,32650,Студент АМФ - серебряный призер Чемпионата Рос...,"<p style=""text-align: justify;""><img style=""fl...","[августа, года, ставрополе, состоялся, этап, ч..."
3,32643,Сегодня - День Государственного флага РФ,"<p style=""text-align: justify;""><img style=""fl...","[ежегодно, августа, россии, отмечается, день, ..."
4,58784,Кафедра рекламы и компьютерного дизайна провод...,"_x000D_\n<div style=""text-align: justify;"">Вни...","[вниманию, студентов, кураторов, мфпит, марта,..."


### Stop-Words

In [541]:
custom_stop = ['что', 'нас', 'как', 'все', 'она', 'так', 
               'его', 'только', 'мне', 'было', 'вот', 'меня', 'еще', 'нет',
               'теперь', 'когда', 'даже', 'вдруг', 'ему', 
               'если', 'уже', 'или', 'быть', 'был', 'него', 
               'вас', 'нибудь', 'опять', 'вам', 'ведь', 
               'там', 'потом', 'себя', 'ничего', 'может', 'они', 
               'тут', 'где', 'есть', 'надо', 'ней', 'для', 'тебя', 
               'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 
               'раз', 'тоже', 'себе', 'под', 'будет', 'тогда', 'кто', 
               'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 
               'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 
               'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 
               'никогда', 'можно', 'при', 'наконец', 'два', 'другой', 
               'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 
               'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 
               'моя', 'впрочем', 'хорошо', 'свою', 'этой', 'перед', 'иногда', 
               'лучше', 'чуть', 'том', 'нельзя', 'такой', 'более', 
               'всегда', 'конечно', 'всю', 'между']

In [542]:
import nltk
#nltk.download()

### Lemmatization

In [543]:
import re

from pymorphy2 import MorphAnalyzer
from nltk.corpus import stopwords

patterns = "[A-Za-z0-9!#$%&'()*+,./:;<=>?@[\]^_`{|}~—\"\-]+"
stopwords_ru = stopwords.words("russian")
morph = MorphAnalyzer()

def lemmatize(doc):
    doc = re.sub(patterns, ' ', doc)
    tokens = []
    for token in doc.split():
        if token and token not in stopwords_ru:
            token = token.strip()
            token = morph.normal_forms(token)[0]
            
            tokens.append(token)
    if len(tokens) > 2:
        return tokens
    return None

In [544]:
from tqdm.notebook import tqdm
import time

#data = df.apply(lemmatize)

#[df2.apply(lemmatize) for i in tqdm(range(1000))]

#tons = list(range(1000))
#[tons for i in tqdm(range(1000))]

In [547]:
import nltk
from nltk import word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist

# Для применения инструментов частотного анализа библиотеки NLTK необходимо список токенов преобразовать к классу Text
text = nltk.Text(text_tokens)
print(type(text))

# Получим список стоп-слов для русского языка
russian_stopwords = stopwords.words("russian")  
russian_stopwords.extend(['это', 'и', 'нем'])

text_tokens = [token.strip() for token in text_tokens if token not in russian_stopwords]
print(text_tokens, type(text_tokens), len(text_tokens))

NameError: name 'text_tokens' is not defined

In [548]:
import pymorphy2

morph = pymorphy2.MorphAnalyzer()

morph.parse(df['new'])

'''
bag = list()

for text_token in text_tokens:
    p = morph.parse(text_token)[0]
    bag.append(p.normal_form)
print(bag)
'''

AttributeError: 'Series' object has no attribute 'lower'

###  Preparing to write the processed Dataset

In [None]:
df.rename(columns={'new': 'Dict_token_freq'}, inplace=True)
df.drop("Body", axis=1, inplace=True) # delete a column Body

df.head()

### Writing a Dataset to an Excel file

In [549]:
with pd.ExcelWriter('test.xlsx') as writer: 
    df.to_excel(writer)