In [None]:
from Levenshtein import distance as lev_distance
from collections import Counter, defaultdict
from fuzzywuzzy import process
from fuzzywuzzy import fuzz
from tqdm import tqdm
import heapq
import re

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
sns.set(context='notebook', style='whitegrid', palette='pastel', 
        font='sans-serif', font_scale=1, color_codes=False, rc=None)

from nltk import pos_tag, WordNetLemmatizer
from nltk.corpus import stopwords, wordnet
from nltk.tokenize import word_tokenize
import nltk
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('all')

import warnings
warnings.filterwarnings("ignore")

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\misha\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\misha\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\misha\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\abc.zip.
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\misha\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     C:\Users\misha\AppData\Roaming\nltk_data...


## Чтение файла

In [None]:
data = pd.read_csv('interfax_2.csv')
text = ''
for i in range(data.shape[0]):
    data.loc[i, 'text'] = data.loc[i, 'text'].lower()
data

## Обработка текста

In [None]:
punkt_list = ['.', ',', '/', '`', '"', "'", '!', '&', '?', '(', ')', '-', '+', '_', '*', '@', ';', ':', '<',
         '>', '\\', '[', ']', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '“', '„', '%', '$', '…',
         '’', '|', '^', '~', '=', '»', '”', '′', '•', '—', '«', '–']

flag = True
for i in range(len(punkt_list)):
    for j in range(i+1, len(punkt_list)):
        if punkt_list[i] == punkt_list[j]:
            print(f'1й индекс: {i}, 2й индекс: {j}, символ: {punkt_list[i]}')
            flag = False
if flag:
    print('В списке "punkt_list" нет повторяющихся элементов')

In [None]:
stop_list = stopwords.words('russian') + stopwords.words('english')
rubbish_list = ['которые', 'нам', 'дали', 'например', 'пока', 'часть', 'лишь', 'это', 'также', 'будут',
                'россии', 'россия', 'года', 'годы', 'году', 'год', 'январь', 'января', 'февраля', 'могут',
                'февраль', 'март', 'марта', 'апрель', 'апреля', 'май', 'мая', 'июнь', 'июня', 'июль',
                'июля', 'август', 'августа', 'сентябрь', 'сентября', 'октябрь', 'октября', 'ноябрь',
                'ноября', 'декабрь', 'декабря', 'москва', 'interfaxru', 'сша', 'рф', 'млн', 'млрд', 'тыс',
                'рубль', 'рублей', 'рубля', 'рублю', 'сентябре', 'январе', 'феврале', 'марте', 'апреле',
                'мае', 'июне', 'июле', 'августе', 'октябре', 'ноябре', 'декабре', 'говорится', 'ранее',
                'изза', 'когдалибо', 'когдато', 'гделибо', 'гдето', 'московской', 'сообщил', 'составил',
                'новых', 'новые', 'понедельник', 'вторник', 'среду', 'четверг', 'пятницу', 'субботу',
                'воскресенье', 'рост', 'роста', 'фоне', 'итогам', 'итоги', 'время', 'стран', 'страна',
                'который', 'словам', 'начала', 'сранению', 'заявил', 'руб', 'числе', 'сообщила', 'решение',
                'страны', 'тысяч', 'конце', 'около', 'сказал', 'российских', 'однако', 'данным', 'дня',
                'сообщении', 'относительно', 'возможность', 'пишет', 'времени', 'период', 'которых',
                'неделе', 'российской', 'рамках', 'отмечает', 'поскольку', 'месяцев', 'отметил', 'ходе',
                'срок', 'тонн', 'является', 'сообщает', 'российского', 'которая', 'составила', 'открылся',
                'российские', 'количество', 'впервые']
stop_list += rubbish_list

flag = True
for i in range(len(stop_list)):
    for j in range(i+1, len(stop_list)):
        if stop_list[i] == stop_list[j]:
            print(f'1й индекс: {i}, 2й индекс: {j}, символ: {stop_list[i]}')
            flag = False
if flag:
    print('В списке "stop_list" нет повторяющихся элементов')

In [None]:
for i in range(data.shape[0]):
    string = data.loc[i, 'text']
    for sign in punkt_list:
        string = string.replace(sign, '') # чистка знаков препинания
    string = string.replace('\n', ' ') # чистка переносов строки
    string = string.replace('\t', ' ') # чистка табов
    string = string.replace('  ', ' ') # удаление двойных пробелов
    string = word_tokenize(string) # токенизация по словам
    string = [word for word in string if not word in stop_list] # удаление стоп-слов
    data.loc[i, 'text'] = ''
    for j in string:
        data.loc[i, 'text'] += ' '+j
    data.loc[i, 'text'] = data.loc[i, 'text'][1:]
data

In [None]:
for i in data['text']:
    text += ' '+i
for sign in punkt_list:
    text = text.replace(sign, '') 
text = text.replace('\n', ' ') 
text = text.replace('\t', ' ') 
text = text.replace('  ', ' ')
text = word_tokenize(text)
text = [word for word in text if not word in stop_list]
sorted(Counter(text).items(), key=lambda x: x[1], reverse=True)[:30] # частотность слов (настройка стоп-слов)

In [None]:
text_list = []
for i in tqdm(range(len(data))):
    text_list.append(data.loc[i, 'text'])
text_list