In [12]:
import string
from collections import defaultdict

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize

In [2]:
nltk.download('stopwords')
STOPWORDS_AND_CHARS = stopwords.words('russian')

COUNT_RUSSIAN_LETTERS = 33
RUSSIAN_ALPHABET = [chr(0x0410 + index) for index in range(COUNT_RUSSIAN_LETTERS)]
RUSSIAN_ALPHABET.extend([chr(0x0430 + index) for index in range(COUNT_RUSSIAN_LETTERS)])
STOPWORDS_AND_CHARS.extend(string.punctuation)
STOPWORDS_AND_CHARS.extend(RUSSIAN_ALPHABET)

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/maksimmigur/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## Загрузка данных

In [3]:
bot_posts_df = pd.read_excel('./Data/ai_bot_app_post.xls')
posts_df = pd.read_excel('./Data/posts (1).xlsx')

## Информация о наборах данных

In [4]:
bot_posts_df.head()

Unnamed: 0,user_id,telegram_id,text,title
0,1,157314,❗️Восстановление аммиакопровода Тольятти — Оде...,Восстановление аммиакопровода займет до 3 меся...
1,2,18940,Дополнительные 39 миллионов рублей были выделе...,Выделены дополнительные 39 млн рублей на соцуч...
2,3,4868,«Россия уничтожена санкциями»\n ...,«Россия уничтожена санкциями»\n ...
3,4,157315,❗️Правоохранители провели обыски в министерств...,Обыски в минобразования Дагестана по делу о вы...
4,16,157317,"Реконструкция пропускного пункта ""Верхний Ларс...","Реконструкция пропускного пункта ""Верхний Ларс..."


In [5]:
posts_df.head()

Unnamed: 0,id,telegram_id,text,datetime,category_id,channel_id,title,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,1,157314,❗️Восстановление аммиакопровода Тольятти — Оде...,2023-06-07 11:40:06,,-1001394050290,Восстановление аммиакопровода займет до 3 меся...,,,
1,2,18940,Дополнительные 39 миллионов рублей были выделе...,2023-06-07 11:34:56,,-1001098860759,Выделены дополнительные 39 млн рублей на соцуч...,,,
2,3,4868,«Россия уничтожена санкциями»\n ...,2023-06-07 11:03:05,,-1001797434593,«Россия уничтожена санкциями»\n ...,,,
3,4,157315,❗️Правоохранители провели обыски в министерств...,2023-06-07 11:50:06,,-1001394050290,Обыски в минобразования Дагестана по делу о вы...,,,
4,16,157317,"Реконструкция пропускного пункта ""Верхний Ларс...",2023-06-07 12:10:25,,-1001394050290,"Реконструкция пропускного пункта ""Верхний Ларс...",,,


In [6]:
bot_posts_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88182 entries, 0 to 88181
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   user_id      88182 non-null  int64 
 1   telegram_id  88182 non-null  int64 
 2   text         88178 non-null  object
 3   title        88177 non-null  object
dtypes: int64(2), object(2)
memory usage: 2.7+ MB


In [7]:
posts_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169881 entries, 0 to 169880
Data columns (total 10 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   id           169881 non-null  object
 1   telegram_id  169880 non-null  object
 2   text         169871 non-null  object
 3   datetime     169871 non-null  object
 4   category_id  21 non-null      object
 5   channel_id   169863 non-null  object
 6   title        169848 non-null  object
 7   Unnamed: 7   2 non-null       object
 8   Unnamed: 8   2 non-null       object
 9   Unnamed: 9   1 non-null       object
dtypes: object(10)
memory usage: 13.0+ MB


## Предобработка текста

Этапы обработки текста:
* Удаление символов(пунктуации, буквы которые в предложение стоят по одиночке).
* Удаление стоп слов
* Приведение слов к номральной форме
* Токетизация
* Векторизация

Удалим не нужные столбцы, которые не имею смысла.

In [8]:
posts_df = posts_df[[
    'id', 
    'telegram_id', 
    'text', 'datetime', 
    'channel_id', 
    'title']
]

Напишем функции для обработки текстов.

In [11]:
def remove_digits(text: str) -> list:
    return ''.join([word for word in text if (word not in string.punctuation) and (word not in string.digits)])

def remove_stop_words(text: str, stopwords=STOPWORDS_AND_CHARS) -> list:
    return ' '.join([word for word in text.split(' ') if word not in stopwords])

def lemmatize(text):
    pymorphy2_analyzer = MorphAnalyzer()
    return " ".join([pymorphy2_analyzer.parse(word)[0].normal_form for word in text.split(' ')]).strip()

In [13]:
def tokenize(text):
    return sent_tokenize(text)

## Первичный анализ данных (EDA)

Выведим списки униграмм, биграмм, триграмм.