In [5]:
import pandas as pd
import re

# Загрузка данных
data = pd.read_csv('combined.csv', sep=',', header=None, names=['doc_text', 'image2text', 'speech2text'])

# Просмотр первых строк данных
print(data.head())

# Просмотр информации о данных
print(data.info())

# Проверка наличия пропущенных значений
print(data.isnull().sum())


                                            doc_text  \
0                                           doc_text   
1                                           doc_text   
2  Твой лучший секс спрятан здесь 🔞  Делюсь канал...   
3  ⭐️  Кнопка: ⭐️START⭐️(https://t.me/major/start...   
4  А продолжение где? Правильно. В моем сообществ...   

                                          image2text  speech2text  
0                                         image2text  speech2text  
1                                         image2text  speech2text  
2                                                NaN          NaN  
3                                                NaN          NaN  
4  девчонки не умеют переписываться sanille они э...          NaN  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6007 entries, 0 to 6006
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   doc_text     6007 non-null   object
 1   image2text   3427 non

In [6]:

# Заполнение пропущенных значений пустыми строками
data = data.fillna('')

# Проверка наличия дубликатов
print(data.duplicated().sum())

# Удаление дубликатов
data = data.drop_duplicates()

# Функция для очистки текста
def clean_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)  # Удаление пунктуации
    text = re.sub(r'\s+', ' ', text)  # Удаление лишних пробелов
    return text


# Очистка текста в каждой колонке
data['doc_text'] = data['doc_text'].apply(clean_text)
data['image2text'] = data['image2text'].apply(clean_text)
data['speech2text'] = data['speech2text'].apply(clean_text)

# Сохранение предобработанных данных
data.to_csv('combined_cleaned.csv', index=False, sep=',')

386


In [7]:
# Анализ уникальных значений в каждом столбце
for col in data.columns:
    unique_values = data[col].unique()
    print(f"Column {col}:")
    print(unique_values[:10])  # Показываем первые 10 уникальных значений для краткости
    print("\n")

Column doc_text:
['doc_text'
 'твой лучший секс спрятан здесь делюсь каналом дипломированного сексолога крис взломала код классного секса мастерски раскрепощает знает миллион горячих техник и лучшие девайсы для взрослых самые полезные посты здесь отрезвляющий пост я все сама прокачай наездницу ролевая игра vip кинотеатр техника оральных ласк как занимается сeксом неудобная женщина кстати крис провела трехдневный безоплатный онлайн интенсивот бревна до богини совместно с врачом и владельцем сексшопа скорее смотри записи пока не удалила httpstmesekretskris1048 здесь жарче чем в аду '
 ' кнопка starthttpstmemajorstartstartapp1972869792'
 'а продолжение где правильно в моем сообществе в вк ссылка в шапке профиля'
 'тем временем моя авторская телега уверенно в тройке сильнейших компания мощная ухххх '
 'у меня есть двоюродная сестра у нее есть сын антон мой двоюродный племянник получается он снимает свой подкаст конечно я пришла его поддержать получилось честное и откровенное интервью смотр

In [8]:
# Анализ длины текстовых сообщений
data['doc_text_length'] = data['doc_text'].apply(len)
data['image2text_length'] = data['image2text'].apply(len)
data['speech2text_length'] = data['speech2text'].apply(len)

print(data[['doc_text_length', 'image2text_length', 'speech2text_length']].describe())

       doc_text_length  image2text_length  speech2text_length
count      5621.000000        5621.000000         5621.000000
mean        351.081124          43.971891          146.808397
std         505.396713         152.411631          326.140214
min           0.000000           0.000000            0.000000
25%          66.000000           0.000000            0.000000
50%         163.000000           3.000000            0.000000
75%         433.000000          34.000000          110.000000
max        7709.000000        5099.000000         5119.000000


In [9]:
from collections import Counter

# Функция для подсчета частоты слов
def count_words(text):
    words = text.split()
    return Counter(words)

# Подсчет частоты слов в каждой колонке
doc_word_counts = Counter(" ".join(data['doc_text']).split())
image_word_counts = Counter(" ".join(data['image2text']).split())
speech_word_counts = Counter(" ".join(data['speech2text']).split())

# Наиболее часто встречающиеся слова
most_common_doc_words = doc_word_counts.most_common(10)
most_common_image_words = image_word_counts.most_common(10)
most_common_speech_words = speech_word_counts.most_common(10)

print("Наиболее часто встречающиеся слова в doc_text:")
print(most_common_doc_words)

print("\nНаиболее часто встречающиеся слова в image2text:")
print(most_common_image_words)

print("\nНаиболее часто встречающиеся слова в speech2text:")
print(most_common_speech_words)

Наиболее часто встречающиеся слова в doc_text:
[('в', 9854), ('и', 8751), ('на', 5858), ('не', 3708), ('с', 3412), ('что', 2836), ('а', 1980), ('это', 1951), ('по', 1758), ('я', 1736)]

Наиболее часто встречающиеся слова в image2text:
[('в', 833), ('1', 531), ('и', 512), ('о', 452), ('на', 433), ('2', 353), ('с', 341), ('я', 281), ('а', 259), ('не', 243)]

Наиболее часто встречающиеся слова в speech2text:
[('я', 3859), ('в', 3791), ('и', 3718), ('не', 2944), ('что', 2640), ('это', 2368), ('на', 2018), ('вот', 1521), ('а', 1474), ('с', 1456)]
