# Анализ самых популярных Telegram чатов по поиску массовки

В своем итоговом проекте я буду использовать **архивы чатов Telegram в формате JSON.**

*Предварительные шаги:*

С самого начала я определила какая будет общая тематика. После этого, нужно было найти чаты, подходящие под нее. Я пользовалась поиском в Telegram и искала при помощи ключевых слов "массовка", "массовки". Из результатов я решила взять три самых больших по количеству участников Telegram чата с темой поиска массовки.

In [None]:
# Импортируем необходимые библиотеки и модули для работы

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import json
import re
import emojis

### Архив первого Telegram чата: Платная массовка. Конкретика. Москва

In [None]:
cd "C:\Users\USER\Downloads\Telegram Desktop\ChatExport_2025-03-22"

In [None]:
# Cчитывание содержимое файла 'result.json' первого чата в формате JSON, сохранение данных в переменной data
f = open('result.json', 'r', encoding='utf-8')
data = json.load(f)
f.close()
data

In [None]:
# Словарь для датафрейма
d = {'date':[], 'from':[], 'text':[]}

# По каждому сообщению из загруженных данных проверяем, является ли тип сообщения 'message'
for message in data['messages']:
    if message['type'] == 'message':
        
# Добавляем дату сообщения в список 'date', идентификатор отправителя в список 'from'
        d['date'].append(message['date'])
        d['from'].append(message['from_id'])

# Проверяем, есть ли текст сообщения
        if 'text' in message:
            d['text'].append(message['text'])
        else:
            d['text'].append('')
    else:
        print(message) # то, что не относится к сообщениям

In [None]:
# Создаем датафрейм по словарю
df = pd.DataFrame(d)
df

In [None]:
# Удаляем ссылки из df и преобразуем list в str
for idx in df.index:
    if type(df.loc[idx, 'text']) == list:
        new_string = ''
        for elem in df.loc[idx, 'text']:
            if type(elem) == str:
                new_string += elem
        df.loc[idx, 'text'] = new_string

# Оставляем только сообщения с текстом
df = df[df['text'] != ''] 
df

### Архив второго Telegram чата: Массовка АМС

In [None]:
cd "C:\Users\USER\Downloads\Telegram Desktop\ChatExport_2025-03-22 (1)"

In [None]:
# Cчитывание содержимое файла 'result.json' второго чата в формате JSON, сохранение данных в переменной data
f = open('result.json', 'r', encoding='utf-8')
data = json.load(f)
f.close()
data

In [None]:
# Словарь для датафрейма
d1 = {'date':[], 'from':[], 'text':[]}

# По каждому сообщению из загруженных данных проверяем, является ли тип сообщения 'message'
for message in data['messages']:
    if message['type'] == 'message':

# Добавляем дату сообщения в список 'date', идентификатор отправителя в список 'from'       
        d1['date'].append(message['date'])
        d1['from'].append(message['from_id'])
        
# Проверяем, есть ли текст сообщения        
        if 'text' in message:
            d1['text'].append(message['text'])
        else:
            d1['text'].append('')
    else:
        print(message) # то, что не относится к сообщениям

In [None]:
# Создаем датафрейм для второго чата по словарю
df1 = pd.DataFrame(d1)
df1

In [None]:
# Удалим ссылки из df и преобразуем list в str
for idx in df1.index:
    if type(df1.loc[idx, 'text']) == list:
        new_string = ''
        for elem in df1.loc[idx, 'text']:
            if type(elem) == str:
                new_string += elem
        df1.loc[idx, 'text'] = new_string

# Оставим только сообщения с текстом
df1 = df1[df1['text'] != ''] 
df1

### Архив третьего Telegram чата: Массовки present | Кастинги и съемки

In [None]:
cd "C:\Users\USER\Downloads\Telegram Desktop\ChatExport_2025-03-22 (3)"

In [None]:
f = open('result.json', 'r', encoding='utf-8')
data = json.load(f)
f.close()
data

In [None]:
# Словарь для датафрейма
d2 = {'date':[], 'from':[], 'text':[]}

# По каждому сообщению из загруженных данных проверяем, является ли тип сообщения 'message'
for message in data['messages']:
    if message['type'] == 'message':

# Добавляем дату сообщения в список 'date', идентификатор отправителя в список 'from'       
        d2['date'].append(message['date'])
        d2['from'].append(message['from_id'])
        
# Проверяем, есть ли текст сообщения        
        if 'text' in message:
            d2['text'].append(message['text'])
        else:
            d2['text'].append('')
    else:
        print(message) # то, что не относится к сообщениям

In [None]:
df2 = pd.DataFrame(d2)
df2

In [None]:
# Удалим ссылки из df и преобразуем list в str
for idx in df2.index:
    if type(df2.loc[idx, 'text']) == list:
        new_string = ''
        for elem in df2.loc[idx, 'text']:
            if type(elem) == str:
                new_string += elem
        df2.loc[idx, 'text'] = new_string

# Оставим только сообщения с текстом
df2 = df2[df2['text'] != ''] 
df2

### Единый датафрейм по всем трем Telegram чатам

In [None]:
# Собираем все три датафрейма в единый
result_df = pd.concat([df, df1, df2], ignore_index=True)
result_df

In [None]:
# Преобразуем колонку 'date' в datetime
result_df['date'] = pd.to_datetime(result_df['date'], format='%Y-%m-%dT%H:%M:%S')

# Создание новых колонок в датафрейме: длина текста, наличие оплаты, пол нужного актера, длина смены.
result_df['len_text'] = result_df.text.str.len()
result_df['count_emoji'] = result_df['text'].apply(lambda s: emojis.count(str(s)))
result_df['payment_status'] = result_df['text'].apply(lambda x: 'С оплатой' if isinstance(x, str) and any(word in x.lower() for word in ['гонорар', 'оплата']) else 'Без оплаты')
result_df['gender_needed'] = result_df['text'].apply(lambda x: 'Ж' if isinstance(x, str) and any(word in x.lower() for word in ['женщины','женщина','девушки','девушка','девочки','девочка']) else 'М')
result_df['shift'] = result_df['text'].apply(lambda x: 'Весь день' if isinstance(x, str) and 'полная смена' in x.lower() else 'Частично')
result_df

### Exploratory data analysis

In [None]:
# Среднее значение по колонке 'len_text'
mean_len_text = result_df['len_text'].mean()
print(mean_len_text)

In [None]:
# Медиана по колонке 'len_text'
median_len_text = result_df['len_text'].median()
print(median_len_text)

In [None]:
# Сводная таблица по 'gender_needed' и 'payment_status'
pivot_gender_payment = result_df.pivot_table(index='gender_needed', columns='payment_status', values='text', aggfunc='count', fill_value=0)

print(pivot_gender_payment)


**Исходя из таблицы, можно сделать несколько выводов:**

1. Чаще всего для массовки ищут актеров - мужчин
2. Для женского пола участие в массовке оплачивается почти всегда
3. Для мужского пола большинство участия также оплачивается

In [None]:
# Группировка по дате и подсчет среднего значения длины текста
grouped_by_date = result_df.groupby(result_df['date'].dt.date)['len_text'].mean()

print(grouped_by_date)


**Вывод:**

Средняя длина текста может варьироваться от дня к дню. В некоторые дни длина текста значительно выше (606.434783), а в другие дни — ниже (40.000000). На это, возможно, могут влиять изменения в активности пользователей или особенности контента, отправляемого в разные дни.

In [None]:
# Сводная таблица по 'from' и подсчет количества записей
pivot_from_count = result_df.pivot_table(index='from', values='text', aggfunc='count', fill_value=0)

print(pivot_from_count)


**Вывод**:

Большое количество записей обычно публикуется от имени канала, скорее всего, через админа. Возможно, такие посты наиболее проверены.

In [None]:
# Сводная таблица по 'shift' и 'payment_status'
pivot_payment_shift = result_df.pivot_table(index='shift', columns='payment_status', values='text', aggfunc='count', fill_value=0)

print(pivot_payment_shift)

**Выводы**:

1. Наиболее популярны неполные смены c оплатой
2. На втором месте — неполные смены без оплаты
3. Два предыдущих вывода могут говорить о том, что актеры не готовы/устают отрабатывать полноценную смену

In [None]:
# Группировка по 'payment_status' и подсчет количества записей
count_by_payment_status = result_df.groupby('payment_status').size().reset_index(name='count')

# Выводим результат
print(count_by_payment_status)

**Вывод**:

Количество записей с статусом "С оплатой" превышает количество записей с статусом "Без оплаты". Это может указывать на то, что все же АМС чаще всего получают выплаты за свою работу.


### Визуализация

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Визуализация распределения длины текста
plt.hist(result_df['len_text'], edgecolor='black')
plt.title('Распределение длины текста')
plt.xlabel('Длина текста')
plt.ylabel('Частота')
plt.show()

**Вывод:** 

Самая частая длина текста не превышает 1000 знаков.

In [None]:
# Визуализация распределения количества эмоджи
plt.hist(result_df['count_emoji'], edgecolor='black')
plt.title('Распределение количества эмоджи')
plt.xlabel('Количество эмоджи')
plt.ylabel('Частота')
plt.show()

**Вывод**:

Обычно в тексте не наблюдается больше чем 20 эмоджи.

# Результаты

В результате проекта был создан для каждого чата свой датафрейм, почищен текст сообщений от ссылок. После, несколько датафреймов были объединены по чатам в один общий. Единый датафрейм был преобразован: добавлены новые различные колонки, чтобы сделать его более обширным. Далее был также проведен разведочный анализ, сделаны соответствующие выводы. Были визуализированы основные числовые показатели, чтобы посмотреть топы по частоте, также сопровождены выводами. Результаты и исходные данные доступны в публичном репозитории.