# Воркшоп "Сетевой анализ: знакомство с новой методологией"
---
## Мероприятие Международной Лаборатории Прикладного Сетевого АНализа для Академического Кадрового Резерва НИУ ВШЭ, 5.06.2024

---
Лика Капустина, lkapustina@hse.ru
Дарья Мальцева, dmaltseva@hse.ru
Ирина Павлова, iapavlova@hse.ru

**План занятия:**
1. [Pyrogram: введение и быстрый старт](#par1)
2. [Получение данных каналов](#par2)
3. [Cоздание сетевых объектов](#par3)
---

**Основные ссылки:**
- [Документация Pyrogram](https://docs.pyrogram.org);
- [Быстрый старт в Pyrogram](https://docs.pyrogram.org/intro/quickstart);
- [Чат сообщества пользователей Pyrogram в Telegram, где можно задать вопрос (EN)](https://t.me/pyrogramchat);
- [Чат сообщества пользователей Pyrogram в Telegram, где можно задать вопрос (RU)](https://t.me/RuPyrogram);
- [Все методы Pyrogram](https://docs.pyrogram.org/api/methods/).

## 1. Pyrogram: кратко о библиотеке и быстрый старт <a name="par1"></a>

Что такое Pyrogram? Pyrogram - это фреймворк, который выступает в роли полноценного клиента Telegram, основанного на MTProto API. Разберем термины:

* **MTProto** – протокол шифрования, разработанный командой Telegram.
* **MTProto API** (или [API Telegram](https://core.telegram.org/#getting-started)) – это API, через которое наше приложение и написанный нами код связывается с сервером. Чаще всего API Telegram и разные библиотеки, написанные под Telegram, **используют для создания ботов**. Но если нас интересует только API Telegram, достаточно будет использовать Pyrogram или Telethon (библиотека-альтернатива Pyrogram).

**Есть ли какие-то ограничения по использованию Pyrogram?** <font color='red'>Да, если вы нарушаете правила пользования Telegram – например, используете методы Pyrogram для рассылки спама и флуда – ваш аккаунт в Telegram могут заблокировать. Будьте аккуратны и не нарушайте правила пользования сервисом, и тогда не потеряете доступ к своему аккаунту.</font>

**Что можно делать с помощью Pyrogram?**

Все доступные методы описаны в [документации](https://docs.pyrogram.org/api/methods/). **Основные группы методов:**


<center>
    <table>
        <tr>
            <th><center>Методы</center></th>
            <th><center>Описание</center></th>
        </tr>
          <tr><td>Utilities</td>
            <td>Методы, связанные с техническим управлением `Client` (запустить, остановить, перезагрузить, и др.)</td></tr>
        <tr><td>Messages</td>
            <td>Методы, работающие с сообщениями (отправляют текстовые сообщения, видео, фото, и пр.; позволяют редактировать сообщения, ищут сообщения по конкретным или всем вашим чатам, и пр.)</td></tr>
        <tr><td>Chats</td>
            <td>Методы, работающие с чатами (позволяют присоединиться или покинуть определенный чат; забанить пользователя в чате (при наличии прав админа), установить описание чата, получить список пользователей чата и пр.)</td></tr>
        <tr><td>Users</td>
            <td>Методы, позволяющие работать с пользователями (получить информацию о вас и о другом пользователе; заблокировать и разблокировать пользователя; получить список общих чатов, который есть у вас и пользователя).</td></tr>
        <tr><td>Invite Links</td>
            <td>Методы, работающие с пригласительными ссылками (генерируют, удаляют ссылку-приглашение, получают число сгенерированных ссылок-приглашений и пр.)</td></tr>
        <tr><td>Contacts</td>
            <td>Методы, работающие с пригласительными ссылками (генерируют, удаляют ссылку-приглашение, получают число сгенерированных ссылок-приглашений и пр.)</td></tr>
        <tr><td>Password</td>
            <td>Методы, работающие с настройками вашего пароля</td></tr>
        <tr><td>Bots</td>
            <td>Методы, работающие с (чужими) ботами</td></tr>
        <tr><td>Authorization</td>
            <td>Методы, работающие с настройками авторизации</td></tr>
        <tr><td>Advanced</td>
            <td>Некие продвинутые методы</td></tr>
    </table>
</center>

### Быстрый старт

**Для дальнейшей работы создайте новую сессию для вашего аккаунта с помощью Pyrogram. Сперва получите данные вашего аккаунта, далее – запустите код ниже**

1. Откройте раздел ["Creating your Telegram Application"](https://core.telegram.org/api/obtaining_api_id);
2. Получите ключ для API согласно инструкции на этой странице:
    * Откройте [Telegram Core](https://my.telegram.org/auth);
    * Введите номер телефона;
    * Введите полученный код подтверждения и залогинтесь.
    * Откройте страницу [API Development Tool](https://my.telegram.org/apps) и заполните форму.
    * После регистрации вы получите **api_id** и **api_hash** – параметры, которые будут нужны для дальнейшей авторизации.
    * Сохраните эти значения в надежное место или в переменные в вашем ноутбуке.
3. Запустите код ниже.
    
*P.S. Данный способ получения ключа API был неоднократно простестирован Ликой и не привел к (выявленной) потере персональных данных и доступа к аккаунту*.

In [None]:
#!pip install asyncio  # библиотека для использования async/await
!pip install pyrogram # библиотека pyrogram
!pip install tgcrypto

import asyncio
import tgcrypto
from pyrogram import Client

import pandas as pd
import numpy as np

Collecting pyrogram
  Downloading Pyrogram-2.0.106-py3-none-any.whl (3.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.6/3.6 MB[0m [31m14.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pyaes==1.6.1 (from pyrogram)
  Downloading pyaes-1.6.1.tar.gz (28 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyaes
  Building wheel for pyaes (setup.py) ... [?25l[?25hdone
  Created wheel for pyaes: filename=pyaes-1.6.1-py3-none-any.whl size=26347 sha256=b895cd85ec527a89b98f81a58cf57c3ffbc0ada1b6fd3749a9dc1585765f0d3b
  Stored in directory: /root/.cache/pip/wheels/d6/84/5f/ea6aef85a93c7e1922486369874f4740a5642d261e09c59140
Successfully built pyaes
Installing collected packages: pyaes, pyrogram
Successfully installed pyaes-1.6.1 pyrogram-2.0.106
Collecting tgcrypto
  Downloading TgCrypto-1.2.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (59 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m

**Запустите код ниже чтобы начать работу с Pyrogram**:

То, что вы увидите дальше, будет выглядеть следующим образом:


```
Welcome to Pyrogram (version 2.0.106)
Pyrogram is free software and comes with ABSOLUTELY NO WARRANTY. Licensed
under the terms of the GNU Lesser General Public License v3.0 (LGPL-3.0).

Enter phone number or bot token: <здесь вы вводите ваш код>
Is "<ваш номер>" correct? (y/N): <здесь вы вводите y или N>
The confirmation code has been sent via Telegram app
Enter confirmation code: <здесь нужно ввести код подтверждения который придет в Telegram>
The two-step verification is enabled and a password is required
Password hint: <здесь подсказка которую вы для себя создали чтобы вспомнить потом пароль от аккаунта Telegram>
Enter password (empty to recover): <здесь нужно ввести ваш пароль>
```




In [59]:
import asyncio
from pyrogram import Client

# api_id = # здесь ваше значение api_id
# api_hash = # здесь ваше значение api_hash


async def main():
    '''Функция main() запускает Client pyrogram.
    Args:
        :None
    Returns:
        :None - если использование клиента возможно, Client отправляет сообщение "Greetings from Pyrogram" в чате "Избранное"
    Examples:
        >>>>await main()
    '''

    async with Client("my_account", api_id=api_id, api_hash=api_hash) as app:
         await app.send_message("me", "Greetings from **Pyrogram**!")

await main() # запуск и проверка работы

После успешного логина в чате "Избранное" вы обнаружите надпись `Greetings from Pyrogram!`, а далее сообщение-предупреждение от Telegram:

`Кто-то получил доступ к вашим чатам! Обнаружен вход в ваш аккаунт. Подтвердите, это вы или нет?: Да/Нет`.

<h2>2. Получение данных каналов</h2><a name='part2'></a>

После того как мы залогинились, давайте получим данные канала **Международной Лаборатории прикладного сетевого анализа**в Telegram – кстати, подписывайтесь: @anrlab ;)

In [None]:
сhannel = 'anrlab' # вводим публичное название телеграм-канала

Воспользуемся заранее написанной функцией, которая соберет историю сообщений в чате (канале):

In [None]:
app = Client("my_account", api_id=api_id, api_hash=api_hash)

async def get_channel(channel, limit=1000):
    '''Функция принимает на вход короткое название канала на английском без собачки (channel)
    и присоединяет к объекту data необработанный массив сообщений канала channel.

    Pyrogram method(s):
        get_chat_history(): https://docs.pyrogram.org/api/methods/get_chat_history

    Args:
        :channel: short_name канала (на английском, без "@")
    Returns:
        :data: list – список сообщений канала.
    Examples:
        >>>> data = await get_channel("inside_hse")
        >>>> data # проверяем объект
    '''
    data = []
    async with app:
        async for message in app.get_chat_history(channel, limit=limit): # добавили лимит числа сообщений
            data.append(message) # приисоединяем сообщение
    return data

posts_data = await get_channel(сhannel, limit=1000)

Как теперь обработать данные? Давайте посмотрим на наш объект `posts_data`:

In [None]:
posts_data[1]

pyrogram.types.Message(id=631, sender_chat=pyrogram.types.Chat(id=-1001323053105, type=pyrogram.enums.ChatType.CHANNEL, is_verified=False, is_restricted=False, is_creator=False, is_scam=False, is_fake=False, title='Nodes and Links', username='anrlab', photo=pyrogram.types.ChatPhoto(small_file_id='AQADAgADF8gxG8AYWEsAEAIAA8-_ftwW____aKyyyNDq8qAABB4E', small_photo_unique_id='AgADF8gxG8AYWEs', big_file_id='AQADAgADF8gxG8AYWEsAEAMAA8-_ftwW____aKyyyNDq8qAABB4E', big_photo_unique_id='AgADF8gxG8AYWEs'), dc_id=2, has_protected_content=False), date=datetime.datetime(2024, 6, 3, 9, 0, 37), chat=pyrogram.types.Chat(id=-1001323053105, type=pyrogram.enums.ChatType.CHANNEL, is_verified=False, is_restricted=False, is_creator=False, is_scam=False, is_fake=False, title='Nodes and Links', username='anrlab', photo=pyrogram.types.ChatPhoto(small_file_id='AQADAgADF8gxG8AYWEsAEAIAA8-_ftwW____aKyyyNDq8qAABB4E', small_photo_unique_id='AgADF8gxG8AYWEs', big_file_id='AQADAgADF8gxG8AYWEsAEAMAA8-_ftwW____aKyyyNDq

In [None]:
# конкретное сообщение.название какого-то атрибута

In [None]:
posts_data[1].sender_chat # чат, из которого отправлен пост

pyrogram.types.Chat(id=-1001323053105, type=pyrogram.enums.ChatType.CHANNEL, is_verified=False, is_restricted=False, is_creator=False, is_scam=False, is_fake=False, title='Nodes and Links', username='anrlab', photo=pyrogram.types.ChatPhoto(small_file_id='AQADAgADF8gxG8AYWEsAEAIAA8-_ftwW____aKyyyNDq8qAABB4E', small_photo_unique_id='AgADF8gxG8AYWEs', big_file_id='AQADAgADF8gxG8AYWEsAEAMAA8-_ftwW____aKyyyNDq8qAABB4E', big_photo_unique_id='AgADF8gxG8AYWEs'), dc_id=2, has_protected_content=False)

In [None]:
posts_data[1].id # id поста - 628 пост по счету

631

In [None]:
posts_data[1].text # текст поста

'Теплые летние выходные нужны для того, чтобы выйти в парк со своим ноутбуком и посмотреть подкаст «Вышка On The Line»!\n\nИ новый выпуск уже здесь! 🔥💻\n\nСегодня, вместе с представителями онлайн-программы «Data Analytics and Social Statistics», разбираемся:  \n\n• в чем особенность сетевого анализа данных\n• почему он нужен и социологам, и даже медикам\n• в чем заключается практикоориентированность программы\n\n\nИщем ответы еще на множество вопросов, которые вам могли быть интересны, по ссылке!'

In [None]:
posts_data[1].text.replace('\n', ' ') # с ними можно работать как с обычными строками

'Теплые летние выходные нужны для того, чтобы выйти в парк со своим ноутбуком и посмотреть подкаст «Вышка On The Line»!  И новый выпуск уже здесь! 🔥💻  Сегодня, вместе с представителями онлайн-программы «Data Analytics and Social Statistics», разбираемся:    • в чем особенность сетевого анализа данных • почему он нужен и социологам, и даже медикам • в чем заключается практикоориентированность программы   Ищем ответы еще на множество вопросов, которые вам могли быть интересны, по ссылке!'

Но как нам обработать эти непонятные объекты?

In [None]:
import json # для решения этой задачи импортируем json
json.loads(str(posts_data[1])) # получили json объект из типа "сообщение"

{'_': 'Message',
 'id': 631,
 'sender_chat': {'_': 'Chat',
  'id': -1001323053105,
  'type': 'ChatType.CHANNEL',
  'is_verified': False,
  'is_restricted': False,
  'is_creator': False,
  'is_scam': False,
  'is_fake': False,
  'title': 'Nodes and Links',
  'username': 'anrlab',
  'photo': {'_': 'ChatPhoto',
   'small_file_id': 'AQADAgADF8gxG8AYWEsAEAIAA8-_ftwW____aKyyyNDq8qAABB4E',
   'small_photo_unique_id': 'AgADF8gxG8AYWEs',
   'big_file_id': 'AQADAgADF8gxG8AYWEsAEAMAA8-_ftwW____aKyyyNDq8qAABB4E',
   'big_photo_unique_id': 'AgADF8gxG8AYWEs'},
  'dc_id': 2,
  'has_protected_content': False},
 'date': '2024-06-03 09:00:37',
 'chat': {'_': 'Chat',
  'id': -1001323053105,
  'type': 'ChatType.CHANNEL',
  'is_verified': False,
  'is_restricted': False,
  'is_creator': False,
  'is_scam': False,
  'is_fake': False,
  'title': 'Nodes and Links',
  'username': 'anrlab',
  'photo': {'_': 'ChatPhoto',
   'small_file_id': 'AQADAgADF8gxG8AYWEsAEAIAA8-_ftwW____aKyyyNDq8qAABB4E',
   'small_photo_

In [None]:
import pandas as pd
# help(pd.json_normalize) # справка по методу
pd.json_normalize(json.loads(str(posts_data[1]))) # используем pandas.json_normalize()

Unnamed: 0,_,id,date,forward_from_message_id,forward_date,mentioned,scheduled,from_scheduled,media,edit_date,...,web_page.photo.height,web_page.photo.file_size,web_page.photo.date,web_page.photo.thumbs,web_page.embed_url,web_page.embed_type,web_page.embed_width,web_page.embed_height,reactions._,reactions.reactions
0,Message,631,2024-06-03 09:00:37,2995,2024-06-01 09:07:02,False,False,False,MessageMediaType.WEB_PAGE,2024-06-03 09:28:42,...,720,101776,2024-06-01 09:01:04,"[{'_': 'Thumbnail', 'file_id': 'AgACAgQAAxUAAW...",https://www.youtube.com/embed/7yI0RjEVKlo,iframe,1280,720,MessageReactions,"[{'_': 'Reaction', 'emoji': '🔥', 'count': 3}, ..."


In [None]:
# финальная функция выглядит так
def from_messages_to_pd_dataframe(message_list):
  '''Функция принимает на вход объект с многими объектами pyrogram.Message и возвращает pandas.DataFrame'''
  df = pd.DataFrame() # создаю пустой датафрейм
  for message in message_list: # я прохожусь по всем сообщениям в message_list
    one_row = pd.json_normalize(json.loads(str(message))) # спрева преобразую в json, далее - в пандасовский датафрейм
    df = pd.concat([df, one_row]) # просто объединяю по горизонтали два датасета (большой и маленький - по одному сообщении)

  return df # возвращаем пандасовский датафрейм

In [None]:
# пример реализации функции
df = from_messages_to_pd_dataframe(posts_data)
df

Unnamed: 0,_,id,date,mentioned,scheduled,from_scheduled,media,edit_date,has_protected_content,has_media_spoiler,...,web_page.animation.mime_type,web_page.animation.file_size,web_page.animation.date,web_page.animation.width,web_page.animation.height,web_page.animation.duration,web_page.animation.thumbs,new_chat_title,pinned_message.empty,channel_chat_created
0,Message,632,2024-06-03 10:41:07,False,False,False,MessageMediaType.PHOTO,2024-06-03 10:42:19,False,False,...,,,,,,,,,,
0,Message,631,2024-06-03 09:00:37,False,False,False,MessageMediaType.WEB_PAGE,2024-06-03 09:28:42,False,,...,,,,,,,,,,
0,Message,630,2024-06-01 07:01:19,False,False,False,MessageMediaType.WEB_PAGE,2024-06-01 07:04:06,False,,...,,,,,,,,,,
0,Message,628,2024-05-31 11:25:26,,,,,,,,...,,,,,,,,,,
0,Message,627,2024-05-31 11:20:59,False,False,False,MessageMediaType.PHOTO,2024-05-31 11:28:22,False,False,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
0,Message,15,2020-07-03 13:01:05,,,,,,,,...,,,,,,,,,,
0,Message,4,2020-04-20 07:52:06,,,,,,,,...,,,,,,,,,,
0,Message,3,2020-04-20 07:47:01,,,,,,,,...,,,,,,,,Сетевой анализ на XXI АМНК,,
0,Message,2,2020-04-19 10:31:22,,,,,,,,...,,,,,,,,,,


<h2>3. Cоздание сетевых объектов</h2><a name='par3'></a>

В этом разделе мы обсудим, как использовать собранные нами данные о репостах в соответствующих каналах для дальнейшей аналитики и построения сетей:

In [None]:
# сперва импортируем необходимую библиотеку - networkx:
#!pip install networkx
!pip install gravis

import networkx as nx # создание сетей
import gravis # визуализация графов
import tqdm # прогресс-бар

Collecting gravis
  Downloading gravis-0.1.0-py3-none-any.whl (659 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m659.1/659.1 kB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: gravis
Successfully installed gravis-0.1.0


In [None]:
df['forward_from_chat.title'].unique() # из каких каналов мы делалим репосты

array([nan, 'Вышка Онлайн', 'DASS (MASNA) Admissions', 'не тереби дао',
       'SocioLogos.ru', 'Наука и данные', 'Дата-сторителлинг',
       'Мегапьютер', 'Data-comics', 'Малоизвестное интересное',
       'Выше квартилей', 'доказательный ⎵ пробел',
       'Структура наносит ответный удар', 'низгораев',
       'Центр стипендиальных и благотворительных программ НИУ ВШЭ',
       'Ну Ань', 'настенька и графики', 'Поступай как знаешь',
       'iFORA_knows_how', 'Рациональные числа', 'Nodes and Links',
       'Теории и Практики', 'Аналитическая мастерская',
       'Лаборатория социальных наук SSL'], dtype=object)

In [None]:
df['forward_from_chat.username'].unique() # их username

array([nan, 'onlinedegreesHSE', 'masna_admissions', 'dukaliti',
       'sociologos_ru', 'naukaidannye', 'data_publication',
       'MegaputerOfficial', 'datavizcomics', 'theworldisnoteasy', 'HQhse',
       'evidencespace', 'structurestrikesback', 'nizgoraev2', 'CSiBP',
       'wellanna', 'nastengraph', 'doasyouknow', 'iFORA_knows_how',
       'rationalnumbers', 'anrlab', 'tandp_ru', 'HSE_analytic_ru'],
      dtype=object)

Создадим датасет `reposts`, в котором будет содержаться информация о том, какие каналы мы репостили. Колонки:
* `sender_chat.id`, `sender_chat.username`, `sender_chat.title` - id, usernameназвание чата-отправителя (телеграм-канал Международной Лаборатории Прикладного сетевого анализа);
* `forward_from_chat.id`, `forward_from_chat.username`, `forward_from_chat.title` –

In [None]:
reposts = df[['sender_chat.id', 'sender_chat.username', 'sender_chat.title',
              'forward_from_chat.id', 'forward_from_chat.username', 'forward_from_chat.title']]

# смотрим на репосты
reposts = reposts[reposts['forward_from_chat.id'].isnull() == False]

# задаем индексацию
reposts.index = [i for i in range(reposts.shape[0])]
reposts

Unnamed: 0,sender_chat.id,sender_chat.username,sender_chat.title,forward_from_chat.id,forward_from_chat.username,forward_from_chat.title
0,-1001323053105,anrlab,Nodes and Links,-1.001545e+12,onlinedegreesHSE,Вышка Онлайн
1,-1001323053105,anrlab,Nodes and Links,-1.001526e+12,masna_admissions,DASS (MASNA) Admissions
2,-1001323053105,anrlab,Nodes and Links,-1.001097e+12,dukaliti,не тереби дао
3,-1001323053105,anrlab,Nodes and Links,-1.001526e+12,masna_admissions,DASS (MASNA) Admissions
4,-1001323053105,anrlab,Nodes and Links,-1.001896e+12,sociologos_ru,SocioLogos.ru
...,...,...,...,...,...,...
81,-1001323053105,anrlab,Nodes and Links,-1.001236e+12,,Лаборатория социальных наук SSL
82,-1001323053105,anrlab,Nodes and Links,-1.001316e+12,HSE_analytic_ru,Аналитическая мастерская
83,-1001323053105,anrlab,Nodes and Links,-1.001316e+12,HSE_analytic_ru,Аналитическая мастерская
84,-1001323053105,anrlab,Nodes and Links,-1.001236e+12,,Лаборатория социальных наук SSL


In [None]:
# создадим кортеж, где на 1 месте будут узлы от того, кто репостит до того, кого репостят
edgelist_1 = [(reposts.loc[i, 'sender_chat.title'], reposts.loc[i, 'forward_from_chat.title']) for i in range(reposts.shape[0])]
edgelist_1[:5]

[('Nodes and Links', 'Вышка Онлайн'),
 ('Nodes and Links', 'DASS (MASNA) Admissions'),
 ('Nodes and Links', 'не тереби дао'),
 ('Nodes and Links', 'DASS (MASNA) Admissions'),
 ('Nodes and Links', 'SocioLogos.ru')]

Построим сеть №1: кого репостит канал ANR-Lab:

In [None]:
import networkx as nx
import gravis as gv

g = nx.DiGraph() # уточняем, что у нас направленный граф
for source, target in edgelist_1:
    g.add_edge(source, target, strength=1, color='blue')

gv.d3(g, show_edge_label=True, edge_label_data_source='strength', use_centering_force=True, use_edge_size_normalization=True)
#fig.display()  # открывает график в подписи

Создадим функцию, которая получит информацию о всех постах из всех каналов:

In [None]:
reposts['forward_from_chat.username'].unique() # это все каналы, по которым будем получать данные

array(['onlinedegreesHSE', 'masna_admissions', 'dukaliti',
       'sociologos_ru', 'naukaidannye', 'data_publication',
       'MegaputerOfficial', 'datavizcomics', 'theworldisnoteasy', 'HQhse',
       'evidencespace', 'structurestrikesback', 'nizgoraev2', 'CSiBP',
       'wellanna', 'nastengraph', 'doasyouknow', 'iFORA_knows_how',
       'rationalnumbers', 'anrlab', 'tandp_ru', 'HSE_analytic_ru', nan],
      dtype=object)

А вот и наша функция:

In [None]:
async def get_all_reposts_from_channels(reposts, forward_from_chat_username_column='forward_from_chat.username'):
  unique_channels = reposts[forward_from_chat_username_column].unique()
  unique_channels = [i for i in unique_channels if str(i) != 'nan']
  all_df = pd.DataFrame()

  for channel in tqdm.tqdm(unique_channels):
    print('Собираются данные канала ', channel)
    # тут делаем запрос
    data = []
    async with app:
        async for message in app.get_chat_history(channel, limit=1000): # добавили лимит числа сообщений
            data.append(message) # приисоединяем сообщение
    # тут обрабатываем в датафрейм
    one_channel_df = from_messages_to_pd_dataframe(data)
    # тут добавляем эти данные в датафрейм со всеми постами
    all_df = pd.concat([all_df, one_channel_df])

  # возвращаем датафрейм
  return all_df

all_channels_df = await get_all_reposts_from_channels(reposts, 'forward_from_chat.username')

  0%|          | 0/22 [00:00<?, ?it/s]

Собираются данные канала  onlinedegreesHSE


  5%|▍         | 1/22 [00:28<09:50, 28.11s/it]

Собираются данные канала  masna_admissions


  9%|▉         | 2/22 [00:35<05:12, 15.65s/it]

Собираются данные канала  dukaliti


 14%|█▎        | 3/22 [00:56<05:50, 18.44s/it]

Собираются данные канала  sociologos_ru


 18%|█▊        | 4/22 [01:04<04:16, 14.23s/it]

Собираются данные канала  naukaidannye


 23%|██▎       | 5/22 [01:20<04:14, 14.95s/it]

Собираются данные канала  data_publication


 27%|██▋       | 6/22 [01:46<04:57, 18.62s/it]

Собираются данные канала  MegaputerOfficial


 32%|███▏      | 7/22 [01:50<03:25, 13.67s/it]

Собираются данные канала  datavizcomics


 36%|███▋      | 8/22 [02:12<03:52, 16.61s/it]

Собираются данные канала  theworldisnoteasy


 41%|████      | 9/22 [02:35<04:01, 18.59s/it]

Собираются данные канала  HQhse


 45%|████▌     | 10/22 [02:50<03:27, 17.29s/it]

Собираются данные канала  evidencespace


 50%|█████     | 11/22 [02:56<02:33, 13.94s/it]

Собираются данные канала  structurestrikesback


 55%|█████▍    | 12/22 [03:11<02:21, 14.13s/it]

Собираются данные канала  nizgoraev2


 59%|█████▉    | 13/22 [03:41<02:51, 19.03s/it]

Собираются данные канала  CSiBP


 64%|██████▎   | 14/22 [03:46<01:58, 14.77s/it]

Собираются данные канала  wellanna


 68%|██████▊   | 15/22 [03:49<01:19, 11.31s/it]

Собираются данные канала  nastengraph


 73%|███████▎  | 16/22 [04:10<01:24, 14.13s/it]

Собираются данные канала  doasyouknow


 77%|███████▋  | 17/22 [04:29<01:17, 15.59s/it]

Собираются данные канала  iFORA_knows_how


 82%|████████▏ | 18/22 [04:54<01:13, 18.37s/it]

Собираются данные канала  rationalnumbers


 86%|████████▋ | 19/22 [05:11<00:54, 18.15s/it]

Собираются данные канала  anrlab


 91%|█████████ | 20/22 [05:28<00:35, 17.81s/it]

Собираются данные канала  tandp_ru


 95%|█████████▌| 21/22 [06:00<00:21, 21.94s/it]

Собираются данные канала  HSE_analytic_ru


100%|██████████| 22/22 [06:03<00:00, 16.54s/it]


Теперь построим сеть №2 – кого репостят каналы, которые репостит канал ANR-Lab:

In [None]:
all_channels_df = all_channels_df.drop_duplicates(subset = ['sender_chat.id', 'id'])
all_reposts = all_channels_df[all_channels_df['forward_from_chat.username'].isnull() == False]
all_reposts.index = range(all_reposts.shape[0])
all_reposts # все посты, в которых есть репосты

Unnamed: 0,_,id,date,mentioned,scheduled,from_scheduled,media,edit_date,media_group_id,has_protected_content,...,pinned_message.poll._,pinned_message.poll.id,pinned_message.poll.question,pinned_message.poll.options,pinned_message.poll.total_voter_count,pinned_message.poll.is_closed,pinned_message.poll.is_anonymous,pinned_message.poll.type,pinned_message.poll.allows_multiple_answers,pinned_message.poll.chosen_option_id
0,Message,2866,2024-05-14 12:26:43,False,False,False,MessageMediaType.PHOTO,2024-05-14 12:26:46,1.372552e+16,False,...,,,,,,,,,,
1,Message,2865,2024-05-14 12:26:43,False,False,False,MessageMediaType.PHOTO,2024-05-14 12:26:46,1.372552e+16,False,...,,,,,,,,,,
2,Message,2864,2024-05-14 12:26:43,False,False,False,MessageMediaType.PHOTO,2024-05-14 12:26:46,1.372552e+16,False,...,,,,,,,,,,
3,Message,2863,2024-05-14 12:26:43,False,False,False,MessageMediaType.PHOTO,2024-05-14 12:26:46,1.372552e+16,False,...,,,,,,,,,,
4,Message,2862,2024-05-14 12:26:43,False,False,False,MessageMediaType.PHOTO,2024-05-14 12:26:46,1.372552e+16,False,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1067,Message,6920,2024-03-18 17:01:49,False,False,False,MessageMediaType.PHOTO,2024-03-18 17:07:19,,False,...,,,,,,,,,,
1068,Message,90,2021-10-18 07:02:24,False,False,False,,2021-10-18 07:02:20,,False,...,,,,,,,,,,
1069,Message,76,2021-04-13 12:52:07,False,False,False,,,,False,...,,,,,,,,,,
1070,Message,61,2021-02-10 11:10:05,False,False,False,,,,False,...,,,,,,,,,,


In [None]:
# буквально вся информация, которая нам понадобится
# sender_chat.title - кто репостнул запись;
# forward_from_chat.title - кто автор изначальной записи;
all_reposts[['sender_chat.title', 'forward_from_chat.title']]

Unnamed: 0,sender_chat.title,forward_from_chat.title
0,Вышка Онлайн,HSE Career
1,Вышка Онлайн,HSE Career
2,Вышка Онлайн,HSE Career
3,Вышка Онлайн,HSE Career
4,Вышка Онлайн,HSE Career
...,...,...
1067,Теории и Практики,Психология для всех 🎓
1068,Аналитическая мастерская,Nodes and Links
1069,Аналитическая мастерская,Nodes and Links
1070,Аналитическая мастерская,Nodes and Links


* Итак, теперь перед нами сеть, которая отражает репосты тех каналов, которые репостил наш канал (они отмечены красным, например `Наука и данные`, `Рациональные числа` и `Sociologos`);
* Если канал (узел) отмечен **черным** – это канал, публикации которого мы не репостили (например, `Системный Блок`);
* Если к каналу (узлу) направлена **линия со стрелочкой**, это означает, что его публикации репостил канал (узел), от которого идет стрелка (например, публикации канала `ЦИРКОН` репостил Телеграм-канал `Sociologos.ru`);
* За толщину линии отвечает число репостов канала, к которому идет линия.


**Теперь посмотрим на наши данные. Как они могут быть нам полезны?**

**Идея 1: оценить, каким каналам можно предложить взаимный пиар** – скорее всего, это будут каналы по похожей тематике, которые репостят каналы, которые репостим мы. В нашей сети можно заметить много научных каналов и каналов, посвященных аналитике данных. Помимо этого, можно дособрать данные по каналам, публикации которых репостят каналы, которые репостим мы, и понять, какие каналы чаще репостят публикации других, а какие публикуют только свой контент и на основании этого формировать список потенциальных партнеров по взаимному пиару.

**Идея 2: подумать, как сделать наш контент интереснее для каналов, которые интересуют нас**. Например, если канал, который репостим мы, но который не репостит наши записи, публикует у себя много записей других каналов (в этой сети например – `низгораев`, `структура наносит ответный удар`), мы можем оценить, кого репостит он и подумать, почему этот контент может быть интереснее, какие публикации можем делать мы чтобы быть более интересными.

**Идея 3: оценить, кто из каналов, которые репостим мы, репостит нас – насколько это взаимно**. В нашем случае записи канала anrlab репостит только канал для абитуриентов нашей магистратуры – Data Analytics and Social Statistics (DASS, ex. MASNA), но в вашем случае вы можете увидеть более интересные данные.

При желании, график можно сохранить в одном из форматов. Для этого постройте сеть, и кликните на стрелку в правом верхнем углу. Дальше - выберите формат экспорта в разделе `Export`.


In [None]:
graph = nx.from_pandas_edgelist(all_reposts, source='sender_chat.title', target='forward_from_chat.title')
g = nx.DiGraph()
for (source, target), attr in graph.edges.items():
  one_combo_df = all_reposts[(all_reposts['sender_chat.title'] == source) & (all_reposts['forward_from_chat.title'] == target)]
  n_of_combo = one_combo_df.shape[0]
  g.add_edge(source, target, strength=n_of_combo, color='blue')
  g.edges[(source, target)]['size'] = n_of_combo / 2
  if source in reposts['forward_from_chat.title'].unique():
    g.nodes[source]['color'] = 'red'
  elif target in reposts['forward_from_chat.title'].unique():
    g.nodes[target]['color'] = 'red'
  else:
    g.nodes[source]['color'] = 'black'
    g.nodes[target]['color'] = 'black'

fig = gv.d3(g)
fig

## 4. Данные по вашему телеграм-каналу:

In [36]:
# вводим публичное название телеграм-канала
# без собачки. Например: anrlab
сhannel = 'GSB_HSE_News'

Строим сеть 1 – кого репостит ваш канал:

In [37]:
# Шаг 1. Собираем данные:
app = Client("my_account", api_id=api_id, api_hash=api_hash)

async def get_channel(channel, limit=1000):
    '''Функция принимает на вход короткое название канала на английском без собачки (channel)
    и присоединяет к объекту data необработанный массив сообщений канала channel.
    '''
    data = []
    async with app:
        async for message in app.get_chat_history(channel, limit=limit): # добавили лимит числа сообщений
            data.append(message) # приисоединяем сообщение
    return data

posts_data = await get_channel(сhannel, limit=1000)

# Шаг 2. Превращаем объекты типа сообщений в pandas.DataFrame:

def from_messages_to_pd_dataframe(message_list):
  '''Функция принимает на вход объект с многими объектами pyrogram.Message и возвращает pandas.DataFrame'''
  df = pd.DataFrame() # создаю пустой датафрейм
  for message in message_list: # я прохожусь по всем сообщениям в message_list
    one_row = pd.json_normalize(json.loads(str(message))) # спрева преобразую в json, далее - в пандасовский датафрейм
    df = pd.concat([df, one_row]) # просто объединяю по горизонтали два датасета (большой и маленький - по одному сообщении)
  return df

df = from_messages_to_pd_dataframe(posts_data)
reposts = df[['sender_chat.id', 'sender_chat.username', 'sender_chat.title',
              'forward_from_chat.id', 'forward_from_chat.username', 'forward_from_chat.title']]
reposts = reposts[reposts['forward_from_chat.id'].isnull() == False]
reposts.index = [i for i in range(reposts.shape[0])]

# создадим кортеж, где на 1 месте будут узлы от того, кто репостит до того, кого репостят
edgelist_1 = [(reposts.loc[i, 'sender_chat.title'], reposts.loc[i, 'forward_from_chat.title']) for i in range(reposts.shape[0])]
edgelist_1[:5]

[('Новое в менеджменте', 'Поступление в ВШБ ВШЭ'),
 ('Новое в менеджменте', '🏭ВШБ Опер эффективность'),
 ('Новое в менеджменте', '🏭ВШБ Опер эффективность'),
 ('Новое в менеджменте', '🏭ВШБ Опер эффективность'),
 ('Новое в менеджменте', '🏭ВШБ Опер эффективность')]

In [38]:
# Шаг 3. Строим сеть:
import networkx as nx
import gravis as gv

g = nx.DiGraph() # уточняем, что у нас направленный граф
for source, target in edgelist_1:
    g.add_edge(source, target, strength=1, color='blue')

gv.d3(g, show_edge_label=True, edge_label_data_source='strength', use_centering_force=True, use_edge_size_normalization=True)
#fig.display()  # открывает график в подписи

Строим сеть 2 – общая сеть репостов (отображаем ваш канал и кого репостят каналы, которых репостите вы)

In [40]:
# Шаг 1. Собираем данные:

async def get_all_reposts_from_channels(reposts, forward_from_chat_username_column='forward_from_chat.username'):
  unique_channels = reposts[forward_from_chat_username_column].unique()
  unique_channels = [i for i in unique_channels if str(i) != 'nan']
  if reposts['sender_chat.username'].unique()[0] not in unique_channels:
    unique_channels.append(reposts['sender_chat.username'].unique()[0])
  all_df = pd.DataFrame()

  for channel in tqdm.tqdm(unique_channels):
    print('Собираются данные канала ', channel)
    # тут делаем запрос
    data = []
    async with app:
        async for message in app.get_chat_history(channel, limit=1000): # добавили лимит числа сообщений
            data.append(message) # приисоединяем сообщение
    # тут обрабатываем в датафрейм
    one_channel_df = from_messages_to_pd_dataframe(data)
    # тут добавляем эти данные в датафрейм со всеми постами
    all_df = pd.concat([all_df, one_channel_df])

  # возвращаем датафрейм
  return all_df

all_channels_df = await get_all_reposts_from_channels(reposts, 'forward_from_chat.username')

# Шаг 2. Немного обрабатываем наши данные:
all_channels_df = all_channels_df.drop_duplicates(subset = ['sender_chat.id', 'id'])
all_reposts = all_channels_df[all_channels_df['forward_from_chat.username'].isnull() == False]
all_reposts.index = range(all_reposts.shape[0])
all_reposts # все посты, в которых есть репосты

  0%|          | 0/3 [00:00<?, ?it/s]

Собираются данные канала  join_hse_gsb


 33%|███▎      | 1/3 [00:17<00:35, 17.86s/it]

Собираются данные канала  PS_OpEx


 67%|██████▋   | 2/3 [00:41<00:20, 20.97s/it]

Собираются данные канала  GSB_HSE_News


100%|██████████| 3/3 [00:48<00:00, 16.02s/it]


Unnamed: 0,_,id,date,mentioned,scheduled,from_scheduled,media,edit_date,has_protected_content,has_media_spoiler,...,pinned_message.forward_from_chat.username,pinned_message.forward_from_chat.photo._,pinned_message.forward_from_chat.photo.small_file_id,pinned_message.forward_from_chat.photo.small_photo_unique_id,pinned_message.forward_from_chat.photo.big_file_id,pinned_message.forward_from_chat.photo.big_photo_unique_id,pinned_message.forward_from_chat.dc_id,pinned_message.forward_from_chat.has_protected_content,pinned_message.forward_from_message_id,pinned_message.forward_date
0,Message,725,2024-05-28 10:10:13,False,False,False,,2024-05-28 10:10:59,False,,...,,,,,,,,,,
1,Message,645,2024-03-15 14:53:10,False,False,False,,2024-03-15 14:53:57,False,,...,,,,,,,,,,
2,Message,614,2023-11-27 09:01:32,False,False,False,MessageMediaType.PHOTO,2023-11-27 09:01:38,False,False,...,,,,,,,,,,
3,Message,594,2023-11-14 09:26:20,False,False,False,MessageMediaType.PHOTO,2023-11-14 09:26:24,False,False,...,,,,,,,,,,
4,Message,589,2023-11-06 08:06:31,False,False,False,MessageMediaType.PHOTO,2023-11-06 08:20:41,False,False,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
140,Message,52,2024-02-14 15:30:52,False,False,False,MessageMediaType.PHOTO,,False,False,...,,,,,,,,,,
141,Message,51,2024-02-14 15:30:52,False,False,False,MessageMediaType.PHOTO,,False,False,...,,,,,,,,,,
142,Message,50,2024-02-14 15:30:52,False,False,False,MessageMediaType.PHOTO,,False,False,...,,,,,,,,,,
143,Message,49,2024-02-14 15:30:52,False,False,False,MessageMediaType.PHOTO,,False,False,...,,,,,,,,,,


In [41]:
# Шаг 3. Строим сеть:
graph = nx.from_pandas_edgelist(all_reposts, source='sender_chat.title', target='forward_from_chat.title')
g = nx.DiGraph()
for (source, target), attr in graph.edges.items():
  one_combo_df = all_reposts[(all_reposts['sender_chat.title'] == source) & (all_reposts['forward_from_chat.title'] == target)]
  n_of_combo = one_combo_df.shape[0]
  g.add_edge(source, target, strength=n_of_combo, color='blue')
  if source in reposts['forward_from_chat.title'].unique():
    g.nodes[source]['color'] = 'red'
  elif target in reposts['forward_from_chat.title'].unique():
    g.nodes[target]['color'] = 'red'
  else:
    g.nodes[source]['color'] = 'black'
    g.nodes[target]['color'] = 'black'

fig = gv.d3(g)
fig

In [43]:
channel = 'hse_library'

# Шаг 1. Собираем данные:
app = Client("my_account", api_id=api_id, api_hash=api_hash)

async def get_channel(channel, limit=1000):
    '''Функция принимает на вход короткое название канала на английском без собачки (channel)
    и присоединяет к объекту data необработанный массив сообщений канала channel.
    '''
    data = []
    async with app:
        async for message in app.get_chat_history(channel, limit=limit): # добавили лимит числа сообщений
            data.append(message) # приисоединяем сообщение
    return data

posts_data = await get_channel(channel, limit=1000)

# Шаг 2. Превращаем объекты типа сообщений в pandas.DataFrame:

def from_messages_to_pd_dataframe(message_list):
  '''Функция принимает на вход объект с многими объектами pyrogram.Message и возвращает pandas.DataFrame'''
  df = pd.DataFrame() # создаю пустой датафрейм
  for message in message_list: # я прохожусь по всем сообщениям в message_list
    one_row = pd.json_normalize(json.loads(str(message))) # спрева преобразую в json, далее - в пандасовский датафрейм
    df = pd.concat([df, one_row]) # просто объединяю по горизонтали два датасета (большой и маленький - по одному сообщении)
  return df

df = from_messages_to_pd_dataframe(posts_data)
reposts = df[['sender_chat.id', 'sender_chat.username', 'sender_chat.title',
              'forward_from_chat.id', 'forward_from_chat.username', 'forward_from_chat.title']]
reposts = reposts[reposts['forward_from_chat.id'].isnull() == False]
reposts.index = [i for i in range(reposts.shape[0])]

# создадим кортеж, где на 1 месте будут узлы от того, кто репостит до того, кого репостят
edgelist_1 = [(reposts.loc[i, 'sender_chat.title'], reposts.loc[i, 'forward_from_chat.title']) for i in range(reposts.shape[0])]
edgelist_1[:5]

[('Библиотека НИУ ВШЭ', 'Издательская группа «КНОРУС»'),
 ('Библиотека НИУ ВШЭ', 'ГосВышка'),
 ('Библиотека НИУ ВШЭ', 'ГосВышка'),
 ('Библиотека НИУ ВШЭ', 'ГосВышка'),
 ('Библиотека НИУ ВШЭ', 'ГосВышка')]

In [44]:
import networkx as nx
import gravis as gv

g = nx.DiGraph() # уточняем, что у нас направленный граф
for source, target in edgelist_1:
    g.add_edge(source, target, strength=1, color='blue')

gv.d3(g, show_edge_label=True, edge_label_data_source='strength', use_centering_force=True, use_edge_size_normalization=True)


In [45]:

async def get_all_reposts_from_channels(reposts, forward_from_chat_username_column='forward_from_chat.username'):
  unique_channels = reposts[forward_from_chat_username_column].unique()
  unique_channels = [i for i in unique_channels if str(i) != 'nan']
  if reposts['sender_chat.username'].unique()[0] not in unique_channels:
    unique_channels.append(reposts['sender_chat.username'].unique()[0])
  all_df = pd.DataFrame()

  for channel in tqdm.tqdm(unique_channels):
    print('Собираются данные канала ', channel)
    # тут делаем запрос
    data = []
    async with app:
        async for message in app.get_chat_history(channel, limit=1000): # добавили лимит числа сообщений
            data.append(message) # приисоединяем сообщение
    # тут обрабатываем в датафрейм
    one_channel_df = from_messages_to_pd_dataframe(data)
    # тут добавляем эти данные в датафрейм со всеми постами
    all_df = pd.concat([all_df, one_channel_df])

  # возвращаем датафрейм
  return all_df

all_channels_df = await get_all_reposts_from_channels(reposts, 'forward_from_chat.username')

# Шаг 2. Немного обрабатываем наши данные:
all_channels_df = all_channels_df.drop_duplicates(subset = ['sender_chat.id', 'id'])
all_reposts = all_channels_df[all_channels_df['forward_from_chat.username'].isnull() == False]
all_reposts.index = range(all_reposts.shape[0])
all_reposts # все посты, в которых есть репосты

  0%|          | 0/7 [00:00<?, ?it/s]

Собираются данные канала  knorus_izdatelstvo


 14%|█▍        | 1/7 [00:07<00:42,  7.02s/it]

Собираются данные канала  gosvyshka


 29%|██▊       | 2/7 [00:11<00:28,  5.78s/it]

Собираются данные канала  lyceumhse


 43%|████▎     | 3/7 [00:34<00:54, 13.62s/it]

Собираются данные канала  antibarbari


 57%|█████▋    | 4/7 [00:55<00:49, 16.55s/it]

Собираются данные канала  GapYearRus


 71%|███████▏  | 5/7 [01:08<00:30, 15.08s/it]

Собираются данные канала  hse_workers


 86%|████████▌ | 6/7 [01:27<00:16, 16.44s/it]

Собираются данные канала  hse_library


100%|██████████| 7/7 [01:53<00:00, 16.23s/it]


Unnamed: 0,_,id,date,mentioned,scheduled,from_scheduled,media,edit_date,media_group_id,has_protected_content,...,web_page.animation.duration,web_page.animation.thumbs,audio._,audio.file_id,audio.file_unique_id,audio.duration,audio.file_name,audio.mime_type,audio.file_size,audio.date
0,Message,109,2023-10-06 10:15:09,False,False,False,MessageMediaType.PHOTO,2023-10-06 10:16:17,,False,...,,,,,,,,,,
1,Message,47,2023-05-22 06:43:17,False,False,False,MessageMediaType.PHOTO,2023-05-22 06:45:22,,False,...,,,,,,,,,,
2,Message,151,2024-03-29 14:34:17,False,False,False,MessageMediaType.PHOTO,2024-03-29 14:34:51,,False,...,,,,,,,,,,
3,Message,148,2024-03-23 09:50:32,False,False,False,,2024-03-23 10:35:45,,False,...,,,,,,,,,,
4,Message,147,2024-03-22 20:40:17,False,False,False,,2024-03-23 06:19:31,,False,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
438,Message,1334,2023-12-15 12:30:36,False,False,False,MessageMediaType.PHOTO,2023-12-15 12:32:11,1.362115e+16,False,...,,,,,,,,,,
439,Message,1187,2023-10-13 09:09:58,False,False,False,MessageMediaType.VIDEO,2023-10-13 09:17:39,,False,...,,,,,,,,,,
440,Message,1073,2023-07-04 09:05:43,False,False,False,MessageMediaType.PHOTO,2023-07-04 09:59:54,,False,...,,,,,,,,,,
441,Message,985,2023-05-05 11:28:15,False,False,False,MessageMediaType.WEB_PAGE,2023-05-05 11:30:12,,False,...,,,,,,,,,,


In [46]:
graph = nx.from_pandas_edgelist(all_reposts, source='sender_chat.title', target='forward_from_chat.title')
g = nx.DiGraph()
for (source, target), attr in graph.edges.items():
  one_combo_df = all_reposts[(all_reposts['sender_chat.title'] == source) & (all_reposts['forward_from_chat.title'] == target)]
  n_of_combo = one_combo_df.shape[0]
  g.add_edge(source, target, strength=n_of_combo, color='blue')
  if source in reposts['forward_from_chat.title'].unique():
    g.nodes[source]['color'] = 'red'
  elif target in reposts['forward_from_chat.title'].unique():
    g.nodes[target]['color'] = 'red'
  else:
    g.nodes[source]['color'] = 'black'
    g.nodes[target]['color'] = 'black'

fig = gv.d3(g)
fig

In [51]:
channel = 'diggovlab'

# Шаг 1. Собираем данные:
app = Client("my_account", api_id=api_id, api_hash=api_hash)

async def get_channel(channel, limit=1000):
    '''Функция принимает на вход короткое название канала на английском без собачки (channel)
    и присоединяет к объекту data необработанный массив сообщений канала channel.
    '''
    data = []
    async with app:
        async for message in app.get_chat_history(channel, limit=limit): # добавили лимит числа сообщений
            data.append(message) # приисоединяем сообщение
    return data

posts_data = await get_channel(channel, limit=1000)

# Шаг 2. Превращаем объекты типа сообщений в pandas.DataFrame:

def from_messages_to_pd_dataframe(message_list):
  '''Функция принимает на вход объект с многими объектами pyrogram.Message и возвращает pandas.DataFrame'''
  df = pd.DataFrame() # создаю пустой датафрейм
  for message in message_list: # я прохожусь по всем сообщениям в message_list
    one_row = pd.json_normalize(json.loads(str(message))) # спрева преобразую в json, далее - в пандасовский датафрейм
    df = pd.concat([df, one_row]) # просто объединяю по горизонтали два датасета (большой и маленький - по одному сообщении)
  return df

df = from_messages_to_pd_dataframe(posts_data)
reposts = df[['sender_chat.id', 'sender_chat.username', 'sender_chat.title',
              'forward_from_chat.id', 'forward_from_chat.username', 'forward_from_chat.title']]
reposts = reposts[reposts['forward_from_chat.id'].isnull() == False]
reposts.index = [i for i in range(reposts.shape[0])]

# создадим кортеж, где на 1 месте будут узлы от того, кто репостит до того, кого репостят
edgelist_1 = [(reposts.loc[i, 'sender_chat.title'], reposts.loc[i, 'forward_from_chat.title']) for i in range(reposts.shape[0])]
edgelist_1[:5]

[('ВЦифре', 'Гибкое госуправление'),
 ('ВЦифре', 'Journal of Digital Technologies and Law'),
 ('ВЦифре', 'Антимонопольный центр БРИКС'),
 ('ВЦифре', 'Минцифры России'),
 ('ВЦифре', 'ГосТех Шрёдингера')]

In [52]:
import networkx as nx
import gravis as gv

g = nx.DiGraph() # уточняем, что у нас направленный граф
for source, target in edgelist_1:
    g.add_edge(source, target, strength=1, color='blue')

gv.d3(g, show_edge_label=True, edge_label_data_source='strength', use_centering_force=True, use_edge_size_normalization=True)


In [53]:

async def get_all_reposts_from_channels(reposts, forward_from_chat_username_column='forward_from_chat.username'):
  unique_channels = reposts[forward_from_chat_username_column].unique()
  unique_channels = [i for i in unique_channels if str(i) != 'nan']
  if reposts['sender_chat.username'].unique()[0] not in unique_channels:
    unique_channels.append(reposts['sender_chat.username'].unique()[0])
  all_df = pd.DataFrame()

  for channel in tqdm.tqdm(unique_channels):
    print('Собираются данные канала ', channel)
    # тут делаем запрос
    data = []
    async with app:
        async for message in app.get_chat_history(channel, limit=1000): # добавили лимит числа сообщений
            data.append(message) # приисоединяем сообщение
    # тут обрабатываем в датафрейм
    one_channel_df = from_messages_to_pd_dataframe(data)
    # тут добавляем эти данные в датафрейм со всеми постами
    all_df = pd.concat([all_df, one_channel_df])

  # возвращаем датафрейм
  return all_df

all_channels_df = await get_all_reposts_from_channels(reposts, 'forward_from_chat.username')

# Шаг 2. Немного обрабатываем наши данные:
all_channels_df = all_channels_df.drop_duplicates(subset = ['sender_chat.id', 'id'])
all_reposts = all_channels_df[all_channels_df['forward_from_chat.username'].isnull() == False]
all_reposts.index = range(all_reposts.shape[0])
all_reposts # все посты, в которых есть репосты

  0%|          | 0/7 [00:00<?, ?it/s]

Собираются данные канала  GosAgile


 14%|█▍        | 1/7 [00:03<00:19,  3.31s/it]

Собираются данные канала  JournalDTL


 29%|██▊       | 2/7 [00:35<01:42, 20.55s/it]

Собираются данные канала  bricscompcentre


 43%|████▎     | 3/7 [00:51<01:13, 18.28s/it]

Собираются данные канала  mintsifry


 57%|█████▋    | 4/7 [01:11<00:57, 19.07s/it]

Собираются данные канала  gt_shrodinger


 71%|███████▏  | 5/7 [01:17<00:28, 14.31s/it]

Собираются данные канала  careersci


 86%|████████▌ | 6/7 [01:27<00:12, 12.87s/it]

Собираются данные канала  diggovlab


100%|██████████| 7/7 [01:32<00:00, 13.24s/it]


Unnamed: 0,_,id,date,mentioned,scheduled,from_scheduled,media,edit_date,has_protected_content,has_media_spoiler,...,pinned_message.web_page.photo.date,pinned_message.poll._,pinned_message.poll.id,pinned_message.poll.question,pinned_message.poll.options,pinned_message.poll.total_voter_count,pinned_message.poll.is_closed,pinned_message.poll.is_anonymous,pinned_message.poll.type,pinned_message.poll.allows_multiple_answers
0,Message,59,2024-04-11 16:47:15,False,False,False,MessageMediaType.PHOTO,2024-04-11 16:47:18,False,False,...,,,,,,,,,,
1,Message,58,2024-04-11 16:47:15,False,False,False,MessageMediaType.PHOTO,2024-04-11 16:47:18,False,False,...,,,,,,,,,,
2,Message,57,2024-04-11 16:47:15,False,False,False,MessageMediaType.PHOTO,2024-04-11 16:47:18,False,False,...,,,,,,,,,,
3,Message,56,2024-04-11 16:47:15,False,False,False,MessageMediaType.PHOTO,2024-04-11 16:47:18,False,False,...,,,,,,,,,,
4,Message,31,2024-03-22 21:33:10,False,False,False,,2024-03-23 00:47:17,False,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
66,Message,59,2024-02-16 13:23:23,False,False,False,,,False,,...,,,,,,,,,,
67,Message,57,2024-02-15 15:49:49,False,False,False,,2024-02-15 16:58:17,False,,...,,,,,,,,,,
68,Message,35,2023-12-06 12:37:02,False,False,False,MessageMediaType.PHOTO,2023-12-06 13:22:02,False,False,...,,,,,,,,,,
69,Message,32,2023-12-04 09:31:48,False,False,False,MessageMediaType.PHOTO,2023-12-04 10:34:14,False,False,...,,,,,,,,,,


In [54]:
graph = nx.from_pandas_edgelist(all_reposts, source='sender_chat.title', target='forward_from_chat.title')
g = nx.DiGraph()
for (source, target), attr in graph.edges.items():
  one_combo_df = all_reposts[(all_reposts['sender_chat.title'] == source) & (all_reposts['forward_from_chat.title'] == target)]
  n_of_combo = one_combo_df.shape[0]
  g.add_edge(source, target, strength=n_of_combo, color='blue')
  if source in reposts['forward_from_chat.title'].unique():
    g.nodes[source]['color'] = 'red'
  elif target in reposts['forward_from_chat.title'].unique():
    g.nodes[target]['color'] = 'red'
  else:
    g.nodes[source]['color'] = 'black'
    g.nodes[target]['color'] = 'black'

fig = gv.d3(g)
fig

In [55]:
channel = 'social_inequality_lab'

# Шаг 1. Собираем данные:
app = Client("my_account", api_id=api_id, api_hash=api_hash)

async def get_channel(channel, limit=1000):
    '''Функция принимает на вход короткое название канала на английском без собачки (channel)
    и присоединяет к объекту data необработанный массив сообщений канала channel.
    '''
    data = []
    async with app:
        async for message in app.get_chat_history(channel, limit=limit): # добавили лимит числа сообщений
            data.append(message) # приисоединяем сообщение
    return data

posts_data = await get_channel(channel, limit=1000)

# Шаг 2. Превращаем объекты типа сообщений в pandas.DataFrame:

def from_messages_to_pd_dataframe(message_list):
  '''Функция принимает на вход объект с многими объектами pyrogram.Message и возвращает pandas.DataFrame'''
  df = pd.DataFrame() # создаю пустой датафрейм
  for message in message_list: # я прохожусь по всем сообщениям в message_list
    one_row = pd.json_normalize(json.loads(str(message))) # спрева преобразую в json, далее - в пандасовский датафрейм
    df = pd.concat([df, one_row]) # просто объединяю по горизонтали два датасета (большой и маленький - по одному сообщении)
  return df

df = from_messages_to_pd_dataframe(posts_data)
reposts = df[['sender_chat.id', 'sender_chat.username', 'sender_chat.title',
              'forward_from_chat.id', 'forward_from_chat.username', 'forward_from_chat.title']]
reposts = reposts[reposts['forward_from_chat.id'].isnull() == False]
reposts.index = [i for i in range(reposts.shape[0])]

# создадим кортеж, где на 1 месте будут узлы от того, кто репостит до того, кого репостят
edgelist_1 = [(reposts.loc[i, 'sender_chat.title'], reposts.loc[i, 'forward_from_chat.title']) for i in range(reposts.shape[0])]
edgelist_1[:5]

[('На пути к социальному (не)равенству', 'Институт образования ВШЭ'),
 ('На пути к социальному (не)равенству', 'Мастерская Психологии ЛШ (ПсихО)'),
 ('На пути к социальному (не)равенству', 'Зачем мы такие?'),
 ('На пути к социальному (не)равенству', 'Склад №3')]

In [56]:
import networkx as nx
import gravis as gv

g = nx.DiGraph() # уточняем, что у нас направленный граф
for source, target in edgelist_1:
    g.add_edge(source, target, strength=1, color='blue')

gv.d3(g, show_edge_label=True, edge_label_data_source='strength', use_centering_force=True, use_edge_size_normalization=True)


In [57]:

async def get_all_reposts_from_channels(reposts, forward_from_chat_username_column='forward_from_chat.username'):
  unique_channels = reposts[forward_from_chat_username_column].unique()
  unique_channels = [i for i in unique_channels if str(i) != 'nan']
  if reposts['sender_chat.username'].unique()[0] not in unique_channels:
    unique_channels.append(reposts['sender_chat.username'].unique()[0])
  all_df = pd.DataFrame()

  for channel in tqdm.tqdm(unique_channels):
    print('Собираются данные канала ', channel)
    # тут делаем запрос
    data = []
    async with app:
        async for message in app.get_chat_history(channel, limit=1000): # добавили лимит числа сообщений
            data.append(message) # приисоединяем сообщение
    # тут обрабатываем в датафрейм
    one_channel_df = from_messages_to_pd_dataframe(data)
    # тут добавляем эти данные в датафрейм со всеми постами
    all_df = pd.concat([all_df, one_channel_df])

  # возвращаем датафрейм
  return all_df

all_channels_df = await get_all_reposts_from_channels(reposts, 'forward_from_chat.username')

# Шаг 2. Немного обрабатываем наши данные:
all_channels_df = all_channels_df.drop_duplicates(subset = ['sender_chat.id', 'id'])
all_reposts = all_channels_df[all_channels_df['forward_from_chat.username'].isnull() == False]
all_reposts.index = range(all_reposts.shape[0])
all_reposts # все посты, в которых есть репосты

  0%|          | 0/5 [00:00<?, ?it/s]

Собираются данные канала  inobrhse


 20%|██        | 1/5 [00:26<01:45, 26.45s/it]

Собираются данные канала  lsh_psycho


 40%|████      | 2/5 [00:31<00:42, 14.08s/it]

Собираются данные канала  zachemmt


 60%|██████    | 3/5 [00:42<00:25, 12.71s/it]

Собираются данные канала  kvartira_no3


 80%|████████  | 4/5 [01:15<00:20, 20.43s/it]

Собираются данные канала  social_inequality_lab


100%|██████████| 5/5 [01:23<00:00, 16.68s/it]


Unnamed: 0,_,id,date,mentioned,scheduled,from_scheduled,media,edit_date,has_protected_content,has_media_spoiler,...,pinned_message.video.height,pinned_message.video.duration,pinned_message.video.file_name,pinned_message.video.mime_type,pinned_message.video.file_size,pinned_message.video.supports_streaming,pinned_message.video.date,pinned_message.video.thumbs,author_signature,new_chat_title
0,Message,1464,2024-05-21 16:02:16,False,False,False,,2024-05-21 16:02:32,False,,...,,,,,,,,,,
1,Message,1449,2024-05-15 11:03:06,False,False,False,MessageMediaType.PHOTO,2024-05-15 11:04:55,False,False,...,,,,,,,,,,
2,Message,1435,2024-05-02 14:03:50,False,False,False,MessageMediaType.PHOTO,2024-05-02 16:22:43,False,False,...,,,,,,,,,,
3,Message,1419,2024-04-22 04:43:04,False,False,False,MessageMediaType.WEB_PAGE,2024-04-22 04:49:10,False,,...,,,,,,,,,,
4,Message,1194,2023-10-13 14:30:37,False,False,False,MessageMediaType.PHOTO,2023-10-13 16:40:53,False,False,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
71,Message,922,2023-11-22 16:58:29,False,False,False,MessageMediaType.WEB_PAGE,2023-11-22 16:59:09,False,,...,,,,,,,,,,
72,Message,341,2024-06-03 10:59:56,False,False,False,MessageMediaType.PHOTO,2024-06-03 11:00:38,False,False,...,,,,,,,,,Marina Romanova,
73,Message,320,2024-05-15 10:37:40,False,False,False,MessageMediaType.PHOTO,2024-05-15 10:38:00,False,False,...,,,,,,,,,Marina Romanova,
74,Message,267,2024-03-12 08:00:06,False,False,False,MessageMediaType.WEB_PAGE,2024-03-12 08:00:58,False,,...,,,,,,,,,Marina Romanova,


In [58]:
graph = nx.from_pandas_edgelist(all_reposts, source='sender_chat.title', target='forward_from_chat.title')
g = nx.DiGraph()
for (source, target), attr in graph.edges.items():
  one_combo_df = all_reposts[(all_reposts['sender_chat.title'] == source) & (all_reposts['forward_from_chat.title'] == target)]
  n_of_combo = one_combo_df.shape[0]
  g.add_edge(source, target, strength=n_of_combo, color='blue')
  if source in reposts['forward_from_chat.title'].unique():
    g.nodes[source]['color'] = 'red'
  elif target in reposts['forward_from_chat.title'].unique():
    g.nodes[target]['color'] = 'red'
  else:
    g.nodes[source]['color'] = 'black'
    g.nodes[target]['color'] = 'black'

fig = gv.d3(g)
fig