Данный проект предназначен для парсинга Telegram-каналов и поиска erid-меток в рамках курса "Программирование для лингвистов" на 4 курсе в НИУ ВШЭ - НН.
Цель проекта — автоматизировать поиск erid-меток в Telegram-каналах.
- Перейдите на my.telegram.org
- Авторизуйтесь
- В разделе API development tools создайте новое приложение
- Запишите:
api_id(целое число)api_hash(строка в кавычках)
Переименуйте файл: config/config_default.yaml
Отредактируйте channels.txt. Каждая строка — ссылка на канал в формате:
https://t.me/channel_name
или
@channel_name
git clone https://github.com/artyom6k/PFL_project.git
python -m venv .venv
poetry install
poetry run python src/main.py
После запуска:
- В папке
results/создаются файлы вида:1_telegram.txt,2_hse_university.txtи т.д. - Каждый файл содержит:
- Заголовок с именем канала и периодом анализа
- Все сообщения, где найдены
erid - ID сообщения, дату, текст и извлечённые метки
- При первом запуске Telethon запросит ввод кода из Telegram — убедитесь, что вход разрешён.
- Telegram может ограничить запросы при слишком частом парсинге — скрипт учитывает это, но будьте умеренны.
- Проект не предназначен для обхода приватности или нарушения правил Telegram.
- Используйте только для законных и этичных целей (например, академические исследования).
PFL_project/ │ ├── config/ │ └── config.yaml │ ├── results/ │ ├── 1_telegram.txt │ ├── 2_name.txt │ └── ... │ ├── src/ │ ├── scrapper.py │ └── main.py │ ├── channels.txt ├── pyproject.toml ├── poetry.lock ├── README.md └──.gitignore