Skip to content

artyom6k/PFL_project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Парсер Telegram-каналов для поиска erid-меток

Данный проект предназначен для парсинга Telegram-каналов и поиска erid-меток в рамках курса "Программирование для лингвистов" на 4 курсе в НИУ ВШЭ - НН.

Цель проекта — автоматизировать поиск erid-меток в Telegram-каналах.

⚙️ Настройка

1. Получите API-ключи Telegram

  1. Перейдите на my.telegram.org
  2. Авторизуйтесь
  3. В разделе API development tools создайте новое приложение
  4. Запишите:
    • api_id (целое число)
    • api_hash (строка в кавычках)

2. Настройте config.yaml

Переименуйте файл: config/config_default.yaml

3. Укажите каналы

Отредактируйте channels.txt. Каждая строка — ссылка на канал в формате: https://t.me/channel_name или @channel_name

🚀 Установка и запуск

1. Клонировать репозиторий

git clone https://github.com/artyom6k/PFL_project.git

2. Создание виртуального окружения

python -m venv .venv

3. Установка зависимостей

poetry install

4. Запуск парсера

poetry run python src/main.py

📊 Результаты

После запуска:

  • В папке results/ создаются файлы вида: 1_telegram.txt, 2_hse_university.txt и т.д.
  • Каждый файл содержит:
    • Заголовок с именем канала и периодом анализа
    • Все сообщения, где найдены erid
    • ID сообщения, дату, текст и извлечённые метки

⚠️ Важные замечания

  • При первом запуске Telethon запросит ввод кода из Telegram — убедитесь, что вход разрешён.
  • Telegram может ограничить запросы при слишком частом парсинге — скрипт учитывает это, но будьте умеренны.
  • Проект не предназначен для обхода приватности или нарушения правил Telegram.
  • Используйте только для законных и этичных целей (например, академические исследования).

Структура проекта

PFL_project/ │ ├── config/ │ └── config.yaml │ ├── results/ │ ├── 1_telegram.txt │ ├── 2_name.txt │ └── ... │ ├── src/ │ ├── scrapper.py │ └── main.py │ ├── channels.txt ├── pyproject.toml ├── poetry.lock ├── README.md └──.gitignore

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages