Skip to content

zergey/proj_news_viz

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

37 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

proj_news_viz

.
├── data
│   ├── parsed         #  2018-09-28.json.txt -- список скачанных статей в json
│   └── parser
│       ├── articles   # 0/a1/0a1b2c3d.html.gz -- кеш скачанных страниц
│       ├── conf       # feeds.csv, sources.csv , ...
│       └── lists      # download_urls.txt , processed_urls.txt , ...
├── README.md
└── scrapping          # скрипты для скраппинга
└── nlp                # скрипты и тетрадки по nlp
│   ├── topic_models   # тематическое моделирование

Requirements

Python 3.6+

Порядок работы

  1. Клонируем себе реп
  2. Заводим ветку, кодим-проверяем-коммитим
  3. Создаем пулл-реквест

Соглашения

  1. Не стесняйтесь писать комменты на русском языке.
  2. Пишите содержательные сообщения к коммитам.
  3. Используйте flake8 (flake8 .) для проверки кода на стиль.

Contributions

  • Andrey @Erlemar
  • Vladimir @LanSaid
  • Pavel @p-kachalov
  • Andrey Malakhov @andreymalakhov
  • Yuri Baburov @buriy Здесь могло быть ваше имя.

Скрипты:

  • scrapping/downloader.py : скачивает страницы из списков, находящихся в data/parser/lists/*.txt
  • scrapping/find_feeds.py : заходит на сайты, находит все RSS на них и сохраняет в data/parser/conf/feeds.csv
  • scrapping/find_news.py : проходит по списку RSS и главных страниц и сохраняет все найденные ссылки

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages