r-programming
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
.gitignore
Analizy and vizualize log file.R
LICENSE
Parsers.R
README.md
clasterny_analyz.R
nlp-resume.R
scrape_multi_page.R

README.md

R для HR

Репозиторий, который содержит скрипты для сбора, обработки, анализа и визуализации статистических данных количество вакансий и резюме, а также неструктурированных данных вакансий, резюме и интервью.

Files / Файлы

№1 Сбор данных, статистическая обработкаи визуализации данных с headhunter

В файле Scrape multi page представлен код на языке R для сбора данных с сайта HH.ru. Особенность парсера в том, что парсер сначала собирает ссылки резюме/вакансий, а затем ещё раз проходит по ссылке каждого резюме и собирает данные. Код состоит из 3 блоков. Первый блок - парсер, который собирает данные, Второй блок - статистическая обработка данных. Третий блок - визуализация данных и экспорт на хостинг plot.ly.

№2 Анализ и визуализация лог файлов сайта

В файле Analizy and vizualize log file приведён код для сбора, обработки и визуализации данных из лог файлов с сервера вашего сайта.

№3 Парсеры

В файле Parsers приведен шаблон кода для сбора (парсинга) данных с работных сайтов. Парсинг осуществляется в консоле (Linux, OSX). Для начала создаём файл с url страниц, с которых будут собираться данные, указываем XPath координаты на страницах, данных которые будем собирать. В заключение все данные сохранем с файл. В консоле запускаем R, командой - "R". Далее активируем нужные пакеты, указываем директорию папки, в которую будут сохраняться файлы с данными затем подключаем и запускаем файл для сбора данных. Первые два варианта отличаются пакетами и кодом, но главная функция одинакова - собрать данные. Третий вариант дополнен подключением API к сайту если это необходимо, в остальном без изменений.

№4 Кластерный анализ

В файле Кластерный анализ поэтапно проводится работа с данными и кластеризация. Кластерный анализ состоит из 7ми этапов:

  • Этап 1 - Сбор данных;

  • Этап 2 - Подготовка данных;

  • Этап 3 - Оценка тенденции данных к кластеризации;

    • Статистический метод (значение Хопкинса);
    • Визуальный метод;
  • Этап 4 - Вычисление и визуализация дистанции между переменными;

  • Этап 5 - Сравнение алгоритмоф кластеризации;

  • Этап 6 - Вычисление оптимального числа клстеров;

    • Метод Локтя;
    • Метод Силуэта;
    • Метод статистики пробелов;
    • Методика расчета по 30ти индесам;
  • Этап 7 - Кластеризация;

    • Иерархическая кластеризация;
    • Нечёткая кластеризация;
    • Кластеризация на основе моделей;
    • Кластеризация по плотности.

Данный скрипт можно использовать для собственных нужд и вычислений.