**Author:** Volokzhanin Vadim<br>
**Date create:** 17.05.2022<br>
**Repository:** https://github.com/VolokzhaninVadim/books/tree/master/essential_sqlalchemy<br>
**Task description:**: Получить востребованные навыки для IT специалистов [Head Hunter](https://hh.ru) по г. Москва<br>

# Библиотеки
Список можно увидеть [тут](https://github.com/VolokzhaninVadim/jupyterlab/blob/master/requirements.txt).

**Настройка оборудования и ПО:**
1. [Настройка TOR](https://github.com/VolokzhaninVadim/media_server). 
1. [Настройка JuPyteRLab](https://github.com/VolokzhaninVadim/jupyterlab).

# Алгоритм работы и схема данных
![](./img/schema.png)

![](./img/uml.png)

Проcмотр notebook: https://nbviewer.org/github/VolokzhaninVadim/books/blob/master/essential_sqlalchemy/essentia_sqlalchemy.ipynb

# Создание объектов базы данных
**Автотесты!!!**

In [3]:
# Создаем объекты базы данных
from src.ORM import ORM
from src.ORM import (Map, Skill, VacancyHTML)
orm = ORM()
orm.create_delete_tables(delete=False)
# Проверяем наличие таблиц
orm.inspector.get_table_names()

['map', 'skill', 'vacncy_html']

# Получаем геообъекты

In [4]:
# Визуализируем разрезанные полигоны
from src.Geo import Geo
geo = Geo()

# Для работы с картами
import folium
# Для работы с кластерами точек
from folium.plugins import MarkerCluster


# Переводим прямоугольник города в geojson
city_geojson, polygon_rectangle, min_coordinates, max_coordinates = geo.get_city_polygon()
city_boundary = [list(coordinates) for coordinates in list(polygon_rectangle.boundary.coords)]
city_boundary_geojson = {'type': 'Polygon', 'coordinates' : [city_boundary]}

# Переводим прямоугольник в geojson
rectangle_all = geo.generate_rectangle()
test = [list(i) for i in list(rectangle_all[5081].boundary.coords)]
rectangle_boundary_geojson = {'type': 'Polygon', 'coordinates' : [test]}

# Нарисуем карту
center = [list(polygon_rectangle.centroid.coords)[0][1], list(polygon_rectangle.centroid.coords)[0][0]]
zoom = 10

# Нарисуем и отобразим карту
m = folium.Map(
    width = '100%', 
    height = '100%',
    location = center,
    zoom_start = zoom,
    tiles = 'OpenStreetMap'
)

# Нарисуем минимальные и максимальные координаты
folium.Marker(location = min_coordinates, popup = 'Минимальные координаты').add_to(m)
folium.Marker(location = max_coordinates, popup = 'Максимальные координаты').add_to(m)

# Нарисуем полигон
folium.GeoJson(city_geojson[0]['geojson'], name = 'Полигон города').add_to(m)
folium.GeoJson(city_boundary_geojson, name = 'Рамка полигона города').add_to(m)
folium.GeoJson(rectangle_boundary_geojson, name = 'Рамка пряммоугольника').add_to(m)

# Отобразим карту
m

# Сбор данных о вакансиях

In [4]:
# Work with web data
from src.WebScraper import WebScraper
web_scraper = WebScraper()
# Testing proxy
web_scraper.test_proxy()

True

In [6]:
# Write data from map
web_scraper.write_mass_vacancies_map()

  0%|          | 0/1289 [00:00<?, ?it/s]

# Сбор html

In [5]:
# Write html
web_scraper.write_mass_vacancies_html()

  0%|          | 0/362 [00:00<?, ?it/s]

# Сбор данных о навыках

In [7]:
# Write skils
orm.insert_skill()

# Обучение модели

In [14]:
# Work with graph
import plotly.express as px

# Get data with skills
skill_df = orm.get_skill_df()

fig = px.bar(
    skill_df, 
    x="skill", 
    y="count_vacancy", 
    title="Работа в команде - самый важный навык для IT, г. Москва", 
    text_auto='d',
     template="simple_white",
    labels=dict(skill="Навыки", count_vacancy="Количество вакансий")
    )
fig.show()

In [None]:
# Описать схему данных
# Создать тесты
# Удалить коммит с db
# Сохранить DB в другое место.
# Настроить в jupyter работу с widjets