# Итоговый проект по науке о данных 


In [1]:
import pandas as pd
import numpy as np
import requests
import matplotlib.pyplot as plt
%matplotlib inline
import altair as alt
import plotly.express as px
import re
import warnings
from pandas.core.common import SettingWithCopyWarning
from pathlib import Path 
import folium
from time import sleep
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException, StaleElementReferenceException
warnings.simplefilter(action="ignore", category=SettingWithCopyWarning)

# Часть 1.
## Визуализация данных по компонентам потребления в США 2002-2020 гг.
#### https://apps.bea.gov/iTable/iTable.cfm?ReqID=19&step=2#reqid=19&step=2&isuri=1&1921=underlying
#### T20406-A Consumption in millions of chained (2012) dollars

In [2]:
df = pd.read_excel("Consumption data.xlsx")
df = df.drop(['Number','ID'], axis=1)
df

Unnamed: 0,Goods,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
0,New motor vehicles (55),250221,262275,264896,259892,244914,247645,199749,176716,190621,211454,236959,246805,259715,269835,265936,273090,279970,278358,283375
1,Net purchases of used motor vehicles (56),109073,107116,113004,109796,108128,112419,110403,112419,108857,96325,96343,103000,112720,133678,151165,166466,180164,173955,185977
2,Motor vehicle parts and accessories (58),55285,57954,61594,64634,65579,66732,62456,57327,60206,62308,63306,65486,67062,69972,71867,73726,74993,75827,76875
3,Furniture and furnishings (parts of 31 a...,109348,117211,129808,141302,150536,155162,143743,128933,137027,143005,148714,158213,172858,191371,207230,225181,249989,260403,279575
4,Household appliances (part of 33),38461,41091,46002,47951,48728,46960,45801,42214,45457,48029,48132,51219,55523,60039,64665,68645,68521,68265,71985
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
68,Commercial and vocational schools (99),44355,42906,41349,41240,42123,43974,44232,42258,43731,43270,41326,41257,42949,44442,45515,46036,47696,49320,41212
69,Personal care and clothing services (14 ...,116336,119736,124817,127202,128532,128137,124768,118526,120631,122269,123721,125392,130628,132824,135375,140970,150009,152283,90714
70,Social services and religious activities...,119621,123410,127090,130040,132923,137374,139465,141280,144878,146161,148112,150602,155185,159911,163862,169456,174215,179113,164411
71,"Household maintenance (parts of 31, 33, ...",62967,64072,65760,65685,65874,70436,70363,64753,63787,65713,67975,70271,74572,73743,72063,71819,74985,76314,72713


#### Ниже используются регулярные выражения, чтобы убрать лишнюю информацию в скобках в столбце "Goods". 

In [3]:
#Регулярные выражения

for i in range(len(df["Goods"])):
    text = df["Goods"][i].strip()
    text = re.sub(r'\([^()]*\)', '', text)
    df["Goods"][i] = text
    
years = df.columns.tolist()[1:]
df = pd.concat([df, pd.DataFrame(np.sum(df, axis=0).tolist()[1:], index = years).transpose()], axis=0, join='outer').reset_index(drop=True)
df.iloc[73, 0]='Total'
df

Unnamed: 0,Goods,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
0,New motor vehicles,250221,262275,264896,259892,244914,247645,199749,176716,190621,211454,236959,246805,259715,269835,265936,273090,279970,278358,283375
1,Net purchases of used motor vehicles,109073,107116,113004,109796,108128,112419,110403,112419,108857,96325,96343,103000,112720,133678,151165,166466,180164,173955,185977
2,Motor vehicle parts and accessories,55285,57954,61594,64634,65579,66732,62456,57327,60206,62308,63306,65486,67062,69972,71867,73726,74993,75827,76875
3,Furniture and furnishings,109348,117211,129808,141302,150536,155162,143743,128933,137027,143005,148714,158213,172858,191371,207230,225181,249989,260403,279575
4,Household appliances,38461,41091,46002,47951,48728,46960,45801,42214,45457,48029,48132,51219,55523,60039,64665,68645,68521,68265,71985
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
69,Personal care and clothing services,116336,119736,124817,127202,128532,128137,124768,118526,120631,122269,123721,125392,130628,132824,135375,140970,150009,152283,90714
70,Social services and religious activities,119621,123410,127090,130040,132923,137374,139465,141280,144878,146161,148112,150602,155185,159911,163862,169456,174215,179113,164411
71,Household maintenance,62967,64072,65760,65685,65874,70436,70363,64753,63787,65713,67975,70271,74572,73743,72063,71819,74985,76314,72713
72,Foreign travel by U.S. residents,111291,106717,113621,116279,121067,118780,113511,116433,119128,119480,124969,120342,126795,139529,149948,161087,173389,187801,56172


##### Данные мы собрали и причесали, теперь запишем их в csv-файл и передем к следующей части - визуализация в streamlit

In [None]:
df.to_csv('USA_consumption.csv', encoding='utf-8', index=False)

##### Перейдите по ссылке, чтобы открыть streamlit:  https://share.streamlit.io/n1kesha/shops_and_consumption/main.py

# Часть 2.
## С помощью Selenium создадим БД со всеми вакансиями магазина "Пятёрочка"

###### Открываем сайт "Пятерочки"

In [None]:
url = 'https://rabota5ka.ru/'
driver = webdriver.Chrome()
driver.get(url)

##### На странице видим три раздела: продажи, руководство, и работа для студентов (начало карьеры = работа для студентов, так что её не берем в счёт). Находим html-код кнопок, которые открывают страницы с вакансиями в каждой из указанных категорий. 

In [None]:
prodazhi = driver.find_element(By.XPATH, '/html/body/div[1]/main/section[2]/div/div[2]/div[1]/a')
Rukovodstvo = driver.find_element(By.XPATH, '/html/body/div[1]/main/section[2]/div/div[2]/div[2]/a')
for_students = driver.find_element(By.XPATH, '/html/body/div[1]/main/section[2]/div/div[2]/div[3]/a')

In [None]:
# Функция, открывающая страницу  
def opening_page(page):
    page.click()
    sleep(5)

##### При открытии страницы с вакансиями сайт отображает не все вакансии, а только 10, что логично. Но на самом деле их тысячи, и их все можно увидеть. Напишем код, который сам пролистывает страницу до самого низа. 

In [None]:
def scrolling():
    scroll = driver.find_element(By.CSS_SELECTOR, 'button.vacancies-page__more')
    try:
        for i in range(1000):  
            scroll.click()
            sleep(3)
    except NoSuchElementException: 
        sleep(2)
    except StaleElementReferenceException:
        sleep(2)

##### Когда страница полностью открыта и нам видны все вакансии, можно начинать её скреппить. Хотим получить pandas dataframe с информацией по названию должности, минимальной предлагаемой з/п, максимальной предлагаемой з/п и адресу магазина.

##### Следующая функция скреппит страницу и записывает всё в csv-файл, одноименный с разделом на сайте. 

In [None]:
def scrapping(page):
    help_list = []
    jobs=driver.find_elements(By.CSS_SELECTOR, 'div.vacancy-card__ttl')
    for i in range(len(jobs)):
        try:
            salary = driver.find_elements(By.CSS_SELECTOR, 'div.vacancy-card__salary')
            salary = salary[i].get_attribute("innerHTML").split()
            min_salary = int(salary[1])
            max_salary = int(salary[3])
            help_list.append(
            [driver.find_elements(By.CSS_SELECTOR, 'div.vacancy-card__ttl')[i].get_attribute("innerHTML"),
             min_salary, 
             max_salary,
             driver.find_elements(By.CSS_SELECTOR,'div.vacancy-card__location')[i].get_attribute("innerHTML")
            ])
        except ValueError:
            pass
    df = pd.DataFrame(help_list, columns = ['Должность', "Мин З/П", "Макс З/П", "Адрес"])
    df.to_csv(f'{page}.csv', index=False)

##### Все функции созданы, теперь можно начинать скреппить. Этот процесс у меня занял 1.5-2 часа, поэтому не советую запускать следующую ячейку. 

In [None]:
sleep(5)
opening_page(Rukovodstvo)
scrolling()
sleep(5)
scrapping('Rukovodstvo') 

driver = webdriver.Chrome()
driver.get(url)
prodazhi = driver.find_element(By.XPATH, '/html/body/div[1]/main/section[2]/div/div[2]/div[1]/a') 
opening_page(prodazhi)
scrolling()
sleep(5)
scrapping('prodazhi') 

driver = webdriver.Chrome()
driver.get(url)
for_students = driver.find_element(By.XPATH, '/html/body/div[1]/main/section[2]/div/div[2]/div[3]/a')
opening_page(for_students)
scrolling()
sleep(5)
scrapping('for_students') 

##### На выходе у нас получается три csv-файла, которые мы считываем и объединяем в едииный датафрейм vacancies. Удаляем повторяющиеся строки и записываем результат в отдельный csv-файл, с которым уже можно работать. Например, в Streamlit.

In [4]:
df_ruk = pd.read_csv('Rukovodstvo.csv')
df_prod = pd.read_csv('prodazhi.csv')
df_stud = pd.read_csv('for_students.csv')

vacancies = pd.concat([df_ruk, df_prod, df_stud]).drop_duplicates()
vacancies.to_csv('Vacancies.csv', encoding='utf-8', index=False)
vacancies

Unnamed: 0,Должность,Мин З/П,Макс З/П,Адрес
0,Администратор магазина,48000,65000,"117624, г Москва, ул Поляны, д 5"
1,Заместитель директора магазина,43000,61000,"117216, г Москва, б-р Дмитрия Донского, д 9"
2,Администратор магазина,48992,62024,"119361, г Москва, ул Озёрная, д 9"
3,Администратор магазина,53891,69959,"127549, г Москва, ул Мурановская, д 12"
4,Администратор магазина,48992,62024,"119634, г Москва, ул Скульптора Мухиной, д 4"
...,...,...,...,...
1283,Сборщик заказов,38000,40000,"107014, г Москва, ул Егерская, д 1"
1284,Сборщик заказов,40900,44200,"105173, г Москва, ул Главная, д 29"
1285,Сборщик заказов,38000,40000,"107564, г Москва, Погонный проезд, д 3А"
1286,Сборщик заказов,55000,57000,"125183, г Москва, проезд Черепановых, д 17А"


#### В Streamlit вы можете увидеть интерактивный граф, демонстрирующий связь между должностью и адресами.

# Часть 3. Самое интересное

### Использование REST API

###### У меня появилась идея сделать бота, который будет работать как каталог в интернет-магазине. Человек пишет слово, код посылает запрос к официальному сайта магазина, сайт даёт ответ, и я выдаю этот ответ пользователю бота. Всё было бы просто, если API у магазина было открытым, я его просто скачиваю и использую. Но у магазина "Перекрёсток", он закрыт. Попробуйте перейти по ссылке: https://www.perekrestok.ru/api/customer/1.4.1.0/catalog/product/feed

###### И мне стало интересно, как бы я мог собрать базу данных с информацией о товарах, которые есть в наличии, ценах и скидках на эти товары. Ведь я могу посылать сколько угодно запросов в обычном разделе "Каталог" на сайте Перекрестка.

###### Когда в разделе Каталог на сайте я вписываю слово, сайт мне моментально возвращает страницу с максимум 48 продуктами. Их мы и будем перехватывать и записывать в свою БД. И у меня получилось написать скрипт, который берёт слово и сразу присоединяет к pandas dataframe'у всю необходимую информацию, не открывая сайта.

In [None]:
word = ' '
spisok = []
u = f'"textQuery":"{word}"'
first_part = '{"page":1,"perPage":48,"filter":{'
second_part = '}}'


### IDEA FROM  'https://www.youtube.com/watch?v=mNJKCg4BjC8&t=2339s , timing=29:50'
def fetch(url, params, u=''):
    headers = params['headers']
    if params['method']=='GET':
        return requests.get(url, headers=headers)
    if params['method']=='POST':
        return requests.post(url, headers=headers, data=f'{first_part}{u}{second_part}'.encode('utf-8'))
### END FROM

##### Главная идея в том, что если заходить в API Перекрёстка под моими ключами, которые бразуер сам рандомно генерирует (а не напрямую через requests.get('https://www.perekrestok.ru/api/customer/1.4.1.0/catalog/product/feed') , то данные можно успешно получить, но только о том продукте, название которого я ввел в поисковую строку. Но и этот поисковой запрос можно имитировать! Запустить ячейку ниже не получится, потому что ключи, под которыми я заходил обновляются ежедневно. Но я напишу, как я их получил: вбиваете в каталоге на сайте название товара, смотрите в "Инспектор", с которым мы так много работали, открываетет раздел Сеть, далее Fetch/XHR и смотрите файлик feed, там вся информация о товаре, которую вернул сайт после Вашего запроса. Копируете его как Node.jsfetch и получаете свою функцию fetch( ... ) 

###### Следующая функция берет как параметр слово в обычном формате str, и добавляет к датафрейму интересующую нас информацию, которую бы такде выдал Каталог на сайте при таком же вводимом слове. При этом при новом запуске функции данные в датафрейме от предыдущего запроса не пропадают. 

In [None]:
def get_tovar_info(word):
    tovar = fetch("https://www.perekrestok.ru/api/customer/1.4.1.0/catalog/product/feed", {
  "headers": {
    "accept": "application/json, text/plain, */*",
    "accept-language": "ru,en;q=0.9,en-GB;q=0.8,en-US;q=0.7",
    "auth": "Bearer eyJ0eXAiOiJKV1QiLCJhbGciOiJFUzUxMiJ9.eyJqdGkiOiI3ODVkM2Y5Yi0wNTg1LTRlNzYtOTFmNy1jZWVhZDI0MzllNDgiLCJpYXQiOjE2NTUxMzc1MzUsImV4cCI6MTY1NTE2NjMzNSwiZCI6IjcwYTM1NWIwLWFjN2YtNDQyOC04YzIwLWE3ZjliZjk1NGMwNCIsImFwaSI6IjEuNC4xLjAiLCJpcCI6Ijk1LjMxLjI3LjEwNyIsInUiOiI1ZDAzZWE1OS03ZTRmLTQ1YTYtOTMyMy1iZGQxMDA2OTVjZDkiLCJ0IjoxfQ.AbcxxE77utN17hp7ek6xq7Clqif0mVPzLwuewOmiWUhjeZXt9FQNrR7ooD0wTsoBVW_ohemmfobEwvhWLEZF48JsAIseFCmvBUUr5XaDtkrmZQAKTAnXmCS_MDncqbaMKd3JPk7qzNCYA1K2NdiluZP76KcVqPvuHrn0duo9fXKeJ2qH",
    "content-type": "application/json;charset=UTF-8",
    "sec-ch-ua": "\" Not A;Brand\";v=\"99\", \"Chromium\";v=\"102\", \"Microsoft Edge\";v=\"102\"",
    "sec-ch-ua-mobile": "?0",
    "sec-ch-ua-platform": "\"Windows\"",
    "sec-fetch-dest": "empty",
    "sec-fetch-mode": "cors",
    "sec-fetch-site": "same-origin",
    "cookie": "_gcl_au=1.1.1944876774.1654899183; tmr_lvid=c19c130cd32d7be83aa06dee1c80cb23; tmr_lvidTS=1654899183304; _ym_d=1654899184; _ym_uid=1654899184122658968; _gid=GA1.2.80383965.1654899184; flocktory-uuid=e73c666e-01bf-45af-8789-94d2f9adb9a3-4; _ga_NKBCE8PBT8=GS1.1.1654899223.1.0.1654899223.60; agreements=j:{\"isCookieAccepted\":true,\"isAdultContentEnabled\":true,\"isAppAppInstallPromptClosed\":false}; TS0115a7cc=01a93f7547d0e86aaf34446582b642a4694dbb54d8ca81de1cbe13b264da1936bcec27e3eb8c2a1a4d47af0f60d10f32897b08dbdafd37bdfdb1364987a66f0f13f39abb28; _ym_isad=2; _ym_visorc=b; _ga=GA1.2.1528100024.1654899183; _dc_gtm_UA-189134493-1=1; adrdel=1; adrcid=AWlqWV0hdTv8UbJRbL-6pFQ; _gp100024EE={\"hits\":1,\"vc\":1}; _gpVisits={\"isFirstVisitDomain\":true,\"todayD\":\"Mon%20Jun%2013%202022\",\"idContainer\":\"100024EE\"}; tmr_reqNum=263; tmr_detect=0%7C1655137538248; session=j:{\"accessToken\":\"eyJ0eXAiOiJKV1QiLCJhbGciOiJFUzUxMiJ9.eyJqdGkiOiI3ODVkM2Y5Yi0wNTg1LTRlNzYtOTFmNy1jZWVhZDI0MzllNDgiLCJpYXQiOjE2NTUxMzc1MzUsImV4cCI6MTY1NTE2NjMzNSwiZCI6IjcwYTM1NWIwLWFjN2YtNDQyOC04YzIwLWE3ZjliZjk1NGMwNCIsImFwaSI6IjEuNC4xLjAiLCJpcCI6Ijk1LjMxLjI3LjEwNyIsInUiOiI1ZDAzZWE1OS03ZTRmLTQ1YTYtOTMyMy1iZGQxMDA2OTVjZDkiLCJ0IjoxfQ.AbcxxE77utN17hp7ek6xq7Clqif0mVPzLwuewOmiWUhjeZXt9FQNrR7ooD0wTsoBVW_ohemmfobEwvhWLEZF48JsAIseFCmvBUUr5XaDtkrmZQAKTAnXmCS_MDncqbaMKd3JPk7qzNCYA1K2NdiluZP76KcVqPvuHrn0duo9fXKeJ2qH\",\"refreshToken\":\"eyJ0eXAiOiJKV1QiLCJhbGciOiJFUzUxMiJ9.eyJqdGkiOiIxZmQ4NTVlZi0wOGQwLTRmY2UtOWJhYS1hMDk0YTNlNjY5OTciLCJpYXQiOjE2NTUxMzc1MzUsImV4cCI6MTY3MDY4OTUzNSwiZCI6IjcwYTM1NWIwLWFjN2YtNDQyOC04YzIwLWE3ZjliZjk1NGMwNCIsImFwaSI6IjEuNC4xLjAiLCJpcCI6Ijk1LjMxLjI3LjEwNyIsInUiOiI1ZDAzZWE1OS03ZTRmLTQ1YTYtOTMyMy1iZGQxMDA2OTVjZDkiLCJ0IjoyfQ.AQDac40QlZZiprAuYQm8g_iyZtHsnVDIaKdy7PSI87FeyxbRLW6JrMDYUs1zZfi8F3T_1_lLE0ZmlPXCYcUpFoLjAQeEoRp38K0GAdw7-4GMDJD_a_eKQx_itPFpw4JxxE1laZwZODZMsfGUnzRn0IbKR3qJ3K7uJsEg7KpI8FKVLZR-\",\"accessTokenExpiredAt\":1655166335270,\"refreshTokenExpiredAt\":1670689535270,\"device\":{\"uuid\":\"70a355b0-ac7f-4428-8c20-a7f9bf954c04\"}}; _ga_5K49P5RFR8=GS1.1.1655137535.13.1.1655137540.55"
  },
  "referrerPolicy": "no-referrer",
  "method": "POST"
}, f'"textQuery":"{word}"');

    tovar = tovar.json()
    info = []
    for i in range(len(tovar['content']['items'])):
        x = list(str(tovar['content']['items'][i]['priceTag']['price']))
        x.insert(-2, '.')
        x = float(''.join(x))

        if tovar['content']['items'][i]['priceTag']['grossPrice']==None:
            y=np.nan
        else:
            y=list(str(tovar['content']['items'][i]['priceTag']['grossPrice']))
            y.insert(-2, '.')
            y = float(''.join(y))

        info.append(
            [tovar['content']['items'][i]['title'],
             float(x),
             float(y), 
             round(100*(y-x)/y, 0)
            ])
    spisok.extend(info)  

###### Таким образом, можно собрать базу данных о всех товарах, на которые у Вас хватит фантазии. Я придумал порядка 160 запросов, которые мне дали БД о примерно 4300 товарах Перекрестка. Расширять её можно сколько угодно, надо просто придумать новый запрос, который не сильно пересекался бы с предыдущими. 

In [None]:
stroka = """
молоко, сыр, творог, йогурт, сливки, кефир, свинина, курица, говядина, мясо, креветки, баранина, конина, колбаса, фарш, котлет, бургер, пицца, печенье, шоколад, торт, конфет, леден, попкорн, мороженое, морож, киткат, драже, жвачка, батончик, сушк, баранк, мука, сахар, соль, перец, яблок, банан, апельсин, мандарин, фрукт, ягод, клубника, малина, ежевика, голубика, арбуз, дыня, персик, лимон, абрикос, земля, помидор, огур, баклаж, кабач, салат, банан, фасоль, малосол, сол, вода, газиров, негазиров, сладкая вода, пепси, лимонад, тархун, сок, водка, пиво, сидр, вино, виски, коньяк, банка, шампанск, джин, алког, слабоалк, макарон, круп, гречка, картоф, рис, батон, хлеб, бел, черн,шампун, мыло, тряпк, швабр, щетк, бумага, паст, тетрад, ручк, принадлежности, лекарств, таблет, расчес,Чай, яйц, гриб, масл, спец, готов, чипс, снек, напитк, выпечк, птица, деликатес, море, рыба, консерв, зоо, красот, аптек, уборк, посуд, тарелк, ложк, вилк, нож, дача, дом, табак, сигарет, морож, креветки, череш, морков, Greenfield, Бабаевский, Горячая штучка, Добрый, Макфа, Махеев, Простоквашино, «Россия», Слобода и Фрутонян, Danone, жир, кальмар, моллюск, краб, рак,Газиров, негазиров, фанта, кола, спрайт, киткат, сникерс, марс, твикс
"""
parse_list = stroka.replace('\n', '').split(',')

###### Записываем в строку выше запросы и запускаем следующую ячейку. Код собирает базу данных, убирает дублирующиеся строки и записывает всё в новый csv-файл. Поиграться с ним можно в том же streamlit.

In [None]:
for y in range(len(parse_list)):
    get_tovar_info(parse_list[y]) 
    sleep(4)
    
catalog = pd.DataFrame(spisok, columns=['Name', 'Price', 'Old Price', 'Discount'])
catalog = catalog.drop_duplicates().reset_index().drop('index', axis=1)
#catalog.to_csv('Catalog.csv', encoding='utf-8', mode='a', index=False)

In [5]:
pd.read_csv("Catalog.csv")

Unnamed: 0,Name,Price,Old Price,Discount
0,Молоко Правильное Молоко пастеризованное 3.2-4...,174.99,219.99,20.0
1,Молоко Авида питьевое ультрапастеризованное 3....,74.99,99.99,25.0
2,"Молоко Простоквашино пастеризованное 2.5%, 930мл",69.99,81.99,15.0
3,Молоко Асеньевская Ферма пастеризованное 3.4-6...,79.99,109.99,27.0
4,Молоко Зелёная Линия питьевое цельное отборное...,73.99,,
...,...,...,...,...
4340,"Батончик шоколадный Twix Экстра с печеньем, 82г",77.99,,
4341,"Батончик шоколадный Twix с печеньем, 55г",49.99,,
4342,Батончик Twix солёная карамель покрытое молочн...,53.99,,
4343,Печенье сдобное Twix Top с карамелью и шоколад...,209.99,,


# Часть 4. 

## Геоданные

###### Похожим образом, но попроще, я собрал БД о всех магазинах Перекрёстка в России. Функция ниже собирает всю информацию и записывает результат в новый csv-файл. 

In [None]:
def get_perek_info():
    perek = fetch("https://www.perekrestok.ru/api/customer/1.4.1.0/shop/points", {
  "headers": {
    "accept": "application/json, text/plain, */*",
    "accept-language": "ru,en;q=0.9,en-GB;q=0.8,en-US;q=0.7",
    "auth": "Bearer eyJ0eXAiOiJKV1QiLCJhbGciOiJFUzUxMiJ9.eyJqdGkiOiI3ODVkM2Y5Yi0wNTg1LTRlNzYtOTFmNy1jZWVhZDI0MzllNDgiLCJpYXQiOjE2NTUxMzc1MzUsImV4cCI6MTY1NTE2NjMzNSwiZCI6IjcwYTM1NWIwLWFjN2YtNDQyOC04YzIwLWE3ZjliZjk1NGMwNCIsImFwaSI6IjEuNC4xLjAiLCJpcCI6Ijk1LjMxLjI3LjEwNyIsInUiOiI1ZDAzZWE1OS03ZTRmLTQ1YTYtOTMyMy1iZGQxMDA2OTVjZDkiLCJ0IjoxfQ.AbcxxE77utN17hp7ek6xq7Clqif0mVPzLwuewOmiWUhjeZXt9FQNrR7ooD0wTsoBVW_ohemmfobEwvhWLEZF48JsAIseFCmvBUUr5XaDtkrmZQAKTAnXmCS_MDncqbaMKd3JPk7qzNCYA1K2NdiluZP76KcVqPvuHrn0duo9fXKeJ2qH",
    "if-none-match": "\"34ee3a5c3763817482cd5a419039bdc6\"",
    "sec-ch-ua": "\" Not A;Brand\";v=\"99\", \"Chromium\";v=\"102\", \"Microsoft Edge\";v=\"102\"",
    "sec-ch-ua-mobile": "?0",
    "sec-ch-ua-platform": "\"Windows\"",
    "sec-fetch-dest": "empty",
    "sec-fetch-mode": "cors",
    "sec-fetch-site": "same-origin",
    "cookie": "_gcl_au=1.1.1944876774.1654899183; tmr_lvid=c19c130cd32d7be83aa06dee1c80cb23; tmr_lvidTS=1654899183304; _ym_d=1654899184; _ym_uid=1654899184122658968; _gid=GA1.2.80383965.1654899184; flocktory-uuid=e73c666e-01bf-45af-8789-94d2f9adb9a3-4; _ga_NKBCE8PBT8=GS1.1.1654899223.1.0.1654899223.60; agreements=j:{\"isCookieAccepted\":true,\"isAdultContentEnabled\":true,\"isAppAppInstallPromptClosed\":false}; _ym_isad=2; adrdel=1; adrcid=AWlqWV0hdTv8UbJRbL-6pFQ; _gpVisits={\"isFirstVisitDomain\":true,\"todayD\":\"Mon%20Jun%2013%202022\",\"idContainer\":\"100024EE\"}; _ga=GA1.2.1528100024.1654899183; _gp100024EE={\"hits\":2,\"vc\":1,\"ac\":1,\"a6\":1}; tmr_detect=0%7C1655143878686; _dc_gtm_UA-189134493-1=1; TS0115a7cc=01a93f7547183fd7f31fa622983ce71dc7ff259238f1791dbe1b7f8ebb91e2b54c0c23c5017e4c417527f5c1c5eb0abcf5516e5e5291bb86937e5cb49b5f4b64f700936d17; tmr_reqNum=277; session=j%3A%7B%22accessToken%22%3A%22eyJ0eXAiOiJKV1QiLCJhbGciOiJFUzUxMiJ9.eyJqdGkiOiI3ODVkM2Y5Yi0wNTg1LTRlNzYtOTFmNy1jZWVhZDI0MzllNDgiLCJpYXQiOjE2NTUxMzc1MzUsImV4cCI6MTY1NTE2NjMzNSwiZCI6IjcwYTM1NWIwLWFjN2YtNDQyOC04YzIwLWE3ZjliZjk1NGMwNCIsImFwaSI6IjEuNC4xLjAiLCJpcCI6Ijk1LjMxLjI3LjEwNyIsInUiOiI1ZDAzZWE1OS03ZTRmLTQ1YTYtOTMyMy1iZGQxMDA2OTVjZDkiLCJ0IjoxfQ.AbcxxE77utN17hp7ek6xq7Clqif0mVPzLwuewOmiWUhjeZXt9FQNrR7ooD0wTsoBVW_ohemmfobEwvhWLEZF48JsAIseFCmvBUUr5XaDtkrmZQAKTAnXmCS_MDncqbaMKd3JPk7qzNCYA1K2NdiluZP76KcVqPvuHrn0duo9fXKeJ2qH%22%2C%22refreshToken%22%3A%22eyJ0eXAiOiJKV1QiLCJhbGciOiJFUzUxMiJ9.eyJqdGkiOiIxZmQ4NTVlZi0wOGQwLTRmY2UtOWJhYS1hMDk0YTNlNjY5OTciLCJpYXQiOjE2NTUxMzc1MzUsImV4cCI6MTY3MDY4OTUzNSwiZCI6IjcwYTM1NWIwLWFjN2YtNDQyOC04YzIwLWE3ZjliZjk1NGMwNCIsImFwaSI6IjEuNC4xLjAiLCJpcCI6Ijk1LjMxLjI3LjEwNyIsInUiOiI1ZDAzZWE1OS03ZTRmLTQ1YTYtOTMyMy1iZGQxMDA2OTVjZDkiLCJ0IjoyfQ.AQDac40QlZZiprAuYQm8g_iyZtHsnVDIaKdy7PSI87FeyxbRLW6JrMDYUs1zZfi8F3T_1_lLE0ZmlPXCYcUpFoLjAQeEoRp38K0GAdw7-4GMDJD_a_eKQx_itPFpw4JxxE1laZwZODZMsfGUnzRn0IbKR3qJ3K7uJsEg7KpI8FKVLZR-%22%2C%22accessTokenExpiredAt%22%3A1655166335270%2C%22refreshTokenExpiredAt%22%3A1670689535270%2C%22device%22%3A%7B%22uuid%22%3A%2270a355b0-ac7f-4428-8c20-a7f9bf954c04%22%7D%7D; _ga_5K49P5RFR8=GS1.1.1655146284.16.0.1655146288.56"
  },
  "referrerPolicy": "no-referrer",
  "body": None,
  "method": "GET"
});

    per = perek.json()
    result = []
    for i in range(len(per['content']['items'])):
        result.append([per['content']['items'][i]['location']['coordinates'][0],
                    per['content']['items'][i]['location']['coordinates'][1],
                    per['content']['items'][i]['withCafe'],
                    per['content']['items'][i]['isDeliveryAvailable'],
                    per['content']['items'][i]['isCatalogAvailable'],
                    per['content']['items'][i]['isPickupAvailable']  
                    ])


    df_perek = pd.DataFrame(result, columns=['Lon', 'Lat', 'Cafe', 'Delivery', 'Catalog', 'Pickup'])
    return df_perek

data = get_perek_info()
#data.to_csv('Perek_points.csv', encoding='utf-8', index=False) 

###### Вот, что получилось. В БД содержится информация о координатах магазина, о том, есть ли в магазине услуга доставки и сбора онлайн-заказа, а также о наличии онлайн-каталога и кафе. 

In [6]:
pd.read_csv("Perek_points.csv")

Unnamed: 0,Lon,Lat,Cafe,Delivery,Catalog,Pickup
0,36.590546,50.599874,False,False,True,False
1,36.128741,51.743953,False,True,True,True
2,36.074339,52.955493,False,True,True,True
3,36.110325,52.950534,False,False,True,False
4,36.073844,52.985125,False,True,True,True
...,...,...,...,...,...,...
976,36.989839,55.810319,False,False,True,False
977,50.150707,53.195507,False,False,True,False
978,30.348438,59.831768,True,False,True,False
979,44.045809,56.275934,False,True,True,True


###### Ниже Вы можете увидеть расположение всех магазинах на карте с учетом доп. информации. Чем светлее точка, тем больше там услуг (кафе, доставка и тд).

In [7]:
points = pd.read_csv('Perek_points.csv')
for i in range(len(points['Cafe'])):
    points['Cafe'][i]=int(points['Cafe'][i])
    points['Delivery'][i]=int(points['Delivery'][i])
    points['Catalog'][i]=int(points['Catalog'][i])
    points['Pickup'][i]=int(points['Pickup'][i])
points['Sum']=points['Cafe']+ points['Delivery']+points['Catalog']+points['Pickup']

def coloring(x):
  if x <=1:
    return 'red'
  if 1<x<=3:
    return 'orange'
  if x==4:
    return 'yellow'

map = folium.Map([50.75215, 57.61819], zoom_start=3)
for ind, row in points.iterrows():
    folium.Circle([row.Lat, row.Lon],radius=20, color = coloring(row.Sum)).add_to(map) 
map


### Карта плотности по регионам России

#### Код я писал в Google Colab, потому что у меня не получилось скачать geopandas в Jupyter. Ниже прикрепляю результат работы кода в виде финальной карты.

In [None]:
gdf_perek = gpd.GeoDataFrame(points, geometry = gpd.points_from_xy(points['Lon'], points['Lat']))
with open('/content/drive/MyDrive/admin_level_4.geojson', encoding = 'utf-8') as f:
    a = json.load(f)

help_list = []
for i in range(len(a['features'])):
    help_list.append(
    [a['features'][i]['id'],
    a['features'][i]['name'],
    Polygon(a['features'][i]['geometry']['coordinates'][0][0])]
    )
    
df_polygons = pd.DataFrame(help_list, columns=['id', 'name', 'poly'])
gdf_polygons = gpd.GeoDataFrame(df_polygons, geometry = 'poly')
data = gpd.sjoin(gdf_perek, gdf_polygons, how='inner', predicate='intersects')
quantity = pd.DataFrame(data.groupby("name")['index_right'].count())
quantity.rename(columns={"index_right":"count"}, inplace=True)
df_map = gdf_polygons.merge(quantity, on='name')

fig, ax = plt.subplots(figsize=(15,8))
df_map.plot(column='count', ax=ax, legend=True)
ax.set_title("Heatmap of 'Perekrestok' shops in Russia");

![Heatmap%20Perek.png](attachment:Heatmap%20Perek.png)

# Часть 5. 
## Что использовалось в проекте? 

###### Pandas - использовалось куча возможностей: merge, append, concat, melt, автоматическое формирование таблиц, запись их в csv-файл, изменение значений в таблице, сортировка и тд. 
###### Веб-скреппинг - Selenium, БД о вакансиях Пятерочки 
###### REST API - работа с недокументированным API Перекрёстка
###### Визуализация - интерактивные altair графики с кликабельной легендой и доп. информацией при наведении мыши 
###### Numpy и scipy - только это и использовалось, чтобы вычислить данные о среднем темпе роста и построить соотв. графики
###### Streamlit 
###### Регулярные выражения - очищали изначальную таблицу с данными по потреблению в США от ненужных скобок и цифр в столбце с категориями трат 
###### Геоданные - folium и geopandas карты
###### Граф - интерактивный граф о вакансиях Пятёрочки 
###### Объём - больше 120 

### Итого, 14 баллов + впечатление