# Документация к проекту по Python
### Автор: Владислав Рубанов
---

Добрый день!

Здесь находится **документация** к программе. Вы найдете описание используемых модулей, а также документацию к двум типам функций и методов: базовым (или импортированным) — *раздел 1* и собственным — *раздел 2*.

Кроме того, здесь Вы можете найти информацию о том, в каком контексте используются те или иные функции в программе.

## Раздел 1: описание используемых функций

В данной работе фунцкии импортируются из следующих стандартных модулей:

* `bs4` и `requests` - Для удобства работы со ссылками и кодом страницы. Они позволят нам не вводить каждый раз ссылки вручную, а искать их с помощью тегов, атрибутов и значений атрибутов, а также собирать необходимую информацию с сайтов.
* `time` - Необходим для импорта одной функции, основная цель которой - искуственно замедлить реализацию кода, чтобы программа больше была похожа на человека и не вызвала подозрений у различных защитных алгоритмов сайтов.
* `selenium` - Данный модуль позволяет работать нам в браузере Chrome с помощью Python в автоматическом режиме, имитируя поведение человека в браузере, поскольку не к каждому сайту можно подключиться удаленно через `requests`.
* `pandas` - Данный модуль позволяет объединить и представить все собранные нами данные в виде таблицы, а также найти описательные статистики по разным переменным.
* `matplotlib` и `plotly` - Модули необходимы для построения графиков (визуализации данных).
* `statistics`, `collections` и `numpy` - Данные модули потребуются для вычисления описательных статистик.

Теперь подробнее **о встроенных и импортируемых функциях**, которые используются в коде:

In [None]:
Service()
wb.Chrome()
br.get()

Данные функции из модуля `selenium` используются для открытия браузера в автоматическом режиме (без ошибок) и перехода в нем по некоторой ссылке: в нашем случае, это базовая страница 2ГИС в Москве: https://2gis.ru/moscow/

Функция `Service` принимает на вход расположение файла `chromedriver`: например, `C:/Python/chromedriver`. Она закрепляет сервис, с которым мы будем работать в отдельную переменную. *Обратите внимание:* если у Вас компьютер на системе macOS, Ваш путь к файлу может значительно отличаться от приведенного в примере.

Функция `Chrome` открывает сам браузер Google Chrome в автоматическом режиме (без ошибок). На вход она принимает именованный параметр под названием `service` - результат исполнения функции `Service`, указанной выше.

Метод `get` принимает на вход параметр: URL-ссылку на сайт, который необходимо открыть в браузере, управляемом через `selenium`. Он "обращается" к браузеру, поэтому перед ним необходимо написать название переменной, которая отвечает за браузер: например, `br.get()`.

In [None]:
br.find_element(By.CSS_SELECTOR, )
field.send_keys()
br.implicitly_wait()
sleep(3)

Данные функции используются для поиска специального окна на сайте, отвечающего за поисковой запрос (поисковая строка), передачи туда некоторой информации (текста - поискового запроса), перехода к поиску и искуственному ожиданию некоторого времени.

Метод `find_element` требует указания типа особого языка иерархических правил, используемого для представления внешнего вида документа, написанного на HTML - `CSS_SELECTOR`. Далее необходимо указать параметр - то поле, которое программе необходимо найти на сайте (в нашем случае - поисковое окно) на данном "языке" (строка). Его значение можно найти в коде страницы, исследовав необходимое поле, куда нам нужно передать поисковый запрос.

Метод `send_keys` буквально "передает ключи", то есть отправляет некоторый поисковой запрос (текст) в поле, которое мы определили с помощью функции `find_element`. Он принимает на вход строку с текстом, который мы хотим, чтобы функция отправила в данное поле. Кроме того, если на сайте нет специальной кнопки, по которой можно нажать, чтобы перейти к результату поиска, можно также вместе с поисковым запросом передать специальный символ `\n`, отвечающий за перенос строки: в таком случае он будет имитировать нажатие кнопки `enter` на компьютере.

Метод `implicitly_wait` и функция `sleep` принимают на вход число: сколько секунд необходимо подождать программе в ходе реализации кода перед переходом к следующим строкам кода для имитации работы человека. Обычно рекомендуется указывать 2-3 секунды.

In [None]:
set()
.add()

Данные функция и метод отвечают за работу с множествами: функция `set` создает пустое множество и не требует параметров на вход, а метод множеств `.add` - добавляет к указанному множеству некоторое значение, указанное в качестве аргумента в скобках. Мы использует его в нашей программе в качестве контейнера для хранения ссылок на поисковые запросы и используем в цикле.

In [None]:
br.page_source
BeautifulSoup()
soup.find_all('a', attrs = {'class' : '_12164l30'})
link.get('href')

Данные функции и методы отвечают за работу с кодом страницы. Метод `.page_source` забирает код текущей страницы, на которой находится браузер, управляемый через  `selenium` и возвращает строку с ним.

Функция `BeautifulSoup` превращает строку с кодом сайта, полученную с помощью предыдущего метода, в преобразованный вид ("суп"), с которым далее можно будет легко работать, а именно искать необходимую нам информацию.

Метод `.find_all` ищет в преобразованном коде ("супе") страницы все теги, удовлетворяющие нашему запросу. Он принимает на вход название тега, который необходимо найти и именованный параметр `attrs` - уточнение: значение атрибутов и значений данных атрибутов, которые должны содержаться в данном теге; они записываются как словарь в формате `{'атрибут' : 'значение'}`. Метод возвращает список со всеми найденными тегами (или пустой список, если не было найдено ни одного подходящего элемента.

Метод `.get` используется для получения значения некоторого атрибута. На вход он принимает название атрибута (строку), значение которого мы хотим получить. Метод возвращает значение атрибута - строку. В нашем случае используется для сбора различных гиперссылок.

In [None]:
for place in places:
    soup = getSoupFromCurrentPage2(place)
    sleep(3)

С помощью цикла `for` мы проходимся по каждой ссылке в нашем списке, чтобы вытащить интересующую нас информацию, используя фунцкии, о которых говорилось ранее, а также которые будут описаны ниже. 

In [None]:
## Анализ первой страницы с основной информацией о кафе
    
    #... цикл for 
    
    # Название
    name = findInfoFromGlSoup_span('_oqoid')[0].text.upper()
    print(f'Сейчас анализируется место под названием {name}')  # Проверка
    
    # Комментарий
    if len(findInfoFromGlSoup_div('_avvjvo')) != 0:
        extra = findInfoFromGlSoup_div('_avvjvo')[0].text
    else:
        extra = 'Нет доп. информации'
    
    # Рейтинг
    if len(findInfoFromGlSoup_span('_1n8h0vx')) != 0:
        ranking = float(findInfoFromGlSoup_span('_1n8h0vx')[0].text)
    else:
        ranking = None

Небольшой отрывок из основного кода для демонстрации реализации ряда базовых функций и методов.

Итак, с помощью цикла `for` мы проходимся по каждой ссылке из списка. Преобразуя код страницы, мы собираем интересующую нас информацию с помощью поиска необходимых тегов и обращений к атрибуту. 

Название кофейни мы выводим в качестве строки из заглавных букв (поскольку некоторые заведения в рамках одной сети записаны так, а другие - маленькими символами) с помощью метода строк `.upper` . 

Для удобства мы также вывели строку для проверки, что данной кофейни анализируется через функцию `print`.

Кроме того, мы вытаскиваем комментарий и рейтинг с помощью условной конструкции `if-else`, где при наличии мы забираем нужный текст, в противном случае пишем об отсутсвии элемента: `None`. Наличие проверяется с помощью функции `len` и ее неравенства нулю (находим пустой список - данных нет). 

Также можно заметить, что мы используем функцию `float` для преобразования рейтинга из строки в вещественное число для дальнейшего анализа.

In [None]:
WebDriverWait(br, 20).until(EC.element_to_be_clickable((By.LINK_TEXT, )))
.click()

Функция `element_to_be_clickable` ищет на странице, открытой через `selenium`, аналог "поля" в `CSS_SELECTOR`, но делает это по тексту. После `By.LINK_TEXT` необходимо указать строку - название текста, к которому прикреплена гиперссылка, по которой необходимо перейти. С помощью данной функции мы перешли в раздел, который называется "Инфо", на сайте конкретного заведения.

In [None]:
for elem in findInfoFromGlSoup_div('_599hh'):
        # Адрес
        if len(elem.find_all('a', attrs = {'class' : '_2lcm958'})[0]) != 0:
            adress = ' '.join(elem.find_all('a', attrs = {'class' : '_2lcm958'})[0].text.split())
        else:
            adress = None
        
        # Район
        if len(findInfoFromSoup_div(elem, '_1p8iqzw')[0].text.split(', ')[0]) != 0:
            area = findInfoFromSoup_div(elem, '_1p8iqzw')[0].text.split(', ')[0]
        else:
            area = None
        
        # Рабочее время сегодня
        if len(findInfoFromSoup_div(elem, '_18zamfw')) != 0:
            if 'Сегодня' in findInfoFromSoup_div(elem, '_18zamfw')[0].text:
                workTimeToday = findInfoFromSoup_div(elem, '_18zamfw')[0].text[:24].strip()
            elif 'Ежедневно' in findInfoFromSoup_div(elem, '_18zamfw')[0].text:
                workTimeToday = findInfoFromSoup_div(elem, '_18zamfw')[0].text[:26].strip()
        else:
            workTimeToday = None
        
        # Загруженность сегодня
        if len(findInfoFromSoup_div(elem, '_mi65ux')) != 0:
            occupancy = [] 
            for info in findInfoFromSoup_div(elem, '_mi65ux'):
                t = 0
                for time in findInfoFromSoup_div(info, '_yxu57z'):
                    if time.get('style').endswith('transform'):
                        x = str(int(float(time.get('style').split('(')[1].split(')')[0])*100)) + '%'
                        occupancy.append((t, x))
                    t += 1
        else:
            occupancy = None

Итак, мы переходим на следующую страницу информации о кофейни (с помощью функции `element_to_be_clickable`), где вытаскиваем информацию об адресе, районе, рабочем времени и загруженности сегодня по тому же принципу, что был описан выше. 

Для удобства мы, найдя значение атрибута, собрали адрес кофейни в список с помощью метода `.split ` (чтобы избавиться от лишних служебных пробельных символов внутри адреса), а затем снова сделали из него целую строку с помощью метода `.join ` и объединения по пробелам.

Рабочее время, которое отражено на странице сайта мы подразделили на указания времени работы "Сегодня" и время работы "Ежедневно", так как каждая кофейня по-своему отображает график работы. Для чтобы убрать все пробелы, выдаваемые кодом, мы воспользовались методом `.strip `.

In [None]:
    # Средний чек
    for info in findInfoFromGlSoup_span('_14quei'):
        for tags in findInfoFromSoup_span(info, '_er2xx9'):
            if 'чек' in tags.text:
                meanCheque = int(tags.text.split()[2])
                break
            else:
                meanCheque = None
        break
    
    # Станции метро
    metros = []
    for info in findInfoFromGlSoup_div('_599hh'):
        for header in findInfoFromSoup_span(info, '_btwk9a2'):
            if 'Транспорт' in header.text:
                for metro in findInfoFromSoup_div(info, '_172gbf8')[1]:
                    for i in range(len(metro.find_all('a', attrs = {'class' : '_1rehek'}))):
                        metros.append((metro.find_all('a', attrs = {'class' : '_1rehek'})[i].text))
                        
    # Время до станции
    metroMinutes = []
    metroMetres = []
    for info in findInfoFromGlSoup_div('_599hh'):
        for header in findInfoFromSoup_span(info, '_btwk9a2'):
            if 'Транспорт' in header.text:
                for metro in findInfoFromSoup_div(info, '_172gbf8')[1]:
                    for i in range(len(findInfoFromSoup_span(metro, '_5fyrv3'))):
                        data = findInfoFromSoup_span(metro, '_5fyrv3')[i].text
                        if 'мин' in data:
                            metroMinutes.append(int(data.split()[0]))
                        else:
                            metroMetres.append(checkMetres(float(data.split()[0]))) # проверка на метры/км

Перейдя на страницу "Инфо", мы вытаскиваем информацию о среднем чеке, станции метро и времени, которое затрачивает человека для того, чтобы дойти от метро до кофейни. Вытаскиваем по тому же принципу, что был описан выше. Так как станций метро может быть несколько в ближайшем расстоянии от кофейни, мы сделали список и найденные значения добавляли в этот список с помощью функции `.append`.

Кроме того, видно, что мы используем функцию `int` для преобразования минут до метро и среднего чека из строки в целое число.

In [None]:
if name not in df:
        df[name] = [
            ranking, adress, area, metros, metroMinutes, metroMetres, 
            meanCheque, workTimeToday, occupancy, extra
            ]
    else:
        df[name + f' {n}'] = [
            ranking, adress, area, metros, metroMinutes, metroMetres, 
            meanCheque, workTimeToday, occupancy, extra
            ]
        
    print(f'Место {name} успешно проанализировано и записано \n')  # Закончили анализ кафе
    n += 1

В ранее созданный словарь мы добавляем все полученные элементы, где ключом у нас выступает название кофейни, а значениями информация, которую мы нашли. Мы также делаем проверку на то, есть ли в нашем словаре пара ключ-значение с уже существующим ключом (такое может быть, поскольку некоторые места, которые еще не открылись записаны просто как SURF COFFEE). Для исключения перезаписи данных (и, следовательно, потери информации) в случае повтора мы добавляем к названию места уникальный id - номер поиска, за который отвечает счетчик, установленный ранее.

In [None]:
pd.DataFrame.from_dict()

Данная функция из модуля `pandas` преобразует словарь в таблицу. В качестве параметров она берет на вход название словаря, который нужно преобразовать, тип ориентации, а также названия колонок. В нашем случае таблица по строкам будет содержать название кофеен, а по столбцам - признаки, по которым мы вытаскивали информацию из 2ГИС.

In [None]:
coffee_df.to_csv('coffee_df.csv', encoding='utf-8-sig')
coffee_df.to_excel('coffee_df2.xlsx', encoding='utf-8-sig')

Две данные функции выгружают получившуюся таблицу в формате `.csv` или `.xlsx`. На вход они принимают названия новых документов (строка) и тип кодировки.

In [None]:
sorted()

Функция `sorted` возвращает отсортированный список. Она принимает на вход название данных, которые нужно отсортировать, также у нее есть параметр `key`, в котором можно указать название функции, которую нужно применить ко всем элементам перед сортировкой.

---

Далее следует блок функций, необходимых для расчета **описательных статистик** на основе полученных данных. Они импортированы из следующих пакетов: `pandas`, `statistics`, `collections` и `numpy`.

Для поиска средних значений по интересующим количественным переменным использовался метод `.mean`. Он не требует ничего на вход, однако должен быть применен к соотвествтующей колонке из таблицы: например, `coffee_df['Средний чек'].mean()`. Метод возвращает среднее значение по столбцу в виде вещественного числа. Для того, чтобы привести все средние в более приятный для восприятия вид, к результатам исполнения метода также была применена функция округления: `round`, которая требует на вход самое значение, которое нужно округлить, в качестве первого параметра и целое число - до какого знака после запятой необходимо округлить значение.

Для поиска среднего значения времени и расстояния до метро были предваарительно найдены средние значения данных показателей для каждой из кофеен (поскольку метро может быть сразу несколько) и добавлены в специальный список для дальнейшего расчета.

In [None]:
print('Среднее значение рейтинга в кофейнях:', round(coffee_df['Рейтинг'].mean(), 2))

# Ищем среднее время от метро в минутах
meanMetro = []
for i in coffee_df['Минут до метро']:
    meanMetro.append(round(mean(i), 1))
    
print('Среднее значение минут от метро до кофейни:', round(mean(meanMetro), 1))

Метод для поиска медианного значения `.median` устроен схожим образом с методом `.mean`. 

Кроме того, для поиска медианы времени и расстояния до метро также были созданы специальные списки, но уже с помощью метода списков `.extend`.

In [None]:
print('Медиана для среднего чека:', coffee_df['Средний чек'].median())

# Ищем медианное время от метро в минутах
medianMetro = []
for i in coffee_df['Минут до метро']:
    medianMetro.extend(i)

print('Медиана для времени от метро в минутах:', median(medianMetro))

Метод `.value_counts` использовался для подсчета числа совпадений уникальных значений: к примеру, числа районов, в которых находятся кофейни:

In [None]:
print(coffee_df['Район'].value_counts())

Метод `.mode` и собственная функция `my_mode` использовались для нахождения моды (о последней - ниже):

In [None]:
print(coffee_df['Рабочее время сегодня'].mode())

modeMetro = []
for i in coffee_df['Метро']:
    modeMetro.extend(i)
    
print(my_mode(modeMetro))

Для вычисления квантилей разного уровня использовались метод `.quantile`, принимающий на вход уровень квантиля, который необходимо рассчитать (от 0 до 1), а также импортированная функция `quantile`, имеющая два параметра: источник данных, на котором нужно найти квантиль и уровень квантиля.

In [None]:
print('Квантиль уровня 0.25 для рейтинга:', coffee_df['Рейтинг'].quantile(0.25))
print('Квантиль уровня 0.8 для времени от метро:', round(quantile(medianMetro, 0.8), 2))

---

Финальный блок функций, посвященный **визуализации**.

In [None]:
plt.bar(data.keys(), data.values())
  
plt.title("Рейтинг кафе")
  
plt.xlabel('Рейтинг')
plt.ylabel('Количество кафе')
  
plt.show()

С помощью функции ` .bar ` мы строим вертикальную гистограмму для рейтинга кофеен, который будет располагаться на оси "x" (` .xlabel `), а также количество кафе на каждое значение этого рейтинга, которое будет располагаться по оси y(` .ylabel `). Далее мы показываем результаты с помощью функции ` .show `.

In [None]:
plt.bar(data1.keys(), data1.values())
  
plt.title("Близость кафе к метро(в минутах)")

plt.xlabel('Минуты от метро')
plt.ylabel('Количество кафе')
  
plt.show()

Строим также вертикальную гистограмму для расстояния кофеен от метро в минутах. На вход принимаются также количество минут и количество кофеен по аналогии с предыдущим графиком.  

In [None]:
plt.bar(data2.keys(), data2.values())
  
plt.title("Близость кафе к метро(в метрах)")
  
plt.xlabel('Расстояние от метро')
plt.ylabel('Количество кафе')
  
plt.show()

Строится вертикальная гистограмма для расстояния кофеен от метро в метрах. На вход принимаются также количество метров и количество кофеен. Для более удобного представления графика мы используем укрупненный масштаб.

In [None]:
fig, ax1 = plt.subplots()
ax1.pie(data4.values(), labels=data4.keys(),autopct='%1.1f%%', startangle= 10)
plt.title("Средний чек")
plt.show()

Строим pie-chart для среднего чека, где на вход принимаются значения среднего чека и количество кофеен с таким же значением среднего чека. Для удобства мы вывели проценты, которые показывают соотношение значений. Поскольку существуют записи в наборе данных, у которых нет информации о среднем чеке, мы используем функцию `dropna` для того, чтобы предварительно удалить строки с отсутствующими значениями среднего чека. Для этого мы создаем новый датасет из одной переменной - среднего чека и применяем к нему данную функцию. На вход она принимает сразу несколько параметров: 
`axis` - 0, чтобы удалять строки и 1, чтобы удалять столбцы; `how` - определяет, удаляется ли строка или столбец из набора данных, когда у нас есть хотя бы один NA или все NA; `thresh` - принимает целочисленное значение, определяющее минимальное количество отбрасываемых значений NA; `subset` - массив, который ограничивает процесс отбрасывания переданными строками/столбцами через список и `inplace` - возвращает логическое значение, которое вносит изменения в сам фрейм данных, если оно равно `True`.

Источник: https://pythonpip.ru/pandas/pandas-dropna

In [None]:
coffee_df2 = coffee_df['Средний чек']
coffee_df2 = pd.DataFrame(coffee_df2)

coffee_df2 = coffee_df2.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

Далее следуют два интерактивных графика, построенных с помощью функции из модуля `plotly`.

За построение (буквально - создание фигуры) отвечает функция `Figure`, которая на вход в качестве именованного параметра `data` принимает данные, которые берутся за основу для построения гистограммы. Кроме того, в скобках необходимо указать тип диаграммы. В нашем случае - это `Histogram`. Кроме того, создав график, нужно не забыть показать его через функцию `show`, которая не требует параметров на вход.

In [None]:
fig = go.Figure(data = [go.Histogram(x = sorted(coffee_df['Район']))])
fig.show()

## Раздел 2: описание собственных функций

В проекте используются следующие **собственные функции**:

In [None]:
def getSoupFromCurrentPage1():
    '''
    Функция ничего не требует на вход. 
    Функция забирает код текущей страницы в открытом через selenium браузере, 
    превращает его в "суп" и возвращает преобразованный код страницы.
    Требует импорта модуля `BeautifulSoup`
    '''
    page = br.page_source
    soup = BeautifulSoup(page)
    return soup

Функция не требует параметров на вход. Для реализации она требует импорта модуля `BeautifulSoup`. Данная функция забирает код текущей страницы в открытом через `selenium` браузере в автоматическом режиме, преобразует его в "суп" и возвращает преобразованный код страницы для дальнейшей работы. 

Данная функция используется для сокращения кода, когда мы находимся на некоторой странице, и для дальнейшей работы с ним нам необходимо забрать сам код, а также сделать из него рабочий формат для поиска необходимых тегов. Функция используется для предварительной работы с сайтом.

In [None]:
def getSoupFromCurrentPage2(url):
    '''
    Функция требует на вход параметр: строку со ссылкой, по которой нужно перейти в браузере,
    открытом через selenium.
    Функция забирает код текущей страницы в открытом через selenium браузер, 
    превращает его в "суп" и возвращает преобразованный код страницы.
    Требует импорта модуля `BeautifulSoup`
    '''
    br.get(url)
    page = br.page_source
    soup = BeautifulSoup(page)
    return soup

Данная функция очень похожа на предыдущую, но отличается следующим: она требует на вход один параметр: ссылку (строку), по которой предварительно необходимо перейти в браузере, после чего только проделать те же самые операции, что и в предыдущей. Используется в цикле, когда мы ходим по разным страницам, открываем их и собираем какие-то данные как подготовка сайта к парсингу.

In [None]:
def getPlacesFromSoup(soup):
    '''
    Функция требует на вход параметр: преобразованный код страницы ("суп").
    Функция ищет все теги 'div' со значением '_1hf7139' атрибута 'class',
    в которых находится информация о заведениях, размещенная на поисковой странице. 
    Возвращает список с тегами, в которые входят все заведения, расположенные на текущей поисковой странице.
    Требует импорта модуля `BeautifulSoup`
    '''
    places = soup.find_all('div', attrs = {'class' : '_1hf7139'})
    return places

Данная функция принимает на вход преобразованный код страницы, с которым мы сейчас работаем (к примеру, полученный с помощью одной из предыдущих функций).

Функция ищет все теги `div` в данном коде страницы, которые имеют атрибут `class` со значением `_1hf7139`. В тегах, удовлетворяющих данному условию находится информация о заведении, найденном в поиске (в блоках на самой поисковой странице). Функция возвращает список найденных тегов.

Функция используется в цикле: когда мы ходим по разным страницам с поиском и собираем теги со всеми найденными заведениями, чтобы затем получить ссылки на них.

In [None]:
def getLinkToPlace(soup):
    '''
    Функция требует на вход параметр: преобразованный код страницы ("суп").
    Функция ищет относительную ссылку на заведение, забирает ее и соединяет с "базовой" ссылкой на домен.
    Функция возвращает полную ссылку на заведение (строка).
    Требует импорта модуля `BeautifulSoup`
    '''
    url2GIS = 'https://2gis.ru'
    placeUrlShort = soup.find_all('a', attrs = {'class' : '_1rehek'})[0].get('href')
    placeUrlNew = url2GIS + placeUrlShort
    return placeUrlNew

Данная функция принимает на вход преобразованный код страницы, с которым мы сейчас работаем (к примеру, полученный с помощью одной из предыдущих функций). Работа всегда будет вестись с тегами, найденными с помощью предыдущей функции.

Функция ищет все теги `a` в данном коде страницы, которые имеют атрибут `class` со значением `_1rehek`. В тегах, удовлетворяющих данному условию находится относительная ссылка на заведение, найденное в поиске. Далее данная функция склеивает абсолютную (https://2gis.ru) и относительную ссылки и возвращает полную ссылку на конкретное заведение, код которого был передан на вход функции. 
Функция возвращает ссылку (строку) на одно из найденных заведений по поиску.

Функция используется в цикле вместе с предыдущими функциями, когда мы ходим по страницам с поисковыми запросами, забираем их код, ищем все теги с найденными заведениями, а также забираем ссылку на каждое из них.

---

Следующий блок функций используется для поиска необходимой информации (парсинга) про каждое заведение.

In [None]:
def findInfoFromGlSoup_div(atr):
    '''
    Функция требует на вход параметр: значение атрибута 'class', теги 'div' с которым необходимо найти.
    Функция работают с глобальной переменной soup, в которой находится преобразованный код страницы ("суп").
    Функция возвращает список со всеми тегами, удовлетворяющими запросу.
    Требует импорта модуля `BeautifulSoup`
    '''
    global soup
    info = soup.find_all('div', attrs = {'class' : atr})
    return info

Данная функция принимает на вход значение атрибута `class` тега `div`, которое нам необходимо найти в зависимости от типа информации, который мы хотим забрать со страницы заведения. Функция в качестве кода страницы всегда берет глобальную переменную `soup`. Это сделано для удобства, поскольку она всегда используется в цикле с преобразованным кодом страницы, который всегда записан в данную переменную, чтобы не прописывать это каждый раз по отдельности.

В тегах, которые удовлетворяют данным условиям, находится различная полезная информация про заведения, например, адрес, район, рабочее время, средний чек, метро и т.д. 

Функция возвращает список найденных тегов.

In [None]:
def findInfoFromGlSoup_span(atr):
    '''
    Функция требует на вход параметр: значение атрибута 'class', теги 'span' с которым необходимо найти.
    Функция работают с глобальной переменной soup, в которой находится преобразованный код страницы ("суп").
    Функция возвращает список со всеми тегами, удовлетворяющими запросу.
    Требует импорта модуля `BeautifulSoup`
    '''
    global soup
    info = soup.find_all('span', attrs = {'class' : atr})
    return info

Данная функция практически не отличается от предыдущей. Единственное различие: она ищет теги `span`, а не `div`. В данным тегах находится другая, не менее важная информация: название кофейни, рейтинг и др. Она используется в таком же цикле.

In [None]:
def findInfoFromSoup_div(soup, atr):
    '''
    Функция требует на вход 2 параметра: преобразованный код страницы ("суп")
    и значение атрибута 'class', теги 'div' с которым необходимо найти.
    Функция возвращает список со всеми тегами, удовлетворяющими запросу.
    Требует импорта модуля `BeautifulSoup`
    '''
    info = soup.find_all('div', attrs = {'class' : atr})
    return info

Данная функция идейно похожа на две предыдущие, но отличается тем, что не использует глобальную переменную. Она требует на вход два параметра: преобразованный код страницы, с которым мы работаем в данный момент и значение атрибута `class` тега `div`, которое нам необходимо найти в зависимости от типа информации, который мы хотим забрать со страницы заведения.

В данной функции мы используем локальную, а не глобальную переменную, поскольку она используется в случаях, когда нам необходимо производить поиск не по всему коду страницы, который находится в глобальной переменной `soup`, а лишь в части кода страницы: например, в каком-либо блоке, к примеру, где записаны разные станции метро.

Функция возвращает список найденных тегов. Она также используется в цикле для поиска необходимой информации.

In [None]:
def findInfoFromSoup_span(soup, atr):
    '''
    Функция требует на вход 2 параметра: преобразованный код страницы ("суп")
    и значение атрибута 'class', теги 'span' с которым необходимо найти.
    Функция возвращает список со всеми тегами, удовлетворяющими запросу.
    Требует импорта модуля `BeautifulSoup`
    '''
    info = soup.find_all('span', attrs = {'class' : atr})
    return info

Как и в предыдущей "паре" функций, данная функция отличается от предыдущей тем, что она ищет теги `span`, а не `div`. Она используется в таком же цикле.

In [None]:
def checkMetres(x):
    '''
    Функция требует на вход параметр: целое или вещественное число.
    Функция проверяет условие: больше, либо равно ли данное число 10 или меньше 10.
    Если число x меньше, либо равно 10, функция возвращает данное число, умноженное на 1000.
    В ином случае функция возвращает данное число x без изменений.
    '''
    return (lambda x : x*1000 if x <= 10 else x)(x)

Следующая функция принимает на вход целое или вещественное число и с помощью безымянной функции `lambda` проверяет следующее условие: меньше или равно ли данное число числу 10. В положительном случае функция возвращает данное число, умноженное на 1000, а в ином - возвращает его без изменений.

Данная функция необходима для удобства обработки расстояния от метро до некоторого заведения. Большие расстояния в 2ГИС  записываются в километрах (например, 1.5 или 1.2), а для небольших расстояний - в метрах (например, 750.0). Данная функция необходима для унификации переменной, отвечающей за расстояние от метро до кафе. Число 10 взято с запасом: расстояние, большее 2 км не встречалось. Минимальное найденное расстояние до метро - 40 м, поэтому данная функция всегда работает корректно.

In [None]:
# источник: https://rukovodstvo.net/posts/id_772/
def my_mode(sample):
    c = Counter(sample)
    return [k for k, v in c.items() if v == c.most_common(1)[0][1]]

Последняя собственная функция, которая используется в данном коде. Она была взята из источника https://rukovodstvo.net/posts/id_772/.

Она используется для нахождения моды распределения. На вход она принимает выборку (данные: список или кортеж), преобразует в особый тип данных с помощью функции `Counter` из модуля `collections`, который считает число совпадений (сколько раз повторяется такое значение). Затем с помощью спискового включения мы достаем самое популярное значение, т.е. моду, в виде списка. Важно, что данная функция может вернуть моду, состоящую не только из одного значения в случае, если сразу несколько значений повторяются некоторое количество раз.