#     Проектная работа

# Рынок заведений общественного питания Москвы

# Описание проекта

Инвесторы из фонда «Shut Up and Take My Money» решили попробовать себя в новой области и открыть заведение общественного питания в Москве. Заказчики ещё не знают, что это будет за место: кафе, ресторан, пиццерия, паб или бар, — и какими будут расположение, меню и цены.

Для начала они просят вас — аналитика — подготовить исследование рынка Москвы, найти интересные особенности и презентовать полученные результаты, которые в будущем помогут в выборе подходящего инвесторам места.
Постарайтесь сделать презентацию информативной и лаконичной. Её структура и оформление сильно влияют на восприятие информации читателями вашего исследования. Выбирать инструменты (matplotlib, seaborn и другие) и типы визуализаций вы можете самостоятельно.

Вам доступен датасет с заведениями общественного питания Москвы, составленный на основе данных сервисов Яндекс Карты и Яндекс Бизнес на лето 2022 года. Информация, размещённая в сервисе Яндекс Бизнес, могла быть добавлена пользователями или найдена в общедоступных источниках. Она носит исключительно справочный характер.

# Описание данных

Файл `moscow_places.csv`:

`name` — название заведения;

`address` — адрес заведения;

`category` — категория заведения, например «кафе», «пиццерия» или «кофейня»;

`hours` — информация о днях и часах работы;

`lat` — широта географической точки, в которой находится заведение;

`lng` — долгота географической точки, в которой находится заведение;

`rating` — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — `5.0`);

`price` — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;

`avg_bill` — строка, которая хранит среднюю стоимость заказа в виде диапазона, например:

* «Средний счёт: 1000–1500 ₽»;

* «Цена чашки капучино: 130–220 ₽»;

* «Цена бокала пива: 400–600 ₽».

   и так далее;

`middle_avg_bill` — число с оценкой среднего чека, которое указано только для значений из столбца `avg_bill`, начинающихся с подстроки «Средний счёт»:

* Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.

* Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.

* Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.

`middle_coffee_cup` — число с оценкой одной чашки капучино, которое указано только для значений из столбца `avg_bill`, начинающихся с подстроки «Цена одной чашки капучино»:

* Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.

* Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.

* Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.

`chain` — число, выраженное `0` или `1`, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки):

* 0 — заведение не является сетевым

* 1 — заведение является сетевым

`district` — административный район, в котором находится заведение, например Центральный административный округ;

`seats` — количество посадочных мест.

# Инструкция по выполнению проекта

# Шаг 1. Загрузите данные и изучите общую информацию

Загрузите данные о заведениях общественного питания Москвы.
Путь к файлу: `/datasets/moscow_places.csv.`
Изучите общую информацию о датасете. Сколько заведений представлено? Что можно сказать о каждом столбце? Значения какого типа они хранят? 

# Шаг 2. Выполните предобработку данных

Изучите, есть ли дубликаты в данных. Поищите пропуски: встречаются ли они, в каких столбцах? Можно ли их обработать или оставить как есть?

Выполните предобработку данных:

* Создайте столбец `street` с названиями улиц из столбца с адресом.

* Создайте столбец `is_24/7` с обозначением, что заведение работает ежедневно и круглосуточно (24/7):

* логическое значение `True` — если заведение работает ежедневно и круглосуточно;
* логическое значение `False` — в противоположном случае.

# Шаг 3. Анализ данных

* Какие категории заведений представлены в данных? Исследуйте количество объектов общественного питания по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Ответьте на вопрос о распределении заведений по категориям.

* Исследуйте количество посадочных мест в местах по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Проанализируйте результаты и сделайте выводы.

* Рассмотрите и изобразите соотношение сетевых и несетевых заведений в датасете. Каких заведений больше?

* Какие категории заведений чаще являются сетевыми? Исследуйте данные и ответьте на вопрос графиком.

* Сгруппируйте данные по названиям заведений и найдите топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе. Постройте подходящую для такой информации визуализацию. Знакомы ли вам эти сети? Есть ли какой-то признак, который их объединяет? К какой категории заведений они относятся?

* Какие административные районы Москвы присутствуют в датасете? Отобразите общее количество заведений и количество заведений каждой категории по районам. Попробуйте проиллюстрировать эту информацию одним графиком.

* Визуализируйте распределение средних рейтингов по категориям заведений. Сильно ли различаются усреднённые рейтинги в разных типах общепита?

* Постройте фоновую картограмму (хороплет) со средним рейтингом заведений каждого района. Границы районов Москвы, которые встречаются в датасете, хранятся в файле `admin_level_geomap.geojson`.

* Отобразите все заведения датасета на карте с помощью кластеров средствами библиотеки `folium`.

* Найдите топ-15 улиц по количеству заведений. Постройте график распределения количества заведений и их категорий по этим улицам. Попробуйте проиллюстрировать эту информацию одним графиком.

* Найдите улицы, на которых находится только один объект общепита. Что можно сказать об этих заведениях?

* Значения средних чеков заведений хранятся в столбце `middle_avg_bill`. Эти числа показывают примерную стоимость заказа в рублях, которая чаще всего выражена диапазоном. Посчитайте медиану этого столбца для каждого района. Используйте это значение в качестве ценового индикатора района. Постройте фоновую картограмму (хороплет) с полученными значениями для каждого района. Проанализируйте цены в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях?

* Необязательное задание: проиллюстрируйте другие взаимосвязи, которые вы нашли в данных. Например, по желанию исследуйте часы работы заведений и их зависимость от расположения и категории заведения. Также можно исследовать особенности заведений с плохими рейтингами, средние чеки в таких местах и распределение по категориям заведений.

* Соберите наблюдения по вопросам выше в один общий вывод.

# Шаг 4. Детализируем исследование: открытие кофейни

Основателям фонда «Shut Up and Take My Money» не даёт покоя успех сериала «Друзья». Их мечта — открыть такую же крутую и доступную, как «Central Perk», кофейню в Москве. Будем считать, что заказчики не боятся конкуренции в этой сфере, ведь кофеен в больших городах уже достаточно. Попробуйте определить, осуществима ли мечта клиентов.

Ответьте на следующие вопросы:

* Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?
* Есть ли круглосуточные кофейни?
* Какие у кофеен рейтинги? Как они распределяются по районам?
* На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

По желанию вы можете расширить список вопросов для исследования, добавив собственные.
Постройте визуализации. Попробуйте дать рекомендацию для открытия нового заведения. Это творческое задание: здесь нет правильного или неправильного ответа, но ваше решение должно быть чем-то обосновано. Объяснить свою рекомендацию можно текстом с описанием или маркерами на географической карте.

# Шаг 5. Подготовка презентации

Подготовьте презентацию исследования для инвесторов. Отвечая на вопросы о московском общепите, вы уже построили много диаграмм, и помещать каждую из них в презентацию не нужно. Выберите важные тезисы и наблюдения, которые могут заинтересовать заказчиков. 
Для создания презентации используйте любой удобный инструмент, но отправить презентацию нужно обязательно в формате PDF. 

Приложите ссылку на презентацию в markdown-ячейке в формате:

Презентация: <ссылка на облачное хранилище с презентацией> 

## Загрузите данные и изучите общую информацию

In [1]:
# импортируем библиотеки

import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import folium
import warnings; warnings.filterwarnings(action='ignore')
import re
import json
from folium.plugins import MarkerCluster

# устанавливаем стиль графиков
sns.set_style('darkgrid')  
sns.set_context('notebook')    
sns.set_style('ticks')    

# Чтобы при выводе таблицы отображался весь столбец с описанием

pd.set_option('display.max_colwidth', 0)

ModuleNotFoundError: No module named 'folium'

In [None]:
def first_look(df):
    """Display basic information about the dataframe"""
    
    display(df.info())
    display(df.head(5))
    display(df.describe())
    display('Пропуски %:', round((df.isna().mean()*100),2))
    display('Количество дубликатов:', df.duplicated().sum())
    display('Дубликаты по сочетанию названия и адреса:',df.duplicated(subset=['name', 'address']).sum())

In [None]:
# загрузим файлы с данными и сохраненим в df

    
try:
    df = (pd.read_csv('/Users/Амина/Downloads/moscow_places.csv')     
    )
except:
    df = (pd.read_csv('/datasets/moscow_places.csv')
    )
first_look(df)

In [None]:
numbers_of_nulls = pd.DataFrame(columns=['names'], data=df.columns)
numbers_of_nulls['nulls'] = df.isna().sum().values
numbers_of_nulls['nulls_percent'] = round((numbers_of_nulls['nulls']/df.shape[0]*100),2)
numbers_of_nulls

Таблица содержит информацию о 8406-х разнообразных точках питания в Москве. Имеются пропуски данных, дубликатов нет, а так же по сочетанию названия и адреса тоже нет. Большая часть колонок представляет собой объекты категориального характера, типы колонок верные. Пропуски пока оставляем, будем анализировать только доступную информацию, очень большое кол-во пропуков, тогда знасение будет иметь неправдивый результат исследования.

## Выполните предобработку данных

   * Создадим столбец `street` с названиями улиц из столбца с адресом

In [None]:
df['street'] = [re.split('\,', x)[1] for x in df['address']]
df['street'] = df['street'].str.lstrip()

```python
data['address'].str.split(', ').str[1]
```

In [None]:
# проверим корректность

df['check_street_spelling'] = [1 if (
    'ул.' or 'пер.' or 'ш.' or 'пр.' or 'б.' or 'бул.') in x else 0 for x in df['street']]

In [None]:
df[df['check_street_spelling'] > 0]

In [None]:
df[df['street'] == 'Ярославская улица'].head()

In [None]:
df[df['street'] == 'Нагорная улица'].head()

In [None]:
df[df['street'] == 'Варшавское шоссе'].head()

In [None]:
df['street'] = [x.replace('ул. Ярославская','Ярославская улица') for x in df['street']]
df['street'] = [x.replace('ул. Профсоюзная','Профсоюзная улица') for x in df['street']]

In [None]:
df[df['check_street_spelling'] > 0]

  * Создадим столбец `is_24/7` с обозначением, что заведение работает ежедневно и круглосуточно (24/7)

In [None]:
df['is_24/7'] = [True if x == 'ежедневно, круглосуточно' else False for x in df['hours']]

```python
data['hours'].str.contains('ежедневно, круглосуточно')

```

In [None]:
# посмотрим на распределение стоимости общего среднего чека

df['middle_avg_bill'].hist()

plt.title('Распределение стоимости общего среднего чека')

plt.show()

In [None]:
df[df['middle_avg_bill'] < np.quantile(
    df[~df['middle_avg_bill'].isna()][
        'middle_avg_bill'], 0.95)]['middle_avg_bill'].hist()

plt.title('Распределение стоимости общего среднего чека')

plt.show()

Распределение довольно большое, поэтому при дальнейшем анализе данных из столбца будем использовать все значения, лежащие в пределах 95% квантиля.

In [None]:
# посмотрим на распределение стоимости кофе

df['middle_coffee_cup'].hist()

plt.title('Распределение стоимости кофе')

plt.show()

In [None]:
df[df['middle_coffee_cup'] < np.quantile(
    df[~df['middle_coffee_cup'].isna()][
        'middle_coffee_cup'], 0.99)]['middle_coffee_cup'].hist()
plt.title('Распределение стоимости кофе')

plt.show()

В распределении есть отдельные выбросы, поэтому при дальнейшем анализе данных из столбца будем использовать все значения, лежащие в пределах 99% квантиля.

In [None]:
# добавим колонки с расчетом макс, мин и медианных цен за пиво


df['highest_price_beer_glass'] = [re.findall(
    r'\d+', str(x))[-1] if 'бокал' in str(x) else 0 for x in df['avg_bill']]

df['lowest_price_beer_glass'] = [re.findall(
    r'\d+', str(x))[0] if 'бокал' in str(x) else 0 for x in df['avg_bill']]

df['middle_beer_price'] = np.array(list(map(np.median, zip(
    df['highest_price_beer_glass'].astype(int), df['lowest_price_beer_glass'].astype(int)))))

In [None]:
# посмотрим на распределение стоимости пива

df[df['middle_beer_price'] != 0]['middle_beer_price'].hist()

plt.title('Распределение стоимости пива')

plt.show()

Распределение нормальное.

In [None]:
# посмотрим на распределение посадочных мест

df['seats'].hist()

plt.title('Распределение посадочных мест')

plt.show()

In [None]:
df[df['seats'] < np.quantile(
    df[~df['seats'].isna()][
        'seats'], 0.95)]['seats'].hist()

plt.title('Распределение посадочных мест')

plt.show()

Распределение довольно большое, поэтому при дальнейшем анализе данных из столбца будем использовать все значения, лежащие в пределах 95% квантиля.

In [None]:
# проверим распределение пропусков по стоимости кофе по округам для более точных дальнейших выводов

[print(f'{district}:',round(df[(df['category'] == 'кофейня') & (df['district'] == district)][
    'middle_coffee_cup'].isna().mean(),2)) for district in df[df['category'] == 'кофейня']['district'].unique()]

Пропуски особо не отличаются.

In [None]:
# проверим распределение пропусков по среднему чеку по округам для более точных дальнейших выводов

[print(f'{district}:',round(df[df['district'] == district][
    'middle_avg_bill'].isna().mean(),2)) for district in df['district'].unique()]

Пропуски распределены относительно равномерно, наибольшая доля в ЮВАО.

 При подготовке df было замечено большое количество пропусков во всех столбцах с информацией о стоимости, а также, в столбце с количеством посадочных мест, пропуски решено оставить и анализировать только доступную часть информации.

 Обнаружены выбросы в распределениях по среднему чеку, средней стоимости кофе, кол-ву посадочных мест - определили квантили, в рамках которых будем анализировать данные столбцы.

 Пропуски в столбцах со средним чеком и средней стоимостью кофе по округам распределены примерно равномерно.

 Явных дубликатов не обнаружено, дубликатов по сочетанию названия+адреса не обнаружено.

 Проверены и заменены названия улиц с сокращениями, такие, как ул., пер., ш. и т.д. Создали столбец `street` с названиями улиц из столбца с адресом и `is_24/7` с обозначением, что заведение работает ежедневно и круглосуточно (24/7)., макс/мин и медианных цен на пиво.

## Анализ данных

### Исследуйте количество объектов общественного питания по категориям: рестораны, кофейни, пиццерии, бары и так далее.

In [None]:
print('Всего уникальных названий:', df['name'].nunique())

In [None]:
df['category'].value_counts()

In [None]:
plt.figure(figsize=(7,9))
plt.title('Распределение заведений по категориям')

data = list(df['category'].value_counts())

y_axis = data
max_val = max(y_axis)
max_index = y_axis.index(max_val)
explode = tuple([0 if i!=max_index else 0.05 for i in range(len(y_axis))])

plt.pie(data, labels=df['category'].unique(), explode=explode, autopct='%.0f%%')
plt.show()

Больше всего заведений в категории кафе и ресторан и кофейня (28% и 24% и 17% соответственно). Меньше всего столовых и булочных (3% и 4% соответственно).

In [None]:
# посмотрим категории по округам

def get_category_distrib_per_district(district):
    plt.figure(figsize=(7,9))
    plt.title(f'Распределение заведений по категориям в {district}')

    data = df[df['district'] == district].groupby('category')['name'].count()
    
    y_axis = data
    max_val = max(y_axis)
    max_index = y_axis.idxmax()
    explode = tuple([0 if i!=max_index else 0.05 for i in range(len(y_axis))])

    plt.pie(data, labels=data.index, explode=explode, autopct='%.0f%%')
    plt.show()

In [None]:
for dis in df['district'].unique():
    get_category_distrib_per_district(dis)

Явно видно, что, кафе и рестораны имеют преимущество.
Наибольшее распространение имеют кафе во всех округах, кроме ЦАО.
Можно отметить, что пропорции примерно одинаковые во всех нецентральных округах.
По этим графикам кажется, что, если открывать кофейню, то лучшим местом будет ЮВАО из-за меньшей конкуренции, но нужно проанализировать и других факторы.


### Исследуйте количество посадочных мест в местах по категориям: рестораны, кофейни, пиццерии, бары и так далее.

In [None]:
round(df[df['seats'] < np.quantile(df[~df['seats'].isna()][
    'seats'], 0.95)].groupby('category')['seats'].mean().sort_values(ascending=False), 2)

In [None]:
x = df[df['seats'] < np.quantile(df[~df['seats'].isna()][
    'seats'], 0.95)].groupby('category')['seats'].mean().sort_values()
y = df[df['seats'] < np.quantile(df[~df['seats'].isna()][
    'seats'], 0.95)].groupby('category')['seats'].mean().index

fig = px.bar(df, x=x, y=y, title='Среднее количество посадочных мест по категории')

fig.update_layout(xaxis_title='Количество посадочных мест',
                   yaxis_title='Категория')

fig.show()

Наибольше вместительны столовые и рестораны (значения >90), менее вместительны бары, пабы, булочные(значение до 80). Пиццерии, кофейни и кафе (значения от 81 до 89). 

### Рассмотрите и изобразите соотношение сетевых и несетевых заведений в датасете.

In [None]:
print('Доля сетевых заведений от общего числа:', round(df['chain'].mean(),2))

In [None]:
def get_ratio_of_chains(category):
    print(f'Доля сетевых в {category}:', round(df[df['category'] == category]['chain'].mean(),2))

In [None]:
for cat in df['category'].unique():
    get_ratio_of_chains(cat)

In [None]:
plt.figure(figsize=(7,9))
plt.title('Соотношение сетевых и несетевых заведений от общего числа')

data = [df['chain'].mean(), 1 - df['chain'].mean()]

plt.pie(data, labels = ['Сетевые','Несетевые'], autopct='%.0f%%')
plt.show()

62% - Несетевые заведения, 38% - Сетевых.

### Какие категории заведений чаще являются сетевыми?

In [None]:
chains = df[df['chain'] == 1]

In [None]:
chains = chains['category'].value_counts()
chains

In [None]:
plt.figure(figsize=(7,9))
plt.title('Распределение долей категорий заведений среди сетевых')

data = list(chains)

y_axis = data
max_val = max(y_axis)
max_index = y_axis.index(max_val)
explode = tuple([0 if i!=max_index else 0.05 for i in range(len(y_axis))])

plt.pie(data, labels=chains.index, explode=explode, autopct='%.0f%%')
plt.show()

Больше всего в распределении долей категорий среди сетевых преобладают: кафе, ресторан, кофейня(24%, 23%, 22% соответственно). Менее всего столовая, булочная, бар,паб(3%, 5%, 5% соответственно).

In [None]:
chain_share = round(df.groupby('category')['chain'].agg(['count', 'mean']).sort_values('mean', ascending=False),2)
chain_share

In [None]:
y = chain_share['mean'].index
x = chain_share['mean']

plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=chain_share['mean'].reset_index())

plt.title('Доля сетевых заведений по категориям от общего числа')
plt.xlabel('Доля')
plt.ylabel('Категория')

plt.show()

Доля сетевых заведений по категориям от общего числа у булочной является самая высокая(0.61), а самая маленькая - у бара, паба(0.22).

### Сгруппируйте данные по названиям заведений и найдите топ-15 популярных сетей в Москве.

In [None]:
top_chains = df[df['chain'] == 1]['name'].value_counts().head(15)
top_chains

In [None]:
y = top_chains.index
x = top_chains

plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=top_chains.reset_index())

plt.title('Количество заведений по ТОП-15 сетям')
plt.xlabel('Количество заведений')
plt.ylabel('Название сети')

plt.show()

В топ-15 заведений лидирует Шоколадница(120), менее всего у заведения Му-Му(27). Данные сети знакомы, на мой взгляд признак объединения очевиден в доступности, удаленности в отношении метро, относятся к разным категориям, т.к. если заметить есть даже онлайн-доставка Яндекс Лавка[ресторан].

In [None]:
top_chains = df[df['name'].isin(list(top_chains.index))]

In [None]:
top_chains.groupby('name')['category'].unique().reset_index()

В зависимости от заведения имеют разные категории.

In [None]:
print('Доля заведений 24/7 среди ТОП-15 сетей:', round(top_chains['is_24/7'].mean(),2))

In [None]:
top_chains.groupby('name')['is_24/7'].sum().sort_values(ascending=False)

Всего 5% всех заведений, относящихся к ТОП-15 сетям, работают круглосуточно.

### Какие административные районы Москвы присутствуют в датасете? Отобразим общее количество заведений и количество заведений каждой категории по районам.

In [None]:
# сделаем фильтры по округам

sao = top_chains[top_chains['district'] == 'Северный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
uao = top_chains[top_chains['district'] == 'Южный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
svao = top_chains[top_chains['district'] == 'Северо-Восточный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
szao = top_chains[top_chains['district'] == 'Северо-Западный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
tsao = top_chains[top_chains['district'] == 'Центральный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
vao = top_chains[top_chains['district'] == 'Восточный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
zao = top_chains[top_chains['district'] == 'Западный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
uvao = top_chains[top_chains['district'] == 'Юго-Восточный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
uzao = top_chains[top_chains['district'] == 'Юго-Западный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)

In [None]:
plot = go.Figure(data=[go.Bar(
    name='САО',
    x=sao.index,
    y=sao.values
),
    go.Bar(
    name='ЮАО',
    x=uao.index,
    y=uao.values
),
    go.Bar(
    name='ВАО',
    x=vao.index,
    y=vao.values    
),
    go.Bar(
    name='ЗАО',
    x=zao.index,
    y=zao.values    
),
    go.Bar(
    name='ЦАО',
    x=tsao.index,
    y=tsao.values    
),
    go.Bar(
    name='СЗАО',
    x=szao.index,
    y=szao.values    
),
    go.Bar(
    name='СВАО',
    x=svao.index,
    y=svao.values    
),
    go.Bar(
    name='ЮЗАО',
    x=uzao.index,
    y=uzao.values    
),
    go.Bar(
    name='ЮВАО',
    x=uvao.index,
    y=uvao.values    
)], 
    layout= {'title': 'ТОП-15 крупных сетей. Распределение категорий заведений по районам.'})

plot.update_layout(
    updatemenus=[
        dict(
            active=0,
            buttons=list([
                dict(label="Все",
                     method="update",
                     args=[{"visible": [True, True, True, True, True, True, True, True, True]}]),
                dict(label="САО",
                     method="update",
                     args=[{"visible": [True, False, False, False, False, False, False, False, False]}]),
                dict(label="ЮАО",
                     method="update",
                     args=[{"visible": [False, True, False, False, False, False, False, False, False]}]),
                dict(label="ВАО",
                     method="update",
                     args=[{"visible": [False, False, True, False, False, False, False, False, False]}]),
                dict(label="ЗАО",
                     method="update",
                     args=[{"visible": [False, False, False, True, False, False, False, False, False]}]),
                dict(label="ЦАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, True, False, False, False, False]}]),
                dict(label="СЗАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, True, False, False, False]}]),
                dict(label="СВАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, False, True, False, False]}]),
                dict(label="ЮЗАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, False, False, True, False]}]),
                dict(label="ЮВАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, False, False, False, True]}]),
            ]),
        )
    ], barmode='stack', 
    autosize=False, 
    width=900, 
    height=800)

plot.show()

Большая часть крупных сетевых брендов - кофейни.

В САО, ЮАО, СЗАО больше всего преобладают кофейни, а меньше всего кафе.

В ВАО преобладают кофейни, а меньше всего булочные и столовые.

В ЗАО, СВАО, ЮЗАО преобладают кофейни, а меньше всего заведения быстрого питания.

В ЦАО можно выделить три категории заведений - кофейни, рестораны, кафе, а меньше всего заведения быстрого питания, бары и пабы, булочные и столовые.

В ЮВАО преобладают пиццерии, а меньше всего заведений быстрого питания, однако заметного разрыва кофеин, кафе и ресторанов нет.

Заведения категорий: бар/паб, быстрое питание, столовая - имеют наименьшую популяцию во всех округах. Это говорит о том, что в этих категориях преобладают несетевые предприятия. Возможно, это также связано с уходом из России крупных международных сетей.


In [None]:
df['district'].unique()

In [None]:
# сделаем фильтры по округам

sao = df[df['district'] == 'Северный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
uao = df[df['district'] == 'Южный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
svao = df[df['district'] == 'Северо-Восточный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
szao = df[df['district'] == 'Северо-Западный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
tsao = df[df['district'] == 'Центральный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
vao = df[df['district'] == 'Восточный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
zao = df[df['district'] == 'Западный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
uvao = df[df['district'] == 'Юго-Восточный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)
uzao = df[df['district'] == 'Юго-Западный административный округ'].groupby('category')['name'].count().sort_values(ascending=False)

In [None]:
plot = go.Figure(data=[go.Bar(
    name='САО',
    x=sao.index,
    y=sao.values
),
    go.Bar(
    name='ЮАО',
    x=uao.index,
    y=uao.values
),
    go.Bar(
    name='ВАО',
    x=vao.index,
    y=vao.values    
),
    go.Bar(
    name='ЗАО',
    x=zao.index,
    y=zao.values    
),
    go.Bar(
    name='ЦАО',
    x=tsao.index,
    y=tsao.values    
),
    go.Bar(
    name='СЗАО',
    x=szao.index,
    y=szao.values    
),
    go.Bar(
    name='СВАО',
    x=svao.index,
    y=svao.values    
),
    go.Bar(
    name='ЮЗАО',
    x=uzao.index,
    y=uzao.values    
),
    go.Bar(
    name='ЮВАО',
    x=uvao.index,
    y=uvao.values    
)], 
    layout= {'title': 'Все заведения. Распределение категорий заведений по районам.'})

plot.update_layout(
    updatemenus=[
        dict(
            active=0,
            buttons=list([
                dict(label="Все",
                     method="update",
                     args=[{"visible": [True, True, True, True, True, True, True, True, True]}]),
                dict(label="САО",
                     method="update",
                     args=[{"visible": [True, False, False, False, False, False, False, False, False]}]),
                dict(label="ЮАО",
                     method="update",
                     args=[{"visible": [False, True, False, False, False, False, False, False, False]}]),
                dict(label="ВАО",
                     method="update",
                     args=[{"visible": [False, False, True, False, False, False, False, False, False]}]),
                dict(label="ЗАО",
                     method="update",
                     args=[{"visible": [False, False, False, True, False, False, False, False, False]}]),
                dict(label="ЦАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, True, False, False, False, False]}]),
                dict(label="СЗАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, True, False, False, False]}]),
                dict(label="СВАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, False, True, False, False]}]),
                dict(label="ЮЗАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, False, False, True, False]}]),
                dict(label="ЮВАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, False, False, False, True]}]),
            ]),
        )
    ], barmode='stack', 
    autosize=False, 
    width=900, 
    height=800)

plot.show()

В целом самые популярные категории: кафе, рестораны, кофейни в ЦАО также выделяются бары. Остальные категории менее популярны.
    
В СЗАО меньшая концентрация по всем категориям, этот фактор может быть возможным ростом.

В САО можно выделить заведения в категории кафе, кофеня и ресторан, а менее всего можно отметить заведения категории столовая и булочная.

В ЮАО, ЗАО, СЗАО, СВАО, ЮЗАО, ЮВАО можно выделить заведения в категории кафе, ресторан и кофейни, менне всего так же столовых и булочных.

В ВАО явным лидиром является заведение в категории кафе, а наименьшее значение так же в столовых и булочных.

В ЦАО явных 4-ре лидера категорий: ресторан, кафе, кофейня, бар,паб, а наименьшее значение у столовых и булочных.
    


### Визуализируем распределение средних рейтингов по категориям заведений.

In [None]:
rating_by_cat = round(df.groupby('category')['rating'].mean().sort_values(ascending=False), 2)
rating_by_cat

In [None]:
x = rating_by_cat
y = rating_by_cat.index

plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=rating_by_cat.reset_index())
plt.xlim(4, 4.5)

plt.title('Средний рейтинг по категориям заведений')
plt.xlabel('Рейтинг')
plt.ylabel('Категория')

plt.show()

Средний рейтинг у категории бар,паб - наибольший(4.39), а наименьший у заведений быстрого питания(4.05). В целом видно, что рейтинг довольно плавно различается от 4.05 до 4.39.

### Построим фоновую картограмму (хороплет) со средним рейтингом заведений каждого района.

In [None]:
with open('/datasets/admin_level_geomap.geojson', 'r') as f:
        geo_json = json.load(f)
        json.dumps(geo_json, indent=2, ensure_ascii=False, sort_keys=True)

In [None]:
# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы

moscow_lat, moscow_lng = 55.751244, 37.618423

# создаём карту Москвы

m = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаем сводную

data = df.groupby('district')['rating'].mean()

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту

folium.Choropleth(
    geo_data=geo_json,
    data=data,
    columns=['district', 'rating'],
    key_on='feature.name',
    fill_color='BuGn',
    fill_opacity=0.8,
    legend_name='Средний рейтинг заведений каждого района',
).add_to(m)

# выводим карту

m

Заведения с наивысшими рейтингами сконцентрированы в ЦАО.

В САО и СЗАО средний рейтинг чуть ниже, в остальных округах средний рейтинг распределен примерно равномерно.

### Отобразим все заведения датасета на карте с помощью кластеров средствами библиотеки `folium`.

In [None]:
# создаём пустой кластер, добавляем его на карту

marker_cluster = MarkerCluster().add_to(m)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster

def create_clusters(row):
    folium.Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма

df.apply(create_clusters, axis=1)

# выводим карту

m

### Найдем топ-15 улиц по количеству заведений. Построим график распределения количества заведений и их категорий по этим улицам.

In [None]:
df.groupby('street')['name'].count().sort_values(ascending=False).head(15)

In [None]:
top_15_streets = df[df['street'].isin(
    df.groupby('street')['name'].count()
    .sort_values(ascending=False).head(15).index)]

In [None]:
top_15_streets_and_cat = top_15_streets.groupby(['street', 'category'], as_index=False)['name'].count()
top_15_streets_and_cat.rename({'name' : 'quantity'}, axis=1, inplace=True)

In [None]:
fig = px.bar(top_15_streets_and_cat, x='street', y='quantity', color='category')
fig.update_xaxes(tickangle=45)
fig.update_layout(title='Распределения количества заведений и их категорий по ТОП-15 улицам',
                   xaxis_title='Улица',
                   yaxis_title='Распределение',
                   autosize=False,
                   width=900,
                   height=800,
                   xaxis={'categoryorder':'total descending'})
fig.show()

Самое большое кол-во заведений - Проспект Мира(184).

Наименьшее кол-во заведений - Пятницкая улица(48).

Наименьшая концентрация баров,пабов на МКАДе, Каширском ш., Кутузовском проспекте и на  ул. Вавилова. Наивысшая концентрация на Ленинском пр-те и пр-те Мира.

Наивысшая концентрация быстрого питания на пр-те Мира, наименьшая на Кутузовском пр-те, Ленинском пр-те, Ленинградском пр-те и на Пятницкой ул.

Категория кафе распределено почти равномерно, наивысшая концентрация на пр-те Мира и МКАД, наименьшая - на Пятницкой ул.

Наибольшая концентрация кофеен на пр-те Мира, наименьшая - на МКАДе, на ул. Миклухо-Маклая.

Наибольшая концентрация пиццерий на ул. Профсоюзной, пр-те Вернадского и проспекте Мира, наименьшая - на Люблинской ул.

Наибольшая концентрация ресторанов на пр-те Мира, пр-те Вернадского и Ленинском пр-те, наименьшая - на МКАДе.

Наибольшая концентрация столовых на Варшавском шоссе, наименьшая - на МКАДе.

Наибольшая концентрация булочных на Ленинградском пр-те, пр-те Мира,на ул. Профсоюзной, наименьшая - на Кутузовском пр-те и пр-те Вернадского.

### Найдем улицы, на которых находится только один объект общепита.

In [None]:
one_eatary_streets = df.groupby('street')['name'].count() == 1
one_eatary_streets = one_eatary_streets[one_eatary_streets.values == True]

In [None]:
one_eatary_streets = df[df['street'].isin(one_eatary_streets.index)]
display(one_eatary_streets)

456 улиц на которых находится только один объект общепита

In [None]:
one_eatary_streets.groupby('district')['street'].count().sort_values(ascending=False)

In [None]:
round(one_eatary_streets.groupby('category')['street'].count().sort_values(ascending=False), 2)

In [None]:
round(one_eatary_streets.groupby('category')['rating'].mean().sort_values(ascending=False), 2)

Основная доля заведений приходится на ЦАО, где маленькие улицы, и возможно не все данные попали в датасет. Больше всего заведений в категории кафе, меньше-булочная. Средний рейтинг больше у бара, паба, а меньше у быстрого питания.

### Значения средних чеков заведений хранятся в столбце `middle_avg_bill`. Эти числа показывают примерную стоимость заказа в рублях, которая чаще всего выражена диапазоном. Посчитаем медиану этого столбца для каждого района. Используем это значение в качестве ценового индикатора района. Построим фоновую картограмму (хороплет) с полученными значениями для каждого района. Проанализируем цены в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях?

In [None]:
round(df[df['middle_avg_bill'] < np.quantile(df[~df['middle_avg_bill'].isna()][
    'middle_avg_bill'], 0.95)].groupby('district')[
    'middle_avg_bill'].median().sort_values(ascending=False), 2)

In [None]:
moscow_lat, moscow_lng = 55.751244, 37.618423

m = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

data = df[df['middle_avg_bill'] < np.quantile(df[~df['middle_avg_bill'].isna()][
    'middle_avg_bill'], 0.95)].groupby('district')[
    'middle_avg_bill'].mean()

folium.Choropleth(
    geo_data=geo_json,
    data=data,
    columns=['district', 'middle_avg_bill'],
    key_on='feature.name',
    fill_color='BuGn',
    fill_opacity=0.8,
    legend_name='Средний чек по районам',
).add_to(m)

m

In [None]:
print('Средний чек в ЦАО по отношению к остальным округам:', round(
    df[(df['middle_avg_bill'] < np.quantile(df[~df['middle_avg_bill'].isna()][
    'middle_avg_bill'], 0.95)) & (df['district'] == 'Центральный административный округ')][
    'middle_avg_bill'].mean() / 
    df[(df['middle_avg_bill'] < np.quantile(df[~df['middle_avg_bill'].isna()][
    'middle_avg_bill'], 0.95)) & (df['district'] != 'Центральный административный округ')][
    'middle_avg_bill'].mean(),2))

Самый высокий средний чек - в ЦАО и ЗАО.

Самый низкий средний чек в ЮАО, СВАО и ЮВАО.

В среднем чек в ЦАО на 20% выше, чем в остальных округах.

In [None]:
print('Средняя стоимость чашки капучино в кофейнях без конкурентов на своей улице:', \
round(one_eatary_streets[(one_eatary_streets[
    'middle_coffee_cup'] < np.quantile(one_eatary_streets[~df[
    'middle_coffee_cup'].isna()]['middle_coffee_cup'], 0.99)) & (one_eatary_streets['category'] == 'кофейня')][
    'middle_coffee_cup'].mean(),2))

print('Средняя стоимость чашки капучино в кофейнях из ТОП-15 концентрированных улиц:',
round(top_15_streets[(top_15_streets[
    'middle_coffee_cup'] < np.quantile(top_15_streets[~df[
    'middle_coffee_cup'].isna()]['middle_coffee_cup'], 0.99)) & (top_15_streets['category'] == 'кофейня')][
    'middle_coffee_cup'].mean(),2))

In [None]:
print('Средняя стоимость бокала пива в пабах:',
      round(df[(df['category'] == 'бар,паб') & (df['middle_beer_price'] != 0)]['middle_beer_price'].mean(),1))

In [None]:
pubs = df[df['category'] == 'бар,паб']

In [None]:
pubs.groupby('district')['name'].count().sort_values(ascending=False)

In [None]:
print('Доля пабов в ЦАО от всех пабов Москвы:', 
      round(pubs[(pubs['district'] == 'Центральный административный округ') & (pubs['middle_beer_price'] != 0)][
      'name'].count() / pubs[pubs['middle_beer_price'] != 0][
      'name'].count(), 2))

In [None]:
x = pubs.groupby('district')['name'].count().sort_values(ascending=False)
y = pubs.groupby('district')['name'].count().sort_values(ascending=False).index

plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=pubs.reset_index())

plt.title('Распределение пабов по округам')
plt.xlabel('Количество пабов')
plt.ylabel('Округ')

plt.show()

Большая часть пабов расположена в ЦАО.

In [None]:
round(pubs[pubs['middle_beer_price'] != 0].groupby('district')[
    'middle_beer_price'].mean().sort_values(ascending=False), 2)

In [None]:
moscow_lat, moscow_lng = 55.751244, 37.618423

m = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

data = pubs[pubs['middle_beer_price'] != 0].groupby(
    'district')['middle_beer_price'].mean()

folium.Choropleth(
    geo_data=geo_json,
    data=data,
    columns=['district', 'middle_beer_price'],
    key_on='feature.name',
    fill_color='BuGn',
    fill_opacity=0.8,
    legend_name='Средняя стоимость кружки пива по округам',
).add_to(m)

m

Большая часть пабов находится в ЦАО, в СЗАО их меньше всего. Стоимость бокала пива составляет в ЦАО-336р. в ВАО минимальный - 247р.

In [None]:
# посмотрим зависимость часов работы от округа и категории

df[df['hours'] != 'unknown']['hours'].value_counts().head(20)

Разобьем по категориям:
* ежедневно, круглосуточно
* ежедневно, но не круглосуточно
* по будням, не круглосуточно

In [None]:
df['hours'] = df['hours'].astype(str)

In [None]:
df['working_hours_cat'] = ['ежедневно, круглосуточно' if x != 'unknown' 
                           and x == 'ежедневно, круглосуточно' else

                          ('ежедневно, но не круглосуточно' if x != 'unknown' 
                           and (('ежедневно' in x and 'круглосуточно' not in x) 
                           or ('сб' in x and 'вс' in x)) else

                          ('по будням, не круглосуточно' if x != 'unknown' 
                           and ('ежедневно' not in x and 'круглосуточно' not in x) 
                           else 0))
                          for x in df['hours']]

In [None]:
df.groupby('working_hours_cat')['name'].count().sort_values(ascending=False)

Большая часть заведений работает ежедневно, но не круглосуточно, меньше всего круглосуточных.

In [None]:
work_hours_per_distr = df[df['working_hours_cat'] != 0].groupby(
    ['district', 'working_hours_cat'], as_index=False)['name'].count()

In [None]:
plot = go.Figure(data=[go.Pie(
    labels=work_hours_per_distr[work_hours_per_distr['district'] == 'Северный административный округ']
    ['working_hours_cat'],
    values=work_hours_per_distr[work_hours_per_distr['district'] == 'Северный административный округ']
    ['name']
),
    go.Pie(
    labels=work_hours_per_distr[work_hours_per_distr['district'] == 'Южный административный округ']
    ['working_hours_cat'],
    values=work_hours_per_distr[work_hours_per_distr['district'] == 'Южный административный округ']
    ['name']    
),
    go.Pie(
    labels=work_hours_per_distr[work_hours_per_distr['district'] == 'Западный административный округ']
    ['working_hours_cat'],
    values=work_hours_per_distr[work_hours_per_distr['district'] == 'Западный административный округ']
    ['name']    
),
    go.Pie(
    labels=work_hours_per_distr[work_hours_per_distr['district'] == 'Восточный административный округ']
    ['working_hours_cat'],
    values=work_hours_per_distr[work_hours_per_distr['district'] == 'Восточный административный округ']
    ['name']    
),
    go.Pie(
    labels=work_hours_per_distr[work_hours_per_distr['district'] == 'Центральный административный округ']
    ['working_hours_cat'],
    values=work_hours_per_distr[work_hours_per_distr['district'] == 'Центральный административный округ']
    ['name']    
),
    go.Pie(
    labels=work_hours_per_distr[work_hours_per_distr['district'] == 'Северо-Западный административный округ']
    ['working_hours_cat'],
    values=work_hours_per_distr[work_hours_per_distr['district'] == 'Северо-Западный административный округ']
    ['name']    
),
    go.Pie(
    labels=work_hours_per_distr[work_hours_per_distr['district'] == 'Северо-Восточный административный округ']
    ['working_hours_cat'],
    values=work_hours_per_distr[work_hours_per_distr['district'] == 'Северо-Восточный административный округ']
    ['name']    
),
    go.Pie(
    labels=work_hours_per_distr[work_hours_per_distr['district'] == 'Юго-Западный административный округ']
    ['working_hours_cat'],
    values=work_hours_per_distr[work_hours_per_distr['district'] == 'Юго-Западный административный округ']
    ['name']    
),
    go.Pie(
    labels=work_hours_per_distr[work_hours_per_distr['district'] == 'Юго-Восточный административный округ']
    ['working_hours_cat'],
    values=work_hours_per_distr[work_hours_per_distr['district'] == 'Юго-Восточный административный округ']
    ['name']    
),
],

layout= {'title': 'Распределение категорий времени работы заведений по округам'})

plot.update_layout(
    updatemenus=[
        dict(
            active=0,
            buttons=list([
                dict(label="САО",
                     method="update",
                     args=[{"visible": [True, False, False, False, False, False, False, False, False]}]),
                dict(label="ЮАО",
                     method="update",
                     args=[{"visible": [False, True, False, False, False, False, False, False, False]}]),
                dict(label="ЗАО",
                     method="update",
                     args=[{"visible": [False, False, True, False, False, False, False, False, False]}]),
                dict(label="ВАО",
                     method="update",
                     args=[{"visible": [False, False, False, True, False, False, False, False, False]}]),
                dict(label="ЦАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, True, False, False, False, False]}]),
                dict(label="СЗАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, True, False, False, False]}]),
                dict(label="СВАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, False, True, False, False]}]),
                dict(label="ЮЗАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, False, False, True, False]}]),
                dict(label="ЮВАО",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, False, False, False, True]}]),          
                         ]),
            )
                ])

plot.show()

В ЦАО заметно видно, что много заведений работает ежедневно, но не круглосуточно. В ЮВАО больше всего заведений, которые работают по будням, не круглосуточно. В ВАО больше всего заведений, которые работают ежедневно, круглосуточно.


In [None]:
cat_per_work_hours_cat = df[df['working_hours_cat'] != 0].groupby(['working_hours_cat', 'category'], as_index=False)['name'].count()

In [None]:
plot = go.Figure(data=[go.Pie(
    labels=cat_per_work_hours_cat[cat_per_work_hours_cat['working_hours_cat'] == 'ежедневно, круглосуточно']
    ['category'],
    values=cat_per_work_hours_cat[cat_per_work_hours_cat['working_hours_cat'] == 'ежедневно, круглосуточно']
    ['name']
),
    go.Pie(
    labels=cat_per_work_hours_cat[cat_per_work_hours_cat['working_hours_cat'] == 'ежедневно, но не круглосуточно']
    ['category'],
    values=cat_per_work_hours_cat[cat_per_work_hours_cat['working_hours_cat'] == 'ежедневно, но не круглосуточно']
    ['name']   
),
    go.Pie(
    labels=cat_per_work_hours_cat[cat_per_work_hours_cat['working_hours_cat'] == 'по будням, не круглосуточно']
    ['category'],
    values=cat_per_work_hours_cat[cat_per_work_hours_cat['working_hours_cat'] == 'по будням, не круглосуточно']
    ['name']    
)
],

layout= {'title': 'Распределение категорий заведений по категориям времени работы'})

plot.update_layout(
    updatemenus=[
        dict(
            active=0,
            buttons=list([
                dict(label="ежедневно, круглосуточно",
                     method="update",
                     args=[{"visible": [True, False, False]}]),
                dict(label="ежедневно, но не круглосуточно",
                     method="update",
                     args=[{"visible": [False, True, False]}]),
                dict(label="по будням, не круглосуточно",
                     method="update",
                     args=[{"visible": [False, False, True]}]),          
                         ]),
            )
                ])

plot.show()

Наибольшую долю заведений, работающих ежедневно/круглосуточно, представляют кафе (43.9%), наименьшую – булочные (1.28%).
Наибольшую долю заведений работающие ежедневно, но не круглосуточно, представляют рестораны (27.6%), наименьшую – столовые (1.34%).
Наибольшую долю заведений, работающих по будням, не круглосуточно, представляют кафе (43.9%), наименьшую – булочные (1.28%).

In [None]:
# посмотрим заведения с плохим рейтингом

df['bins'] = pd.qcut(df['rating'], 5)

In [None]:
df['bins'].value_counts()

In [None]:
# нарисуем квантильное распределение рейтингов для выбора границы "плохого" рейтинга

df['bins'].value_counts().plot(kind='bar')

plt.title('Квантильное распределение рейтингов для выбора границы "плохого" рейтинга')

plt.show()

Будем считать, что плохие рейтинги - все, что ниже 4,1.

In [None]:
df['bins'] = df['bins'].astype('str')

In [None]:
low_rating_places = df[df['bins'] == '(0.999, 4.1]']

In [None]:
print('Средний чек в заведении с плохим рейтингом:', 
      round(low_rating_places[low_rating_places[
          'middle_avg_bill'] < np.quantile(low_rating_places[~low_rating_places[
          'middle_avg_bill'].isna()][
          'middle_avg_bill'], 0.95)]['middle_avg_bill'].mean()),'р.')

print('Средняя стоимость чашки капучино в кофейне с плохим рейтингом:',
      round(low_rating_places[low_rating_places[
          'middle_coffee_cup'] < np.quantile(low_rating_places[~low_rating_places[
          'middle_coffee_cup'].isna()][
          'middle_coffee_cup'], 0.99)]['middle_coffee_cup'].mean()),'р.')

In [None]:
high_rating_places = df[df['bins'] != '(0.999, 4.1]']

In [None]:
print('Средний чек в заведении с хорошим рейтингом:', 
      round(high_rating_places[high_rating_places[
          'middle_avg_bill'] < np.quantile(high_rating_places[~high_rating_places[
          'middle_avg_bill'].isna()][
          'middle_avg_bill'], 0.95)]['middle_avg_bill'].mean()),'р.')

print('Средняя стоимость чашки капучино в кофейне с хорошим рейтингом:',
      round(high_rating_places[high_rating_places[
          'middle_coffee_cup'] < np.quantile(high_rating_places[~high_rating_places[
          'middle_coffee_cup'].isna()][
          'middle_coffee_cup'], 0.99)]['middle_coffee_cup'].mean()),'р.')

В среднем заведение с хорошим рейтингом зарабатывает с чека примерно на 393р. больше, а хорошая кофейня на 21р. больше с чашки капучино.

In [None]:
low_rating_places.groupby('category')['name'].count().sort_values(ascending=False)

In [None]:
x = low_rating_places.groupby('category')['name'].count().sort_values(ascending=False)
y = low_rating_places.groupby('category')['name'].count().sort_values(ascending=False).index

fig = plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=one_eatary_streets.reset_index())

plt.title('Абсолютное распределение заведений с плохим рейтингом по категориям')
plt.xlabel('Количество')
plt.ylabel('Категория')

plt.show()
     

In [None]:
low_to_high_rating_share_by_cat = round((low_rating_places.groupby('category')['name'].count() \
    .sort_values(ascending=False) / high_rating_places.groupby('category')['name'].count() \
    .sort_values(ascending=False)).sort_values(ascending=False), 2)

low_to_high_rating_share_by_cat

In [None]:
x = low_to_high_rating_share_by_cat
y = low_to_high_rating_share_by_cat.index

fig = plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=low_to_high_rating_share_by_cat.reset_index())

plt.title('Относительное распределение заведений с плохим рейтингом по категориям')
plt.xlabel('Количество')
plt.ylabel('Округ')

plt.show()

Большая часть заведений с плохим рейтингом - кафе, булочных с плохим рейтингом меньше всего в абсолютном. В относительных величинах хуже всего рейтинг у быстрого питания (примерно 86% заведений имеют низкий рейтинг) и кафе (67%), лучше - у баров (15% заведений с низким рейтингом) и пиццерий (27%).

In [None]:
low_rating_places.groupby('district')['name'].count().sort_values(ascending=False)

In [None]:
low_to_high_rating_share_by_distr = round((low_rating_places.groupby('district')['name'].count() \
    .sort_values(ascending=False) / high_rating_places.groupby('district')['name'].count() \
    .sort_values(ascending=False)).sort_values(ascending=False), 2)
low_to_high_rating_share_by_distr

In [None]:
x = low_rating_places.groupby('district')['name'].count().sort_values(ascending=False)
y = low_rating_places.groupby('district')['name'].count().sort_values(ascending=False).index

fig = plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=one_eatary_streets.reset_index())

plt.title('Абсолютное распределение заведений с плохим рейтингом по округам')
plt.xlabel('Количество')
plt.ylabel('Округ')

plt.show()

In [None]:
x = low_to_high_rating_share_by_distr
y = low_to_high_rating_share_by_distr.index

fig = plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=low_to_high_rating_share_by_distr.reset_index())

plt.title('Относительное распределение заведений с плохим рейтингом по округам')
plt.xlabel('Количество')
plt.ylabel('Округ')

plt.show()

Хуже всего дела обстоят в СВАО, ЦАО и ЮАО в абсолютных значениях, лучше всего в СЗАО.
В относительных лучше всего в ЦАО и СЗАО, хуже - в ЮВАО.

Всего заведений в датасете 5614. 

Больше всего заведений в категории кафе и ресторан и кофейня (28% и 24% и 17% соответственно). Меньше всего столовых и булочных (3% и 4% соответственно).

Явно видно, что, кафе и рестораны имеют преимущество.
Наибольшее распространение имеют кафе во всех округах, кроме ЦАО.
Можно отметить, что пропорции примерно одинаковые во всех нецентральных округах.
По этим графикам кажется, что, если открывать кофейню, то лучшим местом будет ЮВАО из-за меньшей конкуренции, но нужно проанализировать и других факторы.

Наибольше вместительны столовые и рестораны (значения >90), менее вместительны бары, пабы, булочные (значение до 80). Пиццерии, кофейни и кафе (значения от 81 до 89).

Доля сетевых в кафе: 0.33

Доля сетевых в ресторан: 0.36

Доля сетевых в кофейня: 0.51
Доля сетевых в пиццерия: 0.52
Доля сетевых в бар,паб: 0.22
Доля сетевых в быстрое питание: 0.38

Доля сетевых в булочная: 0.61

Доля сетевых в столовая: 0.28

62% - Несетевые заведения, 38% - Сетевых.

Больше всего в распределении долей категорий среди сетевых преобладают: кафе, ресторан, кофейня (24%, 23%, 22% соответственно). Менее всего столовая, булочная, бар,паб (3%, 5%, 5% соответственно).
Доля сетевых заведений по категориям от общего числа у булочной является самая высокая (0.61), а самая маленькая - у бара, паба(0.22).

В топ-15 заведений лидирует Шоколадница (120), менее всего у заведения Му-Му(27). Данные сети знакомы, на мой взгляд признак объединения очевиден в доступности, удаленности в отношении метро, относятся к разным категориям, т.к. если заметить есть даже онлайн-доставка Яндекс Лавка[ресторан].

Всего 5% всех заведений, относящихся к ТОП-15 сетям, работают круглосуточно.

Большая часть крупных сетевых брендов - кофейни.

В САО, ЮАО, СЗАО больше всего преобладают кофейни, а меньше всего кафе.

В ВАО преобладают кофейни, а меньше всего булочные и столовые.

В ЗАО, СВАО, ЮЗАО преобладают кофейни, а меньше всего заведения быстрого питания.
Средний рейтинг у категории бар,паб - наибольший(4.39), а наименьший у заведений быстрого питания(4.05). В целом видно, что рейтинг довольно плавно различается от 4.05 до 4.39.

В ЦАО можно выделить три категории заведений - кофейни, рестораны, кафе, а меньше всего заведения быстрого питания, бары и пабы, булочные и столовые.

В ЮВАО преобладают пиццерии, а меньше всего заведений быстрого питания, однако заметного разрыва кофеин, кафе и ресторанов нет.

Заведения категорий: бар/паб, быстрое питание, столовая - имеют наименьшую популяцию во всех округах. Это говорит о том, что в этих категориях преобладают несетевые предприятия. Возможно, это также связано с уходом из России крупных международных сетей.

Заведения с наивысшими рейтингами сконцентрированы в ЦАО.
В САО и СЗАО средний рейтинг чуть ниже, в остальных округах средний рейтинг распределен примерно равномерно.

Самое большое кол-во заведений - Проспект Мира(184).

Наименьшее кол-во заведений - Пятницкая улица(48).

Наименьшая концентрация баров,пабов на МКАДе, Каширском ш., Кутузовском проспекте и на  ул. Вавилова. Наивысшая концентрация на Ленинском пр-те и пр-те Мира.

Наивысшая концентрация быстрого питания на пр-те Мира, наименьшая на Кутузовском пр-те, Ленинском пр-те, Ленинградском пр-те и на Пятницкой ул.

Категория кафе распределено почти равномерно, наивысшая концентрация на пр-те Мира и МКАД, наименьшая - на Пятницкой ул.

Наибольшая концентрация кофеен на пр-те Мира, наименьшая - на МКАДе, на ул. Миклухо-Маклая.

Наибольшая концентрация пиццерий на ул. Профсоюзной, пр-те Вернадского и проспекте Мира, наименьшая - на Люблинской ул.

Наибольшая концентрация ресторанов на пр-те Мира, пр-те Вернадского и Ленинском пр-те, наименьшая - на МКАДе.

Наибольшая концентрация столовых на Варшавском шоссе, наименьшая - на МКАДе.

Наибольшая концентрация булочных на Ленинградском пр-те, пр-те Мира,на ул. Профсоюзной, наименьшая - на Кутузовском пр-те и пр-те Вернадского.

456 улиц на которых находится только один объект общепита.

Основная доля заведений приходится на ЦАО, где маленькие улицы, и возможно не все данные попали в датасет. Больше всего заведений в категории кафе, меньше-булочная. Средний рейтинг больше у бара, паба, а меньше у быстрого питания.

Средний чек в ЦАО по отношению к остальным округам: 1.3

Самый высокий средний чек - в ЦАО и ЗАО.

Самый низкий средний чек в ЮАО, СВАО и ЮВАО.

В среднем чек в ЦАО на 20% выше, чем в остальных округах.

Средняя стоимость чашки капучино в кофейнях без конкурентов на своей улице: 180.35

Средняя стоимость чашки капучино в кофейнях из ТОП-15 концентрированных улиц: 183.07

Средняя стоимость бокала пива в пабах: 307.1

Доля пабов в ЦАО от всех пабов Москвы: 0.51

Большая часть пабов находится в ЦАО, в СЗАО их меньше всего. Стоимость бокала пива составляет в ЦАО-336р. в ВАО минимальный - 247р.

Большая часть заведений работает ежедневно, но не круглосуточно, меньше всего круглосуточных.

В ЦАО заметно видно, что много заведений работает ежедневно, но не круглосуточно. В ЮВАО больше всего заведений, которые работают по будням, не круглосуточно. В ВАО больше всего заведений, которые работают ежедневно, круглосуточно.

Наибольшую долю заведений, работающих ежедневно/круглосуточно, представляют кафе (43.9%), наименьшую – булочные (1.28%).

Наибольшую долю заведений работающие ежедневно, но не круглосуточно, представляют рестораны (27.6%), наименьшую – столовые (1.34%).

Наибольшую долю заведений, работающих по будням, не круглосуточно, представляют кафе (43.9%), наименьшую – булочные (1.28%).

Средний чек в заведении с плохим рейтингом: 505 р.

Средняя стоимость чашки капучино в кофейне с плохим рейтингом: 154 р.

Средний чек в заведении с хорошим рейтингом: 898 р.

Средняя стоимость чашки капучино в кофейне с хорошим рейтингом: 175 р.

В среднем заведение с хорошим рейтингом зарабатывает с чека примерно на 393р. больше, а хорошая кофейня на 21р. больше с чашки капучино.

Большая часть заведений с плохим рейтингом - кафе, булочных с плохим рейтингом меньше всего в абсолютном. В относительных величинах хуже всего рейтинг у быстрого питания (примерно 86% заведений имеют низкий рейтинг) и кафе (67%), лучше - у баров (15% заведений с низким рейтингом) и пиццерий (27%).

Хуже всего дела обстоят в СВАО, ЦАО и ЮАО в абсолютных значениях, лучше всего в СЗАО. В относительных лучше всего в ЦАО и СЗАО, хуже - в ЮВАО.


## Детализируем исследование: открытие кофейни


* Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?
* Есть ли круглосуточные кофейни?
* Какие у кофеен рейтинги? Как они распределяются по районам?
* На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

In [None]:
coffee = df[df['category'] == 'кофейня']

In [None]:
print('Всего кофеен в Москве:', len(coffee))
print('Доля круглосуточных кофеен:', round(len(coffee[coffee['is_24/7'] == 1]) / len(coffee),2))

In [None]:
coffee.groupby('district')['name'].count().sort_values(ascending=False)

In [None]:
x = coffee.groupby('district')['name'].count().sort_values(ascending=False)
y = coffee.groupby('district')['name'].count().sort_values(ascending=False).index

fig = plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=coffee.reset_index())

plt.title('Распределение кофеен по округам')
plt.xlabel('Количество')
plt.ylabel('Округ')

plt.show()

In [None]:
moscow_lat, moscow_lng = 55.751244, 37.618423

m = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

data = coffee.groupby('district')['name'].count()

folium.Choropleth(
    geo_data=geo_json,
    data=data,
    columns=['district', 'name'],
    key_on='feature.name',
    fill_color='BuGn',
    fill_opacity=0.4,
    legend_name='Концентрация кофеен по районам',
).add_to(m)

marker_cluster = MarkerCluster().add_to(m)

def create_clusters(row):
    folium.Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

coffee.apply(create_clusters, axis=1)

m
     

В ЦАО больше всего кофеен, СЗАО- меньше.

In [None]:
# распределение среднего рейтинга кофеен по округам

round(coffee.groupby('district')['rating'].mean().sort_values(ascending=False), 2)

In [None]:
x = coffee.groupby('district')['rating'].mean().sort_values(ascending=False)
y = coffee.groupby('district')['rating'].mean().sort_values(ascending=False).index

fig = plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=coffee.reset_index())
plt.xlim(4.1, 4.5)

plt.title('Распределение среднего рейтинга кофеен по округам')
plt.xlabel('Рейтинг')
plt.ylabel('Округ')

plt.show()

In [None]:
moscow_lat, moscow_lng = 55.751244, 37.618423

m = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

data = coffee.groupby('district')['rating'].mean()

folium.Choropleth(
    geo_data=geo_json,
    data=data,
    columns=['district', 'rating'],
    key_on='feature.name',
    fill_color='BuGn',
    fill_opacity=0.8,
    legend_name='Средний рейтинг кофеен по округам',
).add_to(m)

marker_cluster = MarkerCluster().add_to(m)

def create_clusters(row):
    folium.Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

coffee.apply(create_clusters, axis=1)

m

Средний рейтинг кофеен во всех округах выше определенного ранее уровня "плохого" рейтинга.
Наиболее высокий средний рейтинг у кофеен расположенных в ЦАО , СЗАО и САО, а меньше в ЗАО.

In [None]:
#  посмотрим среднюю стоимость чашки капучино в сетях и несетях по округам

dist_chain_coffee_price = round(coffee[coffee[
    'middle_coffee_cup'] < np.quantile(coffee[~coffee[
    'middle_coffee_cup'].isna()][
    'middle_coffee_cup'], 0.99)].groupby(['district', 'chain'],as_index=False)[
    'middle_coffee_cup'].mean(), 2)

dist_chain_coffee_price

In [None]:
name0='Не сетевая'
name1='Сетевая'
x=list(dist_chain_coffee_price['district'].unique())
y0=list(dist_chain_coffee_price[dist_chain_coffee_price['chain'] == 0][
    'middle_coffee_cup'])
y1=list(dist_chain_coffee_price[dist_chain_coffee_price['chain'] == 1][
    'middle_coffee_cup'])

fig = go.Figure(data=[
    go.Bar(name=name0, x=x, y=y0),
    go.Bar(name=name1, x=x, y=y1)
])

fig.update_layout(title='Средняя стоимость чашки капучино по кофейням', 
                  barmode='group', 
                  xaxis={'categoryorder':'total descending'})
fig.show()

In [None]:
print('Средняя стоимость чашки капучино', round(df[df[
    'middle_coffee_cup'] < np.quantile(df[~df[
    'middle_coffee_cup'].isna()][
    'middle_coffee_cup'], 0.99)][
    'middle_coffee_cup'].mean(),1), 'р.')

In [None]:
print('Средняя стоимость чашки капучино в несетевой кофейне', round(
    dist_chain_coffee_price[dist_chain_coffee_price['chain'] == 0][
        'middle_coffee_cup'].mean(),1), 'р.')

print('Средняя стоимость чашки капучино в сетевой кофейне', round(
    dist_chain_coffee_price[dist_chain_coffee_price['chain'] == 1][
        'middle_coffee_cup'].mean(),1), 'р.')

Почти во всех округах в несетевых кофейнях средняя стоимость чашки капучино дороже, кроме СЗАО, ЮВАО, ВАО.
В среднем в несетевых кофейнях дороже на 8.3р.

In [None]:
# На основе данных о площади округов Москвы посмотрим на плотность заселения округов и
# соотношение количества кофеен на душу населения по округам.
# создадим датафрейм с данной информацией

moscow_area_detailed = pd.DataFrame({'area':
                                     ['Центральный административный округ',
                                     'Северный административный округ',
                                     'Северо-Восточный административный округ',
                                     'Восточный административный округ',
                                     'Юго-Восточный административный округ',
                                     'Южный административный округ',
                                     'Юго-Западный административный округ',
                                     'Западный административный округ',
                                     'Северо-Западный административный округ'],
                                     'area_square_km':
                                     [66.1755,113.726,101.883,154.8355,117.5597,131.7729,111.3622,153.0343,93.281],
                                     'population':
                                     [779086,1175229,1427597,1514420,1432839,1773425,1442971,1383853,1009217]})
     

In [None]:
moscow_area_detailed['population_density'] = moscow_area_detailed[
    'population'] / moscow_area_detailed['area_square_km']

In [None]:
moscow_area_detailed.sort_values('population_density', ascending=False)

In [None]:
x = moscow_area_detailed.sort_values('population_density', ascending=False)[
    'population_density']
y = moscow_area_detailed.sort_values('population_density', ascending=False)[
    'area']

fig = plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=moscow_area_detailed)

plt.title('Плотность населения по округам')
plt.xlabel('Плотность населения, чел/км2')
plt.ylabel('Округ')

plt.show()

In [None]:
t = coffee['district'].value_counts().reset_index()

In [None]:
# объединяем таблицы, приводим к нормальному виду и посчитаем кофейни на душу населения

moscow_area_detailed = moscow_area_detailed.merge(t, left_on='area', right_on='index')
moscow_area_detailed = moscow_area_detailed.drop(columns='index')
moscow_area_detailed.rename(columns={'district':'coffee_house_count'}, inplace=True)
moscow_area_detailed['coffee_house_count'] = moscow_area_detailed[
    'coffee_house_count'].astype(int)
moscow_area_detailed['coffee_house_per_local'] = moscow_area_detailed[
    'coffee_house_count'] / moscow_area_detailed['population']

In [None]:
moscow_area_detailed.sort_values('coffee_house_per_local', ascending=False)

In [None]:
x = moscow_area_detailed.sort_values('coffee_house_per_local', ascending=False)[
    'coffee_house_per_local']
y = moscow_area_detailed.sort_values('coffee_house_per_local', ascending=False)[
    'area']

fig = plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=moscow_area_detailed)

plt.title('Количество кофеен на душу населения')
plt.xlabel('Количество')
plt.ylabel('Округ')

plt.show()

In [None]:
top_chains[top_chains['category'] == 'кофейня']['district'].value_counts()

In [None]:
x = top_chains[top_chains['category'] == 'кофейня']['district'].value_counts()
y = top_chains[top_chains['category'] == 'кофейня']['district'].value_counts().index

fig = plt.figure(figsize=(9,7))
sns.barplot(x=x, y=y, data=top_chains[top_chains['category'] == 'кофейня']['district'])

plt.title('Количество сетевых кофеен по округам')
plt.xlabel('Количество')
plt.ylabel('Округ')

plt.show()

In [None]:
# выведем на карту улицы с одной кофейней для СЗАО и ЮЗАО

szao_one_eatary_streets = one_eatary_streets[(
    one_eatary_streets['district'] == 'Северо-Западный административный округ') & \
    (one_eatary_streets['category'] == 'кофейня')][
        ['name', 'lat', 'lng', 'street']]
     

In [None]:
uzao_one_eatary_streets = one_eatary_streets[(
    one_eatary_streets['district'] == 'Юго-Западный административный округ') & \
    (one_eatary_streets['category'] == 'кофейня')][[
        'name', 'lat', 'lng', 'street']]

In [None]:
szao_uzao_one_eatary_streets = pd.concat(
    [szao_one_eatary_streets, uzao_one_eatary_streets], ignore_index=True)

szao_uzao_one_eatary_streets

In [None]:
moscow_lat, moscow_lng = 55.751244, 37.618423

moscow = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# сохраняем значения name, lat, lng, street  в список
arr = szao_uzao_one_eatary_streets[['name', 'lat', 'lng', 'street']].to_numpy()

# выводим на карту
for name, lat, lng, street in arr:
    folium.Marker(location=[lat, lng], popup=[name, street]).add_to(moscow)

# добавляем хороплет
folium.Choropleth(
    geo_data=geo_json,
    data=coffee['district'].value_counts().reset_index(),
    columns=['index', 'district'],
    key_on='feature.name',
    fill_color='BuGn',
    fill_opacity=0.4,
    legend_name='Количество кофеен по округам',
).add_to(moscow)

moscow

## Рекомендации

Наиболее подходящим округом для открытия кофейни будет СЗАО, поскольку там наименьшая конкуренция, наименьшее число сетевых кофеен, а значит, возможность установить чуть более высокую стоимость - 162-168р. 

Также в СЗАО наименьшее количество кофеен на душу населения и средняя по городу плотность населения.
Но следует учесть, что в СЗАО рынок кофеен высокорейтинговый, это может указывать на хорошее качество действующих кофеен.

Хорошим вариантом будет ЮЗАО, здесь также невысокая конкуренция среди кофеен, средняя стоимость кофе выше - 181-187р. (третий показатель по городу), невысокая концентрация сетей и малое количество кофеен на душу населения.

Слабая сторона этих округов - наиболее низкое количество улиц в целом и низкое количество улиц с одним заведением.

## Презентация: 

https://disk.yandex.ru/i/XMTjoTR9GpaUJA
