# Проектная работа

# Рынок заведений общественного питания Москвы

# Описание проекта

Инвесторы из фонда «Shut Up and Take My Money» решили попробовать себя в новой области и открыть заведение общественного питания в Москве. Заказчики ещё не знают, что это будет за место: кафе, ресторан, пиццерия, паб или бар, — и какими будут расположение, меню и цены.

Для начала они просят меня, как аналитика, подготовить исследование рынка Москвы, найти интересные особенности и презентовать полученные результаты, которые в будущем помогут в выборе подходящего инвесторам места.

Мне доступен датасет с заведениями общественного питания Москвы, составленный на основе данных сервисов Яндекс Карты и Яндекс Бизнес на лето 2022 года. Информация, размещённая в сервисе Яндекс Бизнес, могла быть добавлена пользователями или найдена в общедоступных источниках. Она носит исключительно справочный характер.

# Описание данных

Файл `moscow_places.csv`:

- name — название заведения;
- address — адрес заведения;
- category — категория заведения, например «кафе», «пиццерия» или «кофейня»;
- hours — информация о днях и часах работы;
- lat — широта географической точки, в которой находится заведение;
- lng — долгота географической точки, в которой находится заведение;
- rating — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);
- price — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;
- avg_bill — строка, которая хранит среднюю стоимость заказа в виде диапазона, например:
        - «Средний счёт: 1000–1500 ₽»;
        - «Цена чашки капучино: 130–220 ₽»;
        - «Цена бокала пива: 400–600 ₽».
        - и так далее;
- middle_avg_bill — число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Средний счёт»:
        - Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
        - Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
        - Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.
- middle_coffee_cup — число с оценкой одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Цена одной чашки капучино»:
        - Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
        - Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
        - Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.
- chain — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки):
        - 0 — заведение не является сетевым
        - 1 — заведение является сетевым
- district — административный район, в котором находится заведение, например Центральный административный округ;
- seats — количество посадочных мест.

## Загрузите данные и изучите общую информацию

- Загрузите данные о заведениях общественного питания Москвы. Путь к файлу: `/datasets/moscow_places.csv`.
- Изучите общую информацию о датасете. 
- Сколько заведений представлено? 
- Что можно сказать о каждом столбце? 
- Значения какого типа они хранят? 

In [2]:
# импортируем основные библиотеки
import os
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
from pandas.plotting import register_matplotlib_converters
import scipy.stats as st
import cmath as mth
import plotly.express as px
from plotly import graph_objects as go
import re
import json
import folium
from folium import Map, Marker, Figure, Choropleth
from folium.plugins import MarkerCluster
import warnings
warnings.simplefilter('ignore')

#путь к папке с датасетами - заменить на актуальный в случае запуска в другом окружении
this_notebook_path = os.path.abspath('C:/')

#код, который выводит все колонки таблицы
pd.set_option('display.max_columns', None)

#отображение float с двумя знаками после точки
pd.options.display.float_format = '{:.2f}'.format

#загружаем данные
data = pd.read_csv('https://code.s3.yandex.net/datasets/moscow_places.csv', sep=',')

relative_path = os.path.join(os.path.dirname(this_notebook_path), '/admin_level_geomap.geojson')
with open(relative_path, 'r', encoding='utf-8') as f:
    geo_json = json.load(f)

FileNotFoundError: [Errno 2] No such file or directory: './admin_level_geomap.geojson'

In [None]:
# Напишем функцию для построения столбчатой диаграммы
def one_plot_creator(df, x, y, color, text=None,
                     title='default tittle', xaxis_title='default xaxis tittle', yaxis_title='default yaxis tittle',
                     legend_title='default legend tittle', barmode='stack',
                     orientation='v', height=500, showlegend=True, for_export=False):

    fig = px.bar(df, x=x, y=y, color=color, text=text, barmode=barmode)

    fig.update_layout(
        height=height,
        showlegend=showlegend,
        title=title,
        xaxis_title=xaxis_title,
        yaxis_title=yaxis_title,
        legend_title=legend_title
    )
    return fig

In [None]:
# Напишем функцию для вывода карты с маркерами
def scatter_mapbox_creator(df, lat, lon, color=None, height=500, zoom=10, hover_data=None, hover_name=None):
    fig = px.scatter_mapbox(df, lat="lat", lon="lng", color='name', zoom=zoom, hover_name=hover_name, hover_data=hover_data)
    fig.update_geos(fitbounds="locations")
    fig.update_layout(
        margin={"r": 0, "t": 0, "l": 0, "b": 0},
        height=height,
        mapbox_style="carto-positron"
    )
    return fig

In [None]:
# Напишем функцию для вывода основной информации по датасету
def get_info(dataset):
    print('Общая информация:')
    print()
    dataset.info()
    print('*'*50)
    print('Количество пропусков:')
    print()
    print(dataset.isna().sum())
    print('*'*50)
    print('Вывод первых 2х строк данных:')
    print()
    display(dataset.head(2))
    print('*'*50)
    print('Количество явных дубликатов:')
    print(dataset.duplicated().sum())

In [None]:
get_info(data)

In [None]:
# заменим тип данных в столбце seats  на int 
data['seats'] = np.floor(pd.to_numeric(data['seats'], errors='coerce')).astype('Int64')

**Вывод:**
    
- всего в данных храниться информация о 8406 заведениях
- тип данных в столбце seats перевели в int, в остальных столбцах типы данных верны
- пропуски присутствуют в 6 столбцах
- больше всего пропусков в seats, avg_bill, price, middle_avg_bill, middle_coffee_cup

## Выполните предобработку данных

- Изучите, есть ли дубликаты в данных. Поищите пропуски: встречаются ли они, в каких столбцах? Можно ли их обработать или оставить как есть?

- Выполните предобработку данных:
    - Создайте столбец street с названиями улиц из столбца с адресом.
    - Создайте столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7): 
        - логическое значение True — если заведение работает ежедневно и круглосуточно;
        - логическое значение False — в противоположном случае.

### Обработка пропусков

На предыдущем шаге мы выявили, что пропуски присутствуют в 6 столбцах:
- seats, 
- avg_bill, 
- price, 
- middle_avg_bill, 
- middle_coffee_cup,
- hours

In [None]:
#посмотрим, какой процент от общего объема данных занимают пропуски
pd.DataFrame(round(data.isna().mean().sort_values()*100,))

Наименьшее количество пропусков в столбце hours - 536(6%). В остальных столбцах пропуски составляют от 3 611(от 43%), так что их удаление приведет к значительной потере данных, пока оставим их без обработки, позже возможно будет необходимо заменить их заглушками.

### Обработка дубликатов

In [None]:
#приведем все столбцы, содержащие текст к нижнему регистру
for col in ['name', 'category', 'address', 'hours', 'price', 'avg_bill']:
    data[col] = data[col].str.lower()

In [None]:
# проверим появились ли явные дубликаты после приведения всех строк к нижнему регистру
data.duplicated().sum()

Явных дубликатов не найдено

In [None]:
# проверим данные на неявные дубликаты
data[data[['name','address']].duplicated(keep=False)]

В данных выявлены неявные дубликаты заведений, которые записаны либо в разные категории, либо с отличными часами работы, остальные данные сходились. Удалим их.

In [None]:
# удалим строки в данных с повторяющимися данными по столбцам name и address
data = data.drop_duplicates(subset=['name','address'])

In [None]:
# проверим удалились ли неявные дубликаты
data[data[['name','address']].duplicated(keep=False)]

In [None]:
# проверим, что нужные данные остались 
data.query('name =="хлеб да выпечка"')

Мне не нравится, что одни и те же заведения сети отнесены к разным категориям, считаю необходимым привести такие заведения к единой категории. Для этого посетим интернет и узнаем, что сами заведения про себя пишут. 

В случае с "Хлеб да выпечка", само заведение себя именует как "Пекарня". У нас нет пекарен в категориях, поэтому применим ко всем заведениям сети категорию "Булочная".

В случае с "Раковарня клешни и хвосты", в большинстве ссылок заведение относят к категории ресторан. Поэтому мы тоже так сделаем.

In [None]:
data['category'] = np.where((data.name == "хлеб да выпечка"), "булочная",data.category)
data['category'] = np.where((data.name == "раковарня клешни и хвосты"), "ресторан",data.category)

In [None]:
data.query('name == "хлеб да выпечка"')

In [None]:
data.query('name == "раковарня клешни и хвосты"')

Также мы заметили, что в столбце `chain`, который сообщает сетевое ли заведение, в строке 2211 с ретораном "Раковарня клешни и хвосты" стоит 0, хотя у заведения несколько филиалов. Необходимо исправить этот момент.

In [None]:
data['chain'] = np.where((data.name == "раковарня клешни и хвосты"), 1,data.chain)

In [None]:
data.query('name == "раковарня клешни и хвосты"')

In [None]:
# выясним сколько в данных сетевых заведений
chain_count = data.groupby('name')['chain'].count().reset_index()

# удалим заведения, встречающиеся только один раз(то есть те, что точно не являются сетевыми, если у них не стоит chain=1)
chain_count = chain_count.query('chain>1')
chain_count

Осталось 752 заведения с филиалами. Так как проверить вручную 752 заведения проблемно на наличие правильно указанных данных о филиалах, предлагаю для каждого уникального заведения, встречающегося более одного раза в списке, приминить ко всем другим заведением с таким именем в столбце `chain` "1".

In [None]:
# получим список уникальных сетевых заведений
restos = chain_count['name'].tolist()
restos

В ходе проверки уникальных значений заведений выявлены неявные дублкаты в названиях заведений "jeffrey's coffee" и "jeffrey's coffeeshop"; 'чайхона № 1' и  'чайхона №1'; "яндекс.лавка" и "яндекс лавка"; 'хинкали-gали!' и 'хинкали - gали!'. Заменим их на вариант который встречается в интернете.

In [None]:
#произведем замену неявных дубликатов
data['name'] = np.where((data.name == "яндекс.лавка"), "яндекс лавка",data.name)
data['name'] = np.where((data.name == "jeffrey's coffee"), "jeffrey's coffeeshop",data.name)
data['name'] = np.where((data.name == "чайхона № 1"), "чайхона №1",data.name)
data['name'] = np.where((data.name == "хинкали - gали!"), "хинкали-gали!",data.name)

In [None]:
#произведем замену по столбцу chain на 1 во всех строках, где наименование ресторана есть в списке сетевых заведений
data.loc[data['name'].isin(restos),'chain'] = 1

In [None]:
# проверим как обработались данные 
data.groupby('name')['chain'].count().reset_index().query('chain>1')

Количество сетевых заведений уменьшилось ровно на количество убранных неявных дубликатов в названиях заведений.

Зайдя дальше по исследованию, я обнаружила, что Яндекс лавка в данных отнесена к категории ресторан, хотя на самом деле является сервисом доставки еды и продуктов. Считаю правильным отнести ее к категории Быстрое питание.

In [None]:
data.query('name == "яндекс лавка"').head(2)

In [None]:
data.loc[data['name'] == "яндекс лавка", 'category'] = 'быстрое питание'

In [None]:
data.query('name == "яндекс лавка"').head(2)

**Посмотрим какие есть районы и категории в данных, а также нет ли выбросов в данных по рейтингу заведений**

In [None]:
display(pd.DataFrame(data['district'].unique())
        .style.set_caption('Административные округа Москвы')
       )
display(pd.DataFrame(data['category'].unique())
        .style.set_caption('Категории заведений Москвы')
       )
display(pd.DataFrame(data['rating'].describe())
        .style.set_caption('Рейтинг заведений Москвы')
       )

print('Разброс координат:')
sns.lmplot(x="lng", y="lat", data=data, fit_reg=False,
           scatter_kws={'s': 15, 'alpha': 0.2});

Ошибок в названиях округов, заведений и рейтинге нет. Идем дальше.

### Добавление новых столбцов
    - Создайте столбец street с названиями улиц из столбца с адресом.
    - Создайте столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7): 
        - логическое значение True — если заведение работает ежедневно и круглосуточно;
        - логическое значение False — в противоположном случае.

In [None]:
data[data['hours'].isnull()]

In [None]:
# напишем функцию для выделения улицы из адреса
def take_street(address):
    address = address.strip().lower()
    address = re.sub(r'\s*,\s*', ',', address)
    address = re.split(',|\.', address)
    return address[1]

In [None]:
# напишем функцию для получения столбца с белевыми выражениями, является ли заведение круглосуточным
def is_24_7(time):
    if time != time:
        return np.nan
    elif time == 'ежедневно, круглосуточно':
        return True
    else:
        return False

In [None]:
# добавим новые столбцы к таблице с названием улицы и данными о круглосуточной работе
data['street'] = data['address'].apply(take_street)
data['is_24_7'] = data['hours'].apply(is_24_7)
data.head()

**Вывод**

- все столбцы с текстовыми данными были переведены в нижний регистр
- явных дубликатов найдено не было
- было найдено и удалено 4 неявных дубликата
- была произведена замена значений по столбцу `chain` на 1 для всех уникальных заведений, встречающихся более 1 раза в данных  
- пропуски составляют значительную часть в данных, поэтому пока нет возможности их удалить, возможно позже мы сможем их обработать
- были добавлены столбцы с названиями улиц и с маркером работы 24/7

## Анализ данных

Будем отвечать на вопросы по порядку.

### Распределение заведений по категориям

• Какие категории заведений представлены в данных? Исследуйте количество объектов общественного питания по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Ответьте на вопрос о распределении заведений по категориям.

In [None]:
resto_category = pd.DataFrame(data.groupby(['category']).name.count()
             .reset_index()
             .sort_values(by='name',ascending=False)
             .reset_index(drop=True))
display(resto_category)

In [None]:
category = pd.DataFrame(data.groupby('category')['name'].count().reset_index().sort_values(by='name',ascending=False)).reset_index(drop=True)
# назначаем размер графика
plt.figure(figsize=(10, 5))
# строим столбчатый график средствами seaborn
sns.barplot(x='category',y='name', data=category);
# формируем заголовок графика и подписи осей средствами matplotlib
plt.title('Распределение заведений по категориям')
plt.xlabel('Категория')
plt.ylabel('Количество заведений')
# поворачиваем подписи значений по оси X на 45 градусов
plt.xticks(rotation=45)
plt.show()

Наиболее часто встречающимися заведениями в Москве являются кафе и рестораны. Средними по популярности являются бары и пабы, пиццерии и рестораны быстрого питания. Наименнее часто встречающимися стали столовые и булочные. Рассмотрим распределение по долям:

    - кафе      2376 (28,3%)
    - ресторан  1971 (23,5%)
    - кофейня	1412 (16,8%)
    - бар,паб	763 (9,08 %)
    - быстрое питание	675 (8,03%%)
    - пиццерия	633 (7,53%)
    - столовая	315 (3,75%)
    - булочная	257 (3,06%)

### Количество посадочных мест по категориям

• Исследуйте количество посадочных мест в местах по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Проанализируйте результаты и сделайте выводы.

In [None]:
data.head()

In [None]:
# найдем среднее количество мест по категориям
seats_category = pd.DataFrame(data.groupby(['category']).seats.mean()
             .reset_index()
             .sort_values(by='seats',ascending=False)
             .reset_index(drop=True))
display(seats_category)


Больше всего в среднем мест в барах и пабах, меньше всего в булочных.

In [None]:
grouped = data.groupby('category')['seats'].median().sort_values()
plt.figure(figsize=(11, 7))
sns.boxplot(x=data.category, y=data.seats, order=grouped.index);

Уровень нормальных значений по всем категориям заканчивается в районе 300 посадочных мест в заведении. Посмотрим на описательную статистику.

In [None]:
data['seats'].describe()

У 75% заведений число посадочных мест не превышает 140, медианное число - 75 мест на заведение. 

Максимальное количество мест - 1288, выглядит весьма нереалистично. 

Посмотрим сколько данных попадает за пределы отметки в 300 посадочных мест.

In [None]:
data.query('seats>300')

Нашлась 251 строка с заведениями, где посадочных мест больше 300. Это 5% данных от 4792 строк, считаю, что для корректности дальнейшего анализа следует удалить эти выбросы. Также после проведения анализа по этим заведениям в интернете, я пришла к выводу, что наши данные не совпадают с действительностью, у многих заведений из этого списка вообще нет посадочных мест или их очень мало. А цифры по колонке `seats` у этих заведений часто повторяются цифра в цифру, что наталкивает на мысль о неправильно заполненных данных.

In [None]:
# фильтруем данные
seats = data.query('seats<300')

In [None]:
#смотрим как изменилась описательная статистика
seats['seats'].describe()

In [None]:
grouped = seats.groupby('category')['seats'].median().sort_values()
plt.figure(figsize=(11, 7))
sns.boxplot(x=seats.category, y=seats.seats, order=grouped.index);

In [None]:
# получим среднее количество посадочных мест в заведения по категриям на фильтрованных данных
seats_filtred = pd.DataFrame(seats.groupby(['category']).seats.mean()
             .reset_index()
             .sort_values(by='seats',ascending=False)
             .reset_index(drop=True))
display(seats_filtred)

После фильтрации данных от выбросов, позиции у категорий немного изменились. Теперь в среднем больше всего посадочных мест в ресторанах, а меньше всего в кафе.

Посмотрим как распределены заведения по посадочным местам внутри категорий. Выделим следующие категории в заведениях по количеству мест:

- 0 - заведения без посадочных мест
- 0-20 - заведения маленького размера
- 20-80 - заведения среднего размера
- 80-120 - заведения большего размера
- 120+ - очень большие заведения

In [None]:
# напишем функцию для категоризации категорий заверений по количеству мест
def categorization_seats(seats):
    if (seats != seats):
        return np.nan
    seats = int(seats)
    if (seats == 0):
        return '0'
    elif (seats <= 20):
        return '1 - 20'
    elif (seats <= 80):
        return '21 - 80'
    elif (seats <= 120):
        return '81 - 120'
    else:
        return '121 +'

In [None]:
# добавим категории к данным
seats['seats_category'] = seats['seats'].apply(categorization_seats)

In [None]:
data_seats = (
    seats.groupby(['category', 'seats_category'], as_index=False)
    .agg(count=('name', 'count')).sort_values('count', ascending=False)
)

# Построим столбчатую диаграмму
fig = one_plot_creator(
    df=data_seats,
    x='category', y='count', color='seats_category', text='count',
    title='Распределение количества мест в заведениях по категориям',
    xaxis_title='Категория', yaxis_title='количество заведений',
    legend_title='Кол-во мест', barmode='group',height=600
)
fig.show()

Во всех категориях лидируют по количеству заведения с количеством мест от 21 до 80. Второе и третье места делят заведения большого размера(81-120) и заведения очень большого размера(121+). Меньше всего во всех категориях заведений без посадочных мест.

### Соотношение сетевых и несетевых заведений

•	Рассмотрите и изобразите соотношение сетевых и несетевых заведений в датасете. Каких заведений больше?

In [None]:
chains = pd.DataFrame(data.groupby('chain').name.count()).reset_index() 
chains

In [None]:
# построим круговую диаграмму
labels=['несетевое','сетевое']
chains.plot(y='name', kind='pie',labels=labels, 
               autopct='%1.1f%%', fontsize=11, figsize=(6,6), 
               legend=False, title='Распределение заведений на сетевые и несетевые', startangle=10);
plt.ylabel("");

Больше всего в Москве не сетевых заведений - 4701, сетевых же - 3701.

•	Какие категории заведений чаще являются сетевыми? Исследуйте данные и ответьте на вопрос графиком.

In [None]:
data_chains = data.groupby(by=['category', 'chain'], as_index=False).agg(
    count=('name', 'count')).sort_values(by=['count'], ascending=False)

data_chains.loc[data_chains['chain'] == 0, 'chain'] = 'несетевое'
data_chains.loc[data_chains['chain'] == 1, 'chain'] = 'сетевое'

for i in range(len(data_chains)):
    tv = (data_chains.loc[i]['count']/len(data[data['category'] == data_chains.loc[i]['category']]))*100
    data_chains.at[i, 'ratio'] = str(round(tv, 2)) + '%'
    
fig = one_plot_creator(
    df=data_chains,
    x='category', y='count', color='chain', text='ratio',
    title='Соотношение сетевых и несетевых заведений по категориям',
    xaxis_title='категория', yaxis_title='количество заведений',
    legend_title='Принадлежность к сети',height=600
)
#сортировка по сумме в столбце в обратном порядке
fig.update_layout(barmode='stack', xaxis={'categoryorder':'total descending'})
fig.show()

Сетевые заведения превалируют в булочных, быстром питании, кофейнях и пиццериях. Наибольшее число сетевых заведений в абсолютном выражении в категории кафе, рестораны и кофейни.

### Топ-15 популярных сетей в Москве

•	Сгруппируйте данные по названиям заведений и найдите топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе. Постройте подходящую для такой информации визуализацию. Знакомы ли вам эти сети? Есть ли какой-то признак, который их объединяет? К какой категории заведений они относятся?

In [None]:
data.query('chain == 1').groupby('name').chain.count().sort_values(ascending=False).head(15)

Мы видим, что в список попали заведения, означающие категорию заведения, а не название сети, к ним относится: `кафе, 
хинкальная, шаурма, чайхана, ресторан, столовая`. Считаю, что их нужно удалить, чтобы они не исказили исследование.

In [None]:
top_15 = pd.DataFrame(data.query('chain == 1').groupby('name').chain.count().sort_values(ascending=False)).reset_index()
drop_list = ['кафе','хинкальная', 'шаурма', 'чайхана', 'ресторан', 'столовая']
top_15 = top_15.query('name not in @drop_list').reset_index(drop=True).head(15)
top_15


Самым популярным заведением является Шоколадница, аж 120 филиалов! И не удивительно, ведь это кафе встречается почти на каждой станции метро. 

Дальше с разницей практически в 50 филиатов идут Домино'с пицца - 77 , Додо пицца - 74, One price coffe - 72, Яндекс лавка - 72.

Наименьшее число филиалов у Кофемании - 23.

Все эти заведения расчитаны на быстрое удовлетворение потребности человека в еде и кофе, имеют демократичную ценовую политику, ориентируются на то, чтобы быть как можно ближе к пути следования возможного потребителя. Из всех сетей, представленных в Москве мне лично знакомы Додо пицца и One price coffe, т.к. они есть и в нашем городе.

In [None]:
top_15_name = top_15['name'].to_list()

In [None]:
top_15_df = data.query('name in @top_15_name')

In [None]:
fig = scatter_mapbox_creator(df=top_15_df, lat='lat', lon='lng', color='name', zoom=9, hover_name='name')
fig.show()

In [None]:
fig = one_plot_creator(
    df=top_15_df.groupby(['name', 'category'], as_index=False).agg(count=('category', 'count')).query('count>8').sort_values(by=['count','category'], ascending=False),
    x='name', y='count', color='category', text='count',
    title='Самые популярные категории в сетевых заведениях топ-15',
    xaxis_title='Название сети', yaxis_title='Количество заведений',
    legend_title='Категория', height=450
)
fig.show()

Самая встречаемая категория среди сетевых заведений из топ-15 - кофейня, 6 сетевых заведений, наименее часто встречающаяся категория - булочная, 1 заведение.

### Анализ заведений в разрезе административных районов

Какие административные районы Москвы присутствуют в датасете? Отобразите общее количество заведений и количество заведений каждой категории по районам. Попробуйте проиллюстрировать эту информацию одним графиком.

In [None]:
# выведем общий список административных огругов, присутствующих в датасете
display(pd.DataFrame(data['district'].unique())
        .style.set_caption('Административные округа Москвы')
        .hide_index()
       )

Посмотрим на распределение заведений в общем по районам Москвы.

In [None]:
districts = pd.DataFrame(data.groupby('district').name.count().sort_values(ascending=False)).reset_index()

In [None]:
fig = one_plot_creator(
    df=districts,
    x='district', y='name',  color=None, text='name',
    title='Распределение заведений по районам Москвы',
    xaxis_title='Район', yaxis_title='Количество заведений',
    legend_title=None, height=450
)
fig.show()

Наибольшее количество заведений сосредоточено в Центральном административном округе - 2242 заведения. Во всех остальных районах, кроме Северо-Западного административного округа, распределение практически одинаковое - 709-898 заведений (8,4-10,7%). В Северо-Западном административном округе, находится всего 409 заведений (4,9%).

Посмотрим на распределение заведений по категориям по районам Москвы.

In [None]:
district_count = (
    data.groupby(['district', 'category'], as_index=False)
    .agg(count=('name', 'count')).sort_values('count', ascending=False)
)


In [None]:
# Построим столбчатую диаграмму
fig = one_plot_creator(
    df=district_count,
    x='district', y='count', color='category', 
    title='Распределение категорий заведений по административным районам',
    xaxis_title='район', yaxis_title='количество заведений',
    legend_title='Категория заведения', barmode='group',height=600
)
fig.show()

Распределение заведений по категориям сильно отличается в центральном административном округе от остальных округов.

На первом месте рестораны, далее по убыванию кафе,кофейни, быры и пабы, пиццерии, быстрое питание, столовые, булочные.

В других округах лидирующую позицию занимают кафе, далее второе место зачастую с большим отстованием занимают рестораны, после по убыванию кофейни, пиццерии и быстрое питание, быры и пабы, столовые и булочные.

### Визуализация среднийх рейтинов по категориям заведений.

Визуализируйте распределение средних рейтингов по категориям заведений. Сильно ли различаются усреднённые рейтинги в разных типах общепита?

In [None]:
rating_by_resto = data.groupby('category').rating.mean().sort_values(ascending=False)

In [None]:
rating_by_resto.plot(kind='bar',figsize=(7,5));
plt.xlabel('Категория заведения');
plt.ylabel('Средний рейтинг', );
plt.title('Средний рейтинг по заведениям в разрезе категорий');
plt.ylim(3.9,4.5);

В среднем бары и пабы имеют наилучший рейтинг среди заведений общепита в Москве, следом с отстованием в 0,08  и в 0,09 идут рестораны и пиццерии. Наихудший рейтинг в среднем имеют заведения, категории "Быстрое питание" - 4,03. При этом абсолютная разница в среднем рейтинге не такая большая, всего 0,36 между наибольшим и наименьшим средним рейтингом среди категорий. Можно посмотреть как средний рейтинг меняется в зависимости от района Москвы.

In [None]:
# составим сводную таблицу для получения среднего рейтинга по категориям заведений в разрезе районов
rating = (
    data.groupby(['category', 'district'], as_index=False)
    .agg(count=('rating', 'mean')).sort_values('count', ascending=False)
)

In [None]:
rating

In [None]:
fig = one_plot_creator(
    df=rating,
    x='district', y='count', color='category', 
    title='Средний рейтинг кафе по категориям',
    xaxis_title='Район', yaxis_title='Средний рейтинг',
    legend_title='Категория кафе', barmode='group'
)
fig.update_layout(
    yaxis_range=[3.9, 4.5],
    height=450
)
fig.show()

Наилучшие средние рейтинги по категориям у заведений из ЦАО, наихудшие средние рейтинги в ЮВАО.

### Картограмма со средним рейтингом заведений по районам

Постройте фоновую картограмму (хороплет) со средним рейтингом заведений каждого района. Границы районов Москвы, которые встречаются в датасете, хранятся в файле admin_level_geomap.geojson

In [None]:
rating_df = data.groupby('district', as_index=False)['rating'].agg('mean').sort_values(by='rating',ascending=False)
rating_df

In [None]:
# загружаем JSON-файл с границами округов Москвы
state_geo = '/datasets/admin_level_geomap.geojson'
# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# создаём карту Москвы
m_rating = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=rating_df,
    columns=['district', 'rating'],
    key_on='feature.name',
    fill_color='Greens',
    fill_opacity=0.8,
    legend_name='Средний рейтинг заведений по районам',
).add_to(m_rating)

# выводим карту
m_rating

Наибольший средний рейтинг по заведениям имеет Центральный административный округ, наименьшей - Юго-Восточный административный округ.

### Все заведения датасета на карте

Отобразите все заведения датасета на карте с помощью кластеров средствами библиотеки folium.

Найдите топ-15 улиц по количеству заведений. Постройте график распределения количества заведений и их категорий по этим улицам. Попробуйте проиллюстрировать эту информацию одним графиком.

In [None]:
# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# создаём карту Москвы
m_resto = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m_resto)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
data.apply(create_clusters, axis=1)

# выводим карту
m_resto

### Топ-15 улиц по количеству заведений

Найдите топ-15 улиц по количеству заведений. Постройте график распределения количества заведений и их категорий по этим улицам. Попробуйте проиллюстрировать эту информацию одним графиком.

In [None]:
top_15_streets = data.groupby('street', as_index=False)['name'].agg('count').sort_values(by='name',ascending=False).head(15)
top_15_streets_name = top_15_streets['street'].to_list()
top_15_st_df = data.query('street in @top_15_streets_name').groupby(['street', 'category'], as_index=False).agg(
    count=('name', 'count')).sort_values(by=['count','street'], ascending=False)

In [None]:
top_15_st_df

In [None]:
fig = one_plot_creator(
    df=top_15_st_df,
    x='count', y='street', color='category', text='count',
    title='Распределение количества заведений и их категорий по улицам из топ-15',
    xaxis_title='Количество заведений', yaxis_title='Улица',
    legend_title='Категория заведения'
)
#сортировка по сумме в столбце в обратном порядке
fig.update_layout(barmode='stack', yaxis={'categoryorder':'total descending'})
fig.show()

Самое большое количество заведений располагается на проспекте Мира - 183. 

Далее по числу заведений идут:
- Профсоюзная улица - 122
- проспект Вернадского - 108
- Ленинский проспект - 107
- Ленинградский проспект -	95

Большое количество заведений на этих улицах обусловлено их значительной длиной.

Наименьшее количество заведений из топ-15 улиц на улице Пятницкого.

Наиболее популярны на этих улицах кафе, рестораны и кофейни. Наименьшая популярность у столовых и булочных.

###  Улицы с 1 объектом общепита

Найдите улицы, на которых находится только один объект общепита. Что можно сказать об этих заведениях?

In [None]:
# найдем названия улиц, где есть только одно заведение общепита
street_1_resto = (data
                  .groupby('street', as_index=False)['name']
                  .agg('count')
                  .sort_values(by='name')
                  .query('name ==1')['street'].to_list()
                 )

In [None]:
# найдем как распределены по категриям заведения, которые одни на всю улицу
resto_1_df = data.query('street in @street_1_resto').groupby(
    'category', as_index=False).agg(count=('name', 'count')).sort_values('count', ascending=False).reset_index(drop=True)
resto_1_df

In [None]:
#построим столбчатую диаграмму
fig = one_plot_creator(
    df=resto_1_df,
    x='category', y='count',  color=None,  text='count',
    title='Распределение одиночных заведений по категориям',
    xaxis_title='Категория', yaxis_title='Количество заведений',
    legend_title=None, height=450
)
fig.show()

В данных есть 158 кафе, которые стоят в одиночестве улицу. Найдено также 87 и 83 ресторана и кофейни соответственно, стоящих одиноко. Реже, встречаются быры, столовые и быстрое питание. 

Крайне редко встречаются пиццерии и булочные. Полагаю, что для этих заведений нужна хорошая проходимость, и они выбирают для себя более оживленные места.

### Исследование среднего чека по заведениям

•	Значения средних чеков заведений хранятся в столбце middle_avg_bill. Эти числа показывают примерную стоимость заказа в рублях, которая чаще всего выражена диапазоном. Посчитайте медиану этого столбца для каждого района. Используйте это значение в качестве ценового индикатора района. Постройте фоновую картограмму (хороплет) с полученными значениями для каждого района. Проанализируйте цены в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях?

In [None]:
bill_df = data.groupby('district', as_index=False)['middle_avg_bill'].agg('median').sort_values(by='middle_avg_bill',ascending=False)
bill_df

In [None]:
# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=geo_json,
    data=bill_df,
    columns=['district', 'middle_avg_bill'],
    key_on='feature.name',
    fill_color='Greens',
    fill_opacity=0.5,
    legend_name='Медианный счет заведений по районам',
).add_to(m)

# выводим карту
m

Самый высокий медианный средний чек, в Центральном административном округе и Западном административном округе -  1000 рублей. Наименьший медианный средний чек в Северо-Восточном административном округе, Южном административном округе и Юго-Восточном административном округе - 450-500 рублей. Другие районы находятся в диапазоне - 575-700 рбулей.

В целом удаление от центра дальше чем за ЦАО не сильно влияет на средний чек. Больше оказывает влияние престижность и сообвественно дороговизна района. Чем престижнее район, тем выше средний чек и наооборот. 

### Вывод

- Наиболее часто встречающимися заведениями в Москве являются кафе,рестораны и кофейни. Средними по популярности являются бары и пабы, пиццерии и рестораны быстрого питания. Наименнее часто встречающимися стали столовые и булочные.
- В среднем больше всего посадочных мест в ресторанах, а меньше всего в кафе.
- Во всех категориях лидируют по количеству заведения с количеством мест от 21 до 80. Второе и третье места делят заведения большого размера(81-120) и заведения очень большого размера(121+). Меньше всего во всех категориях заведений без посадочных мест.
- Больше всего в Москве не сетевых заведений - 4701, сетевых же - 3701.
- Сетевые заведения превалируют в булочных, быстром питании, кофейнях и пиццериях. Наибольшее число сетевых заведений в абсолютном выражении в категории кафе, рестораны и кофейни.
- Самая встречаемая категория среди сетевых заведений из топ-15 - кофейня, 6 сетевых заведений, наименее часто встречающаяся категория - булочная, 1 заведение.
- Все сетевые заведения из топ-15 расчитаны на быстрое удовлетворение потребности человека в еде и кофе, имеют демократичную ценовую политику, ориентируются на то, чтобы быть как можно ближе к пути следования возможного потребителя.
- Наибольшее количество заведений сосредоточено в Центральном административном округе - 2242 заведения. Во всех остальных районах, кроме Северо-Западного административного округа, распределение практически одинаковое - 709-898 заведений (8,4-10,7%). В Северо-Западном административном округе, находится всего 409 заведений (4,9%).
- В ЦАО больше всего распространены рестораны, а в остальных округах - кафе, менее всего во всех округах - булочные и столовые.
- В среднем бары и пабы имеют наилучший рейтинг среди заведений общепита в Москве, наихудший имеют заведения быстрого питания.
- Наилучшие средние рейтинги по категориям у заведений из ЦАО, наихудшие средние рейтинги в ЮВАО.
- Самое большое количество заведений располагаются на проспекте Мира, Профсоюзной улица, проспекте Вернадского, Ленинском проспекте, Ленинградском проспекте. Большое количество заведений на этих улицах обусловлено их значительной длиной. Наименьшее количество заведений из топ-15 улиц на улице Пятницкого. Наиболее популярны на этих улицах кафе, рестораны и кофейни. Наименьшая популярность у столовых и булочных.
- В данных есть 158 кафе, которые стоят в одиночестве улицу. Найдено также 87 и 83 ресторана и кофейни соответственно, стоящих одиноко. Реже, встречаются быры, столовые и быстрое питание. Крайне редко встречаются пиццерии и булочные. Полагаю, что для этих заведений нужна хорошая проходимость, и они выбирают для себя более оживленные места.
- Самый высокий медианный средний чек в Центральном административном округе и Западном административном округе. Наименьший медианный средний чек в Северо-Восточном административном округе, Южном административном округе и Юго-Восточном административном округе.

## Детализируем исследование: открытие кофейни

Основателям фонда «Shut Up and Take My Money» не даёт покоя успех сериала «Друзья». Их мечта — открыть такую же крутую и доступную, как «Central Perk», кофейню в Москве. Будем считать, что заказчики не боятся конкуренции в этой сфере, ведь кофеен в больших городах уже достаточно. Попробуйте определить, осуществима ли мечта клиентов.

Ответьте на следующие вопросы:

- Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?
- Есть ли круглосуточные кофейни?
- Какие у кофеен рейтинги? Как они распределяются по районам?
- На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

Постройте визуализации. Попробуйте дать рекомендацию для открытия нового заведения. Это творческое задание: здесь нет правильного или неправильного ответа, но ваше решение должно быть чем-то обосновано. Объяснить свою рекомендацию можно текстом с описанием или маркерами на географической карте.

### Сколько всего кофеен и как они распределены по районам

In [None]:
# получим сколько всего кофеен в данных
data.query('category == "кофейня"').name.count()

Как мы видим, кофеен действительно много в Москве, 1412! Они стоят по популярности на третьем месте после кафе и ресторанов. Постомрим как кофейни разделены между районами.

In [None]:
coffee = data.query('category == "кофейня"')
coffee_by_district = pd.DataFrame(data.query('category == "кофейня"').groupby(['district']).name.count()
             .reset_index()
             .sort_values(by='name',ascending=False)
             .reset_index(drop=True))
coffee_by_district.columns = ['округ','кол-во кофеен']
coffee_by_district

In [None]:
#построим столбчатую диаграмму
fig = one_plot_creator(
    df=coffee_by_district,
    x='округ', y='кол-во кофеен',  color=None,  text='кол-во кофеен',
    title='Распределение количества кофеен по районам',
    xaxis_title='Район', yaxis_title='Количество кофеен',
    legend_title=None, height=450
)
fig.show()

428 (30,3%) всех кофеен сосредоточены в ЦАО, меньше всего в СЗАО - 62 (4,39).

In [None]:
coffee_m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=geo_json,
    data=coffee_by_district,
    columns=['округ', 'кол-во кофеен'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.5,
    legend_name='Распределение кофеен по районам',
).add_to(coffee_m)

# выводим карту
coffee_m

Больше всего кофеен в ЦАО - 428, но там больше всего и проходимость. Меньше всего в СЗАО всего 62 кофейни.

Добавим к делению кофеен по районам точки с кофейнями на карте.

In [None]:
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(coffee_m) 

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
coffee.apply(create_clusters, axis=1)

# выводим карту
coffee_m

Оценим сколько филиалов у топ-15 сетевых кофеен в Москве.

In [None]:
# посмотрим на топ 15 сетевых кофеен
coffee_chain = coffee.groupby('name').name.count().sort_values(ascending=False).head(15)

print('Количество филиалов сетевых кофеен всего:',coffee.query('chain==1').name.count())
print('Количество филиалов у сетевых кофеен из топ-15:')
coffee_chain

In [None]:
coffee_chain.plot(kind='bar',figsize=(7,5));
plt.xlabel('Название сети');
plt.ylabel('Колиечство заведений в сети', );
plt.title('Топ-15 сетевых кофеен');
plt.ylim();

С большим отрывом лидирует среди кофеен "Шоколадница" - 119 заведений, затем "One price coffee" - 72 заведения и cofix - 65 заведений. Меньше всего филиалов у сети "9 bar coffe" - 7.

In [None]:
# Посмотрим на каких улицах располагается больше всего кофеен и сколько из них сетевые
coffee_top_15 = coffee.groupby('street',as_index=False)['name'].agg('count').sort_values(by='name',ascending=False).head(15) 
coffee_15_streets_name =   coffee_top_15['street'].to_list() 
coffee_top_15_chain = coffee.query('street in @coffee_15_streets_name').groupby(by=['street', 'chain'], as_index=False).agg(
    count=('name', 'count')).sort_values('count', ascending=False)

coffee_top_15_chain.loc[coffee_top_15_chain['chain'] == 0, 'chain'] = 'несетевое'
coffee_top_15_chain.loc[coffee_top_15_chain['chain'] == 1, 'chain'] = 'сетевое'

In [None]:
for i in range(len(coffee_top_15_chain)):
    tv = (coffee_top_15_chain.loc[i]['count']/len(coffee[coffee['street'] == coffee_top_15_chain.loc[i]['street']]))*100
    coffee_top_15_chain.at[i, 'ratio'] = str(round(tv, 2)) + '%'

coffee_top_15_chain=coffee_top_15_chain.sort_values('count', ascending=False)
    
fig = one_plot_creator(
    df=coffee_top_15_chain,
    x='street', y='count', color='chain', text='ratio',
    title='Соотношение сетевых и несетевых кофеен по улицам из топ-15',
    xaxis_title='категория', yaxis_title='количество заведений',
    legend_title='Принадлежность к сети',height=600
)
#сортировка по сумме в столбце в обратном порядке
fig.update_layout(barmode='stack', xaxis={'categoryorder':'total descending'})

fig.show()

Из диаграммы видно, что больше всего кофеен располагается на проспекте мира, причем 22 из них относятся к сетевым кофейням. В принципе сетевые кофейни преобладают на всех улицах из топ-15. Только на Ленинском, Волгоградском проспекте и Новодмитровской улице больше несетевых кофеен.

### Круглосуточные кофейни

In [None]:
# посчитаем сколько кофеен работает круглосуточно
coffee.query('is_24_7 == True').name.count()
print('Процент кофеен работающих круглосуточно: ',round(59/1412*100),'%')

In [None]:
coffe_day_n_nigth = coffee.query('is_24_7 == True')

In [None]:
fig = scatter_mapbox_creator(df=coffe_day_n_nigth, lat='lat', lon='lng', color='name', zoom=9, hover_name='name')
fig.show()

In [None]:
coffe_24_7_df = (coffe_day_n_nigth.groupby('district').name.count().reset_index()
             .sort_values(by='name',ascending=False)
             .reset_index(drop=True))
coffe_24_7_df

In [None]:
coffee_24_7 = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=geo_json,
    data=coffe_24_7_df,
    columns=['district', 'name'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.5,
    legend_name='Распределение круглосуточных кофеен по районам',
).add_to(coffee_24_7)

# выводим карту
coffee_24_7

Преимущественно круглосуточные кофейни расположены в ЦАО - 26 заведений. Меньше всего в ЮАО и ЮВАО - всего по 1 штуке на округ.


In [None]:
# посмотрим сколько из круглосуточных кофеен относится к сетевым
coffe_day_n_nigth.groupby('chain').name.count()
coffee_chain_24_7 = coffe_day_n_nigth.groupby(['district', 'chain'], as_index=False).agg(
    count=('name', 'count')).sort_values('count', ascending=False)

In [None]:
coffee_chain_24_7.loc[coffee_chain_24_7['chain'] == 0, 'chain'] = 'несетевое'
coffee_chain_24_7.loc[coffee_chain_24_7['chain'] == 1, 'chain'] = 'сетевое'

for i in range(len(coffee_chain_24_7)):
    tv = (coffee_chain_24_7.loc[i]['count']/len(coffe_day_n_nigth[coffe_day_n_nigth['district'] == coffee_chain_24_7.loc[i]['district']]))*100
    coffee_chain_24_7.at[i, 'ratio'] = str(round(tv, 2)) + '%'
    
fig = one_plot_creator(
    df=coffee_chain_24_7,
    x='district', y='count', color='chain', text='ratio',
    title='Соотношение сетевых и несетевых кофеен по улицам из топ-15',
    xaxis_title='категория', yaxis_title='количество заведений',
    legend_title='Принадлежность к сети',height=600
)
#сортировка по сумме в столбце в обратном порядке
fig.update_layout(barmode='stack', xaxis={'categoryorder':'total descending'})

fig.show()

Как мы видим из диаграмы, преимущественно все круглосуточные кофейни - сетевые. Больше всего их в ЦАО, но также присутствуют и несетевые. Еще несетевые круглосуточные кофейни встречаются ЗАО 1 заведение и ЮЗАО 2 заведения.

### Рейтинги кофеен по районам

Какие у кофеен рейтинги? Как они распределяются по районам?

In [None]:
rating_by_coffee = coffee.groupby('district').rating.mean().sort_values()

In [None]:
rating_by_coffee

In [None]:
rating_by_coffee.plot(kind='barh',figsize=(7,5));
plt.xlabel('Средний рейтинг');
plt.ylabel('Район');
plt.title('Средний рейтинг по кофейням в разрезе районов');

plt.xlim(4.0,4.4);
plt.show()

В среднем рейтинг у кофеен в ЦАО и СЗАО выше чем во всех остальных районах - 4,34 и 4,33 соответственно. Наименьший средний рейтинг у кофеен в ЗАО - 4,20.

### Стоимость чашки капучино

На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

In [None]:
# посмотрим как распределены цены на чашку капучино по кофейням
coffee['middle_coffee_cup'].describe()

In [None]:
 # назначаем размер графика
plt.figure(figsize=(5, 5))

coffee.boxplot('middle_coffee_cup');

Как мы видим есть один выброс на уровне 1600 рублей за чашку капучино, в остальном нормальные значения цены чашки капучино заканчивается на уровне 400 рублей за порцию. Предлагаю убрать выброс, чтобы он не искажал показатели.

In [None]:
coffee_cup = coffee.query('middle_coffee_cup<400')

In [None]:
bill_by_coffee = coffee_cup.groupby('district').middle_coffee_cup.mean().sort_values()
bill_by_coffee

In [None]:
bill_by_coffee.plot(kind='barh',figsize=(7,5));
plt.xlabel('Средняя цена чашки кофе');
plt.ylabel('Район');
plt.title('Средняя цена чашки капучино в разрезе районов');

plt.xlim(125,200);
plt.show()

Самая высокая средняя цена  чашки кофе неожиданно в ЗАО 190 рублей за чашку капучино, следом идут ЦАО и ЮВАО со средним ценником в 188 и 184 рубля за чашку капучино соответственно. Самая низкая цена на чашку капучино в ВАО - 140 рублей.

In [None]:
# напишем функцию для категоризации категорий заведений по количеству мест
def categorization_coffee_cup(middle_coffee_cup):
    if (middle_coffee_cup != middle_coffee_cup):
        return np.nan
    middle_coffee_cup = int(middle_coffee_cup)
    if (middle_coffee_cup == 0):
        return '0'
    elif (middle_coffee_cup <= 125):
        return '60 - 125'  # категория "цена ниже среднего"
    elif (middle_coffee_cup <= 170):
        return '125 - 170' # категория "средняя цена"
    elif (middle_coffee_cup <= 225): 
        return '170 - 225' # категория "цена выше среднего"
    else:
        return '225 +' # категория "цена значительно выше среднего"

In [None]:
# добавим категории к данным
coffee_cup['coffee_category'] = coffee['middle_coffee_cup'].apply(categorization_coffee_cup)

In [None]:
# группируем данные по категориям заведений и категориям цен и считаем количество заведений
data_coffee= coffee_cup.groupby(['district', 'coffee_category'], \
                        as_index = False)[['name']].count().sort_values(by=['name','coffee_category'],ascending=False)
# используем стиль dark из библиотеки seaborn
sns.set_style('dark')
# назначаем размер графика
plt.figure(figsize=(10, 5))
# строим столбчатый график средствами seaborn
sns.barplot(x='district', y='name', data=data_coffee, hue='coffee_category')
# формируем заголовок графика и подписи осей средствами matplotlib
plt.title('Распределение стоимости чашки капучино по районам')
plt.xlabel('Район')
plt.ylabel('Количество заведений')
# поворачиваем подписи значений по оси X на 45 градусов
plt.xticks(rotation=80)
# выбираем положение легенды и указываем размер шрифта
plt.legend(loc='upper right', fontsize=10)
# добавляем сетку
plt.grid()
# отображаем график на экране
plt.show()

Как мы видим из диаграммы, в ЦАО первенство по цене делят кофейни ценовой катогории "выше среднего" и "значительно выше среднего", далее по популярности идут кофейни с ценой ниже среднего. А со средней ценой заведений меньше всего.

Хотела бы обратить внимание на ЗАО. В нем преобладают кофейни с ценовой категорией значительно выше среднего, а кофеен с категорией "выше среднего" не так много, всего 6. Как мне кажется это наш вариант занять нишу в этом районе. Здесь при открытии заведения, стоит ориентироваться на цену от 190 рублей за чашку капучино.

### Выбор и обоснование точки для кофейни

Как мы уже ранее видели, в ЗАО не очень много кофеен, всего - 150. При этом средний рейтинг у них не очень хороший, ниже чем во всех остальных районах - 4,2. Это говорит нам о том, что людям в этом районе хочется лучшего качества обслуживания и они готовы платить за это деньги, т.к. все-таки преобладают там кофейни ценовой категории "значительно выше среднего". Если мы сможем открыть кофейню с ценовой категорией ниже на одну ступень, при этом дадим хорошее обслуживание, уверена, что к нам потянутся люди.

Давайте посмотри подробнее на карту ЗАО и расположенных там заведений с рейтингом и ценовой категорией

In [None]:
coffee_zao = coffee_cup.query('district == "Западный административный округ"')

In [None]:
zao_lat = 55.73853327193383
zao_lng = 37.46522079788122

coffee_zao_m = Map(location=[zao_lat, zao_lng], zoom_start=11)


# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(coffee_zao_m) 

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']} {row['coffee_category']} {row['middle_coffee_cup']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
coffee_zao.apply(create_clusters, axis=1)

# выводим карту
coffee_zao_m

Изучив информацию в интернете с советами по подбору мест для кофейни, я определила, что для нашего формата хорошо подойдет место рядом с парком (хороший дневной трафик за счет мам с детьми, фрилансеров и пенсионеров), метро (хороший утренний и вечерний трафик на кофе с собой для студентов и работников деловых центрови завода). Такми идеальным сочетанием обладает область возле метро "Парк Победы".

Так как ценовая политика у нас будет в категории выше среднего, но при этом ниже на одну ступеть, чем у конкуренов в ближайшем окружении, мы сможем перетянуть на себя часть трафика, при этом не сильно потеряв в выручке. Этот будет, как хотели инвесторы, местом для приятных и доступных посиделок. Конечно, ставку нам стоит сделать на качество обслуживания и приятный интерьер.

Рядом с нами будет располагаться "Шоколадница" и "Кофе&Молоко", а также есть "ВкусВилл", что говорит о хорошей платежеспособности клиента.

Есть два варианта размещения на этой локации, расположиться в том же здании, что и "Шоколадница" по адресу:Площадь Победы, 1к Б, либо въехать в здание напротив по адресу: Площадь Победы, 2 к2,  и перетянуть на себя клиентуру со стороны бизнес-центров и завода, которой не будет хотеться переходить дорогу. Однако есть риск, что мы потеряем тех, что будут идти из парка/в парк. Здесь решение остается за киентом.

Отметим на карте эти две точки.

In [None]:
# координаты дома возле парка победы
point_1_lat = 55.735394
point_1_lng = 37.518798

# координаты дома напротив
point_2_lat = 55.7375796447757
point_2_lng = 37.51889898452249

# создаём карту с центром в точке расположения первой точки и начальным зумом 16
coffee_point = folium.Map(location=[point_1_lat, point_1_lng], zoom_start=16)
# создаём маркер в точке расположения первой точки и сразу добавляем на карту
folium.Marker([point_1_lat, point_1_lng]).add_to(coffee_point)
# создаём маркер в точке расположения второй точки и сразу добавляем на карту
folium.Marker([point_2_lat, point_2_lng]).add_to(coffee_point)

# выводим карту
coffee_point

### Вывод:

- В Москве отрыто 1412 кофеен, из них 30,3% сосредоточены в ЦАО, меньше всего в СЗАО - 4,39%.
- Всего филиалов сетевых кофеен в Москве 753. С большим отрывом среди сетевых кофеен лидирует "Шоколадница" - 119 филиалов, затем "One price coffee" - 72 заведения и cofix - 65 заведений. Меньше всего филиалов у сети "9 bar coffe" - 7.
- Круглосуточно работает только 4 % всех кофеен.Преимущественно круглосуточные кофейни расположены в ЦАО - 26 заведений. Меньше всего в ЮАО и ЮВАО - всего по 1 штуке на округ. Среди круглосуточных кофеен преобладают сетевые. Больше всего их в ЦАО, но также присутствуют и несетевые. Еще несетевые круглосуточные кофейни встречаются ЗАО 1 заведение и ЮЗАО 2 заведения.
- В среднем рейтинг у кофеен в ЦАО и СЗАО выше чем во всех остальных районах - 4,34 и 4,33 соответственно. Наименьший средний рейтинг у кофеен в ЗАО - 4,20.
- Самая высокая средняя цена  чашки кофе в ЗАО 190 рублей за чашку капучино, следом идут ЦАО и ЮВАО со средним ценником в 188 и 184 рубля за чашку капучино соответственно. Самая низкая цена на чашку капучино в ВАО - 140 рублей. 

В качестве места для открытия кофейни мы предлагаем ЗАО. Ранее мы видели, в ЗАО не очень много кофеен, всего - 150. При этом средний рейтинг у них не очень хороший, ниже чем во всех остальных районах - 4,2. Это говорит нам о том, что людям в этом районе хотят лучшего качества обслуживания и готовы платить за это деньги, т.к. все-таки преобладают там кофейни ценовой категории "значительно выше среднего". 

Предлагаем открыть кофейню среднего размера с ценовой категорией "выше среднего", при этом сделать упор на хорошее обслуживание. Ориентироваться нужно на цену от 190 рублей за чашку капучино.

Для нашего формата хорошо подойдет место рядом с парком (хороший дневной трафик за счет мам с детьми, фрилансеров и пенсионеров) и метро (хороший утренний и вечерний трафик на кофе с собой для студентов и работников деловых центров и завода). Таким идеальным сочетанием обладает область возле метро "Парк Победы". Есть два варианта размещения на этой локации, расположиться в том же здании, что и "Шоколадница" по адресу:Площадь Победы, 1к Б, либо въехать в здание напротив по адресу: Площадь Победы, 2 к2

## Презентация

Презентация: <https://disk.yandex.ru/d/NSGvCPmABwoX1A> 

## Вывод

**1 Этап. Загрузка и первичное изучение данных**

- всего в данных хранилась информация о 8406 заведениях
- тип данных в столбце seats перевели в int, в остальных столбцах типы данных были верны
- пропуски присутствовали в 6 столбцах
- больше всего пропусков присутствовало в столбцах: seats, avg_bill, price, middle_avg_bill, middle_coffee_cup

**2 Этап. Предобработка данных**

- все столбцы с текстовыми данными были переведены в нижний регистр
- явных дубликатов найдено не было
- было найдено и удалено 4 неявных дубликата
- была произведена замена значений по столбцу `chain` на 1 для всех уникальных заведений, встречающихся более 1 раза в данных  
- пропуски составляют значительную часть в данных, поэтому пока нет возможности их удалить, возможно позже мы сможем их обработать
- были добавлены столбцы с названиями улиц и с маркером работы 24/7

**3 Этап. Анали данных**

- Наиболее часто встречающимися заведениями в Москве являются кафе,рестораны и кофейни. Средними по популярности являются бары и пабы, пиццерии и рестораны быстрого питания. Наименнее часто встречающимися стали столовые и булочные.
- В среднем больше всего посадочных мест в ресторанах, а меньше всего в кафе.
- Во всех категориях лидируют по количеству заведения с количеством мест от 21 до 80. Второе и третье места делят заведения большого размера(81-120) и заведения очень большого размера(121+). Меньше всего во всех категориях заведений без посадочных мест.
- Больше всего в Москве не сетевых заведений - 4701, сетевых же - 3701.
- Сетевые заведения превалируют в булочных, быстром питании, кофейнях и пиццериях. Наибольшее число сетевых заведений в абсолютном выражении в категории кафе, рестораны и кофейни.
- Самая встречаемая категория среди сетевых заведений из топ-15 - кофейня, 6 сетевых заведений, наименее часто встречающаяся категория - булочная, 1 заведение.
- Все сетевые заведения из топ-15 расчитаны на быстрое удовлетворение потребности человека в еде и кофе, имеют демократичную ценовую политику, ориентируются на то, чтобы быть как можно ближе к пути следования возможного потребителя.
- Наибольшее количество заведений сосредоточено в Центральном административном округе - 2242 заведения. Во всех остальных районах, кроме Северо-Западного административного округа, распределение практически одинаковое - 709-898 заведений (8,4-10,7%). В Северо-Западном административном округе, находится всего 409 заведений (4,9%).
- В ЦАО больше всего распространены рестораны, а в остальных округах - кафе, менее всего во всех округах - булочные и столовые.
- В среднем бары и пабы имеют наилучший рейтинг среди заведений общепита в Москве, наихудший имеют заведения быстрого питания.
- Наилучшие средние рейтинги по категориям у заведений из ЦАО, наихудшие средние рейтинги в ЮВАО.
- Самое большое количество заведений располагаются на проспекте Мира, Профсоюзной улица, проспекте Вернадского, Ленинском проспекте, Ленинградском проспекте. Большое количество заведений на этих улицах обусловлено их значительной длиной. Наименьшее количество заведений из топ-15 улиц на улице Пятницкого. Наиболее популярны на этих улицах кафе, рестораны и кофейни. Наименьшая популярность у столовых и булочных.
- В данных есть 158 кафе, которые стоят в одиночестве улицу. Найдено также 87 и 83 ресторана и кофейни соответственно, стоящих одиноко. Реже, встречаются быры, столовые и быстрое питание. Крайне редко встречаются пиццерии и булочные. Полагаю, что для этих заведений нужна хорошая проходимость, и они выбирают для себя более оживленные места.
- Самый высокий медианный средний чек в Центральном административном округе и Западном административном округе. Наименьший медианный средний чек в Северо-Восточном административном округе, Южном административном округе и Юго-Восточном административном округе.

**4 Этап. Открытие кофейни**

- В Москве отрыто 1412 кофеен, из них 30,3% (428 кофейни) сосредоточены в ЦАО, меньше всего в СЗАО - 4,39 (62 кофейни). В ЗАО размещается 150 кофеен (10,6%).
- Всего филиалов сетевых кофеен в Москве 753. С большим отрывом среди сетевых кофеен лидирует "Шоколадница" - 119 филиалов, затем "One price coffee" - 72 заведения и cofix - 65 заведений. Меньше всего филиалов у сети "9 bar coffe" - 7.
- Круглосуточно работает только 4 % всех кофеен.Преимущественно круглосуточные кофейни расположены в ЦАО - 26 заведений. Меньше всего в ЮАО и ЮВАО - всего по 1 штуке на округ. Среди круглосуточных кофеен преобладают сетевые. Больше всего их в ЦАО, но также присутствуют и несетевые. Еще несетевые круглосуточные кофейни встречаются ЗАО 1 заведение и ЮЗАО 2 заведения.
- В среднем рейтинг у кофеен в ЦАО и СЗАО выше чем во всех остальных районах - 4,34 и 4,33 соответственно. Наименьший средний рейтинг у кофеен в ЗАО - 4,20.
- Самая высокая средняя цена  чашки кофе в ЗАО 190 рублей за чашку капучино, следом идут ЦАО и ЮВАО со средним ценником в 188 и 184 рубля за чашку капучино соответственно. Самая низкая цена на чашку капучино в ВАО - 140 рублей. 

В качестве места для открытия кофейни мы предлагаем ЗАО. Ранее мы видели, что в ЗАО не очень много кофеен, всего - 150. При этом средний рейтинг у них не очень хороший, ниже чем во всех остальных районах - 4,2. Это говорит нам о том, что людям в этом районе хочется лучшего качества обслуживания, и они готовы платить за это деньги, т.к. все-таки преобладают там кофейни ценовой категории "значительно выше среднего". 

Предлагаем открыть кофейню среднего размера с ценовой категорией "выше среднего", при этом сделать упор на хорошее обслуживание. Ориентироваться нужно на цену от 190 рублей за чашку капучино.

Для нашего формата хорошо подойдет место рядом с парком (хороший дневной трафик за счет мам с детьми, фрилансеров и пенсионеров) и метро (хороший утренний и вечерний трафик на кофе с собой для студентов и работников деловых центров и завода). Таким идеальным сочетанием обладает область возле метро "Парк Победы". Есть два варианта размещения на этой локации, расположиться в том же здании, что и "Шоколадница" по адресу:Площадь Победы, 1к Б, либо въехать в здание напротив по адресу: Площадь Победы, 2 к2