# Анализ рынка общественного питания Москвы

Мы планируем открыть небольшое кафе в Москве, особенность этого кафе в том, что гостей должны обслуживать роботы. Для запуска проекта необходимо привлечь инвесторов. Их интересует текущее положение дел на рынке — сможем ли мы снискать популярность на долгое время, когда все зеваки насмотрятся на роботов-официантов? Для того, чтобы заинтересовать инвесторов подготовим исследование рынка. В нашем распоряжении открытые данные о заведениях общественного питания в Москве.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загружаем-данные-и-готовим-их-к-анализу" data-toc-modified-id="Загружаем-данные-и-готовим-их-к-анализу-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загружаем данные и готовим их к анализу</a></span></li><li><span><a href="#Исследуем-соотношение-видов-объектов-общественного-питания-по-количеству." data-toc-modified-id="Исследуем-соотношение-видов-объектов-общественного-питания-по-количеству.-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследуем соотношение видов объектов общественного питания по количеству.</a></span></li><li><span><a href="#Исследуем-соотношение-сетевых-и-несетевых-заведений-по-количеству" data-toc-modified-id="Исследуем-соотношение-сетевых-и-несетевых-заведений-по-количеству-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Исследуем соотношение сетевых и несетевых заведений по количеству</a></span></li><li><span><a href="#Посмотрим-для-какого-вида-объекта-общественного-питания-характерно-сетевое-распространение" data-toc-modified-id="Посмотрим-для-какого-вида-объекта-общественного-питания-характерно-сетевое-распространение-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Посмотрим для какого вида объекта общественного питания характерно сетевое распространение</a></span></li><li><span><a href="#Проанализируем-характерное-поведение-сетевых-заведений,-относительно-колличества-посадочных-мест" data-toc-modified-id="Проанализируем-характерное-поведение-сетевых-заведений,-относительно-колличества-посадочных-мест-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Проанализируем характерное поведение сетевых заведений, относительно колличества посадочных мест</a></span></li><li><span><a href="#Проанализируем-среднее-количество-посадочных-мест-для-каждого-вида-обьекта" data-toc-modified-id="Проанализируем-среднее-количество-посадочных-мест-для-каждого-вида-обьекта-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Проанализируем среднее количество посадочных мест для каждого вида обьекта</a></span></li><li><span><a href="#Выделим-в-отдельный-столбец-информацию-об-улице-из-столбца-address" data-toc-modified-id="Выделим-в-отдельный-столбец-информацию-об-улице-из-столбца-address-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Выделим в отдельный столбец информацию об улице из столбца <code>address</code></a></span></li><li><span><a href="#Найдем-топ-10-улиц-по-количеству-объектов-общественного-питания" data-toc-modified-id="Найдем-топ-10-улиц-по-количеству-объектов-общественного-питания-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Найдем топ-10 улиц по количеству объектов общественного питания</a></span></li><li><span><a href="#Найдём-число-улиц-с-одним-объектом-общественного-питания" data-toc-modified-id="Найдём-число-улиц-с-одним-объектом-общественного-питания-9"><span class="toc-item-num">9&nbsp;&nbsp;</span>Найдём число улиц с одним объектом общественного питания</a></span></li><li><span><a href="#Посмотрим-на-распределение-количества-посадочных-мест-для-улиц-с-большим-количеством-объектов-общественного-питания" data-toc-modified-id="Посмотрим-на-распределение-количества-посадочных-мест-для-улиц-с-большим-количеством-объектов-общественного-питания-10"><span class="toc-item-num">10&nbsp;&nbsp;</span>Посмотрим на распределение количества посадочных мест для улиц с большим количеством объектов общественного питания</a></span></li><li><span><a href="#Общий-вывод-и-рекомендации" data-toc-modified-id="Общий-вывод-и-рекомендации-11"><span class="toc-item-num">11&nbsp;&nbsp;</span>Общий вывод и рекомендации</a></span></li></ul></div>

## Загружаем данные и готовим их к анализу

In [5]:
import plotly.io as pio
pio.renderers.default='notebook'

In [6]:
# импорт необходимых библиотек
import pandas as pd
import numpy as np
import seaborn as sns
import plotly.express as px
from plotly import graph_objects as go
import matplotlib.pyplot as plt

In [7]:
# функция для первичного знакомства с данными
def analysis(df):
  df.columns = [x.lower().replace(' ', '_') for x in df.columns]
  print('describe')
  display(df.describe())
  print('info')
  display(df.info())
  display(df.head(10))

Прочитаем файл и сохраним в переменной:

In [8]:
try:
    df = pd.read_csv('rest_data.csv')
except FileNotFoundError:
    df = pd.read_csv('/datasets/rest_data.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/rest_data.csv'

In [None]:
analysis(df)

Описание данных:
* `id` — идентификатор объекта;
* `object_name` — название объекта общественного питания;
* `chain` — сетевой ресторан;
* `object_type` — тип объекта общественного питания;
* `address` — адрес;
* `number` — количество посадочных мест.

Проверим данные на дубликаты без учёта колонки `id`

In [None]:
df.duplicated(subset=['object_name','chain','object_type','address','number']).sum()

Удалим дубликаты и перезапишем индексы

In [None]:
df = df.drop_duplicates(subset=['object_name','chain','object_type','address','number']).reset_index(drop=True)

**Вывод:**

Дубликаты удалили, пропуски в данных отсутствуют, названия колонок соответствуют общепринятому стилю, типы данных соответствуют ожиданиям.

## Исследуем соотношение видов объектов общественного питания по количеству.

Для анализа видов общественного питания по колличеству сгруппируем данные 

In [None]:
object_type = df.groupby('object_type', as_index=False)['id'].count().sort_values('id', ascending=False)
object_type['percent']  = (object_type['id']/object_type['id'].sum()*100).round(1).astype('str') + '%'
#object_type['object_type'] = object_type['object_type'] + ' ' + object_type['percent']
object_type

Визуализируем полученные данные

In [None]:
fig = px.bar(object_type, x='id', y='object_type',color='object_type')
fig.update_xaxes(tickangle=25)
fig.update_layout(
    title='Соотношение видов объектов общественного питания по количеству',
    xaxis_title="Тип объекта",
    yaxis_title="Количество заведений")
fig.show()

Самую большую долю рынка занимает категория `кафе`, следом за ней идут категории `столовая` и `ресторан`, при этом `кафе` занимает ощутимую долю рынка 39.7 %. Самый непопулярный вид `магазин (отдел кулинарии)` занимает 1.8 % от всего рынка Москвы.

## Исследуем соотношение сетевых и несетевых заведений по количеству

In [None]:
# Построение интерактивной круговой диаграммы
fig = go.Figure(data=[go.Pie(labels=['Сетевые', 'Несетевые'], 
                             values=df.groupby('chain').count().reset_index()['id'],
                             textinfo='label+percent')])

fig.update_layout(
    title_text = 'Cоотношение сетевых и несетевых заведений')

fig.show()

Несетевые заведения занимают 80.6 % рынка Москвы, предположим, что в Москве много предпринимателей, которые открывают точки общественного питания в единичном экземпяре и в целом такое соотношение логично.

## Посмотрим для какого вида объекта общественного питания характерно сетевое распространение

Посчитаем долю сетевых и несетевых заведений для каждого вида объекта общественного питания

In [None]:
chain = df.groupby(['object_type', 'chain'])['id'].count().reset_index(level=1)
 
chain['percent'] = chain['id'] / df.groupby(['object_type'])['id'].count()
chain = chain.reset_index()
chain

Напишем функцию для изменения обозначения сетевых и несетевых заведений и применим её с помощью `apply()`

In [None]:
def change(chain):
    if chain == 'да':
        return 'Сетевые'
    if chain == 'нет':
        return 'Несетевые'

In [None]:
chain['chain']=chain['chain'].apply(change)

Построим интерактивную столбчатую диаграмму по видам заведений с обображением долей сетевых и несетевых заведений.

In [None]:

fig = px.bar(chain, x="object_type", y='percent', color = 'chain')



fig.update_layout(
    title_text = 'Обьекты общественного питания с разделением на сетевые и несетевые',
    xaxis_title = 'Вид объекта',
    yaxis_title = 'Доля сетевых и несетевых')
fig.update_xaxes(categoryorder='max ascending')
fig.show()

Чаще всего встреаются сетевые заведения в `предприятиях быстрого обслуживания`, 41 % из этих заведений являются сетевыми. Так же относительно большая доля сетевых заведений в обьектах общественного питания `ресторан`, `магазин(отдел кулинарии)` и `кафе`. Обьекты `столовая` почти всегда являются несетевыми.

## Проанализируем характерное поведение сетевых заведений, относительно колличества посадочных мест

Отфильтруем из данных только сетевые заведения

In [None]:
network = df.query('chain == "да"')

Сгруппируем данные по названию сети и посчитаем колличество заведений входящих в эту сеть, а так же медианное число посадочнх мест для данной сети.

In [None]:
network = network.groupby('object_name').agg({'id':'count', 'number':'median'}).reset_index().sort_values('id')
network.head()

В некоторых сетях одно заведение, это происходит из-за разных вариаций названия сети, удалим их.

In [None]:
network = network.query('id > 1')

Построим `jointplot` по колличеству посадочных мест и колличеству заведений в сети

In [None]:
sns.jointplot(x='number', y='id', data=network);

Построим распределение колличества заведений в сети и колличества посадочных мест в заведениях

In [None]:
fig, axes = plt.subplots(1,2, figsize=(18,6))

sns.boxplot(data=network, y='id', ax=axes[0])
sns.boxplot(data=network, y='number', ax=axes[1])


axes[0].set_title('Распределение колличества заведений в сети')
axes[1].set_title('Распределение колличества посадочных мест в заведениях сети')
axes[0].set_ylim(0,15)
axes[1].set_ylim(0,200)

plt.show()

На графике видно, что более 8 заведений в сети бывает редко, так же редко встречаются заведения с колличеством посадочных мест более 75. 

Будем считать, что более 8 заведений в сети - `много`, а менее 8 - `мало`. Так же будем счиать, что более 75 посадочных мест - `много`, а менее 75 посадочных мест - `мало`. Разобьем данные по этим критериям на 4 группы :
* A - `большое` число посадочных мест и `небольшое` число заведений
* B - `небольшое` число посадочных мест и `большое` число заведений
* C - `небольшое` число посадочных мест и `небольшое` число заведений
* D - `большое` число посадочных мест и `большое` число заведений

Посчитаем колличество сетей входящих в группу `A`

In [None]:
network.query('number > 75 and id < 8')['object_name'].count()

Посчитаем колличество сетей входящих в группу `B`

In [None]:
network.query('number < 75 and id > 8')['object_name'].count()

Посчитаем колличество сетей входящих в группу `C`

In [None]:
network.query('number < 75 and id < 8')['object_name'].count()

Посчитаем колличество сетей входящих в группу `D`

In [None]:
network.query('number > 75 and id > 8')['object_name'].count()

После группировки больше всего заведений попало в группу `C` - это значит, что для сетей характерно иметь небольшое колличество заведений и небольшое колличество посадочных мест.

## Проанализируем среднее количество посадочных мест для каждого вида обьекта

Посчитаем среднее кол-во посадочных мест для каждого вида обьекта

In [None]:
mean_number = df.groupby('object_type').agg({'number':'mean'}).reset_index().sort_values('number', ascending=False)
mean_number['number'] = mean_number['number'].round(0)
mean_number

Построим диаграмму среднего кол-ва посадочных мест по видам обьектов

In [None]:
fig = px.bar(mean_number, x='object_type', y='number',color='object_type')
fig.update_xaxes(tickangle=25)
fig.update_layout(
    title='Среднее кол-во посадочных мест по видам объектов',
    xaxis_title="Тип объекта",
    yaxis_title="Среднее кол-во посадочных мест")
fig.show()

В среднем больше всего посадочных мест в `столовых`, следом за ними идут `рестораны`, `магазины с отделом кулинарии` ожидаемо находятся на последнем месте.

## Выделим в отдельный столбец информацию об улице из столбца `address`

Напишем функцию для выделения названия улиц в отдельный столбец `street` и применим её ко всему датасету с помощью `apply()`

In [None]:
def add_street(address):
    street_name = ['улица', 'бульвар', 'шоссе',
                   'переулок', 'проезд', 'проспект',
                   'набережная', 'линия', 'тупик', 
                   'киллометр', 'площадь', 'аллея',
                   'квартал', 'микрорайон', 
                   'территория', 'километр']
    for street in address.split(', '):
        for street_names in street_name:
            if street_names in street:
                return street

df['street'] = df['address'].apply(add_street)

Проверим наличие пропусков в столбце `street`

In [None]:
df['street'].isna().sum()

В столбце с названиями улиц остались пропущенные значения, это строки в которых конкретная улица не указана, например в случае с городом Зеленоград, а так же различными посёлками и поселениями, как правило все эти адреса находятся за пределами МКАД. В рамках этого проекта нам нужно исследовать рынок города Москвы, поэтому оставим пропущенные значения.

## Найдем топ-10 улиц по количеству объектов общественного питания

Найдем топ 10 улиц по колличеству заведений

In [None]:
top_street = df.groupby('street').count()['id'].reset_index().sort_values('id', ascending=False).head(10).rename(columns={'id':'amount'})
top_street

Построим график топ 10 улиц по колличеству объектов

In [None]:
fig = px.bar(top_street, x='street', y='amount',color='street')
fig.update_xaxes(tickangle=25)
fig.update_layout(
    title='Топ 10 улиц по колличеству объектов',
    xaxis_title="Улица",
    yaxis_title="Кол-во обьектов")
fig.show()

`Проспект Мира` лидирует по колличеству заведений, на нем находятся 204 заведения, `Кировоградская улица` замыкает топ 10 с колличеством заведений 108.  Все улицы кроме Пресненской набережной являются довольно протяженными, это обьясняет тот факт, что на них находится большое колличество заведений. Пресненская набережная проходит вдоль делового центра Москва-Сити. На пресненской набережной находится большое колличество заведений т.к. деловой центр пропускает через себя большое колличество трафика.

Для определений районов, в которых эти улицы расположены найдем в интернете файл, в котором для каждой улицы определён район и с помощью Google Sheets сохраним его в облаке. Далее скопируем ссылку на этот файл, импортируем в "ноутбук" и сохраним в переменной mos

In [None]:
from io import BytesIO
import requests
spreadsheet_id = '1743ZsFUSyU8CxZ2uYU5xGJkJpHpQrlhAM7S4W03VeVw'
file_name = 'https://docs.google.com/spreadsheets/d/{}/export?format=csv'.format(spreadsheet_id)
r = requests.get(file_name)
mos = pd.read_csv(BytesIO(r.content))
mos.head()

С помощью `merge()` соединим таблицы `mos` c `top_street`. В итоге получим таблицу, где для каждой улицы будут указаны районы в которых эта улица проходит.

In [None]:
top_street = top_street.merge(mos, left_on='street', right_on='streetname', how='left')
top_street = top_street[['street', 'area']]
top_street

## Найдём число улиц с одним объектом общественного питания

Найдем улицы с одним обьектом и посчитаем их число

In [None]:
one_object = df.groupby('street').count()['id'].reset_index().sort_values('id').rename(columns={'id':'amount'})
one_object = one_object[one_object['amount']==1]
one_object['street'].count()

In [None]:
one_object.head()

У нас получилась таблица с названиями улиц на которых находится только один обьект общественного питания, всего таких улиц 567. 


Присоединим таблицу `one_object` к `mos`

In [None]:
one_object = one_object.merge(mos, left_on='street', right_on='streetname', how='left')
one_object = one_object[['street', 'area']]
one_object.head()

In [None]:
# посчитаем колличество пропусков в area
one_object['area'].isna().sum()

В результате у нас получился датасет `one_object` с улицами в которых расположен один объект общественного питания и названием района в котором эта улица расположена, в названиях районов получилось 51 пропущенное значение, но это не критично т.к большинство ячеек заполнены

Посмотрим в каких районах больше всего таких улиц

In [None]:
one_object.groupby('area').count().reset_index().sort_values('street', ascending=False).head(10)

Районы, в которых больше всего улиц с одним объектом общественного питания как правило находятся в пределах третьего транспортного кольца т.е. находятся в центре Москвы.

## Посмотрим на распределение количества посадочных мест для улиц с большим количеством объектов общественного питания

Отфильтруем данные с улицами входящими в топ-10 по колличеству обьектов

In [None]:
top_street = list(top_street['street'])
top_street = df.query('street in @top_street')

Построим распределение количества посадочных мест для улиц входящих в топ-10 по колличеству объектов общественного питания

In [None]:
plt.figure(figsize=(15,9))
plt.xlim(0,750)
sns.boxplot(data=top_street, x='number', y='street')
plt.title('Распределение количества посадочных мест для топ-10 улиц')
plt.ylabel('')
plt.xlabel('Колличествово посадочных мест')
plt.show()

На улицах `проспект Вернадского` `Кутузовский проспект` `Ленинградский проспект` `Ленинский проспект` `проспект Мира` медианное колличество посадочных мест в заведениях приерно 50, на `Кутузовском проспекте` самое большое колличество посадочных мест в заведениях. Самое небольшое колличество посадочных мест в заведениях на улице `Пресненская набережная`, при этом встречается небольшое колличесвто заведений с рекодрным колличеством посадочных мест для этой улицы.

## Общий вывод и рекомендации

По результатам исследования выяснили, что 40% рынка занимает категория `кафе` и это самая большая доля среди всех категорий. Большинство заведений являются несетевыми, а сетевые встречаются чаще в категории `предприятие быстрого обслуживания`. 

Определили топ-10 улиц по колличеству заведений:
* проспект Мира
* Профсоюзная улица
* Ленинградский проспект
* Пресненская набережная
* Варшавское шоссе
* Ленинский проспект
* проспект Вернадского
* Кутузовский проспект
* Каширское шоссе
* Кировоградская улица

В среднем по Москве 40 посадочных мест в заведениях категории кафе, в `ресторанах` и `столовых` в несколько раз больше, на улицах из топ-10 большинство заведений имеет до 100 посадочных мест.


Для того, чтобы дать рекомендации по открытию заведения хотелось бы иметь больше информации. Опираясь на те данные, которые у нас есть, можно предположить, что целесообразно открывать кафе, т.к. эта категория преобладает на рынке, а значит является популярной. В рамках нашего проекта, где гостей обслуживают роботы, считаю целесобразным иметь не более 50 посадочных мест, т.к. люди будут приходить скорее за шоу, чем за долгими посиделками, к тому же это нам поможет сэкономить бюджет. Рекомендую открывать кафе на Пресненской набережной, через эту улицу проходит огромное колличество платёжеспособных и "продвинутых" людей, которым скорее всего будет интересно посетить такое необычное кафе. Такая сеть определённо могла бы иметь огромный усех, но есть вернуться к реальности и представить сколько может стоить такой проект, сразу приходят сомнения об окупаемости :)