### Проект - Рынок заведений общественного питания Москвы.

**Описание проекта.**  

Партнеры и К° решили открыть небольшое оригинальное кафе ***Новые времена*** в Москве, в котором гостей будут обслуживать роботы-официанты. Проект интересный и многообещающий, но весьма дорогой. Партнерам и К° такой старап самостоятельно не потянуть, поэтомы было решено обратиться к инвесторам.   
Инвесторов будет интересовать текущее положение дел на рынке и сможет ли новый проект стать популярным на долгое время даже в том случае, когда все привыкнут к новому формату обслуживания. Партнёры просят своего компаньона, как они думают  — гуру аналитики,  подготовить исследование рынка. Для компаньона это большая ответственность и цена ошибки может быть очень высока. Тем не менее, особого  выбора нет и он не может отказать своим товарищам.  
Используя знания, полученные компаньоном во время обучения в школе Яндекс.Практикум, был составлен пошаговый план исследования и подготовки презентации для инвесторов. 

**[Шаг №1. Загружаем данные и подготовим их к анализу](#1.)**

1.1.    [Загружаем открытые данные о заведениях общественного питания Москвы.](#1.1.)   
1.2.    [Изучаем правильность типов данных в каждой колонке, убеждаемся в отсутствие пропущенных значений и дубликатов. Если будет необходимо, то обрабатываем их.](#1.2.)

**[Шаг №2. Анализ данных](#2.)**  

2.1.	[Исследуем соотношение видов объектов общественного питания по количеству, строим график.](2.1.)  
2.2.	[Исследуем соотношение сетевых и несетевых заведений, строим график.](#2.2.)  
2.3.    [Для какого вида объекта общественного питания характерно сетевое распространение?](#2.3.)  
2.4.    [Что характерно для сетевых заведений: много заведений с небольшим числом посадочных мест в каждом или мало заведений с большим количеством посадочных мест?](#2.4.)  
2.5.    [Для каждого вида объекта общественного питания опишите среднее количество посадочных мест. Какой вид предоставляет в среднем самое большое количество посадочных мест? Постройте графики.](#2.5.)  
2.6.	[Выделите в отдельный столбец информацию об улице из столбца address.](#2.6.)    
2.7.	[Постройте график топ-10 улиц по количеству объектов общественного питания. Воспользуйтесь внешней информацией и ответьте на вопрос — в каких районах Москвы находятся эти улицы?](#2.7.)  
2.8.	[Найдите число улиц с одним объектом общественного питания. Воспользуйтесь внешней информацией и ответьте на вопрос — в каких районах Москвы находятся эти улицы?](#2.8.)  
2.9.	[Посмотрите на распределение количества посадочных мест для улиц с большим количеством объектов общественного питания. Какие закономерности можно выявить?](#2.9.)    
2.10. [Делаем [общий вывод и формулируем рекомендации](#conlusion) о виде заведения, количестве посадочных мест, а также районе расположения. Добавляем комментарии о возможности развития сети кафешек.](#2.10)

**[Шаг №3. Подготовка презентации.](#3.)**

Готовим презентацию исследования для инвесторов. Для создания презентации используем PowerPoint, а финальную версию презентации готовим в формате pdf. 


(Это удалим потом)  
Приложите ссылку на презентацию в markdown-ячейке в формате:
Скопировать кодMARKDOWN
Презентация: <ссылка на облачное хранилище с презентацией> 
Следуйте принципам оформления из темы «Подготовка презентации».
Оформление: Задание выполните в Jupyter Notebook. Программный код заполните в ячейках типа code, текстовые пояснения — в ячейках типа markdown. Примените форматирование и заголовки.

<a id="1."></a>
### Шаг №1. Загружаем данные и готовим их к анализу.

Общими усилиями партнеров были получены данные из открытых источников таких, как Портал открытых данных Правительства Москвы https://data.mos.ru/, Edatam.ru и др. В итоге был получен датасет, с которым и будем работать дальше.


In [9]:
import pandas as pd
pd.set_option('display.max_columns', 30)
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_colwidth', 120)
from IPython.display import display
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime, time
import scipy.stats as stats
import plotly.express as px 
from plotly import graph_objects as go

***1.1. Загружаем данные***

In [19]:
rest_data = pd.read_csv('rest_data.csv')
print(rest_data.info())
print(rest_data.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15366 entries, 0 to 15365
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           15366 non-null  object 
 1   object_name  0 non-null      float64
 2   chain        0 non-null      float64
 3   object_type  0 non-null      float64
 4   address      0 non-null      float64
 5   number       0 non-null      float64
dtypes: float64(5), object(1)
memory usage: 720.4+ KB
None
                                                                                              id  \
0                        151635,СМЕТАНА,нет,кафе,"город Москва, улица Егора Абакумова, дом 9",48   
1                   77874,Родник,нет,кафе,"город Москва, улица Талалихина, дом 2/1, корпус 1",35   
2                  24309,Кафе «Академия»,нет,кафе,"город Москва, Абельмановская улица, дом 6",95   
3                          21894,ПИЦЦЕТОРИЯ,да,кафе,"город Москва, Абрамцевская улица, дом 1",40 

<a id="1.2."></a>
***1.2. Изучаем правильность типов данных.***

Пропусков в датафрейме нет, а вот дупликатов достаточно много, хотя на первый взгляд кажется, что  это не так. 

In [11]:
rest_data.duplicated().sum()

0

Сначала приведем все названия заведений к верхнему регистру.

In [12]:
rest_data['object_name'] = rest_data['object_name'].str.upper()
print(rest_data.head(10))

AttributeError: Can only use .str accessor with string values!

Затем найдем дупликаты по столбцам *object_name* и *address* и удалим их.

In [None]:
rest_data = rest_data.drop_duplicates(subset=["object_name", "address"])
rest_data.info()

Попробуем еще найти и удалить дупликаты пeтем замены символа "-" на пробел. 

In [None]:
rest_data['object_name'] = rest_data['object_name'].str.replace('-',' ')
rest_data = rest_data.drop_duplicates(subset=["object_name", "address"])#.count()
rest_data.head(10)
rest_data.info()

<font color='green'>Дупликаты все еще остались, например: Krispy Creme/Krispy Kreme, Maison Declair/Maison declaiz, Иль Патио/IL Patio/Иль-патио/IL Патио и др. Оставим пока все как есть и будем считать, что такого рода шум не сильно скажется на результатах анализа.</fomnt>

<a id="2."></a>
### Шаг №2. Анализ данных.

<a id="2.1."></a>
***2.1. Cоотношение видов объектов общественного питания по количеству.***

Найдем количество объектов питания каждого типа.

In [None]:
object_rest_data = rest_data['object_type'].value_counts()
print(object_rest_data)

Строим круговую диаграмму, чтобы наглядно увидеть доли объектов каждого типа из их общего числа.

In [None]:
fig = go.Figure(data=[go.Pie(labels=rest_data['object_type'].unique(), values=rest_data['object_type'].value_counts())])
fig.update_layout(title = 'Соотношение объектов общепита в Москве')
fig.show() 

<font color='green'>Доля кафе явно доминирует в структуре московского общепита, что объясняется гибким форматом заведений данного типа. К ним относятся объекты как с бюджетным, так и с дорогим меню, национальные кухни, тематические и сезонные кафе и т.д.  
За ними следуют столовые, поскольку в это число традиционно входят объекты общепита в учебных заведениях, на предприятиях, в медицинских и госучреждениях, социальные столовые и т.д. Характерной особенностью столовых, наряду с их широкой распространенностью является ограниченный доступ для клиентов.  
Третье место занимают закусочные, которые по сути аналогичны по функциональности кафе с самообслуживанием, но с ограниченным количеством готовых блюд или меню быстрого приготовления. Как правило, закусочные ориентируются на бюджетных посетителей.  
Заметную долю также занимают предприятия быстрого обслуживания, к которым относятся сетевые заведения, точки с уличной едой или стрит-фуд и др. Как правило такие заведения торгуют едой на вынос и не предоставляют места для посетителей.</font>

<a id="2.2."></a>
***2.2. Cоотношение сетевых и несетевых заведений.***

Выясним, как соотносятся сетевые и не сетевые точки общепита. Соберем новый датафреймю

In [None]:
chain_rest_data = rest_data.groupby('chain', as_index=False).agg({'id': 'count'})

Найдем соотношение заведений по типу.

In [None]:
chain_rest_data['share'] = chain_rest_data['id'] / chain_rest_data['id'].sum()
chain_rest_data

Построим столбчатую диаграмму.

In [None]:
plt.bar(chain_rest_data['chain'], chain_rest_data['share'])
plt.title('Сетевые и не сетевые заведения общепита')
plt.show()

Не взирая на глобализацию, которая не могла не коснуться индустрии еды, доля сетевых заведений в Москве относительно невелика. И, не смотря на практически неизменные меню, главным достоинством таких заведений является быстрое получение заказа и предсказуемое качество еды.

<a id="2.3."></a>
***2.3. Структура сетевого общепита.***

Найдем распределение сетевых предприятий питания.

In [None]:
chain_object = rest_data.query('chain == "да"').groupby('object_type', as_index=False).agg(
    {'id': 'count'}).sort_values('id', ascending = False)
chain_object.columns = ('object_type', 'chainid')
chain_object

<font color='green'>В структуре сетевого общепита кафе также занимают первое место с большим отрывом. Тройку лидеров замыкают предприятия быстро обслуживания и рестораны, хотя, в используемых для проекта данных, эти понятия сильно размыты. Например, KFC, McDonald's, Букргер Кинг встречаются во всех трех категориях, поэтому будем воспринимать полученный результат, как данность - текущий тренд московского общепита.</font>

Сравним распределение заведений по типу в несетовом сегменте.

In [None]:
rest_data.query('chain == "нет"').groupby('object_type').agg({'id': 'count'}).sort_values('id', ascending = False)

Порядок типов заведений изменился, тем не менее продожим исследование.
Найдем общее количество заведений пр типу.

In [None]:
object_rest_data = rest_data.groupby('object_type', as_index=False).agg({'id': 'count'}).sort_values('id', ascending = False)

Объединим два датасета.

In [None]:
chain_proportion = chain_object.merge(object_rest_data, on='object_type')
chain_proportion

Найдем относительную долю типа сетевых предприятий от общего числа по их типу. 

In [None]:
chain_proportion['proportion'] = chain_proportion['chainid'] / chain_proportion['id']
chain_proportion = chain_proportion.sort_values('proportion', ascending = False)
chain_proportion

In [None]:
#chain_proportion[['object_type', 'proportion']].sort_values('proportion', ascending = False).plot(kind='bar', figsize= (12,5), title='CAC по источникам')

Построим график для визуализации распределения.

In [None]:
fig = px.bar(chain_proportion, x='object_type', y='proportion', title='Доля сетевых заведений по их типу')
fig.update_xaxes(tickangle=45)
fig.show() 

<font color='green'> Вполне ожидаемо видим, что чуть больше 40% предприятий быстрого питания являются сетевыми. Для ресторанов и кафе эта доля составила около 25%. а вот буфеты и столовые в подавляющем большинстве сами по себе.</font>

<a id="2.4."></a>
***2.4. Посадочные места для посетителей в сетевом общепите.***

Что характерно для сетевых заведений: много заведений с небольшим числом посадочных мест в каждом или мало заведений с большим количеством посадочных мест? Построим гистограммы и попробуем разобраться с этим вопросом.

In [None]:
rest_data[rest_data['chain'] == 'да']['number'].hist(bins=100, figsize=(14, 6))

Получилась малоинформативная картина, распределение числа мест лишь отдаленно напоминает нормальное. Наблюдаются многочисленные выбросы, природа которых не ясна. В первом приближении можно сказать, что заметна тенденция для большей части сетевых заведений иметь небольшое количества посадочных мест. При нулевых значениях посадочных это практически стритфуд. 
Отсечем длинный "хвост" заведений с большим числом посадочных мест.

In [None]:
rest_data[rest_data['chain'] == 'да']['number'].hist(bins=100, range=(0, 100), figsize=(14, 6))
plt.title('Desktop - время первой покупки')

Картина стала детальнее, хотя, ясности по-прежнему нет. Наблюдаются многочисленные выбросы кратные 5 и 10. В большей части случаев это объясняется тем, что объекты компактно расположены на фудкортах в  офисно-торгово-развлекательных центрах и посадочные места на фудкортах создают и предоставляют владельцы центров. Вероятно, в зависимости от политики арендодателя в одних центрах точки общепита имеют какое-то условное число посадочных мест (кратное 5 или 10), а в других центрах такого деления нет и там точки питания не могут даже условно указать "свое" число посадочных мест. И тогда возникают нули. 
Попробуем избавиться от выбросов кратным 5 и 10, и построим еще одну гистограмму. Какой-то особой магией обладают цифры 98 и 100, от них мы тоже временно избавимся.

In [None]:
rest_data_2 = rest_data[rest_data['chain'] == 'да']['number'].reset_index(drop=False)
ten_list = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 48, 50, 55, 60, 65, 70, 75, 80, 90, 98, 100, 110, 120, 130, 140, 150, 160]
rest_data_2[np.logical_not(rest_data_2['number'].isin(ten_list))]['number'].hist(bins=100, range=(0, 160), figsize=(14, 6))

Наконец-то, наблюдается хоть какой-то тренд. Больше всего заведений имеет до 30 посадочных мест, затем с ростом посадоных мест заметно снижается число таких заведений. Но затем наблюдаются плотная группа заведений с числом мест от 80 до 100.   

Для окончательной ясности перейдем к построению точечных диаграмм .

In [None]:
scatter_rest_data= rest_data.query('chain == "да"')#.groupby('number', as_index=False).agg({'id': 'count'})#.sort_values('number', ascending = False)
x_values = pd.Series(range(0, len(scatter_rest_data['number'])))

plt.figure(figsize=(14, 6))
plt.title('Распределение заведений по посадочным местам')
plt.scatter(x_values, scatter_rest_data['number'])
plt.ylabel("Число мест")
plt.xlabel("Точки общепита, шт.")

#rest_data.query('chain == "да"').groupby('number').agg({'id': 'count'}).plot(
#    kind='bar', figsize=(12, 5), title='Число визитов по источникам')

И из этого графика пока не возможно что-то понять. Избавимся от части аномальных значений.

In [None]:
scatter_rest_data= rest_data.query('chain == "да"')#.groupby('number', as_index=False).agg({'id': 'count'})#.sort_values('number', ascending = False)
x_values = pd.Series(range(0, len(scatter_rest_data[scatter_rest_data['number']<= 200]['number'])))

plt.figure(figsize=(14, 6))
plt.title('Распределение заведений по посадочным местам')
plt.scatter(x_values, scatter_rest_data[scatter_rest_data['number']<= 200]['number'])
plt.ylabel("Число мест")
plt.xlabel("Точки общепита, шт.")

Снова наблюдаем те же выбросы, но уже виде групп точек расположенных горизонтально.  

Попробуем избавиться от них проверенным способом и построим еще раз те же точечные диаграммы.

In [None]:
ten_list = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 48, 50, 55, 60, 65, 70, 75, 80, 90, 98, 100, 110, 120, 130, 140, 150, 160]
x_values = pd.Series(range(0, len(rest_data_2.query('number != @ten_list'))))

plt.figure(figsize=(14, 6))
plt.title('Распределение сетевых заведений по посадочным местам')
plt.scatter(x_values, rest_data_2.query('number != @ten_list')['number'])
plt.ylabel("Число мест")
plt.xlabel("Точки сетевого общепита")

In [None]:
x_values = pd.Series(range(0, len(rest_data_2.query('number != @ten_list').query('number <= 200'))))

plt.figure(figsize=(14, 6))
plt.title('Распределение сетевых заведений по посадочным местам')
plt.scatter(x_values, rest_data_2.query('number != @ten_list').query('number <= 200')['number'])
plt.ylabel("Число мест")
plt.xlabel("Точки общепита")

Самые плотные скопления значений наблюдаем ниже 50 посадочных мест. 

In [None]:
#np.percentile(rest_data_2.query('number != @ten_list')['number'], [90, 95, 99])

In [None]:
#Этот вариант дает более правильные результаты
np.percentile(rest_data_2['number'], [90, 95, 99])

In [None]:
#rest_data[rest_data['chain'] == 'да'].head(1)

Возьмем десятку самых крупных сетевых заведений общепита и сравним в них среднее количество посадочных мест.

In [None]:
rest_data[rest_data['chain'] == 'да'].groupby('object_name').agg(
    {'id':'count', 'number':'median'}).sort_values(by='id', ascending=False).head(10)

<font color='green'>**Можно сделать вывод о том, что крупнейшие рестораторы быстрого питания не склонны создавать точки своего присутствия с большим числом посадочных мест. Они явно предпочитают развивать сети за счет большого числа точек общепита с относительно небольшим - до 50, количеством мест. Несколько выбивается из этого правила Макдональдс, но эта компания самой певой начала свою операционную деятельность в Москве и сумела использовать это преимущество, арендуя наиболее интересные помещения и не особо ориентируясь на какие-либо цифры.**</font> 

In [None]:
#Исследуем тему несетвых заведений.
#nonet_rest_data = rest_data[rest_data['chain'] == 'нет']['number'].reset_index(drop=False)
#ten_list_2 = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 48, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 96, 97, 98, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 250, 240]
#x_values = pd.Series(range(0, len(nonet_rest_data.query('number != @ten_list_2').query('number <= 250'))))

#plt.figure(figsize=(14, 6))
#plt.title('Распределение несетевых заведений по посадочным местам')
#plt.scatter(x_values, nonet_rest_data.query('number != @ten_list_2').query('number <= 250')['number'])
#plt.ylabel("Число мест")
#plt.xlabel("Точки несетевого общепита")

In [None]:
#nonet_rest_data = rest_data[rest_data['chain'] == 'нет']['number'].reset_index(drop=False)
#ten_list = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 48, 50, 55, 60, 65, 70, 75, 80, 90, 98, 100, 110, 120, 130, 140, 150, 160]
#x_values = pd.Series(range(0, len(nonet_rest_data.query('number != @ten_list'))))

#plt.figure(figsize=(14, 6))
#plt.title('Распределение несетевых заведений по посадочным местам')
#plt.scatter(x_values, nonet_rest_data.query('number != @ten_list')['number'])
#plt.ylabel("Число мест")
#plt.xlabel("Точки несетевого общепита")

In [None]:
#np.percentile(nonet_rest_data['number'], [90, 95, 99])

<a id="2.5."></a>
***2.5. Для каждого вида объекта общественного питания опишите среднее количество посадочных мест. Какой вид предоставляет в среднем самое большое количество посадочных мест? Постройте графики.***

Для начала попробуем найти средние значения для объектов питания.

In [None]:
rest_data.groupby('object_type').agg({'number': 'mean'})

В целом, картина правдоподобная, но мы помним, что в распределении мест имеется длинный хвост. поэтому найдем также медиану.

In [None]:
rest_data.groupby('object_type', as_index=False).agg({'number': 'median'})

Расчет медиан выглядит куда ближе к реальной жизни. Построим график среднего распределения посадочных мест по заведениям. 

In [None]:
#!pip install plotly
import plotly.express as px 

In [None]:
fig = px.bar(rest_data.groupby('object_type', as_index=False).agg({'number': 'median'}),
             x='object_type', y='number', title='Среднее кол-во посадочных мест по объектам')
fig.update_xaxes(tickangle=45)
fig.show() 

<font color='green'> Здесь будут промежуточные комментарии </font>

<a id="2.6."></a>
***2.6. Выделите в отдельный столбец информацию об улице из столбца address.***

In [None]:
import re

In [None]:
#rest_data['street'] = rest_data['address'].str.extract(pat = '([^Москва$])')
#rest_data.head(2)

In [None]:
rest_data['street'] = rest_data['address'].str.extract('(([А-я0-9ё\s\-]+)?(\
улица|переулок|шоссе|проспект|площадь|проезд|село|Проезд|аллея|бульвар|набережная|тупик|линия|\
Зеленоград)([А-я0-9ё\s\-]+)?)')[0]
#Здесь стоит забить на Зеленоград, это просто микрорайн, хотя и большой
rest_data.head(10)
rest_data.info()

In [None]:
rest_data['street'].unique()

<font color='green'> Здесь будут комментарии </font>
Удалим пробелы перед названием улиц.

In [None]:
rest_data['street'] = rest_data['street'].str.strip()
rest_data['street'].unique()

<font color='green'> Здесь будут комментарии </font>  
Довавим в датасет столбец с номерами домов.

In [None]:
rest_data['house'] = rest_data['address'].str.extract('(([А-я0-9ё\s\-]+)?(дом|строение|корпус|владение)([А-я0-9ё\s\-]+)?)')[0]
rest_data['house'].unique()
rest_data.info()
rest_data.head(10)

<a id="2.7."></a>
***2.7.Постройте график топ-10 улиц по количеству объектов общественного питания. Воспользуйтесь внешней информацией и ответьте на вопрос — в каких районах Москвы находятся эти улицы?***

Найдем числом объектов общепита на каждой улице и выберем первую десятку.

In [None]:
#rest_data.groupby('street').agg({'id': 'nunique'}).sort_values(by=['id'], ascending=False).head(11)
street_rest_data = rest_data.groupby('street', as_index=False).agg(
    {'id': 'nunique'}).sort_values(by=['id'], ascending=False).head(11)
street_rest_data
street_rest_data.iloc[1:11]

<font color='green'> Здесь будут комментарии </font>  
Отразим полученные данные на графике.

In [None]:
fig = px.bar(street_rest_data,
             x='street', y='id', title='Топ-10 улиц по объектам общепита')
fig.update_xaxes(tickangle=45)
fig.show() 

Выясним, в каких районах находятся эти улицы. Для этого используем мосгазовский "Список всех улиц Москвы и их привязка к районам" с сайта **Хаб открытых данных**.

In [None]:
districts = pd.read_csv('mosgaz-streets.csv')
districts.columns = ('street', 'areaid', 'okrug', 'area')
districts.head(1)

In [None]:
address_rest_data = street_rest_data.merge(districts, on='street', how='left')
address_rest_data
address_rest_data.groupby(['street', 'area']).agg({'id': 'first'}).sort_values(by='id', ascending=False)

**<font color='green'>
Характерно, что большинство улиц являются вылетными магистралями и, проходя через несколько районов, собирают большое количество точек общепита. Ислючение составляет совсем короткая Пресненская набережная, на которой находится Москва-Сити со всеми вытекающими последствиями, да еще Кировоградская улица, к которой примыкают сразу несколько торгово-офисных центров.  
Что касается Зеленограда, то это отельная история. Данные по этому округу мы будем учитывать в исследовании, но в плане инвестиций район малоинтересен.</font>** 

<a id="2.8."></a>
***2.8. Найдите число улиц с одним объектом общественного питания.***

Теперь посмотрим, сколько улиц в Москве могут похвастаться одним-единственным предприятием общепита.

In [None]:
rest_data.head(1)

In [None]:
rest_data.groupby('street').agg({'id':'count'}).query('id == 1').count()

In [None]:
once_rest_data = rest_data.groupby('street', as_index=False).agg({'id':'count'}).query('id == 1')
once_rest_data.info()

In [None]:
once_rest_data.duplicated().sum()

**<font color='green'> Здесь будут комментарии </font>**
Не так уж и мало таких улиц, аж целых 544!

Выясним, в каких районах Москвы находятся эти улицы.

In [20]:
area_once_rest_data = once_rest_data.merge(districts, on='street')
area_once_rest_data.info()


NameError: name 'once_rest_data' is not defined

In [None]:
area_once_rest_data.head(12)

Количество строк в новом датасете увеличилось из-за того, что некотороые улицы проходят через несколько районов. Но их число невелико и вряд ли оно заметно скажется на общей картине, поэтому проигнрируем это обстоятельство.  

Выясним далее, в каких районах больше всего таких улиц.

In [None]:
area_once_rest_data.groupby(['okrug','area'], as_index=False).agg(
    {'street': 'count'}).sort_values('street', ascending=False).head(10)

Примечательно, что 8 из 10 топ-районов находятся в Центральном округе. Это объясняется тем, что в ЦАО много коротких улиц и, как правило, там не так много возможностей для аренды подходящего помещение под кафе или ресторан. А для офисно-торгово-развлекательных центров места нет вообще.

Ранжируем теперь округа по количеству улиц с одним объектом общепита.

In [13]:
area_once_rest_data.groupby(['okrug'], as_index=False).agg({'street': 'count'}).sort_values('street', ascending=False)

NameError: name 'area_once_rest_data' is not defined

**<font color='green'> Здесь будут комментарии </font>**  
И здесь ЦАО лидирует с большим отрывом.

<a id="2.9."></a>
***2.9. Посмотрите на распределение количества посадочных мест для улиц с большим количеством объектов общественного питания. Какие закономерности можно выявить?***

In [None]:
rest_data.head(1)

In [None]:
rest_data.groupby(['street']).agg(
    {'id': 'count', 'number': 'mean'}).reset_index(drop=False).sort_values(
    'id', ascending=False).head(11)

Исключим из расмотрения Зеленоград, как район малоинтересный для нашего исследования. Хотя он является городским округом, но по сути это просто удаленный от Москвы микрорайн, к тому же с плохой транспортной доступностью. 

In [None]:
rest_data.groupby(['street']).agg(
    {'id': 'count', 'number': 'median'}).reset_index(drop=False).sort_values(
    'id', ascending=False).iloc[1:11]

In [None]:
number_by_street = rest_data.groupby(['street']).agg(
    {'id': 'count', 'number': 'median'}).reset_index(drop=False).sort_values(
    'id', ascending=False)#.iloc[1:11]

In [None]:
#number_by_street.plot(x='id', y='number', grid=True, kind='scatter')

In [None]:
plt.figure(figsize=(14, 6))
plt.title('Распределение заведений по посадочным местам')
plt.scatter(number_by_street['id'], number_by_street['number'])
plt.xlabel("Кол-во точек общепита")
plt.ylabel("Среднее число мест")


Полученное распределение, в общем-то, подтверждает предыдущие наблюдения. Большая часть заведений имеет небольшое число посадочных мест. В частности заведения на топ-10 улиц имеют в среднем от 25 до 46 посадочных мест.

<a id="2.10"></a>
***2.10. Общий вывод и рекомендации.***

Подводя итог исследования, можно сказать, что для стартапа больше всего подойдет формат заведения быстрого питания. На самом деле, нет большого смысла заменять живых официантов примитивными, но дешевыми манекенами на колесиках. Время на обслуживание это сильно не сократит, зато потребует дополнительное пространство между столиками для передвижения, доставки готовых блюдд и уборки пустой посуды. К тому же  эти куклы не развлекут посетителей яркой беседой. Что касается роботов-андроидов, то успешные разработки уже имеются, но масштабное производство не налажено, скорость передвижения оставляет желать лучшего, а цена все еще высока.  
Поэтому есть прямой смысл внедрить формат роботизированной кухни и доверить роботам прием заказа и оплату, а также выдачу готового заказа. 