# Рынок заведений общественного питания Москвы

# Описание проекта

   Инвесторы из фонда «Shut Up and Take My Money» решили попробовать себя в новой области и открыть заведение общественного питания в Москве. Заказчики ещё не знают, что это будет за место: кафе, ресторан, пиццерия, паб или бар, — и какими будут расположение, меню и цены.
   
Для начала они просят подготовить исследование рынка Москвы, найти интересные особенности и презентовать полученные результаты, которые в будущем помогут в выборе подходящего инвесторам места.
Нелобходимо постараться сделать презентацию информативной и лаконичной. Её структура и оформление сильно влияют на восприятие информации читателями моего исследования. Выбирать инструменты (matplotlib, seaborn и другие) и типы визуализаций я могу самостоятельно.

Мне доступен датасет с заведениями общественного питания Москвы, составленный на основе данных сервисов Яндекс Карты и Яндекс Бизнес на лето 2022 года. Информация, размещённая в сервисе Яндекс Бизнес, могла быть добавлена пользователями или найдена в общедоступных источниках. Она носит исключительно справочный характер.

# Данные об авторе

Проект выполнил студент Яндекс Практикума Грачев В.И.

# Описание данных

**Файл moscow_places.csv:**


- name — название заведения;
- address — адрес заведения;
- category — категория заведения, например «кафе», «пиццерия» или «кофейня»;
- hours — информация о днях и часах работы;
- lat — широта географической точки, в которой находится заведение;
- lng — долгота географической точки, в которой находится заведение;
- rating — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);
- price — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;
- avg_bill — строка, которая хранит среднюю стоимость заказа в виде диапазона, например:


1.   «Средний счёт: 1000–1500 ₽»;
2.   «Цена чашки капучино: 130–220 ₽»;
3.   «Цена бокала пива: 400–600 ₽».
    и так далее;
    

- middle_avg_bill — число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Средний счёт»:


1. Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
2. Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
3. Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.
    

- middle_coffee_cup — число с оценкой одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Цена одной чашки капучино»:


1. Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
2. Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
3. Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.


- chain — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки):


1. 0 — заведение не является сетевым
2. 1 — заведение является сетевым


- district — административный район, в котором находится заведение, например Центральный административный округ;
- seats — количество посадочных мест.


# Ход работы

- Шаг 1. Загрузите данные и изучите общую информацию;
- Шаг 2. Выполним предобработку данных;
- Шаг 3. Проведем анализ данных;
- Шаг 4. Детализируем исследование: открытие кофейни;
- Шаг 5. Подготовим презентацию.




<div class="alert alert-info">
<b>Комментарий студента:</b>
<br>✅
</div>

# Загрузим данные и изучим общую информацию

In [1]:
# Импортируем необходимые библиотеки
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import plotly.express as px
from plotly import graph_objects as go
import folium
from folium import Map, Choropleth, Marker
from folium.plugins import MarkerCluster
from folium.features import CustomIcon
import warnings
warnings.filterwarnings("ignore")

In [2]:
data = pd.read_csv('/datasets/moscow_places.csv')

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
,RangeIndex: 8406 entries, 0 to 8405
,Data columns (total 14 columns):
, #   Column             Non-Null Count  Dtype  
,---  ------             --------------  -----  
, 0   name               8406 non-null   object 
, 1   category           8406 non-null   object 
, 2   address            8406 non-null   object 
, 3   district           8406 non-null   object 
, 4   hours              7870 non-null   object 
, 5   lat                8406 non-null   float64
, 6   lng                8406 non-null   float64
, 7   rating             8406 non-null   float64
, 8   price              3315 non-null   object 
, 9   avg_bill           3816 non-null   object 
, 10  middle_avg_bill    3149 non-null   float64
, 11  middle_coffee_cup  535 non-null    float64
, 12  chain              8406 non-null   int64  
, 13  seats              4795 non-null   float64
,dtypes: float64(6), int64(1), object(7)
,memory usage: 919.5+ KB


In [4]:
data.head()

Unnamed: 0,name,category,address,district,hours,lat,lng,rating,price,avg_bill,middle_avg_bill,middle_coffee_cup,chain,seats
0,WoWфли,кафе,"Москва, улица Дыбенко, 7/1",Северный административный округ,"ежедневно, 10:00–22:00",55.878494,37.47886,5.0,,,,,0,
1,Четыре комнаты,ресторан,"Москва, улица Дыбенко, 36, корп. 1",Северный административный округ,"ежедневно, 10:00–22:00",55.875801,37.484479,4.5,выше среднего,Средний счёт:1500–1600 ₽,1550.0,,0,4.0
2,Хазри,кафе,"Москва, Клязьминская улица, 15",Северный административный округ,"пн-чт 11:00–02:00; пт,сб 11:00–05:00; вс 11:00...",55.889146,37.525901,4.6,средние,Средний счёт:от 1000 ₽,1000.0,,0,45.0
3,Dormouse Coffee Shop,кофейня,"Москва, улица Маршала Федоренко, 12",Северный административный округ,"ежедневно, 09:00–22:00",55.881608,37.48886,5.0,,Цена чашки капучино:155–185 ₽,,170.0,0,
4,Иль Марко,пиццерия,"Москва, Правобережная улица, 1Б",Северный административный округ,"ежедневно, 10:00–22:00",55.881166,37.449357,5.0,средние,Средний счёт:400–600 ₽,500.0,,1,148.0


In [5]:
# Посчитаем количество заведений
data['name'].nunique()

5614

In [6]:
# Посмотрим уникальные значения столбца category
data.category.unique()

array(['кафе', 'ресторан', 'кофейня', 'пиццерия', 'бар,паб',
       'быстрое питание', 'булочная', 'столовая'], dtype=object)

In [7]:
# Посмотрим уникальные значения столбца district
data.district.unique()

array(['Северный административный округ',
       'Северо-Восточный административный округ',
       'Северо-Западный административный округ',
       'Западный административный округ',
       'Центральный административный округ',
       'Восточный административный округ',
       'Юго-Восточный административный округ',
       'Южный административный округ',
       'Юго-Западный административный округ'], dtype=object)

**Вывод по разделу:**


- Загрузили данные и изучили общую информацию;
- Представлено 5614 заведений, возможно на этапе предобработки данных будут найдены дубликаты;
- Присутствуют пропуски в столбцах 'hours', 'price', 'avg_bill', 'seats', так же присутствуют пропуски в столбцах 'middle_avg_bill' и 'middle_coffee_cup', но это предварительно оговорено;
- Столбцы name, category, address, district, hours, price и avg_bill имеют подходящий тип данных object, так как они описывают информацию о заведении;
- Столбцы lat, lng, rating, middle_avg_bill, middle_coffee_cup имеют подходящий тип данных float, так как значения в этих столбцах выражаются рациональными числами;
- Столбец chain имеет подходящий тип данных int, так как выражается целыми чилами;
- Столбцу seats больше подходит тип данных Int64, так как количество сидячих мест не может быть дробным.

# Предобработка данных

In [8]:
# Изменим тип данных столбца seats на Int64, так как количество сидячих мест не может быть дробным
data['seats'] = data['seats'].astype('Int64')

In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
,RangeIndex: 8406 entries, 0 to 8405
,Data columns (total 14 columns):
, #   Column             Non-Null Count  Dtype  
,---  ------             --------------  -----  
, 0   name               8406 non-null   object 
, 1   category           8406 non-null   object 
, 2   address            8406 non-null   object 
, 3   district           8406 non-null   object 
, 4   hours              7870 non-null   object 
, 5   lat                8406 non-null   float64
, 6   lng                8406 non-null   float64
, 7   rating             8406 non-null   float64
, 8   price              3315 non-null   object 
, 9   avg_bill           3816 non-null   object 
, 10  middle_avg_bill    3149 non-null   float64
, 11  middle_coffee_cup  535 non-null    float64
, 12  chain              8406 non-null   int64  
, 13  seats              4795 non-null   Int64  
,dtypes: Int64(1), float64(5), int64(1), object(7)
,memory usage: 927.7+ KB


In [10]:
# Переведем в нижний регистр все значения для удобства
data['name'] = data['name'].str.lower()
data['address'] = data['address'].str.lower()
data['avg_bill'] = data['avg_bill'].str.lower()

In [11]:
# Посчитаем количество заведений c учетом перевода в нижний регистр
data['name'].nunique()

5512

In [12]:
# Проверим на явные дубликаты
data.duplicated().sum()

0

In [13]:
# Проверим на неявные дубликаты
# Дубликатами будем считать совпадения в столбцах с названием и адресом:
data.duplicated(subset = ['name', 'address']).sum()

4

In [14]:
data.loc[data.duplicated(subset=['name', 'address'], keep = False)]

Unnamed: 0,name,category,address,district,hours,lat,lng,rating,price,avg_bill,middle_avg_bill,middle_coffee_cup,chain,seats
189,кафе,кафе,"москва, парк ангарские пруды",Северный административный округ,"ежедневно, 09:00–23:00",55.880327,37.530786,3.2,,,,,0,
215,кафе,кафе,"москва, парк ангарские пруды",Северный административный округ,"ежедневно, 10:00–22:00",55.881438,37.531848,3.2,,,,,0,
1430,more poke,ресторан,"москва, волоколамское шоссе, 11, стр. 2",Северный административный округ,"ежедневно, 09:00–21:00",55.806307,37.497566,4.2,,,,,0,188.0
1511,more poke,ресторан,"москва, волоколамское шоссе, 11, стр. 2",Северный административный округ,"пн-чт 09:00–18:00; пт,сб 09:00–21:00; вс 09:00...",55.806307,37.497566,4.2,,,,,1,188.0
2211,раковарня клешни и хвосты,ресторан,"москва, проспект мира, 118",Северо-Восточный административный округ,"ежедневно, 12:00–00:00",55.810553,37.638161,4.4,,,,,0,150.0
2420,раковарня клешни и хвосты,"бар,паб","москва, проспект мира, 118",Северо-Восточный административный округ,"пн-чт 12:00–00:00; пт,сб 12:00–01:00; вс 12:00...",55.810677,37.638379,4.4,,,,,1,150.0
3091,хлеб да выпечка,булочная,"москва, ярцевская улица, 19",Западный административный округ,"ежедневно, 09:00–22:00",55.738886,37.411648,4.1,,,,,1,276.0
3109,хлеб да выпечка,кафе,"москва, ярцевская улица, 19",Западный административный округ,,55.738449,37.410937,4.1,,,,,0,276.0


In [15]:
# Удалим неявные дубликаты:
data = data.drop_duplicates(subset = ['name', 'address'])

In [16]:
data.loc[data.duplicated(subset=['name', 'address'], keep = False)]

Unnamed: 0,name,category,address,district,hours,lat,lng,rating,price,avg_bill,middle_avg_bill,middle_coffee_cup,chain,seats


In [17]:
# Посчитаем количество пропусков:
data.isna().sum().sort_values()

name                    0
category                0
address                 0
district                0
lat                     0
lng                     0
rating                  0
chain                   0
hours                 535
seats                3610
avg_bill             4586
price                5087
middle_avg_bill      5253
middle_coffee_cup    7867
dtype: int64

**Видим, что присутствует достаточно много пропусков, просто удалить их мы не можем так как это значительная часть данных, адекватно заполнить данные так же не предоставляется возможным ввиду их индивидуальности и разносторонности. Поэтому оставим пропуски как есть.**

In [18]:
# Создадим столбец street с названиями улиц из столбца с адресом, значение между запятыми отберем методом split
data['street'] = data['address'].str.split(',').str[1]

In [19]:
data.head()

Unnamed: 0,name,category,address,district,hours,lat,lng,rating,price,avg_bill,middle_avg_bill,middle_coffee_cup,chain,seats,street
0,wowфли,кафе,"москва, улица дыбенко, 7/1",Северный административный округ,"ежедневно, 10:00–22:00",55.878494,37.47886,5.0,,,,,0,,улица дыбенко
1,четыре комнаты,ресторан,"москва, улица дыбенко, 36, корп. 1",Северный административный округ,"ежедневно, 10:00–22:00",55.875801,37.484479,4.5,выше среднего,средний счёт:1500–1600 ₽,1550.0,,0,4.0,улица дыбенко
2,хазри,кафе,"москва, клязьминская улица, 15",Северный административный округ,"пн-чт 11:00–02:00; пт,сб 11:00–05:00; вс 11:00...",55.889146,37.525901,4.6,средние,средний счёт:от 1000 ₽,1000.0,,0,45.0,клязьминская улица
3,dormouse coffee shop,кофейня,"москва, улица маршала федоренко, 12",Северный административный округ,"ежедневно, 09:00–22:00",55.881608,37.48886,5.0,,цена чашки капучино:155–185 ₽,,170.0,0,,улица маршала федоренко
4,иль марко,пиццерия,"москва, правобережная улица, 1б",Северный административный округ,"ежедневно, 10:00–22:00",55.881166,37.449357,5.0,средние,средний счёт:400–600 ₽,500.0,,1,148.0,правобережная улица


In [20]:
# Создадим столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7).
data['is_24_7'] = data['hours'] == 'ежедневно, круглосуточно'

In [21]:
data.head()

Unnamed: 0,name,category,address,district,hours,lat,lng,rating,price,avg_bill,middle_avg_bill,middle_coffee_cup,chain,seats,street,is_24_7
0,wowфли,кафе,"москва, улица дыбенко, 7/1",Северный административный округ,"ежедневно, 10:00–22:00",55.878494,37.47886,5.0,,,,,0,,улица дыбенко,False
1,четыре комнаты,ресторан,"москва, улица дыбенко, 36, корп. 1",Северный административный округ,"ежедневно, 10:00–22:00",55.875801,37.484479,4.5,выше среднего,средний счёт:1500–1600 ₽,1550.0,,0,4.0,улица дыбенко,False
2,хазри,кафе,"москва, клязьминская улица, 15",Северный административный округ,"пн-чт 11:00–02:00; пт,сб 11:00–05:00; вс 11:00...",55.889146,37.525901,4.6,средние,средний счёт:от 1000 ₽,1000.0,,0,45.0,клязьминская улица,False
3,dormouse coffee shop,кофейня,"москва, улица маршала федоренко, 12",Северный административный округ,"ежедневно, 09:00–22:00",55.881608,37.48886,5.0,,цена чашки капучино:155–185 ₽,,170.0,0,,улица маршала федоренко,False
4,иль марко,пиццерия,"москва, правобережная улица, 1б",Северный административный округ,"ежедневно, 10:00–22:00",55.881166,37.449357,5.0,средние,средний счёт:400–600 ₽,500.0,,1,148.0,правобережная улица,False


**Вывод по разделу:**

- Изменили тип данных столбца 'seats' на Int64 ввиду целочисленных значений;

- Проверили датасет на дубликаты и удалили их;

- Посчитали пропуски и оставили их без изменений ввиду отсутствия логичных замен;

- Создали столбец street с названиями улиц из столбца с адресом;

- Создали столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7).

#  Анализ данных

**Исследуем количество объектов общественного питания по категориям: рестораны, кофейни, пиццерии, бары и так далее. Построим визуализации.**

In [22]:
category_name = data.groupby('category')['name'].count().reset_index()
category_name.columns = ['category', 'count']
category_name

Unnamed: 0,category,count
0,"бар,паб",764
1,булочная,256
2,быстрое питание,603
3,кафе,2376
4,кофейня,1413
5,пиццерия,633
6,ресторан,2042
7,столовая,315


In [None]:
fig = px.bar(category_name,
             x='category',
             y='count',
             text = 'count',
             #color = 'count',
             title = 'Количество заведений общественного питания по категориям'
             )
fig.update_layout(xaxis_title = 'Категории заведений',
                  yaxis_title = 'Количество заведений',
                  xaxis={'categoryorder':'total descending'})
fig.show()

**Больше всего в Москве объектов общественного питания категории "кафе". На втором месте - рестораны, на третьем - кофейни.**

**Исследуем количество посадочных мест в местах по категориям: рестораны, кофейни, пиццерии, бары и так далее. Построим визуализации.**

In [None]:
data.groupby('category')['seats'].describe().round(2).reset_index()

In [None]:
seats_mean = data[data['seats'] !=0].groupby('category')['seats'].mean().reset_index().sort_values(by='seats', ascending=False)

f, ax = plt.subplots(figsize=(16, 7))

ax = sns.barplot(data = seats_mean, x = 'category', y = 'seats')
ax.set_xlabel('Тип заведения')
ax.set_ylabel('Количество мест')
ax.set_title('Среднее количество посадочных мест в заведениях по категориям')
plt.xticks(rotation=45)
plt.show()

In [None]:
seats_median = data[data['seats'] != 0].groupby('category')['seats'].median().reset_index().sort_values(by='seats', ascending=False).round(2)

f, ax = plt.subplots(figsize=(16, 7))

ax = sns.barplot(data=seats_median, x='category', y='seats')

ax.set_xlabel('Тип заведения')
ax.set_ylabel('Количество мест')
ax.set_title('Медианное количество мест в заведениях Москвы')
plt.xticks(rotation=45)
plt.show()

In [None]:
plt.figure(figsize=(15, 7))
ax = sns.boxplot(data=data, x='seats', y='category', palette="Set2")
plt.title('Распределение количества посадочных мест по типам заведений')
plt.xlabel('Количество мест')
plt.ylabel('Тип заведений')
plt.show()

In [None]:
data.query('seats >= 1200')

In [None]:
plt.figure(figsize=(15, 7))
ax = sns.boxplot(data=data, x='seats', y='category', palette="Set2")
plt.title('Распределение количества посадочных мест по типам заведений')
plt.xlabel('Количество мест')
plt.ylabel('Тип заведений')
ax.set_xlim([0, 350])
plt.show()

**Статистически больше всего посадочных мест в ресторанах и барах/пабах. Затем следуют кофейни. Далее идут заведения быстрого питания. Кафе, пиццерии, булочные и столовые располагают для своих гостей меньшим количеством мест. Так же можно заметить, что наблюдается много выбросов данных, например для пяти типов заведений максимальное число посадочных мест совпадает и равно 1288, что скорее всего является технической ошибкой или человеческим фактором. Так же наблюдаем, что верхняя граница большинства заведений находится в пределах 250-300 мест, а медианные значения лежат в диапазоне от 50 до 80. После проверки аномальных значений посадочных мест можно предположить, что данные заведения находятся на фудкортах и не обладают собственными посадочными местами поэтому для них указаны посадочные места всего торгового центра или площадки, где они находятся.**

<div class="alert alert-info">
<b>Комментарий студента:</b>
<br>✅
</div>

**Cоотношение сетевых и несетевых заведений в датасете**

In [None]:
chain = data['chain'].value_counts().reset_index()
chain.columns = ['chain', 'count']
chain

In [None]:
# Визуализируем результаты на диаграмме
fig = go.Figure(data=[go.Pie(labels=['несетевые', 'сетевые'], values=chain['count'])], layout=go.Layout(
        title=go.layout.Title(text="Соотношение сетевых и несетевых заведений")))
fig.show()

In [None]:
# Посмотрим какие категории заведений чаще являются сетевыми
chain_establishments = data.groupby(['category', 'chain'])['name'].count().reset_index()
chain_establishments.columns = ['type', 'chain', 'count']
chain_establishments['chain'] = chain_establishments['chain'].astype(object)
chain_establishments = chain_establishments.sort_values(['count', 'chain'])
chain_establishments

In [None]:
fig = px.bar(chain_establishments,
             x='count',
             y='type',
             text= 'count',
             color='chain',
             category_orders={"chain":['сетевой', 'несетевой']},
             color_discrete_sequence=["#E69F00", "#56B4E9"],
             height=500,
             width=700
             )
fig.update_layout(title = 'Соотношение сетевых и несетевых заведений',
                  xaxis_title = 'Количество заведений',
                  yaxis_title = 'Категории')
fig.show()

**По графику видим, что большинство за несетевыми заведениями. Но есть исключения:**

- кофейня - количество сетевых немного больше. 720/693
- пиццерия - сетевых заведений больше. 330/303
- булочная - сетевых заметно больше. 157/99

**Топ-15 популярных сетей в Москве**

In [None]:
# Группируем данные по названиям заведений и найдем топ-15 популярных сетей в Москве
data_chain = data[data['chain'] == 1]
top_15 = data_chain.groupby('name').agg({'rating': 'median', 'category' : pd.Series.mode, 'district' : 'count'})
top_15 = top_15.rename(columns={'district':'count'})
top_15 = top_15.sort_values('count', ascending = False).reset_index().head(15)
top_15

In [None]:
fig = px.bar(top_15,
             x='count',
             y='name',
             text='count',
             color='name',
             height=500,
             width=1000
             )
fig.update_layout(title = 'Топ-15 популярных сетей Москвы',
                  xaxis_title = 'Количество заведений',
                  yaxis_title = 'Название заведений',
                  showlegend = False)
fig.show()

In [None]:
print('Всего заведений в Топ-15:', top_15['count'].sum())

In [None]:
fig = px.bar(top_15,
             x='count', 
             y='category',
             color='category',
             text = 'name'
            )

fig.update_layout(title='Количество заведений по категориям из топ-15 популярных сетей Москвы',
                   xaxis_title='Количество заведений',
                   yaxis_title='Название категорий',
                   yaxis={'categoryorder':'total ascending'},
                   width=900,
                   height=500
                 )
fig.show()

**Самым популярным заведением является Шоколадница. На втором и третьем месте пиццерии. Сеть Му-Му замыкает топ. Всего заведений в топ-15 - 816. По графику наглядно видно, что большая часть приходится на кофейни. У ресторанов, пиццерий и кафе примерно равное количество.**

**Административные районы Москвы**

**Посмотрим какие административные районы Москвы присутствуют в датасете. Отобразим общее количество заведений и количество заведений каждой категории по районам.**

In [None]:
print('Общее количество заведений в датасете:', data['name'].count())

In [None]:
district_chain_data = data.groupby(['district', 'category']).agg({'rating': 'median', 'name': 'count'})
district_chain_data = district_chain_data.sort_values('rating', ascending=False).reset_index()
district_chain_data = district_chain_data.rename(columns={'name': 'count'})
district_chain_data.head()

In [None]:
fig = px.bar(district_chain_data,
             x='count',
             y='district',
             color='category'
            )
fig.update_layout(title = 'Количество заведений каждой категории по районам Москвы',
                  xaxis_title = 'Количество заведений',
                  yaxis_title = 'Название района',
                  yaxis={'categoryorder': 'total ascending'}
)
fig.show()

In [None]:
print(f'Административные районы Москвы в датасете:', district_chain_data['district'].unique())

**Количество районов - 9. По графику видно, что больше всего заведений располагается в Центральном административном округе. В нем преобладают рестораны, кафе, бары. Столовых меньше всего по всем округам.**

**Средние рейтинги по категориям**

In [None]:
# Визуализируем распределение средних рейтингов по категориям заведений
category_rating = data.groupby('category').agg({'rating': 'mean'}).round(2).sort_values('rating', ascending=False).reset_index()
category_rating

In [None]:
fig = px.bar(category_rating,
             x='rating',
             y='category',
             text='rating',
             color='category'
            )
fig.update_layout(title='Распределение средних рейтингов по категориям заведений',
                  xaxis_title='Рейтинг',
                  yaxis_title='Название категорий'
                  )
fig.update_xaxes(range=[3.8, 4.8])
fig.show()

**Из графика видно, что у категорий бар/паб наивысший рейтинг 4.39. У пиццерий, ресторанов, кофеин и булочных примерно одинаковый рейтинг. Самый маленький рейтинг у ресторанов быстрого питания. Стоит заметить, что по всем заведениям рейтинг выше 4.**

**Фоновая картограмма (хороплет) со средним рейтингом заведений каждого района.**

**Построим фоновую картограмму (хороплет) со средним рейтингом заведений каждого района. Границы районов Москвы, которые встречаются в датасете, хранятся в файле admin_level_geomap.geojson**

In [None]:
rating_data = data.groupby('district', as_index=False)['rating'].agg('mean').round(2)
rating_data

In [None]:
# загружаем JSON-файл с границами округов Москвы
state_geo = '/datasets/admin_level_geomap.geojson'
# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# Создаем карту Мск
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=rating_data,
    columns=['district', 'rating'],
    key_on='feature.name',
    #fill_color='YlGn',
    #fill_opacity=0.8,
    legend_name='Средний рейтинг заведений по районам',
).add_to(m)

# вывод карты
m

**По данным видно, что самый высокий рейтинг в заведениях в Центральном админинстративном округе - 4.38. Самый низкий - в Юго-Восточном админинстратвном округе - 4.1.**

**Заведения датасета на карте**

**Отобразим все заведения датасета на карте с помощью кластеров средствами библиотеки folium.**

In [None]:
# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m)

# функция, принимающая строку датафрейма, создает маркер в текущей точке и
# добавляет его в кластер marker_cluster

def create_cluster(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)
    
# к каждой строке датафрейма применяем функцию
data.apply(create_cluster, axis=1)

# выводим карту
m

**Основная масса заведений располагается в центре города**

**Топ-15 улиц по количеству заведений**

**Найдем топ-15 улиц по количеству заведений. Построим график распределения количества заведений и их категорий по этим улицам.**

In [None]:
city_streets = data[data['street'].notnull()]
top15_streets = city_streets['street'].value_counts().reset_index().head(15)
top15_streets.columns = ['street', 'count']
top15_streets

In [None]:
streets_category = data.groupby(['street', 'category'])['name'].count().reset_index()
streets_category.columns = ['street', 'category', 'count']
streets_category.sort_values('count', ascending=False)

In [None]:
# улицы из топ15
streets_top15_category = streets_category[streets_category['street'].isin(top15_streets['street'])]
streets_top15_category

In [None]:
fig = px.bar(streets_top15_category, 
             x='count', 
             y='street',                    
             color='category'
            )

fig.update_layout(title='Количество заведений каждой категории по улицам',
                   xaxis_title='Количество заведений',
                   yaxis_title='Название улиц',
                   yaxis={'categoryorder':'total ascending'}
                 )
fig.show()

**Из графика можно заметить, что больше всего заведений на проспекте Мира. Преобладают кафе и рестораны. Далее идет Профсоюзная улица и Проспект Вернадского. По распределению заведений ситуация схожая. Скорее всего, такое большое количество заведений на этих улицах обусловлено тем, что они являются крупными городскими транспортными артериями.**

**Значения средних чеков заведений**

**Значения средних чеков заведений хранятся в столбце middle_avg_bill. Эти числа показывают примерную стоимость заказа, которая чаще всего выражена диапазоном.**

- Посчитаем медиану этого столбца для каждого района. Используем это значение в качестве ценового индикатора района.
- Построим фоновую картограмму (хороплет) с полученными значениями для каждого района.

In [None]:
median_bill = data.groupby('district')['middle_avg_bill'].median().reset_index()
median_bill

In [None]:
# создаем карту Москвы
# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423
mm = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# хороплет
Choropleth(
    geo_data=state_geo,
    data = median_bill,
    columns = ['district', 'middle_avg_bill'],
    key_on = 'feature.name',
    legend_name = 'Средний чек заведений по районам',
).add_to(mm)

mm

**По данным выше мы видим, что самый высокий средний чек в Центральном и Западном округах. Самый маленький в Юго-Восточном административном округе. Из таблицы выше видно, что средний чек округов вокруг центрального в среднем отличается в 1,5 - 2 раза. Вполне логично это можно объяснить если немного углубиться в "спецализацию" этих районов. СВАО, ЮАО, ЮВАО - в основном спальные и "рабочие", в то время как Центр и Запад - турристы и крупные офисные бизнес-центры (например Москва-Сити), там работают более обеспеченные слои населения и выше деловая активность**

**Общий вывод по разделу:**
- Был проведен анализ заведений общественного питания Москвы. Больше всего в Москве объектов общественного питания категории "кафе". На втором месте - рестораны, на третьем - кофейни;
- Статистически больше всего посадочных мест в ресторанах и барах/пабах. Затем следуют кофейни. Далее идут заведения быстрого питания. Кафе, пиццерии, булочные и столовые располагают для своих гостей меньшим количеством мест. Так же можно заметить, что наблюдается много выбросов данных, например для пяти типов заведений максимальное число посадочных мест совпадает и равно 1288, что скорее всего является технической ошибкой или человеческим фактором. Так же наблюдаем, что верхняя граница большинства заведений находится в пределах 250-300 мест, а медианные значения лежат в диапазоне от 50 до 80. После проверки аномальных значений посадочных мест можно предположить, что данные заведения находятся на фудкортах и не обладают собственными посадочными местами поэтому для них указаны посадочные места всего торгового центра или площадки, где они находятся;
- Узнали, что большинство за несетевыми заведениями. Но есть исключения - кофейни, пиццерии и булочные;
- Самым популярным заведением является Шоколадница. На втором и третьем месте пиццерии. Сеть Му-Му замыкает топ. Всего заведений в топ-15 - 816. По графику наглядно видно, что большая часть приходится на кофейни. У ресторанов, пиццерий и кафе примерно равное количество;
- Количество районов - 9. По графику видно, что больше всего заведений располагается в Центральном административном округе. В нем преобладают рестораны, кафе, бары. Столовых меньше всего по всем округам;
- В результате построений графиков видим, что у категорий бар/паб наивысший рейтинг 4.39. У пиццерий, ресторанов, кофеин и булочных примерно одинаковый рейтинг. Самый маленький рейтинг у ресторанов быстрого питания. Стоит заметить, что по всем заведениям рейтинг выше 4;
- По построенным данным видно, что самый высокий рейтинг в заведениях в Центральном админинстративном округе - 4.38. Самый низкий - в Юго-Восточном админинстратвном округе - 4.1;
- Основная масса заведений располагается в центре города;
- По построенным данным видно, что больше всего заведений на проспекте Мира. Преобладают кафе и рестораны. Далее идет Профсоюзная улица и Проспект Вернадского. По распределению заведений ситуация схожая;
- Узнали, что 457 улиц имеют только одно заведение. Больше всего - это кафе - 159;
- Cамый высокий средний чек в Центральном и Западном округах. Самый маленький в Юго-Восточном административном округе. Из таблицы выше видно, что средний чек округов вокруг центрального в среднем отличается в 1,5 - 2 раза.


# Детализируем исследование: открытие кофейни

**Ответим на следующие вопросы:**

- Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?
- Есть ли круглосуточные кофейни?
- Какие у кофеен рейтинги? Как они распределяются по районам?
- На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

**Количество кофеен**

In [None]:
coffee_data = data[data['category'] == 'кофейня']
print('Количество кофеен:', len(coffee_data))
coffee_data

In [None]:
# создаем карту
mmm = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаем пустой кластер и добавляем его на карту
marker_cluster = MarkerCluster().add_to(mmm)

# функция, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster

def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
coffee_data.apply(create_clusters, axis=1)

# выводим карту
mmm

**Всего 1413 заведений в категории кофейня. Большая часть заведений располагается в Центральном районе. Меньше всего заведений - в восточной и южной частях города.**

**Время работы**

In [None]:
coffee_24_7 = coffee_data[coffee_data['is_24_7'] == True]
print('Количество круглосуточных кофеен:', len(coffee_24_7))

In [None]:
# создаём карту Москвы
mmmm = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(mmmm)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
coffee_24_7.apply(create_clusters, axis=1)

# выводим карту
mmmm

**Количество круглосуточных кофеен - 59. По карте видно, что большинство находится в центре города.** 

**Рейтинги кофеен**

In [None]:
coffee_rating = coffee_data.groupby('district', as_index=False)['rating'].agg('mean').round(2).sort_values('rating', ascending=False)
coffee_rating

In [None]:
# создаём карту
mmmmm = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=coffee_rating,
    columns=['district', 'rating'],
    key_on='feature.name',
    legend_name='Средний рейтинг заведений по районам',
).add_to(mmmmm)

# выводим карту
mmmmm

**Самый высокий рейтинг в округах: Центральный административный округ и Северо-Западный административный округ. Самый низкий рейтинг у Западного административного округа.**

**Стоимость чашки капучино**

In [None]:
cup_of_coffee = coffee_data.groupby('district', as_index=False)['middle_coffee_cup'].agg('mean').round(2).sort_values('middle_coffee_cup', ascending=False)
display(cup_of_coffee)
coffee_price = round(cup_of_coffee['middle_coffee_cup'].mean(), 2)
print(f'Средняя стоимость чашки кофе в Москве:', coffee_price)

In [None]:
m_6 = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=cup_of_coffee,
    columns=['district', 'middle_coffee_cup'],
    key_on='feature.name',
    legend_name='Средняя цена чашки кофе по районам',
).add_to(m_6)

# выводим карту
m_6

**Самый дорогой кофе в Западном(189.94) и Центральном округах(187.52). Средняя стоимость чашки кофе для Москвы - 171.32.**

**Рекомендации для открытия кофейни**

**Для открытия кофейни стоит рассмотреть в первую очередь, следующие районы: Центральный, Западный и Юго-Западный, т.к. в этих районах высокая стоимость чашки кофе. Если рассматривать открытие в Центральном районе, то лучше ориентироваться на круглосуточный режим работы, т.к. это самый оживленный район в ночное время. Также можно отметить, что Западный район привлекателен для открытия тем, что в нем самый низкий средний рейтинг у кофеен, что может стать преимуществом при открытии нового заведения и при успешном старте можно стать самым популярным заведением в данном районе. Стоит уделить внимание тому, что наиболее популярны заведения на городских артериях, то есть улицах с большим трафиком.**

# Общий вывод

- Был проведен анализ заведений общественного питания Москвы. Больше всего в Москве объектов общественного питания категории "кафе". На втором месте - рестораны, на третьем - кофейни;
- Статистически больше всего посадочных мест в ресторанах и барах/пабах. Затем следуют кофейни. Далее идут заведения быстрого питания. Кафе, пиццерии, булочные и столовые располагают для своих гостей меньшим количеством мест. Так же можно заметить, что наблюдается много выбросов данных, например для пяти типов заведений максимальное число посадочных мест совпадает и равно 1288, что скорее всего является технической ошибкой или человеческим фактором. Так же наблюдаем, что верхняя граница большинства заведений находится в пределах 250-300 мест, а медианные значения лежат в диапазоне от 50 до 80. После проверки аномальных значений посадочных мест можно предположить, что данные заведения находятся на фудкортах и не обладают собственными посадочными местами поэтому для них указаны посадочные места всего торгового центра или площадки, где они находятся;
- Узнали, что большинство за несетевыми заведениями. Но есть исключения - кофейни, пиццерии и булочные;
- Самым популярным заведением является Шоколадница. На втором и третьем месте пиццерии. Сеть Му-Му замыкает топ. Всего заведений в топ-15 - 816. По графику наглядно видно, что большая часть приходится на кофейни. У ресторанов, пиццерий и кафе примерно равное количество;
- Количество районов - 9. По графику видно, что больше всего заведений располагается в Центральном административном округе. В нем преобладают рестораны, кафе, бары. Столовых меньше всего по всем округам;
- В результате построений графиков видим, что у категорий бар/паб наивысший рейтинг 4.39. У пиццерий, ресторанов, кофеин и булочных примерно одинаковый рейтинг. Самый маленький рейтинг у ресторанов быстрого питания. Стоит заметить, что по всем заведениям рейтинг выше 4;
- По построенным данным видно, что самый высокий рейтинг в заведениях в Центральном админинстративном округе - 4.38. Самый низкий - в Юго-Восточном админинстратвном округе - 4.1;
- Основная масса заведений располагается в центре города;
- По построенным данным видно, что больше всего заведений на проспекте Мира. Преобладают кафе и рестораны. Далее идет Профсоюзная улица и Проспект Вернадского. По распределению заведений ситуация схожая;
- Узнали, что 457 улиц имеют только одно заведение. Больше всего - это кафе - 159;
- Cамый высокий средний чек в Центральном и Западном округах. Самый маленький в Юго-Восточном административном округе. Из таблицы выше видно, что средний чек округов вокруг центрального в среднем отличается в 1,5 - 2 раза;


- По результатам проведенного анализа были даны следующие рекомендации. Для открытия кофейни стоит рассмотреть в первую очередь, следующие районы: Центральный, Западный и Юго-Западный, т.к. в этих районах высокая стоимость чашки кофе. Если рассматривать открытие в Центральном районе, то лучше ориентироваться на круглосуточный режим работы, т.к. это самый оживленный район в ночное время. Также можно отметить, что Западный район привлекателен для открытия тем, что в нем самый низкий средний рейтинг у кофеен, что может стать преимуществом при открытии нового заведения и при успешном старте можно стать самым популярным заведением в данном районе. Стоит уделить внимание тому, что наиболее популярны заведения на городских артериях, то есть улицах с большим трафиком.
