# Проект: Рынок заведений общественного питания Москвы. #

## Описание проекта. ##

Нам доступен датасет с заведениями общественного питания Москвы, составленный на основе данных сервисов Яндекс Карты и Яндекс Бизнес на лето 2022 года. 
Необходимо подготовить данные для исследование рынка Москвы, найти интересные особенности и презентовать полученные результаты в виде информативной и лаконичной презентации, которая в будущем поможет в выборе подходящего инвесторам места.

### Описание данных. ###

Файл <b>moscow_places.csv</b>:
- <b>name</b> — название заведения;
- <b>address</b> — адрес заведения;
- <b>category</b> — категория заведения, например «кафе», «пиццерия» или «кофейня»;
- <b>hours</b> — информация о днях и часах работы;
- <b>lat</b> — широта географической точки, в которой находится заведение;
- <b>lng</b> — долгота географической точки, в которой находится заведение;
- <b>rating</b> — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);
- <b>price</b> — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;
- <b>avg_bill</b> — строка, которая хранит среднюю стоимость заказа в виде диапазона, например:
    -  «Средний счёт: 1000–1500 ₽»;
    - «Цена чашки капучино: 130–220 ₽»;
    - «Цена бокала пива: 400–600 ₽» и так далее.

- <b>middle_avg_bill</b> — число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Средний счёт»:
  
    - Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
    - Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
    - Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.
    
- <b>middle_coffee_cup</b> — число с оценкой одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Цена одной чашки капучино»:
  
    - Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
    - Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
    - Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.
    
- <b>chain</b> — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки):
    - 0 — заведение не является сетевым
    - 1 — заведение является сетевым
    
- <b>district</b> — административный район, в котором находится заведение, например Центральный административный округ;
- <b>seats</b> — количество посадочных мест.

### План выполнения проекта. ###

<b>Шаг 1.</b> Загрузим данные и изучим общую информацию. Путь к файлу: */datasets/moscow_places.csv*. 

<b>Шаг 2.</b> Выполним предобработку данных.
- Проверим наличие дубликатов в данных
- Проверим наличие пропусков в данных
- Создадим столбец street с названиями улиц из столбца с адресом.
- Создадим столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7):
    - логическое значение True — если заведение работает ежедневно и круглосуточно;
    - логическое значение False — в противоположном случае.
    
<b>Шаг 3.</b> Анализ данных
- Какие категории заведений представлены в данных? Исследуем количество объектов общественного питания по категориям: рестораны, кофейни, пиццерии, бары и так далее. Построим визуализацию. Ответим на вопрос о распределении заведений по категориям.

- Исследуем количество посадочных мест в местах по категориям: рестораны, кофейни, пиццерии, бары и так далее. Построим визуализацию. Проанализируем результаты и сделаем выводы.

- Рассмотрим и изобразим соотношение сетевых и несетевых заведений в датасете. Каких заведений больше?

- Какие категории заведений чаще являются сетевыми? Исследуем данные и ответим на вопрос графиком.

- Сгруппируем данные по названиям заведений и найдём топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе. Построим подходящую для такой информации визуализацию. Знакомы ли нам эти сети? Есть ли какой-то признак, который их объединяет? К какой категории заведений они относятся?

- Какие административные районы Москвы присутствуют в датасете? Отобразим общее количество заведений и количество заведений каждой категории по районам. Попробуем проиллюстрировать эту информацию одним графиком.

- Визуализируем распределение средних рейтингов по категориям заведений. Сильно ли различаются усреднённые рейтинги в разных типах общепита?

- Построим фоновую картограмму (хороплет) со средним рейтингом заведений каждого района. Границы районов Москвы, которые встречаются в датасете, хранятся в файле *admin_level_geomap.geojson*.

- Отобразим все заведения датасета на карте с помощью кластеров средствами библиотеки folium.

- Найдём топ-15 улиц по количеству заведений. Построим график распределения количества заведений и их категорий по этим улицам. Попробуем проиллюстрировать эту информацию одним графиком.

- Найдите улицы, на которых находится только один объект общепита. Что можно сказать об этих заведениях?

- Значения средних чеков заведений хранятся в столбце middle_avg_bill. Эти числа показывают примерную стоимость заказа в рублях, которая чаще всего выражена диапазоном. Посчитаем медиану этого столбца для каждого района. Используем это значение в качестве ценового индикатора района. Построим фоновую картограмму (хороплет) с полученными значениями для каждого района. Проанализируем цены в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях?

- Соберем наблюдения по вопросам выше в один общий вывод.

<b>Шаг 4.</b> Детализируем исследование: открытие кофейни

Ответим на следующие вопросы:
- Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?
- Есть ли круглосуточные кофейни?
- Какие у кофеен рейтинги? Как они распределяются по районам?
- На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

Построим визуализацию и попробуем дать рекомендацию для открытия нового заведения. 

<b>Шаг 5.</b> Подготовка презентации

Подготовим презентацию исследования для инвесторов. Выберем важные тезисы и наблюдения, которые могут заинтересовать заказчиков. Приложим ссылку на презентацию в формате PDF в markdown-ячейке.

## Шаг 1. Загрузим данные и изучим общую информацию. ##

In [None]:
# импорт библиотек
import pandas as pd
import numpy as np
import re
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
import seaborn as sns
import json
from folium import Map, Choropleth
from folium import Map, Marker
from folium.plugins import MarkerCluster
import plotly.io as pio
pio.renderers.default = 'png'

In [None]:
# загрузка датасета
df = pd.read_csv('moscow_places.csv')
pd.options.display.float_format = '{:,.2f}'.format

In [None]:
# выведем 10 случайных строк
df.sample(10)

In [None]:
# обзор общей информации 
df.info()

In [None]:
# выведем описательную статистику 
df.describe()

In [None]:
# подсчитаем кол-во заведений
df['name'].nunique()

In [None]:
# кол-во заведений по категориям
df['category'].value_counts()

***Вывод:***
- Корректные названия столбцов;
- Данные соотвествуют своим значениям;
- Датасет имеет 8406 строк;
- Всего заведений 5614;
- Требуется преобразование текстовых значений в нижний регистр (столбцы name, address, district, avg_bill) для удобства работы.


## Шаг 2. Выполним предобработку данных. ##

In [None]:
# приведем ряд значений в нижний регистр
df['name'] = df['name'].str.lower()
df['address'] = df['address'].str.lower()
df['avg_bill'] = df['avg_bill'].str.lower()

In [None]:
# проверим наличие дубликатов
print('Количество дубликатов:', df.duplicated().sum())

In [None]:
# сбросим неявные дубликаты 
df.drop_duplicates(subset=['name','address'], keep='first')

In [None]:
# проверим наличие пропусков
print('Количество пустых строк:', df.isna().sum())

In [None]:
# создадим столбец street с названиями улиц из столбца с адресом
street_types = ['проезд','шоссе','улица','переулок','микрорайон','мкад','проспект','пр.',
         'площадь','аллея','бульвар','набережная','сквер','тупик','линия','территория',
         'квартал','просек','парк','мост']
 
str_pat = r".*,\s*\b([^,]*?(?:{})\b[^,]*)[,$]+".format("|".join(street_types))
 
df['street'] = df['address'].str.extract(str_pat, flags=re.I)

df.sample(10)

In [None]:
# проверим наличие пропусков в столбце street
df['street'].isna().sum()

In [None]:
# cоздадим столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно 
df['is_24/7'] = df['hours'].str.contains('ежедневно, круглосуточно')

In [None]:
# проверим внесенные изменения
df.sample(10)

***Вывод:***
- Ряд данных был приведен в нижний регистр для удобства работы;
- Явные дубликаты не обнаружены;
- Обнаруженно огромное количество пропусков в столбцах hours, price, avg_bill, middle_avg_bill, middle_coffee_cup, seats;
- Создан новый столбец street с названием улиц заведений, обнаружено 135 пропусков. Адреса не всех заведений имеются в таблице;
- Создан новый столбец is_24/7 с булевым значением, что заведение работает беспрерывно.

## Шаг 3. Анализ данных. ##

### Какие категории заведений представлены в данных? Исследуем количество объектов общественного питания по категориям: рестораны, кофейни, пиццерии, бары и так далее. Построим визуализацию. Ответим на вопрос о распределении заведений по категориям. ###

In [None]:
# создадим таблицу с количеством заведений по категориям
category_name = df['category'].value_counts().to_frame().reset_index()
category_name.columns = ['category', 'amount']
category_name

In [None]:
# построим график 
fig = px.bar(category_name, x='category', y='amount', title='Количество объектов общественного питания по категориям в Москве')
fig.update_layout(xaxis_title='Категории заведений', yaxis_title='Количество заведений')
fig.show(renderer='png', width=1200, height=500) 

In [None]:
# построим круговую диаграмму
fig = go.Figure(data=[go.Pie(labels=category_name['category'], values=category_name['amount'])], 
          layout=go.Layout(title=go.layout.Title(text="Круговая диаграмма категорий объектов общественного питания в Москве")))
fig.show(renderer='png', width=1200, height=500) 

***Вывод:***
- По количеству заведений лидируют кафе с численностью 2378 (28.3%), на 2 - ом месте находится ресторан - 2043 (24.3%), на 3 - ем месте  кофейня - 1413 (16.8%). Вместе они составляют 69.4% всех  заведений;
- Остальные заведения поделили между собой оставшиеся 30%.
    - Бар, паб - 765 (9.1%)
    - Пиццерия - 633 (7.53%)
    - Быстрое питание - 603 (7.17%)
    - Столовая - 315 (3.75%)
    - На последнем месте находится булочная - 256 заведений (3.05%)

### Исследуем количество посадочных мест в местах по категориям: рестораны, кофейни, пиццерии, бары и так далее. Построим визуализацию. Проанализируем результаты и сделаем выводы. ###

In [None]:
df.groupby('category')['seats'].describe()

In [None]:
# построим график с медианным кол-вом мест 
median_seats = df[df['seats'] !=0].groupby('category')['seats'].median().reset_index().sort_values(by='seats', ascending=False)

f, ax = plt.subplots(figsize=(20, 10))
ax = sns.barplot(x='category', y='seats', data=median_seats, palette="GnBu_d")
ax.set_xlabel('Тип объекта')
ax.set_ylabel('Количество мест')
ax.set_title('Медианное кол-во мест по заведениям в Москве');

In [None]:
order = df.groupby('category')['seats'].median().sort_values(ascending=False).index
order

In [None]:
#построим ящик с усами распределения кол-ва посадочных мест по типам заведения
plt.figure(figsize=(20,7))
ax = sns.boxplot(data=df, x='seats', y='category', order=order, color='seagreen')
plt.title('Ящик с усами распределения количества посадочных мест по типам заведений в Москве')
plt.xlabel('Количество мест')
plt.ylabel('Тип заведений')
plt.legend('')
plt.yticks(fontsize=15)
plt.xticks(fontsize=15)
plt.grid(linewidth = 0.5, linestyle = '--')
plt.xlim(0, 600);

***Вывод:***

Больше всего посадочных мест предоставляют рестораны. Так же много посадочных мест в заведениях быстрого питания. У кафе и столовых меньше всего посадочных мест, что характерно для подобного рода заведений, ибо люди в основной своей массе долго не задерживаются, посещают с целью быстрого приёма пищи или покупки напитка.

### Рассмотрим и изобразим соотношение сетевых и несетевых заведений в датасете. Каких заведений больше? ###

In [None]:
# посчитаем кол-во сетевых и несетевых заведений
chain = df['chain'].value_counts().to_frame().reset_index()
chain.columns = ['chain', 'amount']
chain

In [None]:
# построим круговую диаграмму
fig = go.Figure(data=[go.Pie(labels=['несетевые', 'сетевые'], values=chain['amount'])], layout=go.Layout(
        title=go.layout.Title(text="Соотношение сетевых и несетевых заведений")))
fig.update_layout(legend=dict(y=0.01, x=0.7))
fig.show(renderer='png', width=1200, height=500) 

***Вывод:***

В Москве 5201 заведений не являются сетевыми, что составляет 61.9% от общего кол-ва заведений.

### Какие категории заведений чаще являются сетевыми? Исследуем данные и ответим на вопрос графиком. ###

In [None]:
# соберерем данные по типам заведений
chain_types = df.groupby(['category', 'chain'])['name'].count().reset_index()
chain_types.columns = ['type', 'chain', 'amount']
chain_types['chain'] = chain_types['chain'].astype(object)
chain_types

In [None]:
# построим график 
fig = px.bar(chain_types, x='amount', y='type', color='chain', text='amount')
fig.update_layout(title='Соотношение сетевых заведений',
                   xaxis_title='Количество заведений',
                   yaxis_title='Тип заведений',
                   yaxis={'categoryorder':'total ascending'})
fig.show(renderer='png', width=1200, height=500) 

***Вывод:***

По графику видно, что львиную долю из общего количества, составляют в основном несетевые заведения, но есть некоторые исключения:
- Пиццерия - соотношение несетевых и сетевых заведений 303 / 330;
- Кофейня -  соотношение несетевых и сетевых заведений 693 / 720;
- Булочная - соотношение несетевых и сетевых заведений 99 / 157.

В остальных случаях несетевые заведения доминируют.

### Сгруппируем данные по названиям заведений и найдём топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе. Построим подходящую для такой информации визуализацию. Знакомы ли нам эти сети? Есть ли какой-то признак, который их объединяет? К какой категории заведений они относятся? ###

In [None]:
# найдем топ-15 популярных сетевых заведений
df_chain = df[df['chain'] == 1]
top_15 = df_chain.groupby('name').agg({'rating' : 'median', 'category' : pd.Series.mode, 'district' : 'count'})
top_15 = top_15.sort_values('district', ascending = False).reset_index().head(15)
top_15

In [None]:
# кол-во сетевых заведений топ 15
top_15['district'].sum()

In [None]:
# построим график 
fig = px.bar(top_15, x='district', y='name',color='name', text='district')
fig.update_layout(title='ТОП-15 популярных сетей в Москве',
                   xaxis_title='Количество заведений',
                   yaxis_title='Название заведений',
                   showlegend=False)
fig.show(renderer='png', width=1200, height=500) 

In [None]:
# узнаем кол-во заведений по категориям
top_15['category'].value_counts()

***Вывод:***
- Общее количество сетевых заведений из топ 15 - 816;
- Самое распространненое сетевое заведение - 'Шоколадница', самое малочисленное - 'Му-Му';
- Доминирующие типы заведений - кофейни и кафе, в дефиците - булочные.


### Какие административные районы Москвы присутствуют в датасете? Отобразим общее количество заведений и количество заведений каждой категории по районам. Попробуем проиллюстрировать эту информацию одним графиком. ###

In [None]:
# отобразим районы
df['district'].value_counts()

In [None]:
# посчитаем кол-во заведений
df['name'].count()

In [None]:
# отобразим кол-во заведений каждой категории по районам
district_df = df.groupby(['district', 'category']).agg({'rating' : 'median', 'name' : 'count'})
district_df = district_df.sort_values('rating', ascending = False).reset_index()
district_df = district_df.rename(columns={'name':'amount'})
district_df

In [None]:
# построим график
fig = px.bar(district_df, x='amount', y='district', color='category')
fig.update_layout(title='Количество заведений каждой категории по районам',
                   xaxis_title='Количество заведений',
                   yaxis_title='Название района',
                   yaxis={'categoryorder':'total ascending'},
                   showlegend=False)
fig.show(renderer='png', width=1200, height=500) 

***Вывод:***

- В датасете присутствуют 9 административных округов Москвы:
    - центральный административный округ;
    - северный административный округ;
    - южный административный округ;
    - северо-восточный административный округ;
    - западный административный округ;
    - восточный административный округ;
    - юго-восточный административный округ;
    - юго-западный административный округ;
    - северо-западный административный округ.
- Общее количество заведений - 8406;
- Больше всего заведений всех представленных категорий, находятся в центральном административном округе. Самая распространенная категория заведений в центре - ресторан, кафе, кофейня, бар, паб. Булочных всех меньше;
- Если смотреть на картину в целом по всем районам, большим успехом пользуются кафе, их достаточно много в сравнении с другими типами заведений.

### Визуализируем распределение средних рейтингов по категориям заведений. Сильно ли различаются усреднённые рейтинги в разных типах общепита? ###

In [None]:
# отобразим распределение средних рейтингов
avg_rating = df.groupby('category').agg({'rating' : 'mean'}).sort_values('rating', ascending = False).reset_index().round(2)
avg_rating

In [None]:
# построим график
fig = px.bar(avg_rating, x='rating', y='category', color='category', text='rating')
fig.update_layout(title='Распределение средних рейтингов по категориям заведений',
                   xaxis_title='Рейтинг',
                   yaxis_title='Название категорий',
                   showlegend=False)
fig.update_xaxes(range=[4, 4.5])
fig.show(renderer='png', width=1200, height=500) 

***Вывод:***
- Средний рейтинг по категориям заведений выше 4.
- Категория заведений бар, паб имеет самый высокий рейтинг (4.39) среди всех представленных категорий;
- Пиццерия, ресторан, кофейня, булочная имеют приблизительно одинаковый рейтинг (4.3-4.27);
- Самый низкий рейтинг у заведений быстрого питания (4.05).

### Построим фоновую картограмму (хороплет) со средним рейтингом заведений каждого района. Границы районов Москвы, которые встречаются в датасете, хранятся в файле admin_level_geomap.geojson. ###

In [None]:
# посчитаем средний рейтинг заведений каждого района
rating_df = df.groupby('district', as_index=False)['rating'].agg('mean')
rating_df

In [None]:
# читаем файл и сохраняем в переменной
with open('/datasets/admin_level_geomap.geojson', 'r') as f:
    geo_json = json.load(f)

In [None]:
# загружаем JSON-файл с границами округов Москвы
state_geo = '/datasets/admin_level_geomap.geojson'
# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=rating_df,
    columns=['district', 'rating'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Медианный рейтинг заведений по районам',
).add_to(m)

# выводим карту
m.show(renderer='png', width=800, height=800) 

***Вывод:***

- Самый высокий рейтинг у заведений Центрального административного округа - 4.38
- Самый низкий рейтинг у заведений Юго - Восточного административного округа - 4.10

### Отобразим все заведения датасета на карте с помощью кластеров средствами библиотеки folium. ###

In [None]:
# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
df.apply(create_clusters, axis=1)

# выводим карту
m

***Вывод:***
Львиная доля всех заведений сосредоточена в центре, на севере и юге заведений гораздо меньше.
 

### Найдём топ-15 улиц по количеству заведений. Построим график распределения количества заведений и их категорий по этим улицам. Попробуем проиллюстрировать эту информацию одним графиком. ###

In [None]:
# найдём топ-15 улиц по количеству заведений
streets = df[df['street'].notnull()]
top15_streets = streets['street'].value_counts().reset_index().head(15)
top15_streets.columns = ['street_name', 'amount']
top15_streets

In [None]:
# создадим таблицу с улицами и категориями заведений
street_category = df.groupby(['street', 'category'])['name'].count().reset_index()
street_category.columns = ['street_name', 'category', 'amount']
street_category.sort_values('amount', ascending=False)


In [None]:
# сделаем срез топ 15 улиц 
street15_category = street_category[street_category['street_name'].isin(top15_streets['street_name'])]
street15_category

In [None]:
# построим график
fig = px.bar(street15_category, x='amount', y='street_name', color='category')

fig.update_layout(title='Количество заведений каждой категории по улицам',
                   xaxis_title='Количество заведений',
                   yaxis_title='Название улиц',
                   yaxis={'categoryorder':'total ascending'})

***Вывод:***

- Больше всего заведений находится на улице Проспект мира. Самые распространенные являются категории - кафе, кофейня, ресторан;
- Меньше всего заведений находится на улице Миклухо-Маклая. Здесь так же более распростанены кафе и рестораны, только в меньшем количестве.

### Найдите улицы, на которых находится только один объект общепита. Что можно сказать об этих заведениях? ###

In [None]:
# найдём улицы, на которых находится только один объект общепита
one_object = df['street'].value_counts().reset_index()
one_object.columns = ['street_name', 'amount']
one_object = one_object[one_object['amount'] == 1]
one_object

In [None]:
# отобразим категории
street1_category = street_category[street_category['street_name'].isin(one_object['street_name'])]
street1_category = street1_category.groupby('category')['street_name'].count()
street1_category

In [None]:
street1_category.sum()

***Вывод:***

- Имеется 142 улицы с 1 кафе;
- Общее количестве улиц с 1 заведением - 425.


### Значения средних чеков заведений хранятся в столбце middle_avg_bill. Эти числа показывают примерную стоимость заказа в рублях, которая чаще всего выражена диапазоном. Посчитаем медиану этого столбца для каждого района. Используем это значение в качестве ценового индикатора района. Построим фоновую картограмму (хороплет) с полученными значениями для каждого района. Проанализируем цены в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях? ###

In [None]:
# Посчитаем медиану  среднего чека для для каждого района
median_bill = df.groupby('district')['middle_avg_bill'].median().reset_index()
median_bill

In [None]:
# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=median_bill,
    columns=['district', 'middle_avg_bill'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Средний чек заведений по районам',
).add_to(m)

# выводим карту
m

***Вывод:*** 
- Самый высокий средний чек в Центральном и Западном округах.
- Самый низкий средний чек в Юго-Восточный административном округе.
- Средний чек Центрального и Западного округа превышает в 2 раза, чем чек в Южном, Юго-Восточном и Северо-Восточном округах, и приблизительно в 1.5 раза, чем в остальных округах.

### Соберем наблюдения по вопросам выше в один общий вывод. ###

- По количеству заведений лидируют:
    - Кафе - <b>2378 (28.3%)</b>;
    - Ресторан - <b>2043 (24.3%)</b>;
    - Кофейня - <b>1413 (16.8%)</b>.
- Остальные заведения поделили между собой оставшиеся 30%:
    - Бар, паб - <b>765 (9.1%)</b>;
    - Пиццерия - <b>633 (7.53%)</b>;
    - Быстрое питание - <b>603 (7.17%)</b>;
    - Столовая - <b>315 (3.75%)</b>;
    - Булочная - <b>256 (3.05%)</b>.

- Больше всего посадочных мест предоставляют рестораны. Так же много посадочных мест в заведениях быстрого питания. У кафе и столовых меньше всего посадочных мест, что характерно для подобного рода заведений, ибо люди в основной своей массе долго не задерживаются, посещают с целью быстрого приёма пищи или покупки напитка;

- В Москве <b>5201</b> заведений не являются сетевыми, что составляет <b>61.9%</b> от общего кол-ва заведений;

- Львиную долю из общего количества, составляют в основном несетевые заведения, но есть некоторые исключения:
    - Пиццерия - соотношение несетевых и сетевых заведений <b>303 / 330</b>;
    - Кофейня - соотношение несетевых и сетевых заведений <b>693 / 720</b>;
    - Булочная - соотношение несетевых и сетевых заведений <b>99 / 157</b>.
- Всего заведений в Топ-15: <b>811</b>;    
- Самое распространненое сетевое заведение - <b>'Шоколадница'</b>, самое малочисленное - <b>'Му-Му'</b>;
- Больше всего заведений Топ-15 в категории кофейня и кафе. В категории ресторанов, пиццерий и кафе приблизительно одинаковое количество. Булочные самые малочисленные;
- В датасете присутствуют 9 административных округов Москвы:
    - Центральный административный округ;
    - Северный административный округ;
    - Южный административный округ;
    - Северо-восточный административный округ;
    - Западный административный округ;
    - Восточный административный округ;
    - Юго-восточный административный округ;
    - Юго-западный административный округ;
    - Северо-западный административный округ.
- Общее количество заведений по всем округам - <b>8406</b>;
- Больше всего заведений всех категорий топ-15 находятся в Центральный административном округе. Самая распространенная категория заведений в центре - ресторан, кафе, кофейня, бар, паб. Булочных всех меньше. Примерно одинаковое количество заведений у Южного, Северного, Западного и Северо-Восточного административных округов.В Северо-Западном административном округе меньше всего заведений;
- Если смотреть на картину в целом по всем районам, большим успехом пользуются кафе, их достаточно много в сравнении с другими типами заведений;
- Cредние значения по категориям заведений выше 4;
- Категория заведений бар, паб имеет самый высокий рейтинг (<b>4.39</b>) среди всех представленных категорий;
- Пиццерия, ресторан, кофейня, булочная имеют приблизительно одинаковый рейтинг (<b>4.3-4.27</b>);
- Самый низкий рейтинг у заведений быстрого питания (<b>4.05</b>);
- Самый высокий рейтинг у заведений Центрального административного округа - <b>4.38</b>;
- Самый низкий рейтинг у заведений Юго - Восточного административного округа - <b>4.10</b>;
- Основная масса всех заведений сосредоточена в центре, на севере и юге заведений гораздо меньше;
- Больше всего заведений находится на улице Проспект мира. Самые распространенные являются категории - кафе, кофейня, ресторан;
- Меньше всего заведений находится на улице Миклухо-Маклая. Здесь так же более распространены кафе и рестораны, только в меньшем количестве;
- Общее количестве улиц с 1 заведением - <b>425</b>, из них на <b>142</b> улицах присутсвует кафе;
- Самый высокий средний чек в Центральном и Западном округах;
- Самый низкий средний чек в Юго-Восточный административном округе.
- Средний чек Центрального и Западного округа превышает в 2 раза, чем чек в Южном, Юго-Восточном и Северо-Восточном округах, и приблизительно в 1.5 раза, чем в остальных округах.










## Шаг 4. Детализируем исследование: открытие кофейни. ##

### Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения? ###

In [None]:
# создадим срез по категории 'кофейня'
df_coffee = df[df['category'] == 'кофейня']
print('Всего кофеен:', len(df_coffee))

In [None]:
# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
df_coffee.apply(create_clusters, axis=1)

# выводим карту
m

***Вывод:***
- Всего кофеен: 1413
- Наибольшая концентрация кофеен находится в Центральном адмистративном округе. Чуть меньше в Северном и Юго-Западном округах.

### Есть ли круглосуточные кофейни? ###

In [None]:
# создадим срез круглосуточных кофеен
coffee_24 = df_coffee[df_coffee['is_24/7'] == True]
print('Всего круглосуточных кофеен:', len(coffee_24))

In [None]:
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
coffee_24.apply(create_clusters, axis=1)

# выводим карту
m

***Вывод:***
- Всего круглосуточных кофеен: 59
- Львиная доля (34) круглосуточных кофеен сосредоточена в Центральном административном округе.

### Какие у кофеен рейтинги? Как они распределяются по районам? ###

In [None]:
# создадим срез по районам и рейтингу
rating_coffee = df_coffee.groupby('district', as_index=False)['rating'].agg('mean').sort_values('rating', ascending=False)
rating_coffee

In [None]:
# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=rating_coffee,
    columns=['district', 'rating'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Средний рейтинг заведений по районам',
).add_to(m)

# выводим карту
m

***Вывод:***
- Самые высокие рейтинги кофеен:
    - Центральный административный округ - 4.34;
    - Северо-Западный административный округ - 4.33.
- Самые низкий рейтинги кофеен:
    - Северо-Восточный административный округ -	4.22;
	- Западный административный округ - 4.20.

### На какую стоимость чашки капучино стоит ориентироваться при открытии и почему? ###

In [None]:
# создадим срез по районам и средней стоимости чашки кофе
middle_coffee = df_coffee.groupby('district', as_index=False)['middle_coffee_cup'].agg('median').sort_values('middle_coffee_cup', ascending=False)
middle_coffee

In [None]:
# посчитаем среднюю стоимость чашки кофе по всем районам
print('Средняя стоимость чашки кофе:', middle_coffee['middle_coffee_cup'].mean().round(2))

In [None]:
# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=middle_coffee,
    columns=['district', 'middle_coffee_cup'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Средний рейтинг заведений по районам',
).add_to(m)

# выводим карту
m

***Вывод:***
- Самые высокие цены за одну чашку кофе:
    - Юго-Западный административный округ - 198.00;
    - Центральный административный округ - 190.00;
    - Западный административный округ - 189.00.
- Самые низкие цены за одну чашку кофе:
    - Восточный административный округ - 135.00.
- Средняя стоимость чашки кофе: 166.22.


### Рекомендация для открытия нового заведения. ###

- Наиболее оптимальным вариантом будет открыть кофейню в Западном, Центральном или Юго-Западном административных округах, по причине высокой цены за одну чашку кофе, что предвещает быструю окупаемость;
- Стоит отметить что, в Западном и Юго-Западном округах, кофеен гораздо меньше, чем в Центральном округе, следовательно конкуренция будет ниже;
- С рейтингом кофеен в Центральном и Юго-Западном округах всё в порядке, а вот Западном округе самый низкий рейтинг среди всех представленных округов. Это может сыграть нам на руку, если подойти к работе в этом районе с полной ответсвенностью и прислушиваться к клиентам;
- Так же кофеен с круглосуточным графиком работы ничтожно мало, стоит рассмотреть вариант графика 24/7.


## Презентация ##

Ссылка на облачное хранилище c презентацией: https://drive.google.com/file/d/1sgJfvsxQtApX4R-UL4u_0Rp7yF7Onnbm/view?usp=sharing