## Проект "Рынок заведений общественного питания Москвы".

### В проекте использован датасет с заведениями общественного питания Москвы, составленный на основе данных сервисов Яндекс Карты и Яндекс Бизнес на лето 2022 года. Информация, размещённая в сервисе Яндекс Бизнес, могла быть добавлена пользователями или найдена в общедоступных источниках. Она носит исключительно справочный характер.
### Цель: подготовить исследование рынка Москвы, найти интересные особенности и презентовать полученные результаты, которые в будущем помогут в выборе подходящего инвесторам места.

### План выполнения проекта:

#### Шаг 1. Загрузка данных и изучение общей информации

* Загрузка данных о заведениях общественного питания Москвы.
* Изучение общуей информации о датасете. Сколько заведений представлено? Что можно сказать о каждом столбце? Значения какого типа они хранят? 

#### Шаг 2. Предобработка данных

* Изучение данных на дубликаты, пропуски: встречаются ли они, в каких столбцах? Можно ли их обработать или оставить как есть?
* Выполнение предобработки данных.

#### Шаг 3. Анализ данных

* Изучение категорий заведений представленных в данных? Изучение количества объектов общественного питания по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройка визуализации. 
* Исследование количество посадочных мест в местах по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройка визуализации. 
* Анализ результатов и формирование промежуточных выводов.
* Оценка  соотношения сетевых и несетевых заведений в датасете. Каких заведений больше? Постройка визуализации.
* Оценка категорий сетевых заведений? Постройка визуализации.
* Составление топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе. Постройка визуализации. 
* определение административных районов Москвы, представленных в датасете? Постройка визуализации.
* Визуализация распределения средних рейтингов по категориям заведений. Оценка различия усреднённых рейтингов в разных типах общепита?
* Постройка фоновой картограммы (хороплет) со средним рейтингом заведений каждого района.
* Определение топ-15 улиц по количеству заведений. Постройка визуализации.
* Опереление улиц, на которых находится только один объект общепита. Характеристика данных заведений.
* Посчет медианы средних чеков для каждого района. Постройка фоновой картограммы (хороплет) со значениями медианы средних чеков для каждого района. Анализ цен в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях?
* Исследование часов работы заведений и их зависимость от расположения и категории заведения. 
* Исследование особенностей заведений с плохими рейтингами, средних чеков в таких местах и распределение по категориям заведений.
* Формирование промежуточныъх выводов 

#### Шаг 4. Детализация исследования: открытие кофейни
#### Ответ на вопросы заказчиков:

* Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?
* Есть ли круглосуточные кофейни?
* Какие у кофеен рейтинги? Как они распределяются по районам?
* На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?
* Постройка визуализации. Рекомендации для открытия нового заведения. Объяснение рекомендаций.

#### Шаг 5. Подготовка презентации

* Ссылка на презентацию

In [None]:
# импортирую библиотеки
import pandas as pd 
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns 
import numpy as np 
from scipy import stats as st 
import datetime as dt  
import plotly.express as px
from plotly import graph_objects as go
import numpy as np
import math as mth
import json
import folium
from folium import Map, Marker
from folium.plugins import MarkerCluster

In [None]:
 from matplotlib.axes._axes import _log as matplotlib_axes_logger
 matplotlib_axes_logger.setLevel('ERROR')

In [None]:
plt.style.use('seaborn-notebook')
sns.set_style("whitegrid")

## Шаг 1. Загрузка данных и изучение общей информации.

#### 1.1 Загрузка данных о заведениях общественного питания Москвы.

In [None]:
# # загружаю данные 
try:
    df = pd.read_csv(r"D:\DOCS\datasets\Анализ зведений общественного питания в Москве/moscow_places.csv")
except FileNotFoundError:
    df = pd.read_csv('/datasets/moscow_places.csv')

In [None]:
# вывожу первые 5 строк датафрейма
df.head(5)

#### 1.2 Изучение общей информации о датасете.

#### Описание данных
##### Файл moscow_places.csv:
* name — название заведения;
* address — адрес заведения;
* category — категория заведения, например «кафе», «пиццерия» или «кофейня»;
* hours — информация о днях и часах работы;
* lat — широта географической точки, в которой находится заведение;
* lng — долгота географической точки, в которой находится заведение;
* rating — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);
* price — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;
* avg_bill — строка, которая хранит среднюю стоимость заказа в виде диапазона, например: «Средний счёт: 1000–1500 ₽»; «Цена чашки капучино: 130–220 ₽»; «Цена бокала пива: 400–600 ₽» и так далее;
* middle_avg_bill — число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Средний счёт»: Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений. Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число. Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.
* middle_coffee_cup — число с оценкой одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Цена одной чашки капучино»: Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений. Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число. Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.
* chain — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки): 0 — заведение не является сетевым 1 — заведение является сетевым
* district — административный район, в котором находится заведение, например Центральный административный округ;
* seats — количество посадочных мест.

In [None]:
# вывожу общую информацию о датасете
df.info()

In [None]:
# привел столбец с количеством посадочных мест к типу int
df['seats'] = df['seats'].astype('Int64')

Необходимости менять типы данных в других столбцах на данном этапе исследования не выявлено.

In [None]:
print('Всего в датафрейме представлено', df['name'].count(),'заведений общепита.')
print('Всего в датафрейме представлено', df['name'].nunique(),'уникальных заведений общепита.')

#### Вывод: 
* Всего в датафрейме представлено 8406 заведений общепита из них уникальных 5614.
* Выполнено приведение столбца с количеством посадочных мест к типу int
* Необходимости менять типы данных в других столбцах на данном этапе исследования не выявлено.

## Шаг 2. Предобработка данных

#### 2.1 Изучение данных на дубликаты и пропуски? Можно ли их обработать или оставить как есть?

In [None]:
print('Количество дубликатов в данных равно', df.duplicated().sum())

In [None]:
# неявные дубликаты
df['name'] = df['name'].str.lower()
df[df.duplicated(subset=['name', 'address'])]

In [None]:
# вывел количество пропусков в датафрейме
df.isnull().sum()

Пропуски решено оставить как есть, так как заполнение синтетическими значениями скажется на результате исследования.

####  2.2 Выполнение предобработки данных.

In [None]:
# добавил к датафрейму столбец street значениями которого будут улицы из столбца address
df['street'] = df['address'].str.split(',').str[1]

In [None]:
# добавил к датафрейму столбец is 24/7 значениями которого будут True- если заведение работает ежедневно, коуглосуточно,
# False - если заведение имеет другой режим работы
df['is_24/7'] = df['hours'] == 'ежедневно, круглосуточно'

In [None]:
df.head(5)

#### Вывод: 
* Полных дубликатов в датафрейме не выявлено.
* Выявлены пропуски в столбцах hours-536, price-5091, avg_bill-4590, middle_avg_bill-5257, middle_coffee_cup-7871, seats-3611. Пропуски решено оставить как есть, так как заполнение синтетическими значениями скажется на результате исследования.
* К датафрейму добавлен столбец street значениями которого будут улицы из столбца address
* К датафрейму добавлен столбец is 24/7 значениями которого будут True- если заведение работает ежедневно, коуглосуточно, False - если заведение имеет другой режим работы.

## Шаг 3. Анализ данных

#### 3.1 Изучение категорий объектов общественного питания в представленных данных. Построение визуализации с распределением заведений по категориям.

In [None]:
print('В датафрейме представлены заведения категорий:', df['category'].unique().tolist())

In [None]:
# вывел количество и процент от общего числа заведений каждого типа из представленных в датафрейме.
df_category_grouped = df.groupby('category').agg({'category':'count'})
df_category_grouped.rename(columns={'category': 'count'}, inplace=True)
df_category_grouped['percent'] = round(((df_category_grouped['count'] / df_category_grouped['count'].sum())*100),1)
df_category_grouped = df_category_grouped.sort_values(by ='count', ascending= False)

In [None]:
# построил столбчатую диаграмму с количеством объектов общественного питания с разбивкой по категориям.
df_category_grouped['count'].plot(kind='bar', grid=True, figsize=(15,5))

plt.xlabel('Категория заведения')
plt.ylabel('Число заведений')
plt.xticks(rotation=45)
plt.title('Количество заведений общественного питания в разбивке по категориям')
plt.show()

In [None]:
# построил круговую диаграмму с процентом объектов общественного питания от общего числа объектов с разбивкой по категориям.
df_category_grouped['percent'].plot(kind='pie', 
                                  legend=False, 
                                  figsize=(7,7), 
                                  autopct='%1.1f%%', 
                                  title='Процент объектов общественного питания от общего числа объектов с разбивкой по категориям');

В датафрейме заведения категории: кафе-2378 заведений, что составляет-28.3%, рестораны-2043,что составляет-24.3%, кофейни-1413, что составляет-16.8%, бар,паб-765 заведений, что составляет-9.1%, пиццерии-633 заведения, что составляет-	7.5%, заведение быстрого питания-603 заведений, что составляет-7.2%, столовые-315 заведений, что составляет-3.7%, булочные-256 заведений, что составляет-3.0% 

#### 3.2 Исследование количества посадочных мест на объектах общественного питания по категориям. Построение визуализации. 

In [None]:
# Сгруппировал медианное количество посадочных мест на объектах общественного питания по такегориям
df_seats_grouped = df.groupby('category').agg({'seats':'median'})
df_seats_grouped.sort_values(by ='seats', ascending= False)

In [None]:
sns.set_style("whitegrid")
df.boxplot(by ='category', column =['seats'], grid = True, figsize=(15,5));

В большинстве категорий количество посадочных мест менее 400

In [None]:
# построил диаграмму ящик с усами по выполненному срезу 
sns.set_style("whitegrid")
ax = df.boxplot(by ='category', column =['seats'], grid = True, figsize=(15,5))
ax.set_ylim([0, 400]);

Наибольшим количеством посадочных мест среди преставленных категорий обладают рестораны, бары,пабы и кофейни. Наименьшим - пиццерии и булочные.

#### 3.3 Оценка соотношения сетевых и несетевых заведений в датасете. 

In [None]:
# изменил значения в столбце chain 0:'Несетевое', 1:'Сетевое'
df['chain'] = df['chain'].map({0:'Несетевое', 1:'Сетевое'})

In [None]:
# сгруппировал все объекты общественного питания на сетевые и несетевые
df_chain_grouped = df.groupby('chain')['name'].agg(['count']).reset_index()
df_chain_grouped = df_chain_grouped.set_index('chain')
df_chain_grouped

In [None]:
# построил круговую диаграмму с разбивкой всех заведений на сетевые и несетевые
df_chain_grouped.plot(kind='pie', 
                      y='count', 
                      autopct='%1.1f%%', 
                      legend=False, 
                      figsize=(7,7), 
                      title='Процент объектов общественного питания в разбивке на сетевые и несетевые заведения');

В датафрейме преобладают несетевые объекты общественного питания. Несетевых заведений представлено 5201 объект, что составляет 61,9% от всех объектов. Сетевых объектов представлено 3205, что составляет 38,1%.

In [None]:
df_chain_grouped = df.groupby('category').agg({'name':'count'}).sort_values(by='name', ascending = False).reset_index()
df_chain_grouped.rename(columns={'name': 'all_count'}, inplace=True)
df_net_slice = df.loc[df['chain'] == 'Сетевое'].groupby('category')['name'].count().reset_index()
df_net_slice.rename(columns={'name': 'net_count'}, inplace=True)
df_chain_grouped = df_chain_grouped.merge(df_net_slice, on='category').sort_values(by='all_count', ascending=False).reset_index(drop=True)
df_chain_grouped['net_procent'] = round((df_chain_grouped['net_count'] / df_chain_grouped['all_count'] * 100),2)
df_nonnet_slice = df.loc[df['chain'] == 'Несетевое'].groupby('category')['name'].count().reset_index()
df_nonnet_slice.rename(columns={'name': 'nonnet_count'}, inplace=True)
df_chain_grouped = df_chain_grouped.merge(df_nonnet_slice, on='category').sort_values(by='all_count', ascending=False).reset_index(drop=True)
df_chain_grouped['nonnet_procent'] = round((df_chain_grouped['nonnet_count'] / df_chain_grouped['all_count'] * 100),2)
df_chain_grouped

In [None]:
fig = go.Figure()

fig.add_trace(go.Funnel(
    name = ' Сетевое',
    y = df_chain_grouped['category'],
    x = df_chain_grouped['net_procent'],
    textinfo = "value"))

fig.add_trace(go.Funnel(
    name = 'Несетевое',
    orientation = "h",
    y = df_chain_grouped['category'],
    x = df_chain_grouped['nonnet_procent'],
    textposition = "inside",
    textinfo = "value"))

fig.show()

Сетевые заведения преобладают в трех категориях: кофейня, пиццерия, булочная. В осстальных категориях значительно преобладают несетевые заведения

#### 3.4 Исследование категорий сетевых заведений. Построение графика.

In [None]:
# выделил из датафрейма все сетевые заведения
df_network = df.loc[df['chain'] == 'Сетевое']

In [None]:
# сгруппировал сетевые заведения по категориям и посчитал их количество
df_network_grouped = df_network.groupby('category').agg({'name':'count'})
df_network_grouped.rename(columns={'name': 'count'}, inplace=True)
df_network_grouped = df_network_grouped.sort_values(by ='count', ascending= False).reset_index()

In [None]:
# построил столбчатую диаграмму количества сетевых заведений в разбивке по категориям.
ax = df_network_grouped.plot(
    kind='bar',
    x='category',
    y='count',
    legend=None,
    figsize=(15, 7)
);


plt.xlabel('Категория заведения')
plt.ylabel('Число заведений')
plt.xticks(rotation=45)
plt.title('Количество сетевых заведений общественного питания')
plt.show()

Среди сетевых заведений преобладают кафе-779 объектов, рестораны-730 объектов и кофейни-720 объектов. Наименьшее количество среди представленных сетевых заведений имеют столовые-88 объектов.

#### 3.5 Определение топ-15 популярных сетей в Москве. Оценка количества заведений этих сетей в регионе. Построение визуализации.  Оценка наличия общих признаков, оценка категории данных сетей.

In [None]:
# сделал таблицу с топ-15 по количеству сетевыз заведений 
df_network_pivot = df_network.pivot_table(index=['name','category'], values='address',aggfunc='count')
df_network_pivot.rename(columns={'address': 'count'}, inplace=True)
df_network_pivot = df_network_pivot.sort_values(by='count',ascending=False).head(15).reset_index()
df_network_pivot

<div class="alert alert-success"; style="border-left: 7px solid green">
<font size='4'><b>👍 Комментарий ревьюера 2</b></font>

Верно
</div>

In [None]:
# вывел количество категорий сетевых заведений вошедших в топ-15
df_network_pivot['category'].value_counts()

Среди крупных сетевых заведений преобладают кофейни. Кофейных сетей, попавших в топ-15 сетевых заведений по количеству в Москве - 6. 

In [None]:
# создал срез датафрейма в котором хранится вся информация о топ-15 сетевых заведениях
df_top_slice = df.query('name in @df_network_pivot.name')

In [None]:
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# созранил в переменную карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создал пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m)

# прописал функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']}",
    ).add_to(marker_cluster)
# применил функцию create_clusters() к каждой строке датафрейма
df_top_slice.apply(create_clusters, axis=1)
# вывел карту
m

Наибольшее количество объектов топ-15 сетевых заведений сосредоточены в Центральном и Северном административных округах.

In [None]:
# создал срез датафрейма в котором хранится вся информация о кофейнях из топ-15 сетевых заведениях
df_network_cofe = df_network_pivot.loc[df_network_pivot['category'] == 'кофейня']
df_top_cofe_slice = df.query('name in @df_network_cofe.name')

In [None]:
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# созранил в переменную карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создал пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m)

# прописал функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']}",
    ).add_to(marker_cluster)
    
# применяем функцию create_clusters() к каждой строке датафрейма
df_top_cofe_slice.apply(create_clusters, axis=1)

# выводим карту
m

Большинство объектов кофейных сетей, вошедших в топ-15 сетей, сосредоточены в Центральном административном округе.

#### 3.6 Оценка распределения объектов общественного питания по административным округам города Москвы. Построение визуализации.

In [None]:
adm_distr_pivot = df.pivot_table(index=['district','category'], values='name', aggfunc='count').reset_index()
adm_distr_pivot.rename(columns={'name': 'count'}, inplace=True)
adm_distr_pivot['sum'] = adm_distr_pivot.groupby('district')['count'].transform(sum)
adm_distr_pivot['procent'] = round((adm_distr_pivot['sum']/adm_distr_pivot['count']),1)
adm_distr_pivot

In [None]:
fig = px.bar(adm_distr_pivot, 
             x='procent', 
             y='district', 
             color='category', 
             title='Распределение заведений по административным округам', 
             text='procent')
fig.update_layout(
    yaxis_title="Административный округ",
    xaxis_title='%',
    yaxis = dict(
        tickmode='array',
        tickvals=adm_distr_pivot['district'],
        ticktext=adm_distr_pivot['district'],
          ),
    legend_title='Категория заведений',
    autosize=False,
    width=1000,
    height=500
)
    
fig.show()

#### 3.7 Оценка распределения средних рейтингов по категориям заведений. Построение визуализации.

In [None]:
df_rating_grouped = df.groupby('category').agg({'rating':'mean'})
df_rating_grouped['rating'] = round((df_rating_grouped ['rating']),2)
df_rating_grouped = df_rating_grouped.sort_values(by='rating', ascending = False).reset_index()

In [None]:
ax = df_rating_grouped.plot(
    kind='bar',
    x='category',
    y='rating',
    legend=None,
    figsize=(15, 5)
);


plt.xlabel('Категория заведения')
plt.ylabel('средний рейтинг по всем районам')
plt.xticks(rotation=45)
plt.title('Средний рейтинг заведений в разбивке по категориям')
plt.show()

Средний рейтинг всех категорий заведений не ниже 4. Самый высокий средний рейтинг у категории заведений бар,паб, он составляет 4,39 балла. Самый низкий у заведений быстрого питания, он составляет 4,05 балла.

In [None]:
# построил таблицу распределения средних рейтингов категорий заведений в разбивке по административным округам.
avg_rating_pivot = df.pivot_table(index='district', columns='category', values='rating', aggfunc='mean')
avg_rating_pivot.rename(columns={'rating': 'avg_rating'}, inplace=True)
avg_rating_pivot = np.round(avg_rating_pivot, decimals=2)
avg_rating_pivot

In [None]:
# построил хитмэп средних рейтингов категорий заведений в разбивке по административным округам.
sns.set(rc = {'figure.figsize':(15,8)})
sns.heatmap(avg_rating_pivot, annot = True, square=True);

Наивысший средний балл у большинства категорий заведений общественного питания в Центральном административном округе.

#### 3.8 Фоновая картограмма (хороплет) со средним рейтингом заведений каждого района.

In [None]:
# построил таблицу со средним рейтингом заведений общественного питания в разбивке по административным округам.
avg_rat_dist_pivot = df.pivot_table(index='district', values='rating', aggfunc='mean').reset_index()
avg_rat_dist_pivot['rating'] = round((avg_rat_dist_pivot['rating']),2)
avg_rat_dist_pivot.sort_values(by='rating', ascending=False).reset_index(drop=True)

In [None]:
state_geo = 'https://code.s3.yandex.net/data-analyst/admin_level_geomap.geojson'
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаёл и добавил его на карту
folium.Choropleth(
    geo_data=state_geo,
    name='choropleth',
    data=avg_rat_dist_pivot ,
    columns=['district', 'rating'],
    key_on='feature.name',
    fill_color='Reds',
    fill_opacity=0.5,
    line_opacity=0.5,
    legend_name='Рейтинг заведений',
).add_to(m)

# вывел карту
m

Данная визуализация подтверждает, что наивысшим средним баллом обладают заведения общественного питания в Центральном административном округе. В то время как самый низкий средний балл у заведений в Юго-Восточном административном округе.

#### 3.9 Отображение всех заведений датасета на карте с помощью кластеров. 

In [None]:
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создал пустой кластер, добавил его на карту
marker_cluster = MarkerCluster().add_to(m)

# прописал функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']}",
    ).add_to(marker_cluster)

# применил функцию create_clusters() к каждой строке датафрейма
df.apply(create_clusters, axis=1)

# выводим карту
m

#### 3.10 Определение топ-15 улиц по количеству заведений. Построение визуализации.

In [None]:
# построил таблицу топ-15 улиц по количество заведений
top_streets_pivot = df.pivot_table(index='street', values='name', aggfunc='count').reset_index()
top_15_streets = top_streets_pivot.sort_values(by='name',ascending=False).head(15).reset_index(drop=True)
top_15 = df.loc[df['street'].isin(top_15_streets['street'])]
top_15.head(5)

In [None]:
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создал пустой кластер, добавил его на карту
marker_cluster = MarkerCluster().add_to(m)

# прописал функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']}",
    ).add_to(marker_cluster)

# применил функцию create_clusters() к каждой строке датафрейма
top_15.apply(create_clusters, axis=1)

# выводим карту
m

Топ-15 улицами по количеству заведений являются длинные улицы идущие от центра к МКАД.

In [None]:
# создал таблицу с количеством и процентом заведений на топ-15 улицах по количеству заведений, с разбивкой по категориям
top_streets = top_15.pivot_table(index=['street','category'], values='name', aggfunc='count').reset_index()
top_streets.rename(columns={'name': 'count'}, inplace=True)
top_streets['sum'] = top_streets.groupby('street')['count'].transform(sum)
top_streets['procent'] = round((top_streets['sum']/top_streets['count']),1)
top_streets

In [None]:
fig = px.bar(top_streets, 
             x='procent', 
             y='street', 
             color='category', 
             title='Распределение заведений на топ-15 улиц', 
             text='procent')
fig.update_layout(
    yaxis_title="Улица",
    xaxis_title='%',
    yaxis = dict(
        tickmode='array',
        tickvals=top_streets['street'],
        ticktext=top_streets['street'],
          ),
    legend_title='Категория заведений',
    autosize=False,
    width=1000,
    height=500
)
    
fig.show()

#### 3.11 Определение и оценка улиц, на которых находится только один объект общепита.

In [None]:
# создал таблицу со всей информацией о заведениях, являющихся единственными на улице расположения
one_inst_street = top_streets_pivot.loc[top_streets_pivot['name'] == 1]
one_inst_street = df.loc[df['street'].isin(one_inst_street['street'])]
one_inst_street.head(5)

In [None]:
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создал пустой кластер, добавил его на карту
marker_cluster = MarkerCluster().add_to(m)

# прописал функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']}",
    ).add_to(marker_cluster)

# применил функцию create_clusters() к каждой строке датафрейма
one_inst_street.apply(create_clusters, axis=1)

# вывел карту
m

Наибольшее количество заведений общественного питания, являющихся единственными на улице расположения, находятся в Центральном административном округе. Вероятно, это связано с бОльшим количеством небольших пешеходных улиц в центре Москвы.

In [None]:
# построил таблицу со средним рейтингом, количеством, средним чеком заведений, являющихся единственными на улице расположения
one_inst_grouped = one_inst_street.groupby('category').agg({'rating': ['mean'],
                                                            'name' : ['count'],
                                                            'middle_avg_bill' : ['mean']})
one_inst_grouped['rating'] = round((one_inst_grouped['rating']),2)
one_inst_grouped['middle_avg_bill'] = round((one_inst_grouped['middle_avg_bill']),2)
one_inst_grouped.reset_index()

Наивысшим рейтингом среди заведений, являющихся единственными на улице расположения обладают бары и пабы. Эта категория заведений также обладают вторым по величине средним чеком-1456,33. Наивысшим средним чеком среди заведений данной группы обладают рестораны- 1707,14. В то время как наименьший рейтинг среди заведений данной группы в категории быстрое питание, он составляет 4,08.

#### 3.12 Подсчет медианы значений средних чеков заведений для каждого района. Построение визуализации. Анализ цен в центральном административном округе и других. 

In [None]:
# построил таблицу среднего чека в заведениях разных административных округов с разбивкой по категориям заведений.
avg_bill_pivot = df.pivot_table(index='district', columns='category', values='middle_avg_bill', aggfunc='mean')
avg_bill_pivot = np.round(avg_bill_pivot, decimals=1)
avg_bill_pivot

In [None]:
# построил хитмэп среднего чека в заведениях разных административных округов с разбивкой по категориям заведений.
sns.set(rc = {'figure.figsize':(15,8)})
sns.heatmap(avg_bill_pivot);

По данному графику можно судить о том, что наивысщий средний чек имеют заведения категории ресторан, расположенные в Центральном административном округе. В то время как наименьший средний чек имеют заведения категории столовая.

In [None]:
# построил таблицу среднего чека в заведениях разных административных округов
avg_bill_dist_pivot = df.pivot_table(index='district', values='middle_avg_bill', aggfunc='median').reset_index()
avg_bill_dist_pivot.sort_values(by='middle_avg_bill', ascending=False).reset_index(drop=True) 

In [None]:
state_geo = 'https://code.s3.yandex.net/data-analyst/admin_level_geomap.geojson'
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создал хороплет и добавил его на карту
folium.Choropleth(
    geo_data=state_geo,
    name='choropleth',
    data=avg_bill_dist_pivot  ,
    columns=['district', 'middle_avg_bill'],
    key_on='feature.name',
    fill_color='Reds',
    fill_opacity=0.5,
    line_opacity=0.5,
    legend_name='Средний счёт заведений',
).add_to(m)

# вывел карту
m

Наивысший средний чек в заведениях Центрального и Западного административных округов. Наименьшие средние чеки в заведениях Юго-Восточного административного округа.

#### Вывод: 
* В датафрейме представлены заведения категорий: кафе-2378 заведений, что составляет-28.3%, рестораны-2043,что составляет-24.3%, кофейни-1413, что составляет-16.8%, бар,паб-765 заведений, что составляет-9.1%, пиццерии-633 заведения, что составляет-7.5%, заведение быстрого питания-603 заведений, что составляет-7.2%, столовые-315 заведений, что составляет-3.7%, булочные-256 заведений, что составляет-3.0% 
* В большинстве категорий количество посадочных мест менее 400. Наибольшим средним количеством посадочных мест среди преставленных категорий обладают рестораны - 86 мест, бары,пабы - 83 и кофейни - 80. Наименьшим - пиццерии - 55 и булочные - 50 мест.
* В датафрейме преобладают несетевые объекты общественного питания. Несетевых заведений представлено в количестве -  5201 объект, что составляет 61,9% от всех объектов. Сетевых объектов представлено 3205, что составляет 38,1%. Сетевые заведения преобладают в трех категориях: кофейня, пиццерия, булочная. В остальных категориях значительно преобладают несетевые заведения.
* Среди сетевых заведений преобладают кафе-779 объектов, рестораны-730 объектов и кофейни-720 объектов. Наименьшее количество среди представленных сетевых заведений имеют столовые-88 объектов.
* Среди крупных сетевых заведений преобладают кофейни. Кофейных сетей, попавших в топ-15 сетевых заведений по количеству в Москве - 6. Наибольшее количество объектов среди всех категорий из топ-15 сетевых заведений сосредоточены в Центральном и Северном административных округах. Большинство объектов кофейных сетей, вошедших в топ-15 сетей, сосредоточены в Центральном административном округе.
* Средний рейтинг всех категорий заведений не ниже 4. Самый высокий средний рейтинг у категории заведений бар,паб, он составляет 4,39 балла. Самый низкий у заведений быстрого питания, он составляет 4,05 балла. Наивысший средний балл у большинства категорий заведений общественного питания в Центральном административном округе.
* Топ-15 улицами по количеству заведений являются длинные улицы идущие от центра к МКАД.
* Наибольшее количество заведений общественного питания, являющихся единственными на улице расположения, находятся в Центральном административном округе. Вероятно, это связано с бОльшим количеством небольших пешеходных улиц в центре Москвы. Наивысшим рейтингом среди заведений, являющихся единственными на улице расположения обладают бары и пабы. Эта категория заведений также обладают вторым по величине средним чеком-1456,33. Наивысшим средним чеком среди заведений данной группы обладают рестораны- 1707,14. В то время как наименьший рейтинг среди заведений данной группы в категории быстрое питание, он составляет 4,08.
* Наивысщий средний чек имеют заведения категории ресторан, расположенные в Центральном административном округе. В то время как наименьший средний чек имеют заведения категории столовая. Наивысший средний чек в заведениях Центрального и Западного административных округов. Наименьшие средние чеки в заведениях Юго-Восточного административного округа.

## Шаг 4. Детализация исследования: открытие кофейни

#### 4.1 Оценка количества кофеен и их расположения. 

In [None]:
# сделал срез данных к который вошли только заведения категории кофейня
df_coffee = df.loc[df['category'] == 'кофейня']

In [None]:
print('В датасете представлено', df_coffee['name'].count(), 'кофейни.')

In [None]:
# построил таблицу количества кофеен в разных административных округах
df_coffee_pivot = df_coffee.pivot_table(index='district', values='name', aggfunc='count').reset_index()
df_coffee_pivot = df_coffee_pivot.sort_values(by='name', ascending=False).reset_index(drop=True) 

In [None]:
# построил столбчатую диаграмму количества кофеен в разных административных округах
plt.barh(y=df_coffee_pivot['district'], width=df_coffee_pivot['name'])
plt.title('Количество кофеен в разных административных округах', fontsize=18)
plt.xlabel('Количество объектов')
plt.ylabel('Админисиративный округ')
plt.show()

In [None]:
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создал пустой кластер, добавил его на карту
marker_cluster = MarkerCluster().add_to(m)

# прописал функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']}",
    ).add_to(marker_cluster)

# применил функцию create_clusters() к каждой строке датафрейма
df_coffee.apply(create_clusters, axis=1)

# вывел карту
m

Наибольшее количество кофеен расположено в Центральном административном округе. Наименьшее сосредоточено в Северо - Западном, Юго-Западном и Юго-Восточном административных округах. 

In [None]:
# сделал срез данных к который вошли сетевые заведения категории кофейня
df_net_coffee = df_coffee.loc[df_coffee['chain'] == 'Сетевое']

In [None]:
# создал таблицу с количеством объектав сетевых кофеен в разбивке по названиям
df_net_coffee_grouped = df_net_coffee.groupby('name')['address'].count().reset_index()
df_net_coffee_grouped.rename(columns={'address': 'count'}, inplace=True)
df_net_coffee_grouped = df_net_coffee_grouped.query('count > 1')
df_net_coffee_grouped = df_net_coffee_grouped.sort_values(by='count', ascending=False).reset_index(drop=True)
df_net_coffee_grouped.head(5)

In [None]:
print('Всего сетевых объектов категории кофейня в датафрейме представлено:', df_net_coffee_grouped['count'].sum())

In [None]:
# создал срез с полной информацией о сетевых кофейнях
df_net_coffee_pivot = df_coffee.query('name in @df_net_coffee_grouped.name')

In [None]:
# построил таблицу количества сетевых кофеен в разных административных округах
df_net_coffee_slice = df_net_coffee.pivot_table(index='district', values='name', aggfunc='count').reset_index()
df_net_coffee_slice = df_net_coffee_slice.sort_values(by='name', ascending=False).reset_index(drop=True)

In [None]:
# построил столбчатую диаграмму количества сетевых кофеен в разных административных округах
plt.barh(y=df_net_coffee_slice['district'], width=df_net_coffee_slice['name'])
plt.title('Количество сетевых кофеен в разных административных округах', fontsize=18)
plt.xlabel('Количество объектов')
plt.ylabel('Админисиративный округ')
plt.show()

In [None]:
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создал пустой кластер, добавил его на карту
marker_cluster = MarkerCluster().add_to(m)

# прописал функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']}",
    ).add_to(marker_cluster)

# применил функцию create_clusters() к каждой строке датафрейма
df_net_coffee_pivot.apply(create_clusters, axis=1)

# вывел карту
m

Наибольшее количество объектов категории сетевая кофейня представлены в Центральном административном округе. Наименьшее - в Юго-Восточном и Северо - Западном административных округах.

In [None]:
# сделал срез данных к который вошли несетевые заведения категории кофейня
df_nonnet_coffee = df_coffee.loc[df_coffee['chain'] == 'Несетевое']

In [None]:
# создал таблицу с количеством объектав несетевых кофеен в разбивке по названиям
df_nonnet_coffee_grouped = df_nonnet_coffee.groupby('name')['address'].count().reset_index()
df_nonnet_coffee_grouped.rename(columns={'address': 'count'}, inplace=True)
df_nonnet_coffee_grouped = df_nonnet_coffee_grouped.query('count == 1')
df_nonnet_coffee_grouped = df_nonnet_coffee_grouped.sort_values(by='count', ascending=False).reset_index(drop=True)
df_nonnet_coffee_grouped.head(5)

In [None]:
print('Всего несетевых объектов категории кофейня в датафрейме представлено:', df_nonnet_coffee_grouped['count'].sum())

In [None]:
# создал срез с полной информацией о несетевых кофейнях
df_nonnet_coffee_pivot = df_coffee.query('name in @df_nonnet_coffee_grouped.name')

In [None]:
# построил таблицу количества несетевых кофеен в разных административных округах
df_nonnet_coffee_slice = df_nonnet_coffee.pivot_table(index='district', values='name', aggfunc='count').reset_index()
df_nonnet_coffee_slice = df_nonnet_coffee_slice.sort_values(by='name', ascending=False).reset_index(drop=True)

In [None]:
# построил столбчатую диаграмму количества сетевых кофеен в разных административных округах
plt.barh(y=df_nonnet_coffee_slice['district'], width=df_nonnet_coffee_slice['name'])
plt.title('Количество несетевых кофеен в разных административных округах', fontsize=18)
plt.xlabel('Количество объектов')
plt.ylabel('Админисиративный округ')
plt.show()

In [None]:
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создал пустой кластер, добавил его на карту
marker_cluster = MarkerCluster().add_to(m)

# прописал функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']}",
    ).add_to(marker_cluster)

# применил функцию create_clusters() к каждой строке датафрейма
df_nonnet_coffee_pivot.apply(create_clusters, axis=1)

# вывел карту
m

Большее количество несетевых кофеен сосредоточено в Центральном административном округе. Наименьшее расположено в Северо- Западном  и Юго-Западном административных округах.

#### 4.2 Оценка рынка круглосуточных кофеен

In [None]:
# создал таблицу с количеством кофеев в разбивке на график работы
df_time_group = df_coffee.groupby('is_24/7')['address'].count().reset_index()
df_time_group

Количество некруглосуточных кофеен в датасете 1354 объекта, круглосуточных - 59 объектов.

In [None]:
# сделал срез данных в который вошли кофейни, не работающие ежедневно, круглосуточно
df_nonfull_time = df_coffee.loc[df_coffee['is_24/7'] == False]

In [None]:
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создал пустой кластер, добавил его на карту
marker_cluster = MarkerCluster().add_to(m)

# прописал функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']}",
    ).add_to(marker_cluster)

# применил функцию create_clusters() к каждой строке датафрейма
df_nonfull_time.apply(create_clusters, axis=1)

# вывел карту
m

Наиболешее количество некруглосуточных кофеен расположено в Центральном, Северном и Северо-Восточном административных округах. Наименьшее - в Южном и Юго-Восточном административных округах.

In [None]:
# сделал срез данных в который вошли кофейни, работающие ежедневно, круглосуточно
df_full_time = df_coffee.loc[df_coffee['is_24/7'] == True]

In [None]:
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создал пустой кластер, добавил его на карту
marker_cluster = MarkerCluster().add_to(m)

# прописал функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']}",
    ).add_to(marker_cluster)

# применил функцию create_clusters() к каждой строке датафрейма
df_full_time.apply(create_clusters, axis=1)

# вывел карту
m

Самое большое количество круглосуточных кофеен расположено в центре. В других административных округах объектов данной категории - единицы.

In [None]:
# отдельно оценил круглосуточные сетевые кофейни
df_full_time_net = df_full_time.loc[df_full_time['chain'] == 'Сетевое']

In [None]:
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создал пустой кластер, добавил его на карту
marker_cluster = MarkerCluster().add_to(m)

# прописал функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']}",
    ).add_to(marker_cluster)

# применил функцию create_clusters() к каждой строке датафрейма
df_full_time_net.apply(create_clusters, axis=1)

# вывел карту
m

In [None]:
# построил таблицу количества несетевых кофеен в разных административных округах
df_nonnet_coffee_pivot = df_nonnet_coffee.pivot_table(index='district', values='name', aggfunc='count').reset_index()
df_nonnet_coffee_pivot = df_nonnet_coffee_pivot.sort_values(by='name', ascending=False).reset_index(drop=True) 

In [None]:
# построил столбчатую диаграмму количества сетевых кофеен в разных административных округах
plt.barh(y=df_nonnet_coffee_pivot['district'], width=df_nonnet_coffee_pivot['name'])
plt.title('Количество несетевых кофеен в разных административных округах', fontsize=18)
plt.xlabel('Количество объектов')
plt.ylabel('Админисиративный округ')
plt.show()

#### 4.3 Оценка рейтингов кофеен. Оценка их распределения по административным округам

In [None]:
# построил таблицу среднего чека в заведениях разных административных округов
avg_rating_coffee = df_coffee.pivot_table(index='district', values='rating', aggfunc='median').reset_index()
avg_rating_coffee.sort_values(by='rating', ascending=False).reset_index(drop=True) 

Среди всех заведений категории кофейня, представленных в датасете преобладает средний рейтинг 4,3. Средний рейтинг ниже тольно в Западном административном округе, он составляет 4,2.

In [None]:
# построил таблицу среднего чека в заведениях разных административных округов
avg_rating_netcoffee = df_net_coffee.pivot_table(index='district', values='rating', aggfunc='median').reset_index()
avg_rating_netcoffee.sort_values(by='rating', ascending=False).reset_index(drop=True) 

Среди сетевых кофеен самый высокий рейтинг в Центральном административном округе, он составляет 4,3. В остальных административных округах рейтинг составляет 4,2.

In [None]:
# построил таблицу среднего чека в заведениях разных административных округов
avg_rating_nonnetcoffee = df_nonnet_coffee.pivot_table(index='district', values='rating', aggfunc='median').reset_index()
avg_rating_nonnetcoffee.sort_values(by='rating', ascending=False).reset_index(drop=True) 

Самый высокий рейтинг несетевых кофеен с Северо-Западном административном округе он составляет 4,45. Самый низкий в соседнем с нима Западном административном округе. Он составляет 4,3.

#### 4.4 Оценка средней стоимости чашки капучино?

In [None]:
# построил таблицу среднего чека в заведениях разных административных округов
middle_coffee_cup_pivot = df_coffee.pivot_table(index='district', values='middle_coffee_cup', aggfunc='median').reset_index()
middle_coffee_cup_pivot.sort_values(by='middle_coffee_cup', ascending=False).reset_index(drop=True) 

In [None]:
state_geo = 'https://code.s3.yandex.net/data-analyst/admin_level_geomap.geojson'
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создал хороплет и добавил его на карту
folium.Choropleth(
    geo_data=state_geo,
    name='choropleth',
    data=middle_coffee_cup_pivot,
    columns=['district', 'middle_coffee_cup'],
    key_on='feature.name',
    fill_color='Reds',
    fill_opacity=0.5,
    line_opacity=0.5,
    legend_name='Средний счёт заведений',
).add_to(m)

# вывел карту
m

Самая высокая средняя стоимость чашки капучино в Юго-Западном административном округе, она составляет 198 рублей.  Также высокая средняя цена наблюдается в Центральном административном округе 190 рублей и Западном административном округе 189 рублей. Самая низкая средняя стоимость чашки капучино в Восточном административном округе. Она составляет 135 рублей.

In [None]:
# построил таблицу среднего чека в заведениях разных административных округов
middle_net_cup_pivot = df_net_coffee.pivot_table(index='district', values='middle_coffee_cup', aggfunc='median').reset_index()
middle_net_cup_pivot.sort_values(by='middle_coffee_cup', ascending=False).reset_index(drop=True) 

In [None]:
state_geo = 'https://code.s3.yandex.net/data-analyst/admin_level_geomap.geojson'
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создал хороплет и добавил его на карту
folium.Choropleth(
    geo_data=state_geo,
    name='choropleth',
    data=middle_net_cup_pivot,
    columns=['district', 'middle_coffee_cup'],
    key_on='feature.name',
    fill_color='Reds',
    fill_opacity=0.5,
    line_opacity=0.5,
    legend_name='Средний счёт заведений',
).add_to(m)

# вывел карту
m

Среди сетевых заведений самая высокая средняя стоимость чашки капучино наблюдается в Западном административном округе, она составляет 222,5 рубля. Самая низкая средняя цена среди сетевых кофеен наблюдается в Южном административном округе. Она составляет 109,5 рублей.

In [None]:
# построил таблицу среднего чека в заведениях разных административных округов
middle_nonnet_cup_pivot = df_nonnet_coffee.pivot_table(index='district', values='middle_coffee_cup', aggfunc='median').reset_index()
middle_nonnet_cup_pivot.sort_values(by='middle_coffee_cup', ascending=False).reset_index(drop=True) 

In [None]:
state_geo = 'https://code.s3.yandex.net/data-analyst/admin_level_geomap.geojson'
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создал хороплет и добавил его на карту
folium.Choropleth(
    geo_data=state_geo,
    name='choropleth',
    data=middle_nonnet_cup_pivot,
    columns=['district', 'middle_coffee_cup'],
    key_on='feature.name',
    fill_color='Reds',
    fill_opacity=0.5,
    line_opacity=0.5,
    legend_name='Средний счёт заведений',
).add_to(m)

# вывел карту
m

Среди несетевых кофеен самая высокая средняя цена наблюдается в Центральном административном округе. Она составляет 195 рублей. Самая низкая средняя цена чашки капучино среди несетевых заведений в Восточном административном окруне. Она составляет 135 рублей.

#### 4.5 Оценка количества посадочных мест в кофейнях

In [None]:
df_coffee['seats'].describe()

#### Вывод: 

* Всего датасете представлено 1413 кофейни. Наибольшее количество кофеен расположено в Центральном административном округе. Наименьшее сосредоточено в Северо - Западном, Юго-Западном и Юго-Восточном административных округах. Всего сетевых объектов категории кофейня представлено: 663 из них наибольшее количество расположено в Центральном административном округе, наименьшее - в Юго-Восточном и Северо - Западном административных округах. Всего несетевых объектов категории кофейня представлено: 678. Большее количество несетевых кофеен сосредоточено в Центральном административном округе. Наименьшее расположено в Северо- Западном и Юго-Западном административных округах.

* Количество некруглосуточных кофеен в датасете 1354 объекта, круглосуточных - 59 объектов. Наиболешее количество некруглосуточных кофеен расположено в Центральном, Северном и Северо-Восточном административных округах. Наименьшее - в Южном и Юго-Восточном административных округах. Самое большое количество круглосуточных кофеен расположено в центре. В других административных округах объектов данной категории - единицы.

* Среди всех заведений категории кофейня, представленных в датасете преобладает средний рейтинг 4,3. Средний рейтинг ниже тольно в Западном административном округе, он составляет 4,2. Среди сетевых кофеен самый высокий рейтинг в Центральном административном округе, он составляет 4,3. В остальных административных округах рейтинг составляет 4,2. Самый высокий рейтинг несетевых кофеен с Северо-Западном административном округе он составляет 4,45. Самый низкий в соседнем с нима Западном административном округе. Он составляет 4,3. 

* Самая высокая средняя стоимость чашки капучино в Юго-Западном административном округе, она составляет 198 рублей. Также высокая средняя цена наблюдается в Центральном административном округе 190 рублей и Западном административном округе 189 рублей. Самая низкая средняя стоимость чашки капучино в Восточном административном округе. Она составляет 135 рублей. Среди сетевых заведений самая высокая средняя стоимость чашки капучино наблюдается в Западном административном округе, она составляет 222,5 рубля. Самая низкая средняя цена среди сетевых кофеен наблюдается в Южном административном округе. Она составляет 109,5 рублей. Среди несетевых кофеен самая высокая средняя цена наблюдается в Центральном административном округе. Она составляет 195 рублей. Самая низкая средняя цена чашки капучино среди несетевых заведений в Восточном административном окруне. Она составляет 135 рублей.

## Шаг 5. Рекомендации по открытию кофейни.

#### Расположение. 
В Юго-Западном адиминистративном округе большое количество различных объектов общественного питания, в то время как небольщое количество кофеен. Это может помочь обеспечить большую проходимость и избежать повышенной конкуренции

In [None]:
fig = px.bar(adm_distr_pivot, 
             x='procent', 
             y='district', 
             color='category', 
             title='Распределение заведений по административным округам', 
             text='procent')
fig.update_layout(
    yaxis_title="Административный округ",
    xaxis_title='%',
    yaxis = dict(
        tickmode='array',
        tickvals=adm_distr_pivot['district'],
        ticktext=adm_distr_pivot['district'],
          ),
    legend_title='Категория заведений',
    autosize=False,
    width=1000,
    height=500
)
    
fig.show()

In [None]:
# построил столбчатую диаграмму количества кофеен в разных административных округах
plt.barh(y=df_coffee_pivot['district'], width=df_coffee_pivot['name'])
plt.title('Количество кофеен в разных административных округах', fontsize=18)
plt.xlabel('Количество объектов')
plt.ylabel('Админисиративный округ')
plt.show()

#### Цена чашки капучино.
В Юго-Западном административном округе наблюдается высокая средняя цена чашки капучино. С целью привлечения посетителей можно установить цену ниже средней по дпнному административному округу. 

In [None]:
state_geo = 'https://code.s3.yandex.net/data-analyst/admin_level_geomap.geojson'
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создал хороплет и добавил его на карту
folium.Choropleth(
    geo_data=state_geo,
    name='choropleth',
    data=middle_coffee_cup_pivot,
    columns=['district', 'middle_coffee_cup'],
    key_on='feature.name',
    fill_color='Reds',
    fill_opacity=0.5,
    line_opacity=0.5,
    legend_name='Средний цена чашки капучино',
).add_to(m)

# вывел карту
m

#### График работы
Кофе редко пьют по ночам. Кофеен с круглосуточным ежедневным графиком работы в москве единицы. Видимо, в круглосуточном режиме работы у данной категории заведений нет финансовой выгоды. В связи с этим не рекомендовано открывать кофейню с круглосуточным режимом работы

In [None]:
# ввел пепеменные широты и долготы центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# вывел карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создал пустой кластер, добавил его на карту
marker_cluster = MarkerCluster().add_to(m)

# прописал функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']}",
    ).add_to(marker_cluster)

# применил функцию create_clusters() к каждой строке датафрейма
df_full_time.apply(create_clusters, axis=1)

# вывел карту
m

#### Количество посадочных мест
Для открытия первого объекта не рекомендовано чтобы количество посадоных мест превышало медианное значение количества посадочных мест данной категории по Москве. В категории кофейня медианное значение 80 мест. Рекомендовано открыть объект с количеством посадочных мест от 50 до 80.

In [None]:
df_coffee['seats'].describe()

In [None]:
df_coffee['seats'].median()

In [None]:
# построил диаграмму ящик с усами по выполненному срезу 
sns.set_style("whitegrid")
ax = df.boxplot(by ='category', column =['seats'], grid = True, figsize=(15,5))
ax.set_ylim([0, 400]);

## Ссылка на презентацию
https://drive.google.com/file/d/1JmY11hHTifXyv91VHjZ71n1uAuih-7c8/view?usp=sharing