# Проектная работа

# Рынок заведений общественного питания Москвы

# Описание проекта

Инвесторы из фонда «Shut Up and Take My Money» решили попробовать себя в новой области и открыть заведение общественного питания в Москве. Заказчики ещё не знают, что это будет за место: кафе, ресторан, пиццерия, паб или бар, — и какими будут расположение, меню и цены.

Для начала они просят вас — аналитика — подготовить исследование рынка Москвы, найти интересные особенности и презентовать полученные результаты, которые в будущем помогут в выборе подходящего инвесторам места.
Постарайтесь сделать презентацию информативной и лаконичной. Её структура и оформление сильно влияют на восприятие информации читателями вашего исследования. Выбирать инструменты (matplotlib, seaborn и другие) и типы визуализаций вы можете самостоятельно.

Вам доступен датасет с заведениями общественного питания Москвы, составленный на основе данных сервисов Яндекс Карты и Яндекс Бизнес на лето 2022 года. Информация, размещённая в сервисе Яндекс Бизнес, могла быть добавлена пользователями или найдена в общедоступных источниках. Она носит исключительно справочный характер.

# Описание данных

Файл `moscow_places.csv`:

* `name` — название заведения;
* `address` — адрес заведения;
* `category` — категория заведения, например «кафе», «пиццерия» или «кофейня»;
* `hours` — информация о днях и часах работы;
* `lat` — широта географической точки, в которой находится заведение;
* `lng` — долгота географической точки, в которой находится заведение;
* `rating` — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);
* `price` — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;
* `avg_bill` — строка, которая хранит среднюю стоимость заказа в виде диапазона, например:
    * «Средний счёт: 1000–1500 ₽»;
    * «Цена чашки капучино: 130–220 ₽»;
    * «Цена бокала пива: 400–600 ₽».
    и так далее;
* `middle_avg_bill` — число с оценкой среднего чека, которое указано только для значений из столбца `avg_bill`, начинающихся с подстроки «Средний счёт»:
    * Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
    * Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
    * Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.
* `middle_coffee_cup` — число с оценкой одной чашки капучино, которое указано только для значений из столбца `avg_bill`, начинающихся с подстроки «Цена одной чашки капучино»:
    * Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
    * Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
    * Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.
* `chain` — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки);
* `district` — административный район, в котором находится заведение, например Центральный административный округ;
* `seats` — количество посадочных мест.

# Задачи проекта

1. Провести исследование рынка заведений общественного питания Москвы и найти интересные особенности
2. Подготовить презентацию с полученными результатами, которые в будущем помогут в выборе подходящего инвесторам места

# Этапы проекта

1. [Загрузка данных и изучение общей информации](#start)
2. [Предобработка данных](#preprocessing)
    * [Обработка дубликатов](#duplicates)
    * [Обработка пропущенных значений](#null)
3. [Анализ данных](#analysis)
    * [Исследование количества объектов общественного питания по категориям](#categories)
    * [Исследование количества посадочных мест в местах по категориям](#seats)
    * [Поиск соотношения сетевых и несетевых заведений](#chain_and_not)
    * [Исследование, какие категории заведений чаще являются сетевыми](#chain)
    * [Обзор топ-15 популярных сетей в Москве](#top_15)
    * [Исследование общего количества заведений и количество заведений каждой категории по районам](#districts)
    * [Распределение средних рейтингов по категориям заведений](#ratings)
    * [Построение фоновой картограммы (хороплет) со средним рейтингом заведений каждого района](#map)
    * [Отображение всех заведений датасета на карте с помощью кластеров](#clusters)
    * [Обзор топ-15 улиц по количеству заведений](#top_15_street)
    * [Отображение улиц с одним заведением общественного питания](#lonely)
    * [Анализ ценового диапазона заведений по районам](#avg_bill)
    
4. [Детализация исследования: открытие кофейни](#detalisation)
    * [Обзор количества и расположения кофеен](#coffee_number)
    * [Анализ наличия круглосуточных кофеен](#24_7_coffee)
    * [Обзор рейтингов кофеен и их распределения по районам](#coffee_ratings)
    * [Определение стоимости чашки капучино, на которую стоит ориентироваться при открытии](#coffee_cost)
5. [Подготовка презентации](#presentation)
6. [Вывод](#conclusion)

# Ход исследования

## <a id='start'> Загрузка данных и подготовка их к анализу </a>  

In [1]:
#pip install geojson

In [2]:
#!pip3 install folium

In [None]:
# импортируем все библиотеки, которые нам будут нужны для выполнения исследования

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from plotly import graph_objects as go
import numpy as np
import math as mth
from scipy import stats as st
import re
import folium
import geojson
from folium import Map, Marker

In [None]:
# откроем рабочий файл

try:
    data_raw = pd.read_csv('/datasets/moscow_places.csv')
except:
    data_raw = pd.read_csv('https://code.s3.yandex.net//datasets/moscow_places.csv')

In [None]:
# создадим копию датафрейма

data = data_raw.copy(deep=True)

In [None]:
# выведем на экран 5 строчек таблицы

display(data.head(5))

In [None]:
# посмотрим общую информацию о файле 

print('Общая информация о датафрейме:')
data.info()

In [None]:
# посчитаем количество уникальных названий заведений

print('Количество уникальных названий заведений:', data.name.nunique())

In [None]:
# посчитаем количество сетевых заведений
print('Количество уникальных названий заведений:', data.query('chain == 1')['name'].nunique())

In [None]:
data.query('chain == 1')['name'].unique()

**Вывод:**
* В файле 8406 записи (5614 названия заведений, из них 762 сетевых)
* В столбцах `name`, `category`, `address`, `district`, `hours`, `price`, `avg_bill` содержится информация типа *object*
* Столбцы `lat`, `lng`, `rating`, `middle_avg_bill`, `middle_coffee_cup`, `seats` хранят информацию типа *float64*

## <a id='preprocessing'> Предобработка данных </a>

###  <a id='duplicates'> Обработка дубликатов </a>

In [None]:
# посчитаем количество полных дубликатов

print('Количество полных дубликатов: ', data.duplicated().sum())

In [None]:
# посчитаем количество записей с одинаковыми названиями и координатами

data[['name', 'address']].duplicated().sum()

In [None]:
# функция для замены нескольких значений

def multiple_replace(row, replace_values):
    for i, j in replace_values.items():
        row = row.replace(i, j)
    return row

In [None]:
# посмотрим, есть ли в датасете неявные дубликаты
# для этого переведем названия заведений в нижний регистр, заменим нижнее подчеркивание на дефис, точку на пробел, букву ё на е

data_searchdupl = data.copy(deep=True)
data_searchdupl['name'] = data_searchdupl['name'].str.lower()
replace_values = {"_":"-", "ё":"е", ".":""}

data_searchdupl['name'] = multiple_replace(data_searchdupl['name'], replace_values)
print('Количество полных дубликатов: ', data_searchdupl.duplicated().sum())
print('Количество дубликатов: ', data_searchdupl[['name', 'address']].duplicated().sum())
dupl_percentage = data_searchdupl[['name', 'address']].duplicated().sum()/data_searchdupl['name'].count()
print(f'Процент дубликатов: {dupl_percentage:.2%}')

In [None]:
# посмотрим на дубликаты

data_searchdupl[data_searchdupl[['name', 'address']].duplicated()]

In [None]:
# очистим датасет от дубликатов

data_wtht_dupl = data.drop(index=[1511, 2420, 3109]).reset_index()

> Вывод: в датасете обнаружено 3 записи с одинаковым адресом и названием заведения. Количество дубликатов очень мало (0.04% от общего числа записей).

###  <a id='null'> Обработка пропущенных значений </a>

In [None]:
# посчитаем количество пропущенных значений

print('Количество пропущенных значений:')
print(data_wtht_dupl.isna().sum().sort_values(ascending=False))

In [None]:
middle_coffee_cup_missed = data_wtht_dupl['middle_coffee_cup'].isna().sum()/data_wtht_dupl['name'].count()
print(f'Пропущено {middle_coffee_cup_missed:.2%} информации о средней цене чашки кофе в заведении')

middle_avg_bill_missed = data_wtht_dupl['middle_avg_bill'].isna().sum()/data_wtht_dupl['name'].count()
print(f'Пропущено {middle_avg_bill_missed:.2%} информации о среднем чеке в заведении')

price_missed = data_wtht_dupl['price'].isna().sum()/data_wtht_dupl['name'].count()
print(f'Пропущено {price_missed:.2%} информации о ценовом сегменте заведения')

avg_bill_missed = data_wtht_dupl['avg_bill'].isna().sum()/data_wtht_dupl['name'].count()
print(f'Пропущено {avg_bill_missed:.2%} информации о средней стоимости заказа в заведении')

seats_missed = data_wtht_dupl['seats'].isna().sum()/data_wtht_dupl['name'].count()
print(f'Пропущено {seats_missed:.2%} информации о количестве посадочных мест в заведении')

hours_missed = data_wtht_dupl['hours'].isna().sum()/data_wtht_dupl['name'].count()
print(f'Пропущено {hours_missed:.2%} информации о часах работы заведения')

In [None]:
data_wtht_dupl.isna().mean()

> Около 90% пропусков в колонке `middle_coffee_cup` и 60% middle_avg_bill - в колонке обусловлено тем, что эта информация тянется из столбца `avg_bill`, который в свою очередь содержит информацию либо о средней цене чашки кофе, либо о средней цене заказа. 

> В случае сетевых заведений можно попробовать заполнить данные пропуски, опираясь на одно из заведений сети, для которого эта информация указана (напр., можно предположить, что для сети "Додо Пицца" средний чек и ценовая категория одинаковы для всех филиалов, независимо от адреса, поскольку меню одинаковое)

In [None]:
# поделим датасет на 2 группы: сетевые заведения и несетевые

data_chain = data_wtht_dupl.query('chain == 1') # сетевые
data_unchain = data_wtht_dupl.query('chain == 0') # несетевые

In [None]:
data_chain.isna().sum()

> Для сетевых заведений наблюдается 2066 пропусков в столбце `price`

In [None]:
# создадим словарь, в котором будет содержаться название сетевого заведения и его ценовая категория

data_chain_price_dict = data_chain.dropna(subset=['price'])[['name', 'price']].set_index('name')['price'].to_dict()

In [None]:
# создадим функцию, которая заменит пропуски в столбце price в случае, если для данного сетевого заведения есть информация в словаре

def fill_chain_price(x):
    if x['price'] == x['price']:
        return x['price']
    else:
        if x['name'] in data_chain_price_dict:
            return data_chain_price_dict[x['name']]
        else:
            return x['price']

In [None]:
data_chain_copy = data_chain.copy(deep=True)
data_chain_copy.info()

In [None]:
# применим функцию к датафрейму 

data_chain_copy['price'] = data_chain_copy.apply(lambda x: fill_chain_price(x), axis=1)
print('Количество пропусков в столбце price после применения функции: ', data_chain_copy['price'].isna().sum())

> С помощью использования информации о категории заведения для одного заведения сети удалось заполнить 1097 пропусков в столбце `price`

In [None]:
# создадим столбец street с названиями улиц из столбца с адресом

words = ['улица','ул','переулок','шоссе','проспект','площадь','проезд',
         'село','аллея','бульвар','набережная','тупик','линия']
str_pat = r".*,\s*\b([^,]*?(?:{})\b[^,]*)[,$]+".format("|".join(words))

data_reg = data_wtht_dupl.copy(deep=True)

data_wtht_dupl['street'] = data_reg.address.str.extract(str_pat, flags=re.I)

In [None]:
data_reg.address.str.split(', ').str[1]

In [None]:
# создадим столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7)

data_wtht_dupl['is_24/7'] = data_wtht_dupl['hours'].str.contains('ежедневно, круглосуточно')

**Вывод:**
1. Полные дубликаты обнаружены не были
2. При переводе названий заведений в нижний регистр были замечены и удалены 3 неявных дубликата (0.04% от полного количества данных)
3. Для большой части записей не заполнена информация о категории цен в заведении и среднем чеке. В случае сетевых заведений можно заполнить данные пропуски, опираясь на одно из заведений сети, для которого эта информация указана (напр., для сети Додо Пицца средний чек и ценовая категория д.б. одинакова для всех филиалов, независимо от адреса, поскольку меню одинаковое). 
4. Однако, на мой взгляд, лучше оставить исходные данные в первоначальном виде (без заполнения пропусков), поскольку заполняя пропущенные значения медианным, мы рискуем получить неверную картину.

In [None]:
data_wtht_dupl['hours'] == 'ежедневно, круглосуточно'

## <a id='analysis'> Анализ данных </a>

###  <a id='categories'> Какие категории заведений представлены в данных? Исследуйте количество объектов общественного питания по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Ответьте на вопрос о распределении заведений по категориям. </a> 

In [None]:
categories = list(data_wtht_dupl['category'].unique())
categories

In [None]:
# подготовим данные для графика

data_categorized = (
    data_wtht_dupl.pivot_table(
            index='category', 
            values='name', 
            aggfunc='count')
    .sort_values(by='name', ascending=False)
    .reset_index()
    .rename(columns={'name':'count'})
)

In [None]:
data_categorized

In [None]:
# строим столбчатую диаграмму распределения заведений по категориям

fig = px.bar(data_categorized, 
             x='category', # указываем столбец с данными для оси X
             y='count', # указываем столбец с данными для оси Y
             text='count',
             color_discrete_sequence=px.colors.qualitative.Pastel2
            )
# оформляем график

fig.update_layout(title='Распределение заведений по категориям',
                   xaxis_title='Тип заведений',
                   yaxis_title='Количество заведений')
fig.update_traces(textfont_size=12, textangle=0, textposition="inside", cliponaxis=False)
fig.show() # выводим график

> Большинство заведений - это кафе (2377 заведений), второй по популярности тип заведения - ресторан (2042 заведения), на третьем месте находятся кофейни (1413 заведений).

### <a id='seats'> Исследуйте количество посадочных мест в местах по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Проанализируйте результаты и сделайте выводы. </a> 

In [None]:
# построим ящик с усами, чтобы посмотреть распределение мест в заведениях по категориям

plt.figure(figsize=(15,5))
sns.boxplot(data=data_wtht_dupl.dropna(subset=['seats']), x='category', y='seats') # уберем строки с пропущенным значением в столбце seats
plt.xlabel('Тип заведений')
plt.ylabel('Количество мест в заведениях')
plt.title('Распределение посадочных мест в заведениях по категориям')
plt.show()

In [None]:
# построим ящик с усами, чтобы посмотреть распределение мест в заведениях по категориям

plt.figure(figsize=(15,5))
sns.boxplot(data=data_wtht_dupl.dropna(subset=['seats']), x='category', y='seats') # уберем строки с пропущенным значением в столбце seats
plt.xlabel('Тип заведений')
plt.ylabel('Количество мест в заведениях')
plt.title('Распределение посадочных мест в заведениях по категориям')
plt.ylim([0,200])
plt.show()

In [None]:
# подготовим сводную таблицу с медианными значениями

data_seats = (
    data_wtht_dupl.pivot_table(
            index='category', 
            values='seats', 
            aggfunc='median')
    .sort_values(by='seats', ascending=False)
    .reset_index()
    .rename(columns={'seats':'seats_median'})
)
data_seats

> Вывод: Для всех дипов заведений медианное значение количества посадочных мест колеблется между 50 и 90. Самое большое значение наблюдается для ресторанов - 86 мест, самое маленькое для булочной - 50 мест.

> Самый большой разброс количества посадочных мест наблюдается в кафе

### <a id='chain_and_not'> Рассмотрите и изобразите соотношение сетевых и несетевых заведений в датасете. Каких заведений больше? </a> 

In [None]:
# подготовим данные для графика

data_chain_pivot = (
    data_wtht_dupl.pivot_table(
            index='chain', 
            values='name', 
            aggfunc='nunique')
    .sort_values(by='name', ascending=False)
    .reset_index()
    .rename(columns={'name':'count'})
)

In [None]:
# заменим 0 и 1 в столбце chain на несетевое и сетевое соотвественно

data_chain_pivot = data_chain_pivot.replace(0, "несетевое")
data_chain_pivot = data_chain_pivot.replace(1, "сетевое")

In [None]:
# построим круговую диаграмму, отображающую соотношение сетевых и несетевых заведений

colors = ['F7A4A4', 'FCDDB0']
fig = go.Figure(data=[go.Pie(labels=data_chain_pivot['chain'], values=data_chain_pivot['count'])])
fig.update_traces(marker=dict(colors=colors))
fig.update_layout(title='Соотношение сетевых и несетевых заведений', # указываем заголовок графика
                  width=600, # указываем размеры графика
                  height=500,
                  annotations=[dict(x=1.12, # вручную настраиваем аннотацию легенды
                                    y=1.05,
                                    text='Тип заведения',
                                    showarrow=False)])
fig.show()

> Вывод: Соотношение сетевых и несетевых заведений в датасете составляет 13.6% против 86.4%. Таким образом, несетевых заведений в датасете представлено больше.

### <a id='chain'> Какие категории заведений чаще являются сетевыми? Исследуйте данные и ответьте на вопрос графиком. </a>

In [None]:
# подготовим данные для графика

data_chain_categorised = (
    data_chain.pivot_table(
            index='category', 
            values='name', 
            aggfunc='nunique')
    .sort_values(by='name', ascending=False)
    .reset_index()
    .rename(columns={'name':'count'})
)
data_chain_categorised

In [None]:
# строим столбчатую диаграмму распределения заведений по категориям

plt.figure(figsize=(12,5))
sns.set_style('white')
sns.barplot(x='category', y='count', data=data_chain_categorised)
plt.xlabel('Тип заведений')
plt.ylabel('Количество заведений')
plt.title('Распределение типов заведений внутри сетевых')
plt.show()

> Вывод: Чаще всего сетевыми являются кафе и рестораны - 357 и 276 заведений соответственно. Меньше всего сетевых заведений типа "булочная" - 41 шт. 

### <a id='top_15'> Сгруппируйте данные по названиям заведений и найдите топ-15 популярных сетей в Москве. Постройте подходящую для такой информации визуализацию. Знакомы ли вам эти сети? Есть ли какой-то признак, который их объединяет? К какой категории заведений они относятся? Отобразите общее количество заведений и количество заведений каждой категории по районам. </a>

In [None]:
# отфильтруем данные, сгруппируем по названию, посчитаем число заведений и отберем топ-15

data_top_15 = (
    data_chain
    .groupby('name')[['name']]
    .count()
)    
   
data_top_15.columns = ['total_count']
data_top_15 = data_top_15.sort_values(by='total_count', ascending=False).head(15).reset_index()
data_top_15

In [None]:
# строим столбчатую диаграмму 

fig = px.bar(data_top_15, 
             x='name', # указываем столбец с данными для оси X
             y='total_count', # указываем столбец с данными для оси Y
             text='total_count', # добавляем аргумент, который отобразит текст с информацией
             color='total_count',
             color_continuous_scale='sunset'
            )
# оформляем график

fig.update_layout(title='ТОП-15 популярных сетей в Москве',
                   xaxis_title='Название сети',
                   yaxis_title='Количество заведений')

fig.show() # выводим график

In [None]:
# отфильтруем датасет и оставим информацию только для топ-15 сетей

top_15_names = list(data_top_15['name'])
top_15_dataset = data_wtht_dupl[data_wtht_dupl['name'].apply(lambda x: x in top_15_names)]

In [None]:
# посмотрим, к каким категориям относятся заведения из топ-15 и сколько их

top_15_dataset.pivot_table(
        index='category', 
        values='name', 
        aggfunc='nunique').rename(columns={'name':'total_count'}).sort_values(by='total_count', ascending=False).reset_index()

In [None]:
# изучим раскрытие, какие заведения к какой категории относятся

pd.options.display.max_colwidth = 150

top_15_dataset_list = top_15_dataset.groupby('category', group_keys=True)[['category','name']].apply(lambda x: x).drop_duplicates()
top_15_dataset_list = top_15_dataset_list.groupby('name', group_keys=True).agg({'category':lambda x: list(x)})

top_15_dataset_list

In [None]:
# отобразим общее количество заведений по районам

top_15_districts = (
    top_15_dataset.pivot_table(
        index='district', 
        values='name', 
        aggfunc='count')
    .rename(columns={'name':'total_count'})
    .sort_values(by='total_count', ascending=False)
    .reset_index()
)
top_15_districts

In [None]:
# строим столбчатую диаграмму 

fig = px.bar(top_15_districts, 
             x='district', # указываем столбец с данными для оси X
             y='total_count', # указываем столбец с данными для оси Y
             text='total_count',
             color_discrete_sequence=px.colors.qualitative.Pastel1
            )
# оформляем график

fig.update_layout(title='Общее количество заведений ТОП-15 по районам',
                   xaxis_title='Округ',
                   yaxis_title='Количество заведений')
fig.update_traces(textfont_size=12, textangle=0, textposition="inside", cliponaxis=False)
fig.show() # выводим график

In [None]:
# отобразим количество заведений каждой категории по районам

top_15_categories_and_districts = top_15_dataset.pivot_table(
    index='district',
    columns='category',
    values='name',
    aggfunc={'name': 'count'}).fillna(0)

In [None]:
top_15_categories_and_districts

In [None]:
top_15_categories_and_districts = top_15_categories_and_districts.sort_values(by='кофейня', ascending=False)

In [None]:
pip install cufflinks

In [None]:
import cufflinks as cf
cf.set_config_file(offline=True)

top_15_categories_and_districts.iplot(kind='bar', barmode='stack', title='Количество заведений каждой категории по районам')

> Вывод: в топ-15 заведений вошли такие сети как 'Шоколадница', "Домино'с Пицца", 'Додо Пицца', 'One Price Coffee', 'Яндекс Лавка', 'Cofix', 'Prime', 'Хинкальная', 'КОФЕПОРТ', 'Кулинарная лавка братьев Караваевых', 'Теремок', 'Чайхана', 'CofeFest', 'Буханка', 'Му-Му'. Большинство заведений относится к категории "кафе", "кофейня" и "ресторан". Для большинства заведений указано несколько категорий.
> Основная часть заведений расположена в Центральном АО, а меньше всего заведений общепита находится в Северо-Западном АО.

### <a id='districts'> Какие административные районы Москвы присутствуют в датасете? Отобразите общее количество заведений и количество заведений каждой категории по районам. Попробуйте проиллюстрировать эту информацию одним графиком. </a>

In [None]:
# посмотрим, какие административные раоны присутствуют в датасете

list(data_wtht_dupl['district'].unique())

In [None]:
# создадим сводную таблицу по общему количеству заведений в разных районах Москвы

data_district_pivot = (
    data_wtht_dupl.pivot_table(
        index='district',
        values='name',
        aggfunc='count'
    )
    .sort_values(by='name', ascending=False)
    .reset_index()
    .rename(columns={'name':'total_count'})
)

In [None]:
# создадим сводную таблицу с раскрытием по категориям

data_categories_and_districts = data_wtht_dupl.pivot_table(
    index='district',
    columns='category',
    values='name',
    aggfunc={'name': 'count'})

In [None]:
# соединим две таблицы

data_districts_total = data_categories_and_districts.merge(
    data_district_pivot, 
    on='district', 
    how='left').sort_values(by='total_count', ascending=False)

In [None]:
data_districts_total

In [None]:
# построем столбчатую диаграмму с накоплением для количества заведений каждой категории по районам

fig = px.bar(data_districts_total, 
             x='district', 
             y=['бар,паб', 'булочная', 'быстрое питание', 'кафе', 'кофейня', 'пиццерия', 'ресторан', 'столовая'],
             color_discrete_sequence=px.colors.qualitative.Set3)
fig.update_layout(title='Количество заведений каждой категории по районам',
                   xaxis_title='Округ',
                   yaxis_title='Количество заведений')
fig.show()

> В датасете присутствуют 
* Северный административный округ,
* Северо-Восточный административный округ,
* Северо-Западный административный округ,
* Западный административный округ,
* Центральный административный округ,
* Восточный административный округ,
* Юго-Восточный административный округ,
* Южный административный округ,
* Юго-Западный административный округ.

> Самое большое количество, 2242 заведения расположены в Центральном АО. Меньше всего заведений в Северо-Западном АО.

### <a id='ratings'> Визуализируйте распределение средних рейтингов по категориям заведений. Сильно ли различаются усреднённые рейтинги в разных типах общепита? </a>

In [None]:
# построим ящик с усами, чтобы посмотреть распределение рейтинга заведений по категориям

plt.figure(figsize=(15,5))
sort = pd.DataFrame(
    {col:vals['rating'] for col, vals in data_wtht_dupl.groupby(['category'])}
).median().sort_values().index
sns.boxplot(data=data_wtht_dupl, x='category', y='rating', order=sort) 
plt.xlabel('Тип заведений')
plt.ylabel('Рейтинг заведений')
plt.title('Распределение рейтингов заведениий по категориям')
plt.show()

> Поскольку в данных есть выбросу, в качестве средних рейтингов будем брать медианное значение

In [None]:
data_ratings = (
    data_wtht_dupl.pivot_table(
        index='category',
        values='rating',
        aggfunc={'rating': 'median'})
    .reset_index()
    .rename(columns={'rating':'median_rating'})
    .sort_values(by='median_rating', ascending=False)
)
data_ratings

In [None]:
data_ratings_districts = (
    data_wtht_dupl.pivot_table(
        index='district',
        values='rating',
        aggfunc={'rating': 'median'})
).reset_index().sort_values(by='rating', ascending=False)
data_ratings_districts

> Вывод: Усреднённые рейтинги в разных типах общепита практически не различаются. Значения колеблятся от 4.2 до 4.4.

### <a id='map'> Постройте фоновую картограмму (хороплет) со средним рейтингом заведений каждого района. </a>

In [None]:
state_geo = '/datasets/admin_level_geomap.geojson'
with open(state_geo, encoding='utf-8') as f:
    gj = geojson.load(f)

In [None]:
msc_lat, msc_lng = 55.751244, 37.618423 # координаты центра Москвы
m = Map(location=[msc_lat, msc_lng], zoom_start=10) # строим карту Москвы

In [None]:
# создаем хороплет со средним рейтингом заведений каждого района

folium.Choropleth(
    geo_data = gj,
    data=data_ratings_districts,
    columns=['district','rating'],
    key_on='feature.name',
    fill_color='OrRd',
    fill_opacity=0.8,
    legend_name='Средний рейтинг заведений по районам'
).add_to(m)
m

> Вывод: Самый высокий средний рейтинг заведений наблюдается в Центральном АО - 4.4. Самый низкий рейтинг в Северо-восточном и Юго-восточном АО - 4.2.

### <a id='clusters'> Отобразите все заведения датасета на карте с помощью кластеров средствами библиотеки `folium`. </a>

In [None]:
# импортируем кластер

from folium.plugins import MarkerCluster

# создаём пустой кластер, добавляем его на карту

marker_cluster = MarkerCluster().add_to(m)

In [None]:
# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster

def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма

data_wtht_dupl.apply(create_clusters, axis=1)

# выводим карту
m

### <a id='top_15_street'> Найдите топ-15 улиц по количеству заведений. Постройте график распределения количества заведений и их категорий по этим улицам. Попробуйте проиллюстрировать эту информацию одним графиком. </a>

In [None]:
# отфильтруем данные, сгруппируем по названию, посчитаем число заведений и отберем топ-15

data_top_15_street = (
    data_wtht_dupl
    .groupby('street')[['name']]
    .count()
)    
   
data_top_15_street.columns = ['total_count']
data_top_15_street = data_top_15_street.sort_values(by='total_count', ascending=False).head(15).reset_index()
data_top_15_street

In [None]:
# отфильтруем датасет и оставим информацию только для топ-15 улиц

data_top_15_street_names = list(data_top_15_street['street'])
data_top_15_street = data_wtht_dupl[data_wtht_dupl['street'].apply(lambda x: x in data_top_15_street_names)].reset_index()

In [None]:
data_top_15_street_pivot = data_top_15_street.pivot_table(
    index='street',
    columns='category',
    values='name',
    aggfunc='count'
).fillna(0).reset_index()
data_top_15_street_pivot['total_count'] = data_top_15_street_pivot.sum(axis=1)
data_top_15_street_pivot = data_top_15_street_pivot.sort_values(by='total_count', ascending=False).reset_index()

In [None]:
data_top_15_street_pivot

In [None]:
# построем столбчатую диаграмму с накоплением для количества заведений каждой категории по топ-15 улицам

fig = px.bar(data_top_15_street_pivot, 
             x='street', 
             y=['бар,паб', 'булочная', 'быстрое питание', 'кафе', 'кофейня', 'пиццерия', 'ресторан', 'столовая'],
             color_discrete_sequence=px.colors.qualitative.Set3)
fig.update_layout(title='Количество заведений каждой категории по топ-15 улицам',
                   xaxis_title='Округ',
                   yaxis_title='Количество заведений')
fig.show()

> Вывод: Больше всего заведений находится на проспекте Мира - 183. Далее идет Профсоюзная улица (самая длинная улица в Москве), на ней располагаются 122 заведения. И на третьем месте - проспект Вернадского со 108 заведениями.

### <a id='lonely'> Найдите улицы, на которых находится только один объект общепита. Что можно сказать об этих заведениях? </a>

In [None]:
data_street = (
    data_wtht_dupl
    .groupby('street')[['name']]
    .count()
)    
   
data_street.columns = ['total_count']
data_street_one_pivot = data_street.query('total_count == 1').reset_index()

In [None]:
# отфильтруем датасет и оставим информацию только улиц с одним заведением

street_one_names = list(data_street_one_pivot['street'])
data_street_one = data_wtht_dupl[data_wtht_dupl['street'].apply(lambda x: x in street_one_names)].reset_index()

In [None]:
# посмотрим, какие категории заведений встречаются на улицах с одним объектом общепита

data_street_one['category'].unique()

In [None]:
# посмотрим на распределение таких улиц по районам

data_street_one_district = (
    data_street_one.pivot_table(
        index='district',
        values='street',
        aggfunc='count')
    .reset_index()
    .sort_values(by='street', ascending=False)
    .rename(columns={'street':'total_count'})
)
data_street_one_district

In [None]:
# строим столбчатую диаграмму 

fig = px.bar(data_street_one_district, 
             x='district', # указываем столбец с данными для оси X
             y='total_count', # указываем столбец с данными для оси Y
             text='total_count',
             color_discrete_sequence=px.colors.qualitative.Pastel2
            )
# оформляем график

fig.update_layout(title='Распределение улиц с одним заведением по районам',
                   xaxis_title='Округ',
                   yaxis_title='Количество улиц')
fig.update_traces(textfont_size=12, textangle=0, textposition="inside", cliponaxis=False)
fig.show() # выводим график

> Вывод: Большая часть улиц с одним заведением общепита находится в Центральном АО. Данные заведения имеют все возможные катеогии: от столовой до бара.

### <a id='avg_bill'> Значения средних чеков заведений хранятся в столбце middle_avg_bill. Эти числа показывают примерную стоимость заказа в рублях, которая чаще всего выражена диапазоном. Посчитайте медиану этого столбца для каждого района. Используйте это значение в качестве ценового индикатора района. Постройте фоновую картограмму (хороплет) с полученными значениями для каждого района. Проанализируйте цены в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях? </a>


In [None]:
# посчитаем медиану столбца middle_avg_bill для каждого района

data_district_median_avg_bill = (
    data_wtht_dupl.dropna(subset=['middle_avg_bill']).pivot_table(
        index='district',
        values='middle_avg_bill',
        aggfunc='median' 
    ).reset_index()
    .sort_values(by='middle_avg_bill', ascending=False)
    .rename(columns={'middle_avg_bill':'median_middle_avg_bill'})
)
data_district_median_avg_bill

In [None]:
# строим столбчатую диаграмму 

fig = px.bar(data_district_median_avg_bill, 
             x='district', # указываем столбец с данными для оси X
             y='median_middle_avg_bill', # указываем столбец с данными для оси Y
             text='median_middle_avg_bill',
             color_discrete_sequence=px.colors.qualitative.Pastel1
            )
# оформляем график

fig.update_layout(title='Средний чек в заведении в районах Москвы',
                   xaxis_title='Округ',
                   yaxis_title='Медиана')
fig.update_traces(textfont_size=12, textangle=0, textposition="inside", cliponaxis=False)
fig.show() # выводим график

In [None]:
# создаем хороплет со медианным значением среднего чека каждого района

msc_lat, msc_lng = 55.751244, 37.618423 # координаты центра Москвы
m_avg_bill = Map(location=[msc_lat, msc_lng], zoom_start=10) # строим карту Москвы
folium.Choropleth(
    geo_data = gj,
    data=data_district_median_avg_bill,
    columns=['district','median_middle_avg_bill'],
    key_on='feature.name',
    fill_color='OrRd',
    fill_opacity=0.8,
    legend_name='Ценовой индикатор района'
).add_to(m_avg_bill)
m_avg_bill

> Вывод: Средний чек в Центральном и Западном административном округах оказались равными 1000 руб. Самая низкая средняя цена заказа составляет 450 руб. и наблюдается в Юго-Восточном АО. В целом, удаленность от центра обратно пропорциональна величине среднего чека: чем больше расстояние от центра города, тем выше средний чек. 

**Общий вывод**:
1. В данных представлены заведения следующих категорий: кафе, ресторан, кофейня, пиццерия, бар,паб, быстрое питание, булочная, столовая. Большинство заведений - это кафе (2378 заведений), второй по популярности тип заведения - ресторан (2043 заведения), на третьем месте находятся кофейни (1413 заведений).
2. Для всех дипов заведений медианное значение количества посадочных мест колеблется между 50 и 90. Самое большое значение наблюдается для ресторанов - 86 мест, самое маленькое для булочной - 50 мест.
3. Несетевых заведений в датасете представлено больше: соотношение сетевых и несетевых заведений в датасете составляет 13.6% против 86.4%.  
4. Чаще всего сетевыми являются кафе и рестораны - 357 и 276 заведений соответственно. Меньше всего сетевых заведений типа "булочная" - 41 шт.
5. В топ-15 заведений по количеству точек вошли такие сети как 'Шоколадница', "Домино'с Пицца", 'Додо Пицца', 'One Price Coffee', 'Яндекс Лавка', 'Cofix', 'Prime', 'Хинкальная', 'КОФЕПОРТ', 'Кулинарная лавка братьев Караваевых', 'Теремок', 'Чайхана', 'CofeFest', 'Буханка', 'Му-Му'. Большинство заведений относится к категории "кафе", "кофейня" и "ресторан". Для большинства заведений указано несколько категорий.Основная часть сетевых заведений расположена в Центральном АО, а меньше всего сетевых заведений общепита находится в Северо-Западном АО.
6. В датасете присутствуют Северный административный округ, Северо-Восточный административный округ, Северо-Западный административный округ, Западный административный округ, Центральный административный округ, Восточный административный округ, Юго-Восточный административный округ, Южный административный округ, Юго-Западный административный округ. Самое большое количество, 2242 заведения, расположено в Центральном АО. Меньше всего заведений в Северо-Западном АО.
7. Усреднённые рейтинги в разных типах общепита практически не различаются. Значения колеблятся от 4.2 до 4.4.
8. Самый высокий средний рейтинг заведений наблюдается в Центральном АО - 4.4. Самый низкий рейтинг в Северо-Восточном и Юго-Восточном АО - 4.2.
9. В топ-15 улиц по количеству заведений вошли проспект Мира, Профсоюзная ул., пр-кт Вернадского, Ленинский пр-кт, Ленинградский пр-кт, Дмитровское шоссе, Каширское шоссе, Варшавское шоссе, Ленинградское шоссе, Люблинская улица, ул. Вавилова, Кутузовский пр-кт, ул. Миклухо-Маклая, Пятницкая ул., Алтуфьевское шоссе. Больше всего заведений находится на проспекте Мира - 183. Далее идет Профсоюзная улица (самая длинная улица в Москве), на ней располагаются 122 заведения. И на третьем месте - проспект Вернадского со 108 заведениями.
10. Большая часть улиц с одним заведением общепита находится в Центральном АО. Данные заведения имеют все возможные катеогии: от столовой до бара.
11. Средний чек в Центральном и Западном административном округах оказались равными 1000 руб. Самая низкая средняя цена заказа составляет 450 руб. и наблюдается в Юго-Восточном АО. В целом, удаленность от центра обратно пропорциональна величине среднего чека: чем больше расстояние от центра города, тем выше средний чек.

## <a id='detalisation'> Детализация исследования: открытие кофейни </a>  

### <a id='coffee_number'> Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения? </a>  

In [None]:
# определим число кофеен в датасете

data_coffee = data_wtht_dupl.query('category == "кофейня"')
coffee_number = data_coffee['name'].count()
print(f'Число кофеен: {coffee_number}')

In [None]:
data_coffee_pivot = (
    data_coffee.pivot_table(
    index='district',
    values='name',
    aggfunc='count')
    .sort_values(by='name', ascending=False)
    .rename(columns={'name':'total_number'})
    .reset_index()
)
data_coffee_pivot

In [None]:
# строим столбчатую диаграмму 

fig = px.bar(data_coffee_pivot, 
             x='district', # указываем столбец с данными для оси X
             y='total_number', # указываем столбец с данными для оси Y
             text='total_number',
             color_discrete_sequence=px.colors.qualitative.Pastel
            )
# оформляем график

fig.update_layout(title='Количество кофеен в районах Москвы',
                   xaxis_title='Округ',
                   yaxis_title='Количество')
fig.update_traces(textfont_size=12, textangle=0, textposition="inside", cliponaxis=False)
fig.show() # выводим график

In [None]:
msc_lat, msc_lng = 55.751244, 37.618423 # координаты центра Москвы
m_coffee = Map(location=[msc_lat, msc_lng], zoom_start=10) # строим карту Москвы

marker_cluster = MarkerCluster().add_to(m_coffee)
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

data_coffee.apply(create_clusters, axis=1)

m_coffee

> Вывод: В датасете 1413 кофейни, 428 из которых находятся в Центральном АО. Если смотреть на карту, можно отметить, что в окрестностях Красной площади есть только одна кофейня у м. Площадь революции. В остальном видно, что большинство кофеен располагаются на прогулочных и оживленных улицах Москвы.

### <a id='24_7_coffee'> Есть ли круглосуточные кофейни? </a>  

In [None]:
# посчитаем количество круглосуточных кофеен

data_coffee[data_coffee['is_24/7'] == True]['is_24/7'].value_counts().sum()

In [None]:
# посчитаем количество круглосуточных кофеен в ЮЗАО

a = data_coffee[data_coffee['is_24/7'] == True]
a.query('district == "Юго-Западный административный округ"')['is_24/7'].value_counts().sum()

In [None]:
# посмотрим, что это за кофейни

list(data_coffee[data_coffee['is_24/7'] == True]['name'].unique())

> Вывод: В Москве 59 круглосуточных кофеен. 

### <a id='coffee_ratings'> Какие у кофеен рейтинги? Как они распределяются по районам? </a> 

In [None]:
# построим ящик с усами, чтобы посмотреть распределение рейтинга заведений по районам

plt.figure(figsize=(15,5))

boxplot = sns.boxplot(data=data_coffee, x='rating', y='district') 
plt.ylabel('Район')
plt.xlabel('Рейтинг заведений')
plt.title('Распределение рейтингов заведениий по районам')
plt.show()

In [None]:
data_coffee_ratings = (
    data_coffee.pivot_table(
        index='district',
        values='rating',
        aggfunc='median'
    ).sort_values(by='rating', ascending=False)
    .reset_index()
)
data_coffee_ratings

> Вывод: Для всех административных округов, за исключением Западного АО, медианное значение рейтинга составляет 4.3 (для ЗАО - 4.2). Для Северного и Северо-Восточного АО наблюдается самый большой разброс значений рейтинга.

### <a id='coffee_cost'> На какую стоимость чашки капучино стоит ориентироваться при открытии и почему? </a> 

In [None]:
# очистим датасет от заведений, где не указан средний чек

data_coffee_drop = data_coffee.dropna(subset=['avg_bill'])

In [None]:
# добавим столбец с нижней и верхней границами цены чашки кофе

data_coffee_drop['coffee_price_low'] = data_coffee_drop['avg_bill'].apply(
    lambda x: re.findall(r'\d+', str(x))[0] if 'чашк' in str(x) else 0
) # нижняя граница

data_coffee_drop['coffee_price_high'] = data_coffee_drop['avg_bill'].apply(
    lambda x: re.findall(r'\d+', str(x))[-1] if 'чашк' in str(x) else 0
) # верхняя граница

data_coffee_drop.head()

In [None]:
# посмотрим распределение средней цены чашки капучино в кофейнях Москвы в зависимости от района

plt.figure(figsize=(15,5))
sort_by = pd.DataFrame(
    {col:vals['middle_coffee_cup'] for col, vals in data_coffee_drop.groupby(['district'])}
).median().sort_values().index
boxplot = sns.boxplot(data=data_coffee_drop, x='middle_coffee_cup', y='district', order=sort_by)
plt.xlim([0,400])
plt.ylabel('Район')
plt.xlabel('Средняя цена чашки капучино')
plt.title('Распределение средней цены чашки капучино в кофейнях по районам')
plt.show()

In [None]:
data_coffee_drop_median = (
    data_coffee_drop.pivot_table(
    index='district',
    values='middle_coffee_cup',
    aggfunc='median')
.sort_values(by='middle_coffee_cup', ascending=False)
.reset_index()
)
data_coffee_drop_median

In [None]:
# строим столбчатую диаграмму 

fig = px.bar(data_coffee_drop_median, 
             x='district', # указываем столбец с данными для оси X
             y='middle_coffee_cup', # указываем столбец с данными для оси Y
             text='middle_coffee_cup',
             color_discrete_sequence=px.colors.qualitative.Set2
            )
# оформляем график

fig.update_layout(title='Средняя стоимость капучино в районах Москвы',
                   xaxis_title='Округ',
                   yaxis_title='Медиана')
fig.update_traces(textfont_size=12, textangle=0, textposition="inside", cliponaxis=False)
fig.show() # выводим график

> Вывод: При открытии кофейни нужно ориентироваться на медианное значение средней стоимости чашки капучино в административном округе. Самая высокая стоимость чашки капучино в ЮЗАО - 198 руб. Самая низкая - в Восточном АО, 135 руб.

> Вывод: При открытии новой кофейни можно выбрать два разных пути. Первый - это выбрать район, в котором нет так много кофеен, но достаточно высокая проходимость (это может быть бизнес-квартал или транспортный путь, такой как пересадка с МЦК/МЦД на метро и т.п.). В этом случае можно устанавливать среднюю в данном районе стоимость чашки капучино. Второй вариант, это выбрать район с наиболее высоким ценником за чашку кофе и основать кофейню с более низким (ниже медианы по району) средним чеком. Однако этот вариант очень агрессивный.

**Рекомендация**

На мой взгляд, хорошей идеей является основание кофейни в Юго-Западном административном округе, поскольку там малое число кофеен (всего 96 из 1413 по г. Москве, 7 из них круглосуточные) и средняя цена за чашку капучино самая высокая (198 руб.). Средний рейтинг заведений в этом административном округе колеблется около оценки 4.3. В ЮЗАО располагается очень много университетов, а студенты часто покупают кофе с собой и делают различные проекты/ домашние задания в кафе, когда у них перерыв между парами. Более того ЮЗАО - престижный район Москвы, где располагаются бизнес-центры и жилые кварталы. 

## <a id='presentation'> Презентация </a>  

Ссылка на презентацию: <https://disk.yandex.ru/i/Z181xZUEHE5T6Q> 

## <a id='conclusion'> Вывод </a>  

**В ходе выполнения проекта**:
1. Была проведена предобработка данных, в результате которой были найдены и удалены неявные дубликаты. Пропущенные значения были изучены, но оставлены в первоначальном виде во избежание искажения данных. Добавлены столбцы с улицей и режимом работы заведения 
2. Были изучены данные:
    1. В датасете представлены заведения следующих категорий: кафе, ресторан, кофейня, пиццерия, бар,паб, быстрое питание, булочная, столовая. Большинство заведений - это кафе (2377 заведений), второй по популярности тип заведения - ресторан (2042 заведения), на третьем месте находятся кофейни (1413 заведений).
    2. Для всех дипов заведений медианное значение количества посадочных мест колеблется между 50 и 90. Самое большое значение наблюдается для ресторанов - 86 мест, самое маленькое для булочной - 50 мест.
    3. Несетевых заведений в датасете представлено больше: соотношение сетевых и несетевых заведений в датасете составляет 13.6% против 86.4%.  
    4. Чаще всего сетевыми являются кафе и рестораны - 357 и 276 заведений соответственно. Меньше всего сетевых заведений типа "булочная" - 41 шт.
    5. В топ-15 заведений по количеству точек вошли такие сети как 'Шоколадница', "Домино'с Пицца", 'Додо Пицца', 'One Price Coffee', 'Яндекс Лавка', 'Cofix', 'Prime', 'Хинкальная', 'КОФЕПОРТ', 'Кулинарная лавка братьев Караваевых', 'Теремок', 'Чайхана', 'CofeFest', 'Буханка', 'Му-Му'. Большинство заведений относится к категории "кафе", "кофейня" и "ресторан". Для большинства заведений указано несколько категорий.Основная часть сетевых заведений расположена в Центральном АО, а меньше всего сетевых заведений общепита находится в Северо-Западном АО.
    6. В датасете присутствуют Северный административный округ, Северо-Восточный административный округ, Северо-Западный административный округ, Западный административный округ, Центральный административный округ, Восточный административный округ, Юго-Восточный административный округ, Южный административный округ, Юго-Западный административный округ. Самое большое количество, 2242 заведения, расположено в Центральном АО. Меньше всего заведений в Северо-Западном АО.
    7. Усреднённые рейтинги в разных типах общепита практически не различаются. Значения колеблятся от 4.2 до 4.4.
    8. Самый высокий средний рейтинг заведений наблюдается в Центральном АО - 4.4. Самый низкий рейтинг в Северо-восточном и Юго-восточном АО - 4.2.
    9. В топ-15 улиц по количеству заведений вошли проспект Мира, Профсоюзная ул., пр-кт Вернадского, Ленинский пр-кт, Ленинградский пр-кт, Дмитровское шоссе, Каширское шоссе, Варшавское шоссе, Ленинградское шоссе, Люблинская улица, ул. Вавилова, Кутузовский пр-кт, ул. Миклухо-Маклая, Пятницкая ул., Алтуфьевское шоссе. Больше всего заведений находится на проспекте Мира - 183. Далее идет Профсоюзная улица (самая длинная улица в Москве), на ней располагаются 122 заведения. И на третьем месте - проспект Вернадского со 108 заведениями.
    10. Большая часть улиц с одним заведением общепита находится в Центральном АО. Данные заведения имеют все возможные катеогии: от столовой до бара.
    11. Средний чек в Центральном и Западном административном округах оказались равными 1000 руб. Самая низкая средняя цена заказа составляет 450 руб. и наблюдается в Юго-Восточном АО. В целом, удаленность от центра обратно пропорциональна величине среднего чека: чем больше расстояние от центра города, тем выше средний чек.
3. Проведен более детализированный анализ рынок кофеен:
    1. В датасете 1413 кофейни, 428 из которых находятся в Центральном АО. 
    2. В Москве 59 круглосуточных кофеен.
    3. Для всех административных округов, за исключением Западного АО, медианное значение рейтинга составляет 4.3 (для ЗАО - 4.2). Для Северного и Северо-Восточного АО наблюдается самый большой разброс значений рейтинга.
    4. При открытии новой кофейни можно выбрать два разных пути. Первый - это выбрать район, в котором нет так много кофеен, но достаточно высокая проходимость (это может быть бизнес-квартал или транспортный путь, такой как пересадка с МЦК/МЦД на метро и т.п.). В этом случае можно устанавливать среднюю в данном районе стоимость чашки капучино. Второй вариант, это выбрать район с наиболее высоким ценником за чашку кофе и основать кофейню с более низким (ниже медианы по району) средним чеком. Однако этот вариант очень агрессивный.
4. Даны рекомендации по открытию кофейни в г. Москве, а именно в Юго-Западном административном округе, поскольку там малое число кофеен (всего 96 из 1413 по г. Москве, 7 из них круглосуточные) и средняя цена за чашку капучино самая высокая (198 руб.). Средний рейтинг заведений в этом административном округе колеблется около оценки 4.3. В ЗАО располагается очень много университетов, а студенты часто покупают кофе с собой и делают различные проекты/ домашние задания в кафе, когда у них перерыв между парами. Более того ЮЗАО - престижный район Москвы, где располагаются бизнес-центры и жилые кварталы. 
5. Подготовлена презентация    