# Проект: Анализ рынка заведений общественного питания Москвы

## Описание проекта

Инвесторы из фонда «Shut Up and Take My Money» решили попробовать себя в новой области и открыть заведение общественного питания в Москве. Заказчики ещё не знают, что это будет за место: кафе, ресторан, пиццерия, паб или бар, — и какими будут расположение, меню и цены.
Для начала они просят вас — аналитика — подготовить исследование рынка Москвы, найти интересные особенности и презентовать полученные результаты, которые в будущем помогут в выборе подходящего инвесторам места.
Постарайтесь сделать презентацию информативной и лаконичной. Её структура и оформление сильно влияют на восприятие информации читателями вашего исследования. Выбирать инструменты (matplotlib, seaborn и другие) и типы визуализаций вы можете самостоятельно.
Вам доступен датасет с заведениями общественного питания Москвы, составленный на основе данных сервисов Яндекс Карты и Яндекс Бизнес на лето 2022 года. Информация, размещённая в сервисе Яндекс Бизнес, могла быть добавлена пользователями или найдена в общедоступных источниках. Она носит исключительно справочный характер.

## Описание данных

Файл moscow_places.csv:

**name** — название заведения;

**address** — адрес заведения;

**category** — категория заведения, например «кафе», «пиццерия» или «кофейня»;

**hours** — информация о днях и часах работы;

**lat** — широта географической точки, в которой находится заведение;

**lng** — долгота географической точки, в которой находится заведение;

**rating** — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);

**price** — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;

**avg_bill** — строка, которая хранит среднюю стоимость заказа в виде диапазона, например:

- «Средний счёт: 1000–1500 ₽»;
- «Цена чашки капучино: 130–220 ₽»;
- «Цена бокала пива: 400–600 ₽».

**middle_avg_bill** — число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Средний счёт»:

- Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
- Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
- Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.

**middle_coffee_cup** — число с оценкой одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Цена одной чашки капучино»:
- Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
- Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
- Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.

**chain** — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки):
- 0 — заведение не является сетевым
- 1 — заведение является сетевым

**district** — административный район, в котором находится заведение, например Центральный административный округ;

**seats** — количество посадочных мест.


## Задание

**Шаг 1. Загрузите данные и изучите общую информацию.**

Загрузите данные о заведениях общественного питания Москвы.

Путь к файлу: /datasets/moscow_places.csv. Скачать датасет.

Изучите общую информацию о датасете. Сколько заведений представлено? Что можно сказать о каждом столбце? Значения какого типа они хранят? 

**Шаг 2. Выполните предобработку данных**

- Изучите, есть ли дубликаты в данных. Поищите пропуски: встречаются ли они, в каких столбцах? Можно ли их обработать или оставить как есть?

Выполните предобработку данных:

- Создайте столбец street с названиями улиц из столбца с адресом.

- Создайте столбец is_24_7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7):

    - логическое значение True — если заведение работает ежедневно и круглосуточно;

    - логическое значение False — в противоположном случае.

**Шаг 3. Анализ данных**

- Какие категории заведений представлены в данных? Исследуйте количество объектов общественного питания по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Ответьте на вопрос о распределении заведений по категориям.

- Исследуйте количество посадочных мест в местах по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Проанализируйте результаты и сделайте выводы.

- Рассмотрите и изобразите соотношение сетевых и несетевых заведений в датасете. Каких заведений больше?

- Какие категории заведений чаще являются сетевыми? Исследуйте данные и ответьте на вопрос графиком.

- Сгруппируйте данные по названиям заведений и найдите топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе. Постройте подходящую для такой информации визуализацию. Знакомы ли вам эти сети? Есть ли какой-то признак, который их объединяет? К какой категории заведений они относятся?

- Какие административные районы Москвы присутствуют в датасете? Отобразите общее количество заведений и количество заведений каждой категории по районам. Попробуйте проиллюстрировать эту информацию одним графиком.

- Визуализируйте распределение средних рейтингов по категориям заведений. Сильно ли различаются усреднённые рейтинги в разных типах общепита?

- Постройте фоновую картограмму (хороплет) со средним рейтингом заведений каждого района. Границы районов Москвы, которые встречаются в датасете, хранятся в файле admin_level_geomap.geojson (скачать файл для локальной работы).

- Отобразите все заведения датасета на карте с помощью кластеров средствами библиотеки folium.

- Найдите топ-15 улиц по количеству заведений. Постройте график распределения количества заведений и их категорий по этим улицам. Попробуйте проиллюстрировать эту информацию одним графиком.

- Найдите улицы, на которых находится только один объект общепита. Что можно сказать об этих заведениях?

- Значения средних чеков заведений хранятся в столбце middle_avg_bill. Эти числа показывают примерную стоимость заказа в рублях, которая чаще всего выражена диапазоном. Посчитайте медиану этого столбца для каждого района.

- Используйте это значение в качестве ценового индикатора района. Постройте фоновую картограмму (хороплет) с полученными значениями для каждого района. Проанализируйте цены в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях?

- Необязательное задание: проиллюстрируйте другие взаимосвязи, которые вы нашли в данных. Например, по желанию исследуйте часы работы заведений и их зависимость от расположения и категории заведения. Также можно исследовать особенности заведений с плохими рейтингами, средние чеки в таких местах и распределение по категориям заведений.

- Соберите наблюдения по вопросам выше в один общий вывод.

**Шаг 4. Детализируем исследование: открытие кофейни**

Основателям фонда «Shut Up and Take My Money» не даёт покоя успех сериала «Друзья». Их мечта — открыть такую же крутую и доступную, как «Central Perk», кофейню в Москве. Будем считать, что заказчики не боятся конкуренции в этой сфере, ведь кофеен в больших городах уже достаточно. Попробуйте определить, осуществима ли мечта клиентов.

Ответьте на следующие вопросы:

- Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?

- Есть ли круглосуточные кофейни?

- Какие у кофеен рейтинги? Как они распределяются по районам?

- На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

По желанию вы можете расширить список вопросов для исследования, добавив собственные.

Постройте визуализации. Попробуйте дать рекомендацию для открытия нового заведения. Это творческое задание: здесь нет правильного или неправильного ответа, но ваше решение должно быть чем-то обосновано. Объяснить свою рекомендацию можно текстом с описанием или маркерами на географической карте.

**Шаг 5. Подготовка презентации**

- Подготовьте презентацию исследования для инвесторов. 

- Отвечая на вопросы о московском общепите, вы уже построили много диаграмм, и помещать каждую из них в презентацию не нужно. Выберите важные тезисы и наблюдения, которые могут заинтересовать заказчиков.

Для создания презентации используйте любой удобный инструмент, но отправить презентацию нужно обязательно в формате PDF. Приложите ссылку на презентацию в markdown-ячейке в формате:

Презентация: <ссылка на облачное хранилище с презентацией>

Следуйте принципам оформления из темы «Подготовка презентации».

## Загрузка и предобработка  данных

**Шаг 1. Загрузите данные и изучите общую информацию.**

Загрузите данные о заведениях общественного питания Москвы.

Путь к файлу: /datasets/moscow_places.csv. Скачать датасет.

Изучите общую информацию о датасете. Сколько заведений представлено? Что можно сказать о каждом столбце? Значения какого типа они хранят? 

**Загрузим необходимые библиотеки**

In [13]:
import pandas as pd
import matplotlib .pyplot as plt
import seaborn as sns
import plotly.express as px
from plotly import graph_objects as go
import json
import folium
import numpy as np
import folium
from folium import Map, Choropleth, Marker
from folium.plugins import MarkerCluster

2025-02-19 16:43:48.597 system_profiler[5067:149379] CoreText note: Client requested name ".AlBayanPUA", it will get Times-Roman rather than the intended font. All system UI font access should be through proper APIs such as CTFontCreateUIFontForLanguage() or +[NSFont systemFontOfSize:].
2025-02-19 16:43:48.597 system_profiler[5067:149379] CoreText note: Set a breakpoint on CTFontLogSystemFontNameRequest to debug.
2025-02-19 16:43:48.603 system_profiler[5067:149379] CoreText note: Client requested name ".AlBayanPUA-Bold", it will get Times-Roman rather than the intended font. All system UI font access should be through proper APIs such as CTFontCreateUIFontForLanguage() or +[NSFont systemFontOfSize:].
2025-02-19 16:43:48.607 system_profiler[5067:149379] CoreText note: Client requested name ".AlNilePUA", it will get Times-Roman rather than the intended font. All system UI font access should be through proper APIs such as CTFontCreateUIFontForLanguage() or +[NSFont systemFontOfSize:].
202

ModuleNotFoundError: No module named 'folium'

In [None]:
moscow = pd.read_csv('/datasets/moscow_places.csv')

In [None]:
#Установим параметры отображения столбцов:
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

Посмотрим что представляют из себя данные.

In [None]:
moscow

Сразу заметно, что присутствуют пропущенные значения, посмотрим сколько их.

In [None]:
moscow.info()

**Присутствует большее количество пропущенных значений, также необходимо заменить типа данных в столбцах:**

- middle_avg_bill
- middle_coffee_cup
- seats

In [None]:
moscow['middle_avg_bill'] = moscow['middle_avg_bill'].astype("Int64")
moscow['middle_coffee_cup'] = moscow['middle_coffee_cup'].astype("Int64")
moscow['seats'] = moscow['seats'].astype("Int64")

**Выводы по разделу Загрузка данных:**
1. Загружены необходимые библиотеки.
2. Загружены данные в датафрейм moscow.
3. Установлены параметры отображения столбцов.
4. Исправлены типы данных.

## Предобработка данных

**Шаг 2. Выполните предобработку данных**

Изучите, есть ли дубликаты в данных. Поищите пропуски: встречаются ли они, в каких столбцах? Можно ли их обработать или оставить как есть?

Выполните предобработку данных:

Создайте столбец street с названиями улиц из столбца с адресом.

Создайте столбец is_24_7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7):

логическое значение True — если заведение работает ежедневно и круглосуточно;

логическое значение False — в противоположном случае.

**Проверим на явные дубликаты:**

In [None]:
moscow.duplicated().sum()

Явные дубликаты отсутствуют. 

**Проверим на неявные дубликаты.**

In [None]:
display(moscow['category'].unique())
display(moscow['district'].unique())
display(moscow['rating'].unique())

Неявные дубликаты также отсутсвуют.

**Проверим пропущенные значения:**

In [None]:
moscow.isna().sum()

In [None]:
print('Процент пропусков в hours: {:.2f}%'.format(moscow['hours'].isna().mean() * 100))
print('Процент пропусков в price: {:.2f}%'.format(moscow['price'].isna().mean() * 100))
print('Процент пропусков в avg_bill: {:.2f}%'.format(moscow['avg_bill'].isna().mean() * 100))
print('Процент пропусков в middle_avg_bill: {:.2f}%'.format(moscow['middle_avg_bill'].isna().mean() * 100))
print('Процент пропусков в middle_coffee_cup: {:.2f}%'.format(moscow['middle_coffee_cup'].isna().mean() * 100))
print('Процент пропусков в seats: {:.2f}%'.format(moscow['seats'].isna().mean() * 100))

**hours:** Процент пропусков в часах скорее всего обусловлен тем что заведение новое, либо собственник не указал эту информацию.

**price:** Пропуски в ценах составляют больше половины. Возможно недостаточно собрано данных для отображения средней цены, либо также заведение новое. Удалять пропуски нет смысла

**avg_bill, middle_avg_bill:** Пропуски также составляют также составляют больше половину и скорей всего они взаимносвязаны.

**middle_coffee_cup:** Пропуски практически 94% скорей всего такой процент обусловлен отсутствием значений в avg_bill

**seats:** Пропуски данном столбце могут быть обусловлены несколькими факторами: Собственник не указал количество посадочных мест, количество посадочных мест динамично.

**Создадим столбец street с названиями улиц из столбца с адресом.**

In [None]:
moscow['street'] = moscow['address'].str.split(',', expand=True)[1]
moscow['street'] = moscow['street'].str.strip()
moscow

**Создадим столбец is_24_7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7):**

- логическое значение True — если заведение работает ежедневно и круглосуточно;

- логическое значение False — в противоположном случае.

In [None]:
moscow['is_24/7'] = moscow['hours'].str.contains('ежедневно', case=False) & moscow['hours'].str.contains('круглосуточно', case=False)
moscow['is_24/7'] = moscow['is_24/7'].astype(bool)

**Проверим на неявные дубликаты:**

In [None]:
#проверим на неявные дубликаты
duplicates = moscow.duplicated(subset=['name', 'address'], keep=False)
if duplicates.any():
    duplicate_rows = moscow[duplicates]
    print("Обнаружены неявные дубликаты:")
    print(duplicate_rows)
else:
    print("Неявные дубликаты не обнаружены.")

Также создадим функцию для устранения неявных дубликатов.

In [None]:
def replace_duplicates(row):
    if 'ул.' in row:
        row = row.replace('ул.', 'улица')
    elif 'пр-т' in row:
        row = row.replace('пр-т', 'проспект')
    elif 'ш.' in row:
        row = row.replace('ш.', 'шоссе')
    return row

moscow['street'] = moscow['street'].apply(replace_duplicates)

# Создание копии столбца 'street' до применения функции
street_before = moscow['street'].copy()

# Применение функции replace_duplicates к столбцу 'street'
moscow['street'] = moscow['street'].apply(replace_duplicates)

# Подсчет количества изменений
changes_count = (street_before != moscow['street']).sum()

# Вывод количества изменений
print("Количество значений, замененных функцией replace_duplicates:", changes_count)

**Выводы по разделу предобработка данных:**
1. Осуществлена проврека на явные дубликаты.
2. Осуществлена проврека на неявные дубликаты.
3. Обработаны пропущенные значения.
4. Добавлен столбец с названием улиц (street).
5. Добавлен столбец c круглосуточными местами (is_24_7)

## Анализ данных

**Шаг 3. Анализ данных**

**Какие категории заведений представлены в данных? Исследуйте количество объектов общественного питания по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Ответьте на вопрос о распределении заведений по категориям.**

In [None]:
# Настройка стиля и размера графика
sns.set(style="whitegrid")
plt.figure(figsize=(16, 8))

# Построение вертикального графика
sns.countplot(data=moscow, y='category', order=moscow['category'].value_counts().index, palette='colorblind')
plt.title('Количество заведений общественного питания в Москве по категориям')
plt.ylabel('Категория')
plt.xlabel('Количество заведений')
plt.tight_layout()

# Показать график
plt.show()

Среди всех заведений больше всего кафе, следом идут рестораны, а потом кофейни.

**Исследуйте количество посадочных мест в местах по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Проанализируйте результаты и сделайте выводы.**

In [None]:
category_seats = moscow.groupby('category')['seats'].median().reset_index()
category_seats = category_seats.sort_values('seats', ascending=False)

# Настройка стиля и размера графика
sns.set(style="whitegrid")
plt.figure(figsize=(16, 8))

# Построение графика медианного количества посадочных мест для каждой категории
sns.barplot(data=category_seats, y='seats', x='category', palette='colorblind')
plt.xlabel('Медианное количество посадочных мест')
plt.ylabel('Категория')
plt.title('Медианное количество посадочных мест для каждой категории')
plt.tight_layout()

# Показать график
plt.show()

Как и следовало ожидать больше всего посадочных мест в ресторанах, на втором месте бары и уже потом кофейни. Удивительно что кафе расположились лишь на 6 месте.

**Рассмотрите и изобразите соотношение сетевых и несетевых заведений в датасете. Каких заведений больше?**

In [None]:
moscow_chain = moscow['chain'].value_counts()

# Настройка размера графика
plt.figure(figsize=(16, 8))

# Построение круговой диаграммы
plt.pie(moscow_chain, labels=['Несетевые', 'Сетевые'], autopct='%1.1f%%')
plt.title('Доля сетевых и несетевых заведений')

# Показать график
plt.show()

Практически 62% процента заведений не являются сетевыми, что является хорошой мотивацией для открытия собственного заведения.

<div class="alert alert-block alert-success">✔️
    

__Комментарий от ревьюера №1__

Не сетевых заведений, как и ожидалось больше
</div>

**Какие категории заведений чаще являются сетевыми? Исследуйте данные и ответьте на вопрос графиком.**

In [None]:
category_chain = moscow.pivot_table(index = 'category', columns = 'chain', values = 'name', aggfunc = 'count')
category_chain.columns = ['non_chain', 'chain']

category_chain['share_of_chain'] = round((category_chain['chain'] / (category_chain['non_chain'] + category_chain['chain']) * 100),2)
category_chain['share_of_non_chain'] = round((category_chain['non_chain'] / (category_chain['non_chain'] + category_chain['chain']) * 100),2)

category_chain = category_chain.drop(columns = ['chain','non_chain'])
category_chain.columns = ['% сетевых заведений', '% не сетевых заведений']

category_chain = category_chain.sort_values('% сетевых заведений')

In [None]:
category_chain.plot(kind = 'bar', stacked = True, grid = True, figsize=(16, 8))

plt.title('Процентное соотношение сетевых и несетевых заведений по категориям')
plt.xlabel('Название категории')
plt.ylabel('Доля в %')
plt.legend(loc='upper left', bbox_to_anchor=(1, 1))
plt.show()

**Топ 3 типа сетевых заведений:**
1. Бар, паб
2. Столовая
3. Кафе

**Топ 3 типа нетесвых заведений:**

1. Булочная
2. Пиццерия
3. Кофейня

**Сгруппируйте данные по названиям заведений и найдите топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе. Постройте подходящую для такой информации визуализацию. Знакомы ли вам эти сети? Есть ли какой-то признак, который их объединяет? К какой категории заведений они относятся.**

In [None]:
# Сгруппируем данные по названиям заведений и посчитаем количество заведений каждой сети
top_chains = moscow[moscow['chain'] == 1].groupby('name').size().sort_values(ascending=False).head(15)

# Построим график
plt.figure(figsize=(16, 8))
sns.barplot(x=top_chains.values, y=top_chains.index, palette='viridis')

# Настройка графика
plt.title('Топ-15 популярных сетей в Москве')
plt.xlabel('Количество заведений')
plt.ylabel('')

# Показать график
plt.show()

Самым популярным заведением с отрывом является легендарная Шоколадница, далее идут две пиццерии Доминос и Додо.

**Какие административные районы Москвы присутствуют в датасете? Отобразите общее количество заведений и количество заведений каждой категории по районам. Попробуйте проиллюстрировать эту информацию одним графиком.**

In [None]:
# Сгруппируем данные по районам и посчитаем общее количество заведений в каждом районе
district_counts = moscow.groupby('district').size().reset_index(name='total_count')
district_counts = district_counts.sort_values('total_count', ascending=False)
# Настройка стиля и размера графика
sns.set(style="whitegrid")
plt.figure(figsize=(16, 8))

# Построение графика
sns.barplot(data=district_counts, y='district', x='total_count')

# Настройка оформления графика
plt.title('Общее количество заведений общественного питания в Москве по районам')
plt.xlabel('Количество заведений')
plt.ylabel('Район')
plt.tight_layout()

# Показать график
plt.show()

Несмотря на размер ЦАО в нем практически в 2 раза больше заведений чем в любом другом районе.

In [None]:
# Сгруппируем данные по районам и категориям, чтобы получить количество заведений каждой категории в каждом районе
district_category_counts = moscow.groupby(['district', 'category']).size().unstack(fill_value=0)

# Суммируем количество заведений по районам для каждой категории
district_category_counts_sum = district_category_counts.sum(axis=1)

# Отсортируем данные по суммарному количеству заведений от меньшего к большему
district_category_counts_sorted = district_category_counts_sum.sort_values(ascending=True)

# Переупорядочим данные в исходной таблице
district_category_counts_sorted = district_category_counts.loc[district_category_counts_sorted.index]

district_category_counts_sorted.plot(kind='barh', stacked=True, figsize=(16, 8))

plt.title('Количество заведений общественного питания в Москве по категориям и районам (от большего к меньшему)')
plt.xlabel('Количество заведений')
plt.ylabel('Район')
plt.tight_layout()
plt.show()

**ВАО:** В ВАО больше всего кафе, ресторанов а следом идут кофейни.

**ЗАО:** В ЗАО такая же ситуация.

**САО:** В САО первое место неизменно, но в отличие от ВАО и ЗАО уже больше кофеен.

**СВАО:** В СВАО такая же ситуация как и в ВАО, ЗАО.

**СЗАО:** Наименьшее количетсво заведений, но тренд типов заведений тот же.

**ЦАО:** ЦАО отличается от других заведений радикально,помимо того, что здесь в принципе больше заведений, так и на первом месте идут рестораны, связано это скорее всего с большим количество богатых людей, далее идут кафе и кофейни.

В **ЗАО, СВАО, ЮВАО, ЮЗАО, ЮАО** ситуация такая же как и в ВАО.

**Визуализируйте распределение средних рейтингов по категориям заведений. Сильно ли различаются усреднённые рейтинги в разных типах общепита?**

In [None]:
category_rating = moscow.groupby('category')['rating'].median().sort_values(ascending=False).reset_index()

# Настройка стиля и размера графика
sns.set(style="whitegrid")
plt.figure(figsize=(12, 6))

# Построение графика среднего рейтинга по категориям
sns.barplot(data=category_rating, x='category', y='rating', palette='colorblind')

# Настройка оформления графика
plt.title('Средний рейтинг заведений по категориям')
plt.xlabel('Средний рейтинг')
plt.ylabel('Категория')

# Показать график
plt.show()

Рейтинги разных типо заведений практически не отличаются, за исключением баров. Скорей всего это связано с более приподнятым состоянием гостей после алкоголя.

**Постройте фоновую картограмму (хороплет) со средним рейтингом заведений каждого района. Границы районов Москвы, которые встречаются в датасете, хранятся в файле admin_level_geomap.geojson (скачать файл для локальной работы). Отобразите все заведения датасета на карте с помощью кластеров средствами библиотеки folium.**

In [None]:
rating_by_district = moscow.groupby('district')['rating'].mean()

In [None]:
geo = 'https://code.s3.yandex.net/data-analyst/admin_level_geomap.geojson'

moscow_lat, moscow_lng = 55.751244, 37.618423

m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

choropleth = folium.Choropleth(
    geo_data = geo,
    data = rating_by_district,
    columns = ['district', 'rating'],
    key_on = 'feature.name',
    fill_color = 'PuRd',
    fill_opacity = 0.5,
    legend_name = 'Средний рейтинг заведений по районам',
).add_to(m)

choropleth.geojson.add_child(
    folium.features.GeoJsonTooltip(fields = ['name'], aliases = ['Округ:'],
                                   labels  =True, localize = True, sticky = False))

marker_cluster = MarkerCluster().add_to(m)

def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup = f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

moscow.apply(create_clusters, axis=1)

m

Согласно Картограмме лучшие заведения в ЦАО, а худшие в ЮВАО. Низкий рейтинг в ЮВАО скорей всего обусловлен историческим промышленным вектором развития ЮВАО.

**Найдите топ-15 улиц по количеству заведений. Постройте график распределения количества заведений и их категорий по этим улицам. Попробуйте проиллюстрировать эту информацию одним графиком.**

In [None]:
# Найдем топ-15 улиц по количеству заведений
top_15_streets = moscow['street'].value_counts().head(15).index

# Отфильтруем данные по топ-15 улицам
top_15_data = moscow[moscow['street'].isin(top_15_streets)]

# Сгруппирем данные по улицам и посчитать количество заведений и их категорий
grouped_data = top_15_data.groupby(['street', 'category']).size().unstack(fill_value=0)

# Выберем только нужные улицы с сохранением разбивки по категориям
grouped_data = grouped_data.loc[grouped_data.index]

grouped_data.plot(kind='bar', stacked=True, figsize=(16, 8))


plt.title('Распределение заведений и их категорий на топ-15 улицах')
plt.xlabel('Улица')
plt.ylabel('Количество заведений')
plt.xticks(rotation=45, ha='right')
plt.legend(title='Категория')
plt.tight_layout()
plt.show()

Улицей с наибольшим количеством мест среди всех категорий является Проспект Мира связано это с большой протяженностью данной улицы. Далее идет Профсоюзная улица и Ленинский проспект.

**Найдите улицы, на которых находится только один объект общепита. Что можно сказать об этих заведениях?**

In [None]:
# Группировка данных по улицам и подсчет количества заведений на каждой улице
street_counts = moscow['street'].value_counts().reset_index()
street_counts.columns = ['street', 'count']

# Отфильтровать улицы, на которых находится только одно заведение
one_place_streets = street_counts[street_counts['count'] == 1]['street']

# Вывести на экран улицы с одним объектом общепита
print("Улицы с одним объектом общепита:")
print(one_place_streets)

# Группировка данных по районам и улицам с одним объектом общепита
one_place_streets_by_district = moscow[moscow['street'].isin(one_place_streets)].groupby('district')['street'].nunique()

# Найти топ-10 районов с наибольшим количеством улиц с одним объектом общепита
top_10_districts = one_place_streets_by_district.nlargest(10)

# Создание DataFrame для топ-10 районов
top_10_districts = top_10_districts.reset_index()
top_10_districts.columns = ['Район', 'Количество улиц']

# Построение графика
plt.figure(figsize=(16, 8))
sns.barplot(data=top_10_districts, x='Район', y='Количество улиц', palette='viridis')
plt.title('Топ-10 районов с наибольшим количеством улиц\nс одним объектом общепита')
plt.xlabel('Район')
plt.ylabel('Количество улиц')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

ЦАО с большим отрывом является лидером среди мест с лишь одним заведением на улице. Это связано с большим количеством маленьких переулков в данном округе.

**Значения средних чеков заведений хранятся в столбце middle_avg_bill. Эти числа показывают примерную стоимость заказа в рублях, которая чаще всего выражена диапазоном. Посчитайте медиану этого столбца для каждого района.**

In [None]:
# Посчитать медиану столбца middle_avg_bill для каждого района
median_avg_bill_by_district = moscow.groupby('district')['middle_avg_bill'].median()

# Вывести результат с помощью f-строки
for district, median_avg_bill in median_avg_bill_by_district.items():
    print(f"Медиана столбца middle_avg_bill для района {district}: {median_avg_bill}")

Топ 3 района по среднему чека являются:
1. ЦАО и ЗАО
3. СЗАО.

Западные направления являются наиболее дорогими если не учитывать ЦАО.

**Используйте это значение в качестве ценового индикатора района. Постройте фоновую картограмму (хороплет) с полученными значениями для каждого района. Проанализируйте цены в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях?**

In [None]:
moscow_lat, moscow_lng = 55.751244, 37.618423

m = folium.Map(location=[moscow_lat, moscow_lng], zoom_start=10)

choropleth = folium.Choropleth(
    geo_data=geo,
    data=median_avg_bill_by_district,
    columns=['district', 'median_avg_bill'],
    key_on='feature.name',
    fill_color='PuRd',
    fill_opacity=0.5,
    line_opacity=0.5,
    legend_name='Медиана среднего чека по районам',
).add_to(m)

choropleth.geojson.add_child(
    folium.features.GeoJsonTooltip(fields=['name'], aliases=['Округ:'],
                                   labels=True, localize=True, sticky=False))

marker_cluster = MarkerCluster().add_to(m)

def create_clusters(row):
    folium.Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} Медиана среднего чека: {median_avg_bill_by_district[row['district']]}",
    ).add_to(marker_cluster)

moscow.apply(create_clusters, axis=1)

m

Данная картограмма подтверждает ранее сделанные выводы о том, что заведения в западном направление наиболее дорогие.

**Вывод по разделу Анализ данных:.**
- Среди всех заведений больше всего кафе, следом идут рестораны, а потом кофейни.
- Как и следовало ожидать больше всего посадочных мест в ресторанах, на втором месте бары и уже потом кофейни. Удивительно что кафе расположились лишь на 6 месте.
- Практически 62% процента заведений не являются сетевыми, что является хорошой мотивацией для открытия собственного заведения.
- **Топ 3 типа сетевых заведений:**
1. Бар, паб
2. Столовая
3. Кафе

**Топ 3 типа нетесвых заведений:**

1. Булочная
2. Пиццерия
3. Кофейня
- Самым популярным заведением с отрывом является легендарная Шоколадница, далее идут две пиццерии Доминос и Додо.
- Несмотря на размер ЦАО в нем практически в 2 раза больше заведений чем в любом другом районе.

**ВАО:** В ВАО больше всего кафе, ресторанов а следом идут кофейни.

**ЗАО:** В ЗАО такая же ситуация.

**САО:** В САО первое место неизменно, но в отличие от ВАО и ЗАО уже больше кофеен.

**СВАО:** В СВАО такая же ситуация как и в ВАО, ЗАО.

**СЗАО:** Наименьшее количетсво заведений, но тренд типов заведений тот же.

**ЦАО:** ЦАО отличается от других заведений радикально,помимо того, что здесь в принципе больше заведений, так и на первом месте идут рестораны, связано это скорее всего с большим количество богатых людей, далее идут кафе и кофейни.

В **ЗАО, СВАО, ЮВАО, ЮЗАО, ЮАО** ситуация такая же как и в ВАО.

- Рейтинги разных типо заведений практически не отличаются, за исключением баров. Скорей всего это связано с более приподнятым состоянием гостей после алкоголя.
- Согласно Картограмме лучшие заведения в ЦАО, а худшие в ЮВАО. Низкий рейтинг в ЮВАО скорей всего обусловлен историческим промышленным вектором развития ЮВАО.
- Улицей с наибольшим количеством мест среди всех категорий является Проспект Мира связано это с большой протяженностью данной улицы. Далее идет Профсоюзная улица и Ленинский проспект.
- ЦАО с большим отрывом является лидером среди мест с лишь одним заведением на улице. Это связано с большим количеством маленьких переулков в данном округе.
- Топ 3 района по среднему чека являются:
1. ЦАО и ЗАО
3. СЗАО.

Западные направления являются наиболее дорогими если не учитывать ЦАО. Картограмма подтверждает ранее сделанные выводы о том, что заведения в западном направление наиболее дорогие.

## Детализируем исследование: открытие кофейни

**Шаг 4. Детализируем исследование: открытие кофейни**

Основателям фонда «Shut Up and Take My Money» не даёт покоя успех сериала «Друзья». Их мечта — открыть такую же крутую и доступную, как «Central Perk», кофейню в Москве. Будем считать, что заказчики не боятся конкуренции в этой сфере, ведь кофеен в больших городах уже достаточно. Попробуйте определить, осуществима ли мечта клиентов.

Ответьте на следующие вопросы:

- Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?

- Есть ли круглосуточные кофейни?

- Какие у кофеен рейтинги? Как они распределяются по районам?

- На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

По желанию вы можете расширить список вопросов для исследования, добавив собственные.

Постройте визуализации. Попробуйте дать рекомендацию для открытия нового заведения. Это творческое задание: здесь нет правильного или неправильного ответа, но ваше решение должно быть чем-то обосновано. Объяснить свою рекомендацию можно текстом с описанием или маркерами на географической карте.

**Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?**

In [None]:
coffee_by_district = moscow[moscow['category'] == 'кофейня'].groupby('district').size().sort_values(ascending=False)
display(coffee_by_district.sum())
coffee_by_district

В Москве 1413 кофеен.

Топ 3 округа:

- ЦАО
- САО
- СВАО

In [None]:
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

choropleth = folium.Choropleth(
    geo_data = geo,
    data = coffee_by_district,
    columns = ['district', 'count'],
    key_on = 'feature.name',
    fill_color = 'PuRd',
    fill_opacity = 0.5,
    legend_name = 'Количество кофеен по районам',
).add_to(m)

choropleth.geojson.add_child(
    folium.features.GeoJsonTooltip(fields = ['name'], aliases = ['Округ:'],
                                   labels  =True, localize = True, sticky = False))

marker_cluster = MarkerCluster().add_to(m)

def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup = f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

moscow.apply(create_clusters, axis=1)

m

Картограмма подтверждает сделанный ранее вывод о популярности округо ЦАО, САО и СВАО.

**Есть ли круглосуточные кофейни?**

In [None]:
coffee_shops_wholeday = moscow[(moscow['category'] == 'кофейня') & (moscow['is_24/7'] == True)]
coffee_shops_wholeday_by_district = coffee_shops_wholeday.groupby('district').size().sort_values(ascending=False)

plt.figure(figsize=(16, 8))

coffee_shops_wholeday_by_district.plot(kind='bar')

plt.title('Количество круглосуточных кофеен по районам')
plt.xlabel('Район')
plt.ylabel('Количество кофеен')
plt.show()

Больше всего круглосуточных кофеен в ЦАО это скорей всего обусловлено наличием большого количества офисных работников,которым необходим кофе даже ночью.

**Какие у кофеен рейтинги? Как они распределяются по районам?**

In [None]:
coffee_shops = moscow[moscow['category'] == 'кофейня']

# Группируем по району и считаем средний рейтинг для каждого района
coffee_ratings_by_district = coffee_shops.groupby('district')['rating'].mean().sort_values(ascending=False)
coffee_ratings_by_district

Средний рейтинг кофеен сильно не отличается от округа к округу:

Топ 3:

- ЦАО
- СЗАО
- САО

**На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?**

In [None]:
coffee_cup = coffee_shops.groupby('district', as_index=False)['middle_coffee_cup'].agg('mean')


coffee_cup['middle_coffee_cup'] = coffee_cup['middle_coffee_cup']


coffee_cup = coffee_cup.sort_values('middle_coffee_cup', ascending=False)

average_price = coffee_cup['middle_coffee_cup'].mean()

print('Средняя стоимость чашки кофе в Москве:', round(average_price))

plt.figure(figsize=(16, 8))

# Построение графика
plt.bar(coffee_cup['district'], coffee_cup['middle_coffee_cup'], color='darkgreen')

plt.title('Средняя цена чашки кофе по районам')
plt.xlabel('Район')
plt.ylabel('Средняя цена чашки кофе')

plt.xticks(rotation=60)

for i, price in enumerate(coffee_cup['middle_coffee_cup']):
    plt.annotate(f'{price:.2f}', (i, price), textcoords="offset points", xytext=(0,10), ha='center')
    
# Показать график
plt.show()

Удивительно, но наиболее дорогой кофе в ЗАО, связано это скорей всего с большим количеством состоятельных людей или возможно трудностями в логистике.

ЦАО на втором месте. Цена в центре выше чем в других районах так как  стоимость аренды помещения выше чем в других округах.

На 3 месте ЮЗАО.

**Попробуйте дать рекомендацию для открытия нового заведения. Это творческое задание: здесь нет правильного или неправильного ответа, но ваше решение должно быть чем-то обосновано. Объяснить свою рекомендацию можно текстом с описанием или маркерами на географической карте.**

При открытии кофейни лучше всего обратить внимание на ЦАО, ЗАО или САО. Это обусловлено следующими факторами:

- Большое количество кофеен в данных округах, что означает их актуальность. Правило ресторанного бизнеса гласит, что лучше открываться в том месте где заведений много. Если же в каком-то районе их нет, то это не просто так.

- Наиболее высокий средний чек за чашку кофе. Соответственно и доходность.

- Потребность в круглосуточных кофейнях, что позволит получать больше прибыли.

**Выводы по разделу Детализируем исследование: открытие кофейни:**

- В Москве 1413 кофеен.

- Топ 3 округа по количеству кофеен:

    - ЦАО
    - САО
    - СВАО.

- Больше всего круглосуточных кофеен в ЦАО это скорей всего обусловлено наличием большого количества офисных работников,которым необходим кофе даже ночью.
- Средний рейтинг кофеен сильно не отличается от округа к округу:

- Топ 3:
    - ЦАО
    - СЗАО
    - САО
- Средняя стоимость чашки кофе в Москве: 171
- Удивительно, но наиболее дорогой кофе в ЗАО, связано это скорей всего с большим количеством состоятельных людей или возможно трудностями в логистике.ЦАО на втором месте. Цена в центре выше чем в других районах так как  стоимость аренды помещения выше чем в других округах. На третьем месте ЮЗАО.

- Рекомендуется открывать кофейню в ЦАО, ЗАО или САО.

## Презентация

Презентация по ссылке: https://disk.yandex.com/i/o0ODIof8QЕ_cXg

## Общий вывод

**Выводы по разделу Загрузка данных:**
1. Загружены необходимые библиотеки.
2. Загружены данные в датафрейм moscow.
3. Установлены параметры отображения столбцов.
4. Исправлены типы данных.

**Выводы по разделу предобработка данных:**
1. Осуществлена проврека на явные дубликаты.
2. Осуществлена проврека на неявные дубликаты.
3. Обработаны пропущенные значения.
4. Добавлен столбец с названием улиц (street).
5. Добавлен столбец c круглосуточными местами (is_24_7)

**Вывод по разделу Анализ данных:.**
- Среди всех заведений больше всего кафе, следом идут рестораны, а потом кофейни.
- Как и следовало ожидать больше всего посадочных мест в ресторанах, на втором месте бары и уже потом кофейни. Удивительно что кафе расположились лишь на 6 месте.
- Практически 62% процента заведений не являются сетевыми, что является хорошой мотивацией для открытия собственного заведения.
- **Топ 3 типа сетевых заведений:**
1. Бар, паб
2. Столовая
3. Кафе

**Топ 3 типа нетесвых заведений:**

1. Булочная
2. Пиццерия
3. Кофейня
- Самым популярным заведением с отрывом является легендарная Шоколадница, далее идут две пиццерии Доминос и Додо.
- Несмотря на размер ЦАО в нем практически в 2 раза больше заведений чем в любом другом районе.

**ВАО:** В ВАО больше всего кафе, ресторанов а следом идут кофейни.

**ЗАО:** В ЗАО такая же ситуация.

**САО:** В САО первое место неизменно, но в отличие от ВАО и ЗАО уже больше кофеен.

**СВАО:** В СВАО такая же ситуация как и в ВАО, ЗАО.

**СЗАО:** Наименьшее количетсво заведений, но тренд типов заведений тот же.

**ЦАО:** ЦАО отличается от других заведений радикально,помимо того, что здесь в принципе больше заведений, так и на первом месте идут рестораны, связано это скорее всего с большим количество богатых людей, далее идут кафе и кофейни.

В **ЗАО, СВАО, ЮВАО, ЮЗАО, ЮАО** ситуация такая же как и в ВАО.

- Рейтинги разных типо заведений практически не отличаются, за исключением баров. Скорей всего это связано с более приподнятым состоянием гостей после алкоголя.
- Согласно Картограмме лучшие заведения в ЦАО, а худшие в ЮВАО. Низкий рейтинг в ЮВАО скорей всего обусловлен историческим промышленным вектором развития ЮВАО.
- Улицей с наибольшим количеством мест среди всех категорий является Проспект Мира связано это с большой протяженностью данной улицы. Далее идет Профсоюзная улица и Ленинский проспект.
- ЦАО с большим отрывом является лидером среди мест с лишь одним заведением на улице. Это связано с большим количеством маленьких переулков в данном округе.
- Топ 3 района по среднему чека являются:
1. ЦАО и ЗАО
3. СЗАО.

Западные направления являются наиболее дорогими если не учитывать ЦАО. Картограмма подтверждает ранее сделанные выводы о том, что заведения в западном направление наиболее дорогие.

**Выводы по разделу Детализируем исследование: открытие кофейни:**

- В Москве 1413 кофеен.

- Топ 3 округа по количеству кофеен:

    - ЦАО
    - САО
    - СВАО.

- Больше всего круглосуточных кофеен в ЦАО это скорей всего обусловлено наличием большого количества офисных работников,которым необходим кофе даже ночью.
- Средний рейтинг кофеен сильно не отличается от округа к округу:

- Топ 3:
    - ЦАО
    - СЗАО
    - САО
- Средняя стоимость чашки кофе в Москве: 171
- Удивительно, но наиболее дорогой кофе в ЗАО, связано это скорей всего с большим количеством состоятельных людей или возможно трудностями в логистике.ЦАО на втором месте. Цена в центре выше чем в других районах так как  стоимость аренды помещения выше чем в других округах. На третьем месте ЮЗАО.

- Рекомендуется открывать кофейню в ЦАО, ЗАО или САО.

**Подготовлена сводная презентация для инвесторов**