# <u>***Иследовательский анализ рынка заведений общественного питания Москвы***</u>

- Автор: Якунин Михаил Евгеньевич
- Дата: 24 февраля 2026 г.

## *Цели и задачи проекта*

<u>Цель исследования:</u>

Провести комплексный анализ рынка заведений общественного питания Москвы для определения наиболее перспективных форматов, локаций и ценовых сегментов, которые обеспечат успешный старт нового проекта инвесторов фонда Shut Up and Take My Money.

<u>Задачи проекта:</u>

Для достижения поставленной цели необходимо последовательно решить следующие задачи:

*Первичный анализ данных:*

- Загрузить данные о заведениях Москвы и изучить их структуру.

- Оценить полноту данных, выявить явные пропуски и аномалии.

*Предобработка и подготовка данных:*

- Привести данные к единому формату, удобному для анализа.

- Обработать пропуски (если они не несут полезной информации) или скорректировать типы данных.

- При необходимости сгенерировать новые признаки (например, вычленить название улицы из полного адреса или отфильтровать сетевые/несетевые заведения).

*Исследование структуры рынка:*

- Определить соотношение различных категорий заведений (кафе, рестораны, бары, столовые и т.д.).

- Выявить преобладающие форматы и их долю на рынке.

*Анализ сетевых и несетевых заведений:*

- Оценить распространенность сетевого бизнеса.

- Выяснить, какие форматы чаще всего работают в сетевом формате, а какие остаются «единичными».

*Анализ территориального размещения:*

- Изучить распределение заведений по административным округам и районам Москвы.

- Выявить локации с наибольшей и наименьшей концентрацией заведений.

- Проанализировать, как меняется формат заведений в зависимости от удаленности от центра.

*Анализ ценовых характеристик:*

- Изучить распределение среднего чека по различным категориям заведений.

- Выявить зависимость ценового сегмента от района расположения.

*Анализ посадочных мест:*

- Оценить среднюю вместимость заведений разного типа.

- Выявить тренды в количестве посадочных мест для разных районов и ценовых сегментов.

*Формулировка рекомендаций:*

- На основе проведенного анализа выделить ниши с низкой конкуренцией и высоким потенциалом.

- Дать рекомендации по выбору оптимального типа заведения, локации и уровня цен для успешного старта.

## *Описание данных*

Файл `rest_info.csv` содержит информацию о заведениях общественного питания:
- name — название заведения;
- address — адрес заведения;
- district — административный район, в котором находится заведение, например Центральный административный округ;
- category — категория заведения, например «кафе», «пиццерия» или «кофейня»;
- hours — информация о днях и часах работы;
- rating — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);
- chain — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки):
    - 0 — заведение не является сетевым;
    - 1 — заведение является сетевым.
- seats — количество посадочных мест.

Файл `rest_price.csv` содержит информацию о среднем чеке в заведениях общественного питания:
- price — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;
- avg_bill — строка, которая хранит среднюю стоимость заказа в виде диапазона, например:
    - «Средний счёт: 1000–1500 ₽»;
    - «Цена чашки капучино: 130–220 ₽»;
    - «Цена бокала пива: 400–600 ₽».
и так далее;
- middle_avg_bill — число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Средний счёт»:
    - Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
    - Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
    - Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.
- middle_coffee_cup — число с оценкой одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Цена одной чашки капучино»:
    - Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
    - Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
    - Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.

## *Содержание*

1. [Загрузка данных и знакомство с ними](#1)
2. [Предобработка данных](#2)
3. [Исследовательский анализ данных](#3)
4. [Итоговый вывод и рекомендации](#4)

## 1. Загрузка данных и знакомство с ними <a id=1></a>

In [None]:
# Импортируем библиотеки
import pandas as pd
import matplotlib as plt
import seaborn as sns
from phik import phik_matrix

In [None]:
# Загружаем данные
info_df = pd.read_csv('https://code.s3.yandex.net/datasets/rest_info.csv')
price_df = pd.read_csv('https://code.s3.yandex.net/datasets/rest_price.csv')

In [None]:
# Выводим первые 5 строк датафрейма info_df
info_df.head()

In [None]:
# Выведем информацию о датиафрейме info_df
info_df.info()

In [None]:
# Выводим первые 5 строк датафрейма price_df
price_df.head()

In [None]:
# Выведем информацию о датиафрейме price_df
price_df.info()

## 2. Предобработка данных <a id=2></a>

## 3. Исследовательский анализ данных <a id=3></a>

## 4. Итоговый вывод и рекомендации <a id=4></a>