# <u>***Иследовательский анализ рынка заведений общественного питания Москвы***</u>

- Автор: Якунин Михаил Евгеньевич
- Дата: 24 февраля 2026 г.

## *Цели и задачи проекта*

<u>**Цель исследования:**</u>

Провести комплексный анализ рынка заведений общественного питания Москвы для определения наиболее перспективных форматов, локаций и ценовых сегментов, которые обеспечат успешный старт нового проекта инвесторов фонда Shut Up and Take My Money.

<u>**Задачи проекта:**</u>

Для достижения поставленной цели необходимо последовательно решить следующие задачи:

*Первичный анализ данных:*

- Загрузить данные о заведениях Москвы и изучить их структуру.

- Оценить полноту данных, выявить явные пропуски и аномалии.

*Предобработка и подготовка данных:*

- Привести данные к единому формату, удобному для анализа.

- Обработать пропуски (если они не несут полезной информации) или скорректировать типы данных.

- При необходимости сгенерировать новые признаки (например, вычленить название улицы из полного адреса или отфильтровать сетевые/несетевые заведения).

*Исследование структуры рынка:*

- Определить соотношение различных категорий заведений (кафе, рестораны, бары, столовые и т.д.).

- Выявить преобладающие форматы и их долю на рынке.

*Анализ сетевых и несетевых заведений:*

- Оценить распространенность сетевого бизнеса.

- Выяснить, какие форматы чаще всего работают в сетевом формате, а какие остаются «единичными».

*Анализ территориального размещения:*

- Изучить распределение заведений по административным округам и районам Москвы.

- Выявить локации с наибольшей и наименьшей концентрацией заведений.

- Проанализировать, как меняется формат заведений в зависимости от удаленности от центра.

*Анализ ценовых характеристик:*

- Изучить распределение среднего чека по различным категориям заведений.

- Выявить зависимость ценового сегмента от района расположения.

*Анализ посадочных мест:*

- Оценить среднюю вместимость заведений разного типа.

- Выявить тренды в количестве посадочных мест для разных районов и ценовых сегментов.

*Формулировка рекомендаций:*

- На основе проведенного анализа выделить ниши с низкой конкуренцией и высоким потенциалом.

- Дать рекомендации по выбору оптимального типа заведения, локации и уровня цен для успешного старта.

## *Описание данных*

Файл `rest_info.csv` содержит информацию о заведениях общественного питания:
- id - индификатор заведения;
- name — название заведения;
- address — адрес заведения;
- district — административный район, в котором находится заведение, например Центральный административный округ;
- category — категория заведения, например «кафе», «пиццерия» или «кофейня»;
- hours — информация о днях и часах работы;
- rating — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);
- chain — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки):
    - 0 — заведение не является сетевым;
    - 1 — заведение является сетевым.
- seats — количество посадочных мест.

Файл `rest_price.csv` содержит информацию о среднем чеке в заведениях общественного питания:
- id - индификатор заведения;
- price — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;
- avg_bill — строка, которая хранит среднюю стоимость заказа в виде диапазона, например:
    - «Средний счёт: 1000–1500 ₽»;
    - «Цена чашки капучино: 130–220 ₽»;
    - «Цена бокала пива: 400–600 ₽».
и так далее;
- middle_avg_bill — число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Средний счёт»:
    - Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
    - Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
    - Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.
- middle_coffee_cup — число с оценкой одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Цена одной чашки капучино»:
    - Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
    - Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
    - Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.

## *Содержание*

1. [Загрузка данных и знакомство с ними](#1)
2. [Предобработка данных](#2)
3. [Исследовательский анализ данных](#3)
4. [Итоговый вывод и рекомендации](#4)

## 1. Загрузка данных и знакомство с ними <a id=1></a>

### 1.1 *Загрузка данных*

In [1]:
# Импортируем библиотеки
import pandas as pd
import matplotlib as plt
import seaborn as sns
from phik import phik_matrix

In [2]:
# Загружаем данные
info_df = pd.read_csv('https://code.s3.yandex.net/datasets/rest_info.csv')
price_df = pd.read_csv('https://code.s3.yandex.net/datasets/rest_price.csv')

In [3]:
# Выводим первые 5 строк датафрейма info_df
info_df.head()

Unnamed: 0,id,name,category,address,district,hours,rating,chain,seats
0,0c3e3439a8c64ea5bf6ecd6ca6ae19f0,WoWфли,кафе,"Москва, улица Дыбенко, 7/1",Северный административный округ,"ежедневно, 10:00–22:00",5.0,0,
1,045780ada3474c57a2112e505d74b633,Четыре комнаты,ресторан,"Москва, улица Дыбенко, 36, корп. 1",Северный административный округ,"ежедневно, 10:00–22:00",4.5,0,4.0
2,1070b6b59144425896c65889347fcff6,Хазри,кафе,"Москва, Клязьминская улица, 15",Северный административный округ,"пн-чт 11:00–02:00; пт,сб 11:00–05:00; вс 11:00...",4.6,0,45.0
3,03ac7cd772104f65b58b349dc59f03ee,Dormouse Coffee Shop,кофейня,"Москва, улица Маршала Федоренко, 12",Северный административный округ,"ежедневно, 09:00–22:00",5.0,0,
4,a163aada139c4c7f87b0b1c0b466a50f,Иль Марко,пиццерия,"Москва, Правобережная улица, 1Б",Северный административный округ,"ежедневно, 10:00–22:00",5.0,1,148.0


In [4]:
# Выведем информацию о датиафрейме info_df
info_df.info()

<class 'pandas.DataFrame'>
RangeIndex: 8406 entries, 0 to 8405
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   id        8406 non-null   str    
 1   name      8406 non-null   str    
 2   category  8406 non-null   str    
 3   address   8406 non-null   str    
 4   district  8406 non-null   str    
 5   hours     7870 non-null   str    
 6   rating    8406 non-null   float64
 7   chain     8406 non-null   int64  
 8   seats     4795 non-null   float64
dtypes: float64(2), int64(1), str(6)
memory usage: 591.2 KB


In [5]:
# Выводим первые 5 строк датафрейма price_df
price_df.head()

Unnamed: 0,id,price,avg_bill,middle_avg_bill,middle_coffee_cup
0,045780ada3474c57a2112e505d74b633,выше среднего,Средний счёт:1500–1600 ₽,1550.0,
1,1070b6b59144425896c65889347fcff6,средние,Средний счёт:от 1000 ₽,1000.0,
2,03ac7cd772104f65b58b349dc59f03ee,,Цена чашки капучино:155–185 ₽,,170.0
3,a163aada139c4c7f87b0b1c0b466a50f,средние,Средний счёт:400–600 ₽,500.0,
4,8a343546b24e4a499ad96eb7d0797a8a,средние,,,


In [6]:
# Выведем информацию о датиафрейме price_df
price_df.info()

<class 'pandas.DataFrame'>
RangeIndex: 4058 entries, 0 to 4057
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 4058 non-null   str    
 1   price              3315 non-null   str    
 2   avg_bill           3816 non-null   str    
 3   middle_avg_bill    3149 non-null   float64
 4   middle_coffee_cup  535 non-null    float64
dtypes: float64(2), str(3)
memory usage: 158.6 KB


### 1.2 *Подготовка единого датафрейма*

In [7]:
# Объяденяем два датафрейма `info_df` и `price_df`
df = info_df.merge(price_df, how='left', on='id')

In [8]:
# Выводим информацию об объядененом датафрейме df
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 8406 entries, 0 to 8405
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 8406 non-null   str    
 1   name               8406 non-null   str    
 2   category           8406 non-null   str    
 3   address            8406 non-null   str    
 4   district           8406 non-null   str    
 5   hours              7870 non-null   str    
 6   rating             8406 non-null   float64
 7   chain              8406 non-null   int64  
 8   seats              4795 non-null   float64
 9   price              3315 non-null   str    
 10  avg_bill           3816 non-null   str    
 11  middle_avg_bill    3149 non-null   float64
 12  middle_coffee_cup  535 non-null    float64
dtypes: float64(4), int64(1), str(8)
memory usage: 853.9 KB


### 1.3 *Промежуточный вывод*

<u>**Анализ входных датасетов**</u>

**Анализ датасета `rest_info.csv`**

Структура данных:
- Датасет содержит 8406 записей о заведениях общественного питания Москвы.
- Включает 9 столбцов с информацией об идентификаторах, названиях, адресах, округах, категориях, часах работы, рейтингах, принадлежности к сетям и количестве посадочных мест.

| Столбец | Текущий тип | Соответствие содержимому | Необходимость приведения |
| :--- | :--- | :--- | :--- |
| id | `object` | ✅ Соответствует, уникальные идентификаторы в виде хеш-строк | Не требуется |
| name | `object` | ✅ Соответствует, названия заведений | Не требуется |
| category | `object` | ⚠️ Частично соответствует, содержит наименование категории заведения | Можно преобразовать в категориальный |
| address | `object` | ✅ Соответствует, полные адреса | Не требуется |
| district | `object` | ⚠️ Частично соответствует, содержит информацию о районе в котором находиться объект | Можно преобразовать в категориальный |
| hours | `object` | ⚠️ Частично соответствует, содержит текстовое описание режима работы. Требуется извлечение дней и часов | Требуется обработка для анализа |
| rating | `float64` | ✅ Соответствует, числовые значения рейтинга от 0 до 5 | Не требуется |
| chain | `int64` | ✅ Соответствует, бинарный признак (0/1) | Можно преобразовать в категориальный |
| seats | `float64` | ⚠️ Не соответствует, количество поситителей является целочисленным числом, можно привести к типу `int` | Привести к типу `int16` |

**Анализ датасета `rest_price.csv`**

Структура данных:
- Датасет содержит 4058 записей о ценовых характеристиках заведений.
- Включает 5 столбцов: идентификатор, категория цены, описание среднего чека, числовое значение среднего чека, числовое значение цены капучино.

| Столбец | Текущий тип | Соответствие содержимому | Необходимость приведения |
| :--- | :--- | :--- | :--- |
| id | `object` | ✅ Соответствует, уникальные идентификаторы | Не требуется |
| price | `object` | ⚠️ Частично соответствует, категориальные значения ("средние", "выше среднего" и т.д.) | Можно преобразовать в упорядоченный категориальный тип |
| avg_bill | `object` | ✅ Соответствует, текстовое описание чека | Требуется парсинг для извлечения числовых значений |
| middle_avg_bill | `float64` | ✅ Соответствует, числовые значения медианы чека | Не требуется, но есть пропуски |
| middle_coffee_cup | `float64` | ✅ Соответствует, числовые значения цены кофе | Не требуется, но есть пропуски |

**Проблемы и особенности:**

- Неполнота данных: Датасет содержит информацию только для 4058 заведений из 8406, что составляет ~48% от общего количества.

- Пропуски в категории цены: Столбец price отсутствует для 743 записей (~18% от датасета).

- Специфичность данных:

    - middle_avg_bill заполнен только для заведений с формулировкой "Средний счёт" (3149 записей, ~78% от датасета).

    - middle_coffee_cup заполнен только для заведений с формулировкой "Цена чашки капучино" (535 записей, ~13% от датасета), что характерно преимущественно для кофеен.

- Сложность парсинга: Столбец avg_bill содержит разнородные форматы описания цен (диапазоны, значения "от", конкретные числа), что потребует дополнительной обработки.

<u>**Анализ объединеного датафрейма**</u>

**Структура данных:**

- После объединения через левое соединение (how='left') получен датафрейм с 8406 записями и 13 столбцами.

- Для заведений, отсутствующих в price_df, соответствующие ценовые показатели содержат пропуски.

- Ключевые проблемы, требующие решения на этапе предобработки:

**Критические пропуски:**

- seats - 43% пропусков - требует решения (возможно, заполнение медианными значениями по категориям или удаление записей)

- price - 60% пропусков - требует категоризации отсутствующих данных

- middle_avg_bill - 63% пропусков - ограничивает анализ среднего чека

- middle_coffee_cup - 94% пропусков - применим только для узкого сегмента заведений

**Требуется преобразование типов:**

- chain - преобразовать в категориальный тип для более эффективного анализа

- price - преобразовать в упорядоченный категориальный тип для анализа ценовых сегментов

- category и district - рассмотреть возможность преобразования в категориальный тип

**Требуется генерация новых признаков:**

- Извлечение улицы из address для географического анализа

- Парсинг hours для выделения режима работы (круглосуточно, выходные и т.д.)

- Парсинг avg_bill для получения унифицированных числовых значений чека

- Создание признака "только кофейня" на основе наличия middle_coffee_cup

<u>**Общее заключение**</u>

Данные загружены, структура изучена, выявлены основные проблемы качества данных. Несмотря на значительное количество пропусков в ценовых показателях и посадочных местах, общий объем данных достаточен для проведения репрезентативного анализа рынка. На следующем этапе предстоит выполнить очистку данных, преобразование типов и генерацию новых признаков, что позволит перейти к полноценному исследовательскому анализу рынка заведений общественного питания Москвы.

## 2. Предобработка данных <a id=2></a>

In [9]:
# Выведим количество всех пропусков в датафрейме
df.isna().sum()

id                      0
name                    0
category                0
address                 0
district                0
hours                 536
rating                  0
chain                   0
seats                3611
price                5091
avg_bill             4590
middle_avg_bill      5257
middle_coffee_cup    7871
dtype: int64

In [10]:
# Выводим относительное количество пропусков в процентах %
round(df.isna().mean()*100, 2)

id                    0.00
name                  0.00
category              0.00
address               0.00
district              0.00
hours                 6.38
rating                0.00
chain                 0.00
seats                42.96
price                60.56
avg_bill             54.60
middle_avg_bill      62.54
middle_coffee_cup    93.64
dtype: float64

Для преобразования тип данных столбца `seats` необходимо избавиться от пропусков. Так как пропуски составляют `43%`, это значемая часть данных, то мы их удалить не можем. Для удобста последующего преобразования, заменим пусые ячейки значением индекатором. В даном случае используем значение `-1`, так количество посадочных мест не может быть отрецательным

In [11]:
# Заменяем пустые ячейки на -1 и меняем тип данных на int16
df['seats'] = df['seats'].fillna(-1).astype('int16')

In [12]:
# Меняем тип данных у столбца chain на тип данных ште8
df['chain'] = df['chain'].astype('int8')

Для столбца `hours` имеется пропуски которы составляют чуть больше `6%`. Этот объем данных не является статестически важным, поэтому мы можем строки с пустыми данными удалить.

In [13]:
# Elfztv строки с пустыми ячейками в столбце hours
df = df.dropna(subset='hours')

In [14]:
# Выводим информацию об обновленном датафрейме
df.info()

<class 'pandas.DataFrame'>
Index: 7870 entries, 0 to 8405
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 7870 non-null   str    
 1   name               7870 non-null   str    
 2   category           7870 non-null   str    
 3   address            7870 non-null   str    
 4   district           7870 non-null   str    
 5   hours              7870 non-null   str    
 6   rating             7870 non-null   float64
 7   chain              7870 non-null   int8   
 8   seats              7870 non-null   int16  
 9   price              3310 non-null   str    
 10  avg_bill           3808 non-null   str    
 11  middle_avg_bill    3143 non-null   float64
 12  middle_coffee_cup  534 non-null    float64
dtypes: float64(3), int16(1), int8(1), str(8)
memory usage: 760.9 KB


Проверим датафрейм на явные и не явные дубликаты

In [15]:
# Проверим датафрейм на явные дубликаты
df.duplicated().sum()

np.int64(0)

In [16]:
# Проверим датафрейм на неявные дубликаты
df.duplicated(subset='id').sum()

np.int64(0)

In [17]:
# Выведем полную информацию по столбца о дубликатах

# Находим максимальную длину имени столбца и максимальное количество дубликатов
max_col_len = max(len(col) for col in df.columns)
max_duplicates_len = max(len(str(df[col].duplicated().sum())) for col in df.columns)

for column in df.columns:
    duplicates = df[column].duplicated().sum()
    print(f'В столбце {column:<{max_col_len}} найдено  {duplicates:>{max_duplicates_len}}  дубликатов')

В столбце id                найдено     0  дубликатов
В столбце name              найдено  2557  дубликатов
В столбце category          найдено  7862  дубликатов
В столбце address           найдено  2410  дубликатов
В столбце district          найдено  7861  дубликатов
В столбце hours             найдено  6563  дубликатов
В столбце rating            найдено  7830  дубликатов
В столбце chain             найдено  7868  дубликатов
В столбце seats             найдено  7643  дубликатов
В столбце price             найдено  7865  дубликатов
В столбце avg_bill          найдено  6974  дубликатов
В столбце middle_avg_bill   найдено  7639  дубликатов
В столбце middle_coffee_cup найдено  7773  дубликатов


Создаем столбец `is_24_7` с обозначением того, что заведение работает ежедневно и круглосуточно, то есть 24/7:
  - логическое значение `True` — если заведение работает ежедневно и круглосуточно;
  - логическое значение `False` — в противоположном случае.

In [None]:
# Создадим буливый столбец is_24_7
df['is_24_7'] = df['hours'].apply(lambda x: True if x == 'ежедневно, круглосуточно' else False)

In [26]:
# Вывидим 5 случайных строк датафрейма
df.sample(5)

Unnamed: 0,id,name,category,address,district,hours,rating,chain,seats,price,avg_bill,middle_avg_bill,middle_coffee_cup,is_24_7
7604,b0598ae5d4a24fa8b38900eb99ee0c53,Ансар,ресторан,"Москва, Варшавское шоссе, 170Г",Южный административный округ,"ежедневно, 10:00–23:00",4.2,False,100,,,,,False
545,68927777e7494a329e1cf66d7a6722ce,Додо Пицца,пиццерия,"Москва, проезд Стратонавтов, 9",Северо-Западный административный округ,"пн-пт 08:00–23:00; сб,вс 09:00–23:00",4.3,True,30,,Средний счёт:269 ₽,269.0,,False
1499,c125feed38d846edbeceb9a8852e6ad8,Кубдари,ресторан,"Москва, Ленинградский проспект, 70",Северный административный округ,"пн-чт 10:00–22:00; пт,сб 10:00–23:00; вс 10:00...",4.0,False,-1,выше среднего,Средний счёт:до 1500 ₽,1500.0,,False
3817,e2467c7bb06e437baa722efa44a0ac90,Le Petit Paris,"бар,паб","Москва, Большая Бронная улица, 23с3",Центральный административный округ,"ежедневно, 07:30–11:00",4.4,False,-1,средние,Средний счёт:800–1200 ₽,1000.0,,False
2466,951f694aef734028a838c4894a8252f6,Додо Пицца,пиццерия,"Москва, Аргуновская улица, 10, стр. 2",Северо-Восточный административный округ,"ежедневно, 09:00–23:00",4.2,True,180,средние,Средний счёт:383 ₽,383.0,,False


## 3. Исследовательский анализ данных <a id=3></a>

## 4. Итоговый вывод и рекомендации <a id=4></a>