<div class="alert alert-info"> <b> 
    <font size="5"><b>Изучение рынка заведений общественного питания Москвы </b></font>

- Автор: Орлов Михаил Евгеньевич
- Дата: 27.09.2025

### Цели и задачи проекта

Цель: Провести исследовательский анализ рынка общественного питания Москвы, чтобы выявить потенциально перспективные ниши и форматы для открытия нового заведения. Анализ должен предоставить инвесторам структурированную информацию для обоснования ключевых решений: типа заведения, ценовой политики, места расположения и целевой аудитории.

Задачи:

Общая характеристика рынка.
Анализ географического распределения.
Исследование ценовой политики и потенциальной доходности.
Анализ характеристик заведений.
Формирование выводов и рекомендаций.

### Описание данных

Для анализа поступили данные о клиентах банка «Метанпром». Данные состоят из двух датасетов:

- `/datasets/rest_info.csv` — содержит информацию о заведениях общественного питания;
- `/datasets/rest_price.csv` —  содержит информацию о среднем чеке в заведениях общественного питания.

### Описание датасета `rest_info.csv`

- `name` — название заведения;
- `address` — адрес заведения;
- `district` — административный район, в котором находится заведение, например Центральный административный округ;
-`category` — категория заведения, например «кафе», «пиццерия» или «кофейня»;
-`hours` — информация о днях и часах работы;
-`rating` — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);
-`chain` — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки):
-`0` — заведение не является сетевым;
-`1` — заведение является сетевым.
-`seats` — количество посадочных мест.




### Описание датасета `rest_price.csv`
- `price` — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;
- `avg_bill` — строка, которая хранит среднюю стоимость заказа в виде диапазона:
«Средний счёт: 1000–1500 ₽»;
«Цена чашки капучино: 130–220 ₽»;
«Цена бокала пива: 400–600 ₽».
и так далее;
- `middle_avg_bill` — число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Средний счёт»:
Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.
- `middle_coffee_cup` — число с оценкой одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Цена одной чашки капучино»:
Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.



## Структура проекта

1. Загрузка данных и знакомство с ними.
2. Предобработка данных.
3. Исследовательский анализ данных.
4. Итоговые выводы.

### Содержимое проекта

**ОГЛАВЛЕНИЕ ПРОЕКТА ПО АНАЛИЗУ РЫНКА ОБЩЕСТВЕННОГО ПИТАНИЯ МОСКВЫ**

**ОСНОВНЫЕ ЭТАПЫ ПРОЕКТА:**

1. **Подготовка данных** - объединение, очистка, обработка пропусков
2. **Анализ структуры рынка** - категории, округа, сетевые заведения  
3. **Исследование физических параметров** - посадочные места, аномалии
4. **Анализ качества** - рейтинги, корреляции с другими параметрами
5. **Ценовой анализ** - средние чеки по округам, влияние локации
6. **Анализ сетевых форматов** - топ-15 сетей, успешные модели
7. **Формулировка выводов и рекомендаций** для инвесторов

## 1. Загрузка данных и знакомство с ними

- Загрузите данные о заведениях общественного питания Москвы. Путь к файлам: `/datasets/rest_info.csv` и `/datasets/rest_price.csv`.

In [1]:
!pip install phik



In [None]:
# Импортируем библиотеки
import pandas as pd
import numpy as np

# Загружаем библиотеки для визуализации данных
import matplotlib.pyplot as plt
import seaborn as sns

# Теперь phik установлен и будет работать
from phik import phik_matrix

In [None]:
# Выгружаем данные в переменные bank_df и clients_df
rest_info = pd.read_csv('https://code.s3.yandex.net/datasets/rest_info.csv')
rest_price = pd.read_csv('https://code.s3.yandex.net/datasets/rest_price.csv')

In [None]:
# При необходимости добавьте новые ячейки для кода или удалите пустые

- Познакомьтесь с данными и изучите общую информацию о них.

Познакомимся с данными датасета rest_info — выведем первые строки методом head(), а информацию о датафрейме методом info():

In [None]:
# Выводим первые строки датафрейма на экран
rest_info.head()

In [None]:
# Выводим информацию о датафрейме
rest_info.info()

Датасет `rest_info.csv` содержит 8,406 заведений общественного питания Москвы. Данные представлены в 9 столбцах с различными характеристиками заведений.

После первичного анализа данных можно сделать следующие выводы:
- Данные содержат смесь числовых и текстовых типов, что соответствует характеру информации. 
- Пропуски содержатся в столбцах `hours` (536 пропусков) и seats (3,611 пропусков).
- Столбец `seats` имеет значительное количество пропусков (43%), что потребует особого подхода при анализе.
- В столбце `chain` данные представлены бинарными значениями 0/1, что оптимально для хранения.
- Все обязательные столбцы присутствуют и заполнены.
- Типы данных соответствуют ожидаемым: `rating` - числовой, `chain` - бинарный, категориальные данные - текстовые




In [None]:
# Выводим первые строки датафрейма на экран
rest_price.head()

In [None]:
# Выводим информацию о датафрейме
rest_price.info()

Датасет rest_price.csv содержит 4,058 записей. Данные представлены в 5 столбцах с информацией о ценах. По аналогии с предыдущим датасетом можно отметить, что:

- Пропуски содержатся в нескольких столбцах:
- `price`: 743 пропуска (18.3% от общего числа)
- `avg_bill`: 242 пропуска (6.0%)
- `middle_avg_bill`: 909 пропусков (22.4%)
- `middle_coffee_cup`: 3,523 пропуска (86.8%) - очень высокий процент
- Столбец `avg_bill` содержит текстовые описания ценовых диапазонов
- Столбцы `middle_avg_bill` и `middle_coffee_cup` содержат числовые значения, рассчитанные из диапазонов
- Данные в `avg_bill` соответствуют описанию (разные форматы: "Средний счёт", "Цена чашки капучино")


---

### Промежуточный вывод

Сделайте промежуточный вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли данные описанию, встречаются ли в них пропуски, используются ли верные типы данных. Отметьте другие особенности данных, которые вы обнаружите на этой стадии и на которые стоит обратить внимание при предобработке.

`rest_info.csv`: 8,406 записей о заведениях общественного питания Москвы

`rest_price.csv`: 4,058 записей о ценах в заведениях


- Дублирующая информация в адресах ("административный округ") - нужна очистка
- Разные форматы в `avg_bill` - содержит как средний счёт, так и цену кофе, что усложняет анализ
- Выбросы в `seats` - необходимо проверить на аномальные значения (0, очень большие числа)

Данные требуют значительной предобработки перед проведением содержательного анализа рынка.




### Подготовка единого датафрейма

- Объедините данные двух датасетов в один, с которым вы и продолжите работу.

Задача проекта предполагает проведение исследовательского анализа рынка Москвы. Поэтому можно соединить данные двух датасетов из таблицы `rest_info` с информацией о заведениях общественного питания, информацией о среднем чеке в заведениях общественного питания `rest_price`. 

Соединим данные, используя значение параметра `how` по умолчанию — `'inner'`. Это позволит оставить только полные данные.
 

In [None]:
rest_data = pd.merge(rest_info, rest_price, on='id', how='left')

print("РЕЗУЛЬТАТ ОБЪЕДИНЕНИЯ ДАННЫХ")
print("=" * 50)
print(f"Размер объединенного датасета: {rest_data.shape}")

In [None]:
rest_data.info()

Данные соединены, и информация обо всех заведениях сохранилась.

## 2. Предобработка данных

Подготовьте данные к исследовательскому анализу:

- Изучите корректность типов данных и при необходимости проведите их преобразование.

In [None]:
# ИЗУЧЕНИЕ КОРРЕКТНОСТИ ТИПОВ ДАННЫХ
print("ИЗУЧЕНИЕ ТИПОВ ДАННЫХ")
print("=" * 50)

# 1. Выводим текущие типы данных
print("ТЕКУЩИЕ ТИПЫ ДАННЫХ:")
print(rest_data.dtypes)

Типы данных в основном корректны. Единственное необходимое преобразование - `seats` в Int64. 

In [None]:
# Проверка корректности типов
print("\nПроверка числовых столбцов:")
numeric_cols = ['rating', 'chain', 'seats', 'middle_avg_bill', 'middle_coffee_cup']
for col in numeric_cols:
    if col in rest_data.columns:
        print(f"{col}: {rest_data[col].dtype}, пропуски: {rest_data[col].isnull().sum()}")

Пропуски данных не влияют на корректность типов, но будут важны при дальнейшем анализе.

In [None]:
# Преобразование типов данных
rest_data_clean = rest_data.copy()

# seats должен быть целым числом, а не float
if 'seats' in rest_data_clean.columns:
    rest_data_clean['seats'] = rest_data_clean['seats'].astype('Int64')
    print(f"seats преобразован в {rest_data_clean['seats'].dtype}")

# Остальные типы корректны
print("\nТипы данных после преобразования:")
print(rest_data_clean.dtypes)

`seats` преобразован из `float64` в `Int64`
Остальные типы данных корректны и не требуют преобразования

- Изучите пропущенные значения в данных: посчитайте их количество в каждом столбце датафрейме, изучите данные с пропущенными значениями и предположите гипотезы их появления. Проведите обработку пропущенных значений: вы можете заменить пропуски на определённое значение, удалить строки с пропусками или оставить их как есть.

In [None]:
# ИЗУЧЕНИЕ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ
print("ПРОПУЩЕННЫЕ ЗНАЧЕНИЯ В ДАННЫХ")
print("=" * 50)

# 1. Количество пропусков в каждом столбце
missing_values = rest_data_clean.isnull().sum()
missing_percent = (missing_values / len(rest_data_clean)) * 100

print("Количество и процент пропусков по столбцам:")
for col in rest_data_clean.columns:
    print(f"{col}: {missing_values[col]} пропусков ({missing_percent[col]:.1f}%)")

Наибольшие проблемы с пропусками в ценовых данных (`price` - 60%, `middle_coffee_cup` - 94%, `middle_avg_bill` - 63%) и количестве мест (`seats` - 43%). Основные характеристики (название, категория, район) заполнены полностью.
`hours` - график работы: Не критично для общего анализа, но ограничивает анализ временных паттернов.


In [None]:
# 2. Анализ данных с пропусками
print("\nАНАЛИЗ ДАННЫХ С ПРОПУСКАМИ:")
print("=" * 70)

# Смотрим на первые строки с пропусками в ключевых столбцах
print("Примеры строк с пропусками в seats:")
seats_missing = rest_data_clean[rest_data_clean['seats'].isnull()].head(3)
display(seats_missing[['name', 'category', 'district', 'seats']])

print("\nПримеры строк с пропусками в price:")
price_missing = rest_data_clean[rest_data_clean['price'].isnull()].head(3)
display(price_missing[['name', 'category', 'district', 'price', 'avg_bill']])

print("\nПримеры строк с пропусками в middle_avg_bill:")
bill_missing = rest_data_clean[rest_data_clean['middle_avg_bill'].isnull()].head(3)
display(bill_missing[['name', 'category', 'price', 'avg_bill', 'middle_avg_bill']])

print("\nПримеры строк с пропусками в middle_coffee_cup:")
coffee_missing = rest_data_clean[rest_data_clean['middle_coffee_cup'].isnull()].head(3)
display(coffee_missing[['name', 'category', 'avg_bill', 'middle_coffee_cup']])

Cмотрим распределение пропусков для всех ключевых параметров.

In [None]:
# 3. ГИПОТЕЗЫ ПОЯВЛЕНИЯ ПРОПУСКОВ
print("\nГИПОТЕЗЫ ПОЯВЛЕНИЯ ПРОПУСКОВ:")
print("=" * 50)

# 3.1. Анализ пропусков в seats
seats_by_category = rest_data_clean.groupby('category')['seats'].apply(
    lambda x: x.isnull().sum() / len(x) * 100
).sort_values(ascending=False)

print("Процент пропусков в seats по категориям заведений:")
print(seats_by_category.head(10))

# 3.2. Анализ пропусков в price
price_by_category = rest_data_clean.groupby('category')['price'].apply(
    lambda x: x.isnull().sum() / len(x) * 100
).sort_values(ascending=False)

print("\nПроцент пропусков в price по категориям заведений:")
print(price_by_category.head(10))

# 3.3. Анализ пропусков в ценовых данных
print(f"\nЗаведений с ценовой категорией (price): {rest_data_clean['price'].notna().sum()}")
print(f"Заведений с средним чеком (middle_avg_bill): {rest_data_clean['middle_avg_bill'].notna().sum()}")
print(f"Заведений с ценой кофе: {rest_data_clean['middle_coffee_cup'].notna().sum()}")

# Проверяем связь между наличием разных типов ценовой информации
price_info_correlation = rest_data_clean[['price', 'middle_avg_bill', 'middle_coffee_cup']].notna().corr()
print("\nКорреляция между наличием ценовой информации:")
print(price_info_correlation)

Пропуски в данных распределены неравномерно - в булочных и кафе чаще отсутствует ценовая информация, а данные о посадочных местах отсутствуют у 40-50% заведений всех категорий. Наблюдается сильная корреляция (0.72) между наличием ценовой категории и данных о среднем чеке, что указывает на системный характер сбора информации.

In [None]:
# 4. ОБРАБОТКА ПРОПУЩЕННЫХ ЗНАЧЕНИЙ
print("\nОБРАБОТКА ПРОПУЩЕННЫХ ЗНАЧЕНИЙ:")
print("=" * 50)

# 4.1. Решаем оставить пропуски как есть с пометками
rest_data_final = rest_data_clean.copy()

# Добавляем флаги пропусков для важных столбцов
rest_data_final['seats_missing'] = rest_data_final['seats'].isnull().astype(int)
rest_data_final['price_info_missing'] = rest_data_final['price'].isnull().astype(int)

print("Добавлены флаги пропусков:")
print(f"- seats_missing: {rest_data_final['seats_missing'].sum()} заведений")
print(f"- price_info_missing: {rest_data_final['price_info_missing'].sum()} заведений")

# 4.2. Для анализа можно создать версию без некоторых пропусков
# Но основную базу оставляем с пропусками
analysis_data = rest_data_final.dropna(subset=['rating', 'category', 'district']).copy()
print(f"\nРазмер данных для анализа (без пропусков в ключевых полях): {analysis_data.shape}")

# 4.3. Для числовых столбцов можно заполнить медианами по категориям (только для некоторых анализов)
# Но в основном датасете оставляем пропуски
print("\nСтратегия обработки:")
print("- Основные пропуски оставляем как есть")
print("- Для анализа используем доступные данные")
print("- Добавлены флаги пропусков для отслеживания")

Принята стратегия сохранения пропусков из-за их катастрофического количества (60% данных по ценам).

In [None]:
# 5. ФИНАЛЬНАЯ ПРОВЕРКА
print("\nФИНАЛЬНЫЙ СТАТУС ПРОПУСКОВ:")
print("=" * 50)
final_missing = rest_data_final.isnull().sum()
for col in final_missing[final_missing > 0].index:
    percent = (final_missing[col] / len(rest_data_final)) * 100
    print(f"{col}: {final_missing[col]} пропусков ({percent:.1f}%)")

Картина пропусков осталась неизменной. сохранили данные в исходном состоянии. Наибольшие сложности для анализа создадут ценовые параметры (60-94% пропусков), в то время как базовая информация о заведениях практически полная.

- Проверьте данные на явные и неявные дубликаты, например поля с названием и адресом заведения. Для оптимизации проверки нормализуйте данные в текстовых столбцах, например с названием заведения.

In [None]:
# ПРОВЕРКА НА ДУБЛИКАТЫ 
print("ПРОВЕРКА НА ДУБЛИКАТЫ")
print("=" * 50)

# 1. Проверка явных дубликатов
print("1. ЯВНЫЕ ДУБЛИКАТЫ (полностью одинаковые строки):")
full_duplicates = rest_data_final.duplicated().sum()
print(f"Полных дубликатов: {full_duplicates}")

if full_duplicates > 0:
    print("Примеры полных дубликатов:")
    display(rest_data_final[rest_data_final.duplicated()].head())
else:
    print("Полных дубликатов не найдено")

In [None]:
# 2. Простая нормализация текста
print("\n2. ПРОСТАЯ НОРМАЛИЗАЦИЯ ДАННЫХ:")
print("=" * 50)

rest_data_simple = rest_data_final.copy()

# Простая функция нормализации
def simple_normalize(text):
    if pd.isna(text):
        return text
    text = str(text).lower().strip()  # к нижнему регистру и убираем пробелы
    text = ' '.join(text.split())     # убираем лишние пробелы
    return text

# Нормализуем только названия для проверки
rest_data_simple['name_simple'] = rest_data_simple['name'].apply(simple_normalize)

print("Пример нормализованных названий:")
display(rest_data_simple[['name', 'name_simple']].head(3))

Нормализация привела все названия к нижнему регистру и убрала лишние пробелы, что позволит находить дубликаты без учета регистра и форматирования

In [None]:
# 3.1. ПРОВЕРКА РЕАЛЬНЫХ ДУБЛИКАТОВ 
print("\n3.1. ПРОВЕРКА РЕАЛЬНЫХ ДУБЛИКАТОВ:")
print("=" * 60)

# Создаем нормализованную версию адреса для более точного сравнения
rest_data_simple['address_simple'] = rest_data_simple['address'].apply(simple_normalize)

# Ищем полные дубликаты по названию и адресу
real_duplicates = rest_data_simple.duplicated(
    subset=['name_simple', 'address_simple'], 
    keep=False
)
real_dup_count = real_duplicates.sum()

print(f"Реальных дубликатов (одинаковое название + адрес): {real_dup_count}")

if real_dup_count > 0:
    print("Найдены потенциальные реальные дубликаты!")
    
    # ВЫВОДИМ ВСЕ ДУБЛИКАТЫ НА ЭКРАН С АНАЛИЗОМ
    print("\n" + "="*80)
    print("ПОЛНЫЙ АНАЛИЗ КАЖДОЙ ГРУППЫ ДУБЛИКАТОВ:")
    print("="*80)
    
    all_duplicates = rest_data_simple[real_duplicates].sort_values(['name_simple', 'address_simple'])
    
    for i, ((name, address), group) in enumerate(all_duplicates.groupby(['name_simple', 'address_simple']), 1):
        if len(group) > 1:
            print(f"\n{'='*50}")
            print(f"ГРУППА {i}: '{name}' по адресу '{address}'")
            print(f"{'='*50}")
            
            # ВЫВОДИМ ПОЛНУЮ ИНФОРМАЦИЮ О ЗАПИСЯХ
            display(group[['name', 'address', 'district', 'category', 'rating', 'middle_avg_bill']])
            
            # АНАЛИЗИРУЕМ, ЯВЛЯЮТСЯ ЛИ ДУБЛИКАТАМИ
            print("АНАЛИЗ:")
            print(f"• Количество записей: {len(group)}")
            print(f"• Уникальных категорий: {group['category'].nunique()} → {list(group['category'].unique())}")
            print(f"• Уникальных рейтингов: {group['rating'].nunique()} → {list(group['rating'].unique())}")
            print(f"• Уникальных округов: {group['district'].nunique()} → {list(group['district'].unique())}")
            
            # ВЫВОДИМ ВЕРДИКТ
            if (group['category'].nunique() == 1 and 
                group['rating'].nunique() == 1 and 
                group['district'].nunique() == 1):
                print(" ВЫВОД: ЭТО НАСТОЯЩИЕ ДУБЛИКАТЫ - нужно объединить записи")
            else:
                print(" ВЫВОД: ЭТО РАЗНЫЕ ЗАВЕДЕНИЯ - оставить как есть")
           
else:
    print("Реальных дубликатов не найдено")

# ИТОГОВАЯ СТАТИСТИКА
print("\n" + "="*80)
print("ИТОГОВАЯ СТАТИСТИКА ПО ДУБЛИКАТАМ:")
print("="*80)

if real_dup_count > 0:
    duplicate_groups = all_duplicates.groupby(['name_simple', 'address_simple']).size()
    duplicate_groups = duplicate_groups[duplicate_groups > 1]
    
    true_duplicates_count = 0
    different_establishments_count = 0
    
    for (name, address), group_size in duplicate_groups.items():
        group_data = all_duplicates[
            (all_duplicates['name_simple'] == name) & 
            (all_duplicates['address_simple'] == address)
        ]
        if (group_data['category'].nunique() == 1 and 
            group_data['rating'].nunique() == 1 and 
            group_data['district'].nunique() == 1):
            true_duplicates_count += 1
        else:
            different_establishments_count += 1
    
    print(f"Всего групп с повторениями: {len(duplicate_groups)}")
    print(f"• Настоящих дубликатов (требуют очистки): {true_duplicates_count}")
    print(f"• Разных заведений (оставить как есть): {different_establishments_count}")
    print(f"• Всего записей с дубликатами: {real_dup_count}")
    
else:
    print("Дубликатов не обнаружено - данные чистые!")

In [None]:
# 4. Проверка уникальности ID
print("\n4. ПРОВЕРКА УНИКАЛЬНОСТИ ID:")
print("=" * 50)

id_duplicates = rest_data_simple.duplicated(subset=['id']).sum()
print(f"Дубликатов по ID: {id_duplicates}")

if id_duplicates == 0:
    print("Все ID уникальны")
else:
    print("Найдены дубликаты ID")

Все идентификаторы заведений уникальны, что подтверждает корректность структуры данных и отсутствие технических дубликатов.

- Для дальнейшей работы создайте столбец `is_24_7` с обозначением того, что заведение работает ежедневно и круглосуточно, то есть 24/7:
  - логическое значение `True` — если заведение работает ежедневно и круглосуточно;
  - логическое значение `False` — в противоположном случае.

In [None]:
# СОЗДАНИЕ СТОЛБЦА is_24_7 (ИСПРАВЛЕННАЯ ВЕРСИЯ)
print("СОЗДАНИЕ СТОЛБЦА is_24_7")
print("=" * 40)

# Создаем столбец is_24_7 с учетом требования "ежедневно и круглосуточно"
rest_data_final['is_24_7'] = rest_data_final['hours'].str.contains(
    'ежедневно.*круглосуточно|круглосуточно.*ежедневно', 
    case=False, 
    na=False
)

# Проверяем результат
print(f"Всего заведений: {len(rest_data_final)}")
print(f"Заведений, работающих ежедневно и круглосуточно: {rest_data_final['is_24_7'].sum()}")
print(f"Процент: {rest_data_final['is_24_7'].mean() * 100:.1f}%")

print("\nПримеры заведений, работающих ежедневно и круглосуточно:")
display(rest_data_final[rest_data_final['is_24_7']][['name', 'hours']].head(3))



Столбец `is_24_7` успешно создан с логическими значениями `True`/`False`. 8.7% заведений Москвы (730 из 8406) работают ежедневно и круглосуточно, что соответствует требованию и представляет интересную аналитическую выборку.

In [None]:
print(f"Тип столбца is_24_7: {rest_data_final['is_24_7'].dtype}")
print(f"Уникальные значения: {rest_data_final['is_24_7'].unique()}")

Столбец `is_24_7` содержит логические значения `True`/`False` как и требуется. Метод `str.contains()` автоматически создает булевый столбец.

---

### Промежуточный вывод

После предобработки данных напишите промежуточный вывод о проведённой работе. Отразите количество или долю отфильтрованных данных, если вы что-то удаляли.

**Промежуточный вывод**: В ходе предобработки сохранены все 8406 заведений без удаления строк. Проведены преобразования типов данных (seats → Int64) и создан столбец is_24_7 (8.7% заведений работают круглосуточно). Основные ограничения: пропуски в ценовых данных (55-94%) и информации о посадочных местах (43%), что потребует осторожности при анализе. Дубликаты не выявлены, данные готовы для исследовательского анализа.

## 3. Исследовательский анализ данных
Проведите исследовательский анализ исходных данных.

При исследовании данных используйте визуализации. Проверьте, что для каждого случая подобран оптимальный тип визуализации с корректным оформлением. У графика должен быть заголовок, понятные подписи по осям, при необходимости легенда, а его размер является оптимальным для изучения.

После исследования каждого пункта оставляйте небольшой комментарий с выводом или обсуждением результата. В конце шага обобщите результаты, выделив, по вашему мнению, самые важные.

---

### Задача 1

Какие категории заведений представлены в данных? Исследуйте количество объектов общественного питания по каждой категории. Результат сопроводите подходящей визуализацией.

In [None]:
# АНАЛИЗ КАТЕГОРИЙ ЗАВЕДЕНИЙ
print("КАТЕГОРИИ ЗАВЕДЕНИЙ ОБЩЕСТВЕННОГО ПИТАНИЯ")
print("=" * 50)

# 1. Количество заведений по категориям
category_counts = rest_data_final['category'].value_counts()
print("Количество заведений по категориям:")
print(category_counts)

print(f"\nВсего уникальных категорий: {len(category_counts)}")
print(f"Всего заведений: {category_counts.sum()}")

Рынок Москвы представлен 8 основными категориями заведений. Лидируют **кафе** (28.3%) и **рестораны** (24.3%), вместе занимая более половины рынка. **Кофейни** (16.8%) образуют третью значительную категорию. Наблюдается четкая сегментация: премиальный сегмент (рестораны), средний (кафе, кофейни) и бюджетный (столовые, булочные). Относительно высокая доля **баров** (9.1%) и **пиццерий** (7.5%) показывает специализацию московского рынка.

In [None]:
# 3. Детальная статистика по категориям
print("\nДЕТАЛЬНАЯ СТАТИСТИКА ПО КАТЕГОРИЯМ:")
print("=" * 50)

# Процентное распределение
category_percent = (category_counts / category_counts.sum() * 100).round(1)
print("Доля каждой категории в процентах:")
for category, percent in category_percent.head(10).items():
    print(f"{category}: {percent}%")

print(f"\nНа топ-5 категорий приходится {category_percent.head(5).sum():.1f}% всех заведений")

In [None]:
# 2. Визуализация категорий
plt.figure(figsize=(20, 6))

# Столбчатая диаграмма топ-15 категорий
top_categories = category_counts.head(15)
plt.subplot(1, 2, 1)
top_categories.plot(kind='bar', color='skyblue')
plt.title('Топ-15 категорий заведений')
plt.xlabel('Категория')
plt.ylabel('Количество заведений')
plt.xticks(rotation=45, ha='right')


plt.show()

Теперь хорошо видно какие категоии преобладают

In [None]:
# 4. Анализ редких категорий
print("\nРЕДКИЕ КАТЕГОРИИ (менее 10 заведений):")
print("=" * 50)

rare_categories = category_counts[category_counts < 10]
print(f"Редких категорий: {len(rare_categories)}")
print("Список редких категорий:")
for category, count in rare_categories.items():
    print(f"{category}: {count} заведений")

Данные содержат разнообразные категории заведений общественного питания. Топ-5 категорий занимают значительную долю рынка, при этом присутствуют редкие специализированные форматы. Визуализация показывает четкую иерархию популярности разных типов заведений.

---

### Задача 2

Какие административные районы Москвы присутствуют в данных? Исследуйте распределение количества заведений по административным районам Москвы, а также отдельно распределение заведений каждой категории в Центральном административном округе Москвы. Результат сопроводите подходящими визуализациями.

Расчитываем количесввто заведений по адиминистративным округам

In [None]:
# РАСПРЕДЕЛЕНИЕ ПО АДМИНИСТРАТИВНЫМ РАЙОНАМ
print("АДМИНИСТРАТИВНЫЕ РАЙОНЫ МОСКВЫ")
print("=" * 50)

# 1. Количество заведений по районам
district_counts = rest_data_final['district'].value_counts()
print("Количество заведений по административным округам:")
print(district_counts)

print(f"\nВсего уникальных округов: {len(district_counts)}")

Центральный административный округ имеет ясвное преимущество средли других округов. Остальные держатся в одном диапазоне кроме явно выпавшего Северо-Западного административного округа

In [None]:
# 2. Визуализация распределения по округам
plt.figure(figsize=(10, 7))  # немного увеличим размер
district_counts.plot(kind='bar', color='lightcoral')
plt.title('Заведения по округам Москвы')
plt.xlabel('Округ')
plt.ylabel('Количество заведений')
plt.xticks(rotation=45, ha='right', fontsize=9)  # уменьшаем шрифт
plt.tight_layout()
plt.show()

In [None]:
# 3. Анализ Центрального административного округа
print("\nАНАЛИЗ ЦЕНТРАЛЬНОГО АДМИНИСТРАТИВНОГО ОКРУГА")
print("=" * 50)

central_data = rest_data_final[rest_data_final['district'] == 'Центральный административный округ']
central_category_counts = central_data['category'].value_counts()

print("Распределение категорий в ЦАО:")
print(central_category_counts)

print(f"\nВсего заведений в ЦАО: {len(central_data)}")
print(f"Доля ЦАО от общего числа заведений: {len(central_data)/len(rest_data_final)*100:.1f}%")

In [None]:
# 4. Визуализация категорий в ЦАО
plt.figure(figsize=(12, 4))

# Столбчатая диаграмма категорий в ЦАО
plt.subplot(1, 2, 1)
central_category_counts.plot(kind='bar', color='gold')
plt.title('Категории заведений в ЦАО')
plt.xlabel('Категория')
plt.ylabel('Количество заведений')
plt.xticks(rotation=45, ha='right')

# Сравнение долей категорий в ЦАО и общей по Москве
plt.subplot(1, 2, 2)
comparison = pd.DataFrame({
    'ЦАО': (central_category_counts / len(central_data) * 100).head(5),
    'Москва': (category_counts / len(rest_data_final) * 100).head(5)
})
comparison.plot(kind='bar', ax=plt.gca())
plt.title('Сравнение: ЦАО vs Москва')
plt.xlabel('Категория')
plt.ylabel('Доля, %')
plt.xticks(rotation=45, ha='right')
plt.legend()

plt.tight_layout()
plt.show()
   

**Категории заведений в ЦАО**
Кафе и рестораны доминируют в ЦАО (аналогично общей картине по Москве). Высокая концентрация ресторанов - центр притяжения премиального сегмента. Кофейни занимают значительную долю - соответствует деловому характеру центра. 

**Сравнение ЦАО vs Москва**
Рестораны имеют бóльшую долю в ЦАО vs Москва - центр более "ресторанный". Кафе примерно на одном уровне - универсальный формат. Кофейни могут быть немного менее представлены в центре. Бары/пабы - возможна повышенная доля в ЦАО (ночные развлечения).

**Выводы** 
- ЦАО - ресторанная мекка Москвы с премиальным уклоном;

- Сохраняется общая структура рынка, но с смещением в сторону более дорогих форматов;

- Центр привлекает заведения высокой ценовой категории.

---

### Задача 3

Изучите соотношение сетевых и несетевых заведений в целом по всем данным и в разрезе категорий заведения. Каких заведений больше — сетевых или несетевых? Какие категории заведений чаще являются сетевыми? Исследуйте данные, ответьте на вопросы и постройте необходимые визуализации.

In [None]:
# СООТНОШЕНИЕ СЕТЕВЫХ И НЕСЕТЕВЫХ ЗАВЕДЕНИЙ
print("СЕТЕВЫЕ И НЕСЕТЕВЫЕ ЗАВЕДЕНИЯ")
print("=" * 50)

# 1. Общее соотношение
chain_counts = rest_data_final['chain'].value_counts()
chain_percentage = rest_data_final['chain'].value_counts(normalize=True) * 100

print("Общее соотношение:")
print(f"Несетевые заведения (0): {chain_counts[0]} ({chain_percentage[0]:.1f}%)")
print(f"Сетевые заведения (1): {chain_counts[1]} ({chain_percentage[1]:.1f}%)")

В Москве преобладают несетевые заведения - они составляют около 62% рынка, в то время как сетевые занимают лишь 38%. Это указывает на высокую долю независимого малого бизнеса в общественном питании.

In [None]:
# 2. Визуализация общего соотношения
plt.figure(figsize=(6, 4))
plt.pie(chain_counts.values, labels=['Несетевые', 'Сетевые'], autopct='%1.1f%%', colors=['lightblue', 'lightcoral'])
plt.title('Соотношение сетевых и несетевых заведений в Москве')
plt.show()

Круговая диаграмма наглядно демонстрирует значительный перевес несетевых заведений, что характерно для столичного рынка с его разнообразием и нишевыми предложениями.

In [None]:
# 3. Соотношение по категориям
print("\nСООТНОШЕНИЕ ПО КАТЕГОРИЯМ:")
print("=" * 50)

chain_by_category = rest_data_final.groupby('category')['chain'].agg(['sum', 'count'])
chain_by_category['network_percentage'] = (chain_by_category['sum'] / chain_by_category['count'] * 100).round(1)
chain_by_category = chain_by_category.sort_values('network_percentage', ascending=False)

print("Доля сетевых заведений по категориям:")
display(chain_by_category[['sum', 'count', 'network_percentage']])

Анализ по категориям показывает значительные различия - некоторые форматы практически полностью сетевые (например, булочные пиццерии, кофейни), в то время как другие остаются преимущественно независимыми.

In [None]:
# 4. Визуализация по категориям
plt.figure(figsize=(10, 6))

# Доля сетевых заведений по категориям
plt.subplot(1, 2, 1)
chain_by_category['network_percentage'].head(10).plot(kind='bar', color='orange')
plt.title('Доля сетевых заведений по категориям (топ-10)')
plt.xlabel('Категория')
plt.ylabel('Доля сетевых, %')
plt.xticks(rotation=45, ha='right')

# Абсолютное количество сетевых заведений по категориям
plt.subplot(1, 2, 2)
chain_by_category['sum'].head(10).plot(kind='bar', color='green')
plt.title('Количество сетевых заведений по категориям (топ-10)')
plt.xlabel('Категория')
plt.ylabel('Количество сетевых')
plt.xticks(rotation=45, ha='right')

plt.tight_layout()
plt.show()

Визуализация подтверждает, что хотя по доле сетевых лидируют специализированные форматы, по абсолютному количеству сетевых заведений вперед выходят массовые категории типа кафе и ресторанов.

In [None]:
# 5. Детальный анализ
print("\nДЕТАЛЬНЫЙ АНАЛИЗ:")
print("=" * 50)

# Топ-5 самых "сетевых" категорий
top_networked = chain_by_category.head(5)
print("Топ-5 самых сетевых категорий:")
for i, (category, row) in enumerate(top_networked.iterrows(), 1):
    print(f"{i}. {category}: {row['network_percentage']}% сетевых")

# Топ-5 самых "несетевых" категорий
bottom_networked = chain_by_category.tail(5)
print("\nТоп-5 самых несетевых категорий:")
for i, (category, row) in enumerate(bottom_networked.iterrows(), 1):
    print(f"{i}. {category}: {row['network_percentage']}% сетевых")

# Общий вывод
total_network_percentage = (rest_data_final['chain'].sum() / len(rest_data_final)) * 100
print(f"\nОбщая доля сетевых заведений в Москве: {total_network_percentage:.1f}%")

---

### Задача 4

Исследуйте количество посадочных мест в заведениях. Встречаются ли в данных аномальные значения или выбросы? Если да, то с чем они могут быть связаны? Приведите для каждой категории заведений наиболее типичное для него количество посадочных мест. Результат сопроводите подходящими визуализациями.


In [None]:
# АНАЛИЗ ПОСАДОЧНЫХ МЕСТ
print("АНАЛИЗ ПОСАДОЧНЫХ МЕСТ В ЗАВЕДЕНИЯХ")
print("=" * 50)

# 1. Базовая статистика
print("1. ОБЩАЯ СТАТИСТИКА ПО ПОСАДОЧНЫМ МЕСТАМ:")
print(f"Заведений с данными о местах: {rest_data_final['seats'].notna().sum()}")
print(f"Заведений без данных о местах: {rest_data_final['seats'].isna().sum()}")

seats_stats = rest_data_final['seats'].describe()
print("\nСтатистика по посадочным местам:")
print(seats_stats)

In [None]:
# 2. ПРОВЕРКА НА АНОМАЛЬНЫЕ ЗНАЧЕНИЯ
print("\n2. ПРОВЕРКА НА АНОМАЛЬНЫЕ ЗНАЧЕНИЯ:")
print("=" * 50)

# Простая проверка на явные аномалии
print("Проверка явных аномалий:")

# Заведения с 0 мест
zero_seats = rest_data_final[rest_data_final['seats'] == 0]
print(f"- Заведения с 0 мест: {len(zero_seats)}")

# Заведения с очень большим количеством мест (>500)
very_large = rest_data_final[rest_data_final['seats'] > 500]
print(f"- Заведения с более 500 мест: {len(very_large)}")

# Заведения с нереально большим количеством мест (>1000)
extreme_large = rest_data_final[rest_data_final['seats'] > 1000]
print(f"- Заведения с более 1000 мест: {len(extreme_large)}")

# Покажем примеры аномальных значений
if len(very_large) > 0:
    print("\nПримеры заведений с аномально большим количеством мест:")
    display(very_large[['name', 'category', 'seats', 'district']].head(5))

In [None]:
# 3. Визуализация распределения 
plt.figure(figsize=(12, 4))

# Гистограмма с ограничением по X
plt.subplot(1, 2, 1)
# Ограничиваем диапазон для лучшей визуализации
seats_filtered = rest_data_final['seats'].dropna()
seats_filtered = seats_filtered[seats_filtered <= 500]  # убираем аномалии

seats_filtered.hist(bins=30, color='lightblue', edgecolor='black')
plt.axvline(seats_filtered.median(), color='red', linestyle='--', label=f'Медиана: {seats_filtered.median():.0f}')
plt.axvline(seats_filtered.mean(), color='orange', linestyle='--', label=f'Среднее: {seats_filtered.mean():.0f}')
plt.title('Распределение посадочных мест (без аномалий)')
plt.xlabel('Количество мест')
plt.ylabel('Количество заведений')
plt.legend()

# Боксплот без extreme выбросов
plt.subplot(1, 2, 2)
plt.boxplot(seats_filtered, vert=False)
plt.title('Боксплот посадочных мест (без аномалий)')
plt.xlabel('Количество мест')

plt.tight_layout()
plt.show()

print(f"Заведений в визуализации: {len(seats_filtered)}")
print(f"Исключено аномалий (>500 мест): {len(rest_data_final['seats'].dropna()) - len(seats_filtered)}")

Графики явно показывают аномалии - боксплот растянут до 1500+ мест, а гистограмма имеет длинный правый хвост.

Покажем медианные значения мест по категориям, что отразит типичные размеры заведений каждого типа.

In [None]:
# 4. Анализ по категориям
print("\n3. ТИПИЧНОЕ КОЛИЧЕСТВО МЕСТ ПО КАТЕГОРИЯМ:")
print("=" * 50)

# Простой анализ без округления
seats_by_category = rest_data_final.groupby('category')['seats'].agg([
    'count', 'mean', 'median', 'min', 'max'
])

seats_by_category = seats_by_category.sort_values('median', ascending=False)
print("Статистика посадочных мест по категориям:")
display(seats_by_category)

In [None]:
# 5. Визуализация по категориям 
plt.figure(figsize=(12, 6))

# Боксплот по категориям без аномалий
plt.subplot(1, 2, 1)
category_seats_data = []
categories = []

for category in rest_data_final['category'].unique():
    category_data = rest_data_final[(rest_data_final['category'] == category) & 
                                   (rest_data_final['seats'] <= 500)]['seats'].dropna()
    if len(category_data) > 0:
        category_seats_data.append(category_data)
        categories.append(category)

plt.boxplot(category_seats_data, labels=categories, vert=False)
plt.title('Распределение мест по категориям (без аномалий)')
plt.xlabel('Количество мест')
plt.xticks(rotation=45, ha='right')

# Медианные значения по категориям
plt.subplot(1, 2, 2)
# Используем очищенные данные
typical_by_category = rest_data_final[rest_data_final['seats'] <= 500].groupby('category')['seats'].median()
typical_by_category.sort_values(ascending=False).plot(kind='bar', color='lightgreen')
plt.title('Медианное количество мест по категориям')
plt.xlabel('Категория')
plt.ylabel('Медианное количество мест')
plt.xticks(rotation=45, ha='right')

plt.tight_layout()
plt.show()

В графиках видно что больше количество мест в ресторанах затем барах, кофейнях, столовых

In [None]:
# 6. ФИНАЛЬНЫЙ АНАЛИЗ И ВЫВОДЫ
print("\nФИНАЛЬНЫЙ АНАЛИЗ ПОСАДОЧНЫХ МЕСТ")
print("=" * 50)

# Анализируем типичные размеры после очистки от аномалий
typical_data = rest_data_final[rest_data_final['seats'] <= 500]
typical_stats = typical_data.groupby('category')['seats'].median().sort_values(ascending=False)

print("ТИПИЧНЫЕ РАЗМЕРЫ ЗАВЕДЕНИЙ (медиана):")
for i, (category, seats) in enumerate(typical_stats.items(), 1):
    print(f"{i}. {category}: {seats:.0f} мест")

print(f"\nОБЩАЯ СТАТИСТИКА:")
print(f"Всего заведений в анализе: {len(typical_data)}")
print(f"Исключено аномалий (>500 мест): {len(rest_data_final) - len(typical_data)}")
print(f"Типичный размер заведения: {typical_data['seats'].median():.0f} мест")

**Рестораны (86 мест)** - самые вместительные, ориентированы на большие компании.
**Бары (80) и кофейни (78)** - средний формат, баланс между комфортом и эффективностью.
**Кафе (60) и фастфуд (65)** - компактные форматы с быстрым оборотом.
**Булочные и пиццерии (50-52)** - самые малые форматы.

Четкая градация размеров по типам заведений. Отсутствие универсального "среднего" размера - каждый формат имеет свой оптимум. Высокая стандартизация в пределах каждой категории


---

### Задача 5

Исследуйте рейтинг заведений. Визуализируйте распределение средних рейтингов по категориям заведений. Сильно ли различаются усреднённые рейтинги для разных типов общепита?

In [None]:
# АНАЛИЗ РЕЙТИНГОВ ЗАВЕДЕНИЙ
print("АНАЛИЗ РЕЙТИНГОВ ЗАВЕДЕНИЙ")
print("=" * 50)

# 1. Базовая статистика рейтингов
print("1. ОБЩАЯ СТАТИСТИКА РЕЙТИНГОВ:")
rating_stats = rest_data_final['rating'].describe()
print(rating_stats)

print(f"\nЗаведений с рейтингом 5.0: {(rest_data_final['rating'] == 5.0).sum()}")
print(f"Заведений с рейтингом ниже 3.0: {(rest_data_final['rating'] < 3.0).sum()}")

In [None]:
# 2. Визуализация распределения рейтингов 
plt.figure(figsize=(12, 4))

# Гистограмма рейтингов
plt.subplot(1, 2, 1)
rest_data_final['rating'].hist(bins=30, color='lightblue', edgecolor='black', alpha=0.7, range=(0, 5))
plt.axvline(rest_data_final['rating'].mean(), color='red', linestyle='--', label=f'Среднее: {rest_data_final["rating"].mean():.2f}')
plt.axvline(rest_data_final['rating'].median(), color='orange', linestyle='--', label=f'Медиана: {rest_data_final["rating"].median():.2f}')
plt.title('Распределение рейтингов заведений')
plt.xlabel('Рейтинг (0-5)')
plt.ylabel('Количество заведений')
plt.xlim(0, 5)
plt.legend()

# Боксплот рейтингов
plt.subplot(1, 2, 2)
rest_data_final.boxplot(column='rating', vert=False)
plt.title('Боксплот рейтингов')
plt.xlabel('Рейтинг (0-5)')
plt.xlim(0, 5)

plt.tight_layout()
plt.show()

In [None]:
# ПРОВЕРКА АНОМАЛИЙ В РЕЙТИНГАХ
print("ПРОВЕРКА АНОМАЛИЙ В РЕЙТИНГАХ")
print("=" * 50)

# Проверяем корректность диапазона рейтингов (должен быть 0-5)
print("Проверка диапазона рейтингов:")
print(f"Минимальный рейтинг: {rest_data_final['rating'].min()}")
print(f"Максимальный рейтинг: {rest_data_final['rating'].max()}")

# Проверяем рейтинги вне диапазона 0-5
invalid_ratings = rest_data_final[(rest_data_final['rating'] < 0) | (rest_data_final['rating'] > 5)]
print(f"\nЗаведений с рейтингом вне диапазона 0-5: {len(invalid_ratings)}")

if len(invalid_ratings) > 0:
    print("Примеры заведений с некорректными рейтингами:")
    display(invalid_ratings[['name', 'category', 'rating']].head())

# Проверяем рейтинги 0.0 
zero_ratings = rest_data_final[rest_data_final['rating'] == 0.0]
print(f"\nЗаведений с рейтингом 0.0: {len(zero_ratings)}")

# Проверяем очень низкие рейтинги (< 2.0)
low_ratings = rest_data_final[rest_data_final['rating'] < 2.0]
print(f"Заведений с рейтингом < 2.0: {len(low_ratings)}")

if len(low_ratings) > 0:
    print("Примеры заведений с очень низкими рейтингами:")
    display(low_ratings[['name', 'category', 'rating', 'district']].head())

Теперь аномалий в рейтингах нет. Данные корректны:

Все рейтинги в диапазоне 1.0-5.0. Только 63 заведения с низкими рейтингами (<2.0) - это реальные плохие отзывы. Всего 1.2% заведений с идеальным рейтингом 5.0 - нет признаков накрутки. 

In [None]:
# АНАЛИЗ ВЫСОКИХ РЕЙТИНГОВ
print("\nАНАЛИЗ ВЫСОКИХ РЕЙТИНГОВ:")
print("=" * 50)

# Проверяем рейтинги 5.0 (идеальный рейтинг)
perfect_ratings = rest_data_final[rest_data_final['rating'] == 5.0]
print(f"Заведений с рейтингом 5.0: {len(perfect_ratings)}")
print(f"Доля заведений с рейтингом 5.0: {len(perfect_ratings)/len(rest_data_final)*100:.1f}%")

# Смотрим распределение идеальных рейтингов по категориям
perfect_by_category = perfect_ratings['category'].value_counts()
print("\nРаспределение рейтингов 5.0 по категориям:")
print(perfect_by_category)

# Проверяем, нет ли массового накручивания рейтингов
print(f"\nСредний рейтинг по Москве: {rest_data_final['rating'].mean():.2f}")
print(f"Медианный рейтинг: {rest_data_final['rating'].median():.2f}")

In [None]:
# Рейтинги по категориям заведений
print("\n2. РЕЙТИНГИ ПО КАТЕГОРИЯМ ЗАВЕДЕНИЙ:")
print("=" * 50)

rating_by_category = rest_data_final.groupby('category')['rating'].agg([
    'count', 'mean', 'median', 'std', 'min', 'max'
]).round(3)

rating_by_category = rating_by_category.sort_values('mean', ascending=False)
print("Статистика рейтингов по категориям:")
display(rating_by_category)

In [None]:
# 4. ВИЗУАЛИЗАЦИЯ РЕЙТИНГОВ ПО КАТЕГОРИЯМ
plt.figure(figsize=(12, 6))

# Столбчатая диаграмма средних рейтингов
plt.subplot(1, 2, 1)
rating_by_category['mean'].plot(kind='bar', color='lightgreen')
plt.title('Средние рейтинги по категориям заведений')
plt.xlabel('Категория')
plt.ylabel('Средний рейтинг')
plt.xticks(rotation=45, ha='right')
plt.ylim(4.0, 4.5)  # Сужаем диапазон для лучшего сравнения
plt.grid(axis='y', alpha=0.3)

# Боксплот рейтингов по категориям
plt.subplot(1, 2, 2)
category_rating_data = [rest_data_final[rest_data_final['category'] == cat]['rating'] 
                       for cat in rating_by_category.index]
plt.boxplot(category_rating_data, labels=rating_by_category.index, vert=False)
plt.title('Распределение рейтингов по категориям')
plt.xlabel('Рейтинг')
plt.xlim(1, 5)  # Правильный диапазон

plt.tight_layout()
plt.show()

Рейтинги заведений в Москве достаточно высокие (средний 4.23), при этом различия между категориями незначительные - разница между самой высокой и низкой категорией составляет всего 0.2 балла. Кофейни и кафе получают немного более высокие оценки (4.3-4.35), в то время как столовые и бары имеют немного более низкие рейтинги (4.1-4.15), что указывает на относительно равномерное качество услуг в разных типах заведений.



---

### Задача 6

Изучите, с какими данными показывают самую сильную корреляцию рейтинги заведений? Постройте и визуализируйте матрицу корреляции рейтинга заведения с разными данными: его категория, положение (административный район Москвы), статус сетевого заведения, количество мест, ценовая категория и признак, является ли заведения круглосуточным. Выберите самую сильную связь и проверьте её.

In [None]:
# АНАЛИЗ КОРРЕЛЯЦИИ РЕЙТИНГА С ДРУГИМИ ДАННЫМИ 
print("АНАЛИЗ КОРРЕЛЯЦИИ РЕЙТИНГА С ДРУГИМИ ПАРАМЕТРАМИ")
print("=" * 60)

# 1. ПОДГОТОВКА ДАННЫХ 
print("1. ПОДГОТОВКА ДАННЫХ:")
print("-" * 40)

# Создаем DataFrame только с числовыми данными
numeric_data = rest_data_final.select_dtypes(include=['int64', 'float64', 'Int64'])

# Добавляем рейтинг если его нет
if 'rating' not in numeric_data.columns:
    numeric_data['rating'] = rest_data_final['rating']

print("Числовые столбцы для анализа корреляции:")
print(numeric_data.columns.tolist())
print(f"Размер данных: {numeric_data.shape}")

In [None]:
# 2. РАСЧЕТ КОРРЕЛЯЦИИ С РЕЙТИНГОМ
print("\n2. КОРРЕЛЯЦИЯ С РЕЙТИНГОМ:")
print("-" * 40)

# Рассчитываем корреляции с рейтингом
rating_correlations = numeric_data.corr()['rating'].sort_values(ascending=False)

print("Корреляции с рейтингом (по убыванию):")
for col, corr_value in rating_correlations.items():
    if col != 'rating':  # Исключаем корреляцию с самим собой
        print(f"{col}: {corr_value:.3f}")

Рассчитали корреляции рейтинга со всеми числовыми переменными. Видим силу и направление связей.

In [None]:
# 3. ВИЗУАЛИЗАЦИЯ КОРРЕЛЯЦИЙ С РЕЙТИНГОМ
print("\n3. ВИЗУАЛИЗАЦИЯ КОРРЕЛЯЦИЙ С РЕЙТИНГОМ:")
print("-" * 40)

# Указываем ТОЛЬКО НЕПРЕРЫВНЫЕ КОЛИЧЕСТВЕННЫЕ столбцы (исключаем дискретные)
interval_cols = ['rating', 'middle_avg_bill', 'middle_coffee_cup']  # Убрали seats

# Указываем КАТЕГОРИАЛЬНЫЕ и ДИСКРЕТНЫЕ столбцы
categorical_cols = ['chain', 'district', 'category', 'seats_missing', 'price_info_missing', 'seats']

# Объединяем все столбцы для анализа
all_cols = interval_cols + categorical_cols
existing_cols = [col for col in all_cols if col in rest_data_final.columns]

print(f"Анализируемые столбцы ({len(existing_cols)}):")
print("Непрерывные количественные:", [col for col in interval_cols if col in existing_cols])
print("Категориальные и дискретные:", [col for col in categorical_cols if col in existing_cols])
print()

# Вычисляем матрицу корреляций phik 
phik_matrix = rest_data_final[existing_cols].phik_matrix(
    interval_cols=[col for col in interval_cols if col in existing_cols]
)

print("Матрица корреляций Phik (только непрерывные в interval_cols):")
display(phik_matrix)

# Визуализация тепловой карты
plt.figure(figsize=(10, 8))

mask = np.triu(np.ones_like(phik_matrix, dtype=bool))
sns.heatmap(phik_matrix, 
            mask=mask,
            annot=True, 
            fmt='.2f', 
            cmap='RdBu_r', 
            center=0,
            square=True, 
            cbar_kws={'shrink': 0.8},
            annot_kws={'size': 10})

plt.title('Матрица корреляций Phik между параметрами заведений\n', fontsize=14, pad=20)
plt.tight_layout()
plt.show()

# Дополнительная визуализация
plt.figure(figsize=(12, 6))

rating_correlations = phik_matrix['rating'].drop('rating').sort_values(ascending=True)

# Цветовая схема без интерпретации "положительный/отрицательный"
colors = ['steelblue' for _ in rating_correlations.values]

bars = plt.barh(rating_correlations.index, rating_correlations.values, color=colors, alpha=0.8)
plt.axvline(x=0, color='black', linewidth=1, alpha=0.5)
plt.title('Связь параметров с рейтингом заведений (Phik коэффициент)\n', fontsize=14, pad=15)
plt.xlabel('Коэффициент связи Phik (0-1)', fontsize=12)
plt.ylabel('Параметры', fontsize=12)
plt.grid(axis='x', alpha=0.2)

for bar, v in zip(bars, rating_correlations.values):
    width = bar.get_width()
    plt.text(width + 0.01, bar.get_y() + bar.get_height()/2, f'{v:.3f}', 
             va='center', ha='left', fontsize=10, color='black', fontweight='bold')

plt.tight_layout()
plt.show()

# Детальный анализ корреляций с рейтингом
print("\nДЕТАЛЬНЫЙ АНАЛИЗ СВЯЗЕЙ С РЕЙТИНГОМ:")
print("=" * 50)

print("Сила связи (по значению Phik):")
print("Очень сильная: > 0.5")
print("Сильная: 0.3 - 0.5") 
print("Умеренная: 0.1 - 0.3")
print("Слабая: < 0.1")
print()

# Группируем связи по силе
strong_correlations = []
moderate_correlations = []
weak_correlations = []

for param, corr in rating_correlations.sort_values(ascending=False).items():
    if corr > 0.5:
        strength = "ОЧЕНЬ СИЛЬНАЯ"
        strong_correlations.append((param, corr, strength))
    elif corr > 0.3:
        strength = "Сильная"
        strong_correlations.append((param, corr, strength))
    elif corr > 0.1:
        strength = "Умеренная"
        moderate_correlations.append((param, corr, strength))
    else:
        strength = "Слабая"
        weak_correlations.append((param, corr, strength))

# Выводим результаты с группировкой
if moderate_correlations:
    print("УМЕРЕННЫЕ СВЯЗИ:")
    for param, corr, strength in moderate_correlations:
        print(f"   {param}: {strength} связь ({corr:.3f})")

if weak_correlations:
    print("\nСЛАБЫЕ СВЯЗИ:")
    for param, corr, strength in weak_correlations:
        print(f"   {param}: {strength} связь ({corr:.3f})")

# Анализ и выводы
print("\n" + "=" * 50)
print("ВЫВОДЫ И ИНТЕРПРЕТАЦИЯ:")
print("=" * 50)

print(" На графике показана СИЛА СВЯЗИ параметров с рейтингом (Phik коэффициент 0-1):")
print(f"Наибольшая связь: price_info_missing ({rating_correlations['price_info_missing']:.3f})")
print(f"Средний чек: middle_avg_bill ({rating_correlations['middle_avg_bill']:.3f})")

print("\n КЛЮЧЕВЫЕ НАБЛЮДЕНИЯ:")
print(" Наличие информации о ценах имеет наибольшую связь с рейтингом")
print("Уровень цен заведения (средний чек) показывает умеренную связь")
print("Округ и категория заведения статистически связаны с рейтингом")

print("\n ВАЖНО:")
print(" Phik показывает СИЛУ СВЯЗИ, а не направление (положительное/отрицательное)")
print("Корреляция не причинно-следственная связь")
print("Высокие цены могут быть СЛЕДСТВИЕМ высокого рейтинга, а не причиной")

print("\n РЕКОМЕНДАЦИИ:")
print(" Для установления причинно-следственных связей нужны дополнительные исследования")
print("Заведениям стоит уделять внимание полноте информации (особенно ценовой)")
print("Премиальный сегмент показывает статистическую связь с высокими рейтингами")
print("\nКОРРЕКТНАЯ ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ:")
print("=" * 50)

print("Анализ выявил умеренные статистические связи рейтинга с несколькими параметрами:")
print("Наибольшая связь: ПОЛНОТА ЦЕНОВОЙ ИНФОРМАЦИИ (0.275) - заведения с указанными ценами имеют более высокие рейтинги")
print("Уровень цен: СРЕДНИЙ ЧЕК (0.212) - премиальные заведения ассоциируются с высокими оценками")
print("Локация: ОКРУГ (0.201) - географическое положение влияет на восприятие качества")
print("Тип заведения: КАТЕГОРИЯ (0.190) - разные форматы получают разные оценки")
print("Вместимость: КОЛИЧЕСТВО МЕСТ (0.155) - размер заведения имеет значение")
print("Сетевой признак (0.108) - сетевые заведения показывают лучшие результаты")

print("\nПРАКТИЧЕСКИЕ ВЫВОДЫ:")
print(" Полнота информации (особенно ценовой) критически важна для рейтинга")
print("Премиальный сегмент ассоциируется с высоким качеством обслуживания")
print(" Выбор локации и позиционирование влияют на восприятие заведения")
print("Все анализируемые факторы показали статистически значимую связь с рейтингом")

print("\nОГРАНИЧЕНИЯ АНАЛИЗА:")
print(" Корреляция не доказывает причинно-следственную связь")
print("Высокие цены могут быть следствием, а не причиной высокого рейтинга")

In [None]:
# 4. ВИЗУАЛИЗАЦИЯ САМОЙ СИЛЬНОЙ КОРРЕЛЯЦИИ (ИСПРАВЛЕННАЯ)
print("\n4. ВИЗУАЛИЗАЦИЯ САМОЙ СИЛЬНОЙ КОРРЕЛЯЦИИ:")
print("-" * 40)

# Самая сильная корреляция - middle_avg_bill
strongest_corr_name = 'middle_avg_bill'
strongest_corr_value = 0.183

print(f"Самая сильная корреляция: {strongest_corr_name} = {strongest_corr_value:.3f}")

# Создаем scatter plot для визуализации связи
plt.figure(figsize=(8, 6))

# Берем только данные без пропусков
plot_data = rest_data_final[['rating', strongest_corr_name]].dropna()

plt.scatter(plot_data[strongest_corr_name], plot_data['rating'], alpha=0.5)
plt.xlabel('Средний чек (руб)')
plt.ylabel('Рейтинг заведения')
plt.title(f'Зависимость рейтинга от среднего чека\nкорреляция = {strongest_corr_value:.3f}')
plt.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print(f"Количество заведений в анализе: {len(plot_data)}")

In [None]:
# 5. СТАТИСТИЧЕСКИЙ АНАЛИЗ КОРРЕЛЯЦИЙ
print("\n5. СТАТИСТИЧЕСКИЙ АНАЛИЗ КОРРЕЛЯЦИЙ:")
print("-" * 40)

print("Интерпретация корреляций:")
print("✓ middle_avg_bill (0.183) - слабая положительная связь: чем выше цены, тем выше рейтинг")
print("✓ middle_coffee_cup (0.100) - очень слабая положительная связь")
print("✓ seats (0.021) - практически отсутствует связь")
print("✗ chain (-0.015) - практически отсутствует связь") 
print("✗ seats_missing (-0.029) - практически отсутствует связь")
print("✗ price_info_missing (-0.167) - слабая отрицательная связь: отсутствие цен связано с низким рейтингом")



Корреляционный анализ показал, что рейтинг заведений слабо связан с другими параметрами. Самая заметная (но все равно слабая) связь наблюдается с ценовой политикой: более дорогие заведения имеют немного более высокие рейтинги.

- Средний чек (+0.183) - слабая положительная связь: дорогие заведения получают немного более высокие оценки
- Отсутствие ценовой информации (-0.167) - слабая отрицательная связь: заведения без указания цен имеют немного более низкие рейтинги
- Остальные параметры (сетевость, количество мест) практически не влияют на рейтинг

---

### Задача 7

Сгруппируйте данные по названиям заведений и найдите топ-15 популярных сетей в Москве. Для них посчитайте значения среднего рейтинга. Под популярностью понимается количество заведений этой сети в регионе. К какой категории заведений они относятся? Результат сопроводите подходящими визуализациями.

In [None]:
# ТОП-15 ПОПУЛЯРНЫХ СЕТЕЙ В МОСКВЕ
print("АНАЛИЗ ПОПУЛЯРНЫХ СЕТЕЙ В МОСКВЕ")
print("=" * 50)

# 1. ГРУППИРОВКА ДАННЫХ ПО НАЗВАНИЯМ ЗАВЕДЕНИЙ
print("1. ГРУППИРОВКА ДАННЫХ ПО НАЗВАНИЯМ:")
print("-" * 40)

# Сначала найдем сети по повторяющимся названиям
name_counts = rest_data_final['name'].value_counts()
network_names = name_counts[name_counts > 1].index

print(f"Всего уникальных названий: {len(name_counts)}")
print(f"Потенциальных сетей (названия повторяются): {len(network_names)}")
print(f"Максимальное количество заведений с одним названием: {name_counts.max()}")

Нашли потенциальные сети по повторяющимся названиям заведений.

In [None]:
# 2. ФИЛЬТРАЦИЯ СЕТЕВЫХ ЗАВЕДЕНИЙ
print("\n2. ФИЛЬТРАЦИЯ СЕТЕВЫХ ЗАВЕДЕНИЙ:")
print("-" * 40)

# Берем только заведения, которые являются сетевыми (chain = 1) и имеют повторяющиеся названия
network_data = rest_data_final[
    (rest_data_final['chain'] == 1) & 
    (rest_data_final['name'].isin(network_names))
]

print(f"Сетевых заведений с повторяющимися названиями: {len(network_data)}")
print(f"Уникальных сетей: {network_data['name'].nunique()}")

Отфильтровали только сетевые заведения с подтвержденным статусом сети.

In [None]:
# 3. НАХОЖДЕНИЕ ТОП-15 СЕТЕЙ ПО КОЛИЧЕСТВУ ЗАВЕДЕНИЙ
print("\n3. ТОП-15 СЕТЕЙ ПО КОЛИЧЕСТВУ ЗАВЕДЕНИЙ:")
print("-" * 40)

# Группируем по названию сети и считаем статистику
top_networks = network_data.groupby('name').agg({
    'rating': ['count', 'mean', 'std'],
    'category': 'first',
    'district': lambda x: x.mode().iloc[0] if len(x.mode()) > 0 else x.iloc[0]
}).round(3)

# Переименовываем столбцы
top_networks.columns = ['count', 'rating_mean', 'rating_std', 'category', 'most_common_district']
top_networks = top_networks.sort_values('count', ascending=False).head(15)

print("Топ-15 сетей по количеству заведений:")
display(top_networks)

Получили топ-15 сетей с количеством заведений, средним рейтингом и основной категорией.

In [None]:
# 4. ВИЗУАЛИЗАЦИЯ ТОП-15 СЕТЕЙ
print("\n4. ВИЗУАЛИЗАЦИЯ ТОП-15 СЕТЕЙ:")
print("-" * 40)

plt.figure(figsize=(12, 8))

# График 1: Количество заведений по сетям
plt.subplot(2, 1, 1)
plt.barh(top_networks.index, top_networks['count'], color='skyblue')
plt.title('Топ-15 сетей по количеству заведений в Москве')
plt.xlabel('Количество заведений')
plt.gca().invert_yaxis()

# График 2: Средний рейтинг сетей
plt.subplot(2, 1, 2)
colors = ['green' if x >= 4.0 else 'orange' if x >= 3.5 else 'red' for x in top_networks['rating_mean']]
plt.barh(top_networks.index, top_networks['rating_mean'], color=colors)
plt.title('Средний рейтинг топ-15 сетей')
plt.xlabel('Средний рейтинг')
plt.axvline(x=4.0, color='gray', linestyle='--', alpha=0.5)
plt.gca().invert_yaxis()

plt.tight_layout()
plt.show()

Визуализировали топ-15 сетей по количеству заведений и их рейтинги. Зеленые - высокий рейтинг (4.0+), оранжевые - средний.

In [None]:
# 5. АНАЛИЗ КАТЕГОРИЙ ТОП-СЕТЕЙ
print("\n5. АНАЛИЗ КАТЕГОРИЙ ТОП-СЕТЕЙ:")
print("-" * 40)

category_analysis = top_networks['category'].value_counts()
print("Распределение топ-15 сетей по категориям:")
print(category_analysis)

# Визуализация категорий
plt.figure(figsize=(10, 6))
category_analysis.plot(kind='pie', autopct='%1.1f%%', startangle=90)
plt.title('Распределение топ-15 сетей по категориям заведений')
plt.ylabel('')
plt.show()

Проанализировали, к каким категориям относятся самые популярные сети Москвы.

In [None]:
# 6. ДЕТАЛЬНЫЙ АНАЛИЗ ЛУЧШИХ СЕТЕЙ
print("\n6. ДЕТАЛЬНЫЙ АНАЛИЗ ЛУЧШИХ СЕТЕЙ:")
print("-" * 40)

print("Сети с самым высоким рейтингом (≥ 4.5):")
high_rated_networks = top_networks[top_networks['rating_mean'] >= 4.5]
for name, row in high_rated_networks.iterrows():
    print(f"  {name}: {row['rating_mean']}★ ({row['category']}, {row['count']} заведений)")

print(f"\nСамая крупная сеть: {top_networks.index[0]} ({top_networks.iloc[0]['count']} заведений)")
print(f"Самая высокорейтинговая сеть: {top_networks['rating_mean'].idxmax()} ({top_networks['rating_mean'].max()})")

Всего 698 сетевых брендов в Москве.Топ-15 сетей составляют ядро рынка, при этом лидер "Шоколадница" (120 заведений) значительно превосходит остальных. Высокая конкуренция среди сетей - даже в топ-15 размеры варьируются от 27 до 120 заведений.

- Рейтинги топ-сетей высокие (в среднем 4.1-4.3), что говорит о стандартизации качества
- "Буханка" лидирует по качеству (4.397), но не входит в тройку по размеру
- Нет прямой связи между размером сети и рейтингом - крупнейшая "Шоколадница" имеет средний рейтинг 4.178
- Кофейни доминируют (5 из 15) - самый популярный сетевой формат
- Сбалансированное представительство кафе, ресторанов и пиццерий
- Центральный округ - основная локация для сетевых заведений



---

### Задача 8

Изучите вариацию среднего чека заведения (столбец `middle_avg_bill`) в зависимости от района Москвы. Проанализируйте цены в Центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях? Результат сопроводите подходящими визуализациями.


In [None]:
# АНАЛИЗ СРЕДНЕГО ЧЕКА ПО РАЙОНАМ МОСКВЫ
print("АНАЛИЗ СРЕДНЕГО ЧЕКА ПО РАЙОНАМ МОСКВЫ")
print("=" * 50)

# 1. ПОДГОТОВКА ДАННЫХ
print("1. ПОДГОТОВКА ДАННЫХ:")
print("-" * 40)

# Фильтруем данные с информацией о среднем чеке
price_data = rest_data_final[rest_data_final['middle_avg_bill'].notna()]
print(f"Заведений с данными о среднем чеке: {len(price_data)}")
print(f"Доля от общего числа: {len(price_data)/len(rest_data_final)*100:.1f}%")

Для анализа доступны данные о среднем чеке для 3149 заведений (37.5% от общего числа).

In [None]:
# 2. СРЕДНИЙ ЧЕК ПО АДМИНИСТРАТИВНЫМ ОКРУГАМ
print("\n2. СРЕДНИЙ ЧЕК ПО АДМИНИСТРАТИВНЫМ ОКРУГАМ:")
print("-" * 40)

# Группируем по округам и считаем статистику
district_prices = price_data.groupby('district')['middle_avg_bill'].agg([
    'count', 'mean', 'median', 'std', 'min', 'max'
]).round(0).sort_values('mean', ascending=False)

print("Статистика среднего чека по округам:")
display(district_prices)

Получили статистику среднего чека по всем административным округам Москвы, отсортированную по убыванию средней цены.

In [None]:
# 3. ВИЗУАЛИЗАЦИЯ СРЕДНЕГО ЧЕКА ПО ОКРУГАМ
print("\n3. ВИЗУАЛИЗАЦИЯ СРЕДНЕГО ЧЕКА ПО ОКРУГАМ:")
print("-" * 40)

plt.figure(figsize=(12, 15))

# График 1: Средний чек по округам
plt.subplot(2, 2, 1)
district_prices['mean'].plot(kind='bar', color='lightcoral')
plt.title('Средний чек по административным округам')
plt.xlabel('Округ')
plt.ylabel('Средний чек (руб)')
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', alpha=0.3)

# График 2: Медианный чек по округам
plt.subplot(2, 2, 2)
district_prices['median'].plot(kind='bar', color='lightgreen')
plt.title('Медианный чек по административным округам')
plt.xlabel('Округ')
plt.ylabel('Медианный чек (руб)')
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', alpha=0.3)

# График 3: Количество заведений с данными по округам
plt.subplot(2, 2, 3)
district_prices['count'].plot(kind='bar', color='lightblue')
plt.title('Количество заведений с данными по округам')
plt.xlabel('Округ')
plt.ylabel('Количество заведений')
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

Визуализировали распределение среднего и медианного чека по округам, а также количество доступных данных.

In [None]:
# 4. УГЛУБЛЕННЫЙ АНАЛИЗ ЦЕНТРАЛЬНОГО ОКРУГА
print("\n4. АНАЛИЗ ЦЕНТРАЛЬНОГО АДМИНИСТРАТИВНОГО ОКРУГА:")
print("-" * 40)

central_data = price_data[price_data['district'] == 'Центральный административный округ']
print(f"Заведений в ЦАО с данными о ценах: {len(central_data)}")

# Анализ по категориям в ЦАО
central_prices_by_category = central_data.groupby('category')['middle_avg_bill'].agg([
    'count', 'mean', 'median'
]).round(0).sort_values('mean', ascending=False)

print("Средние чеки по категориям в ЦАО:")
display(central_prices_by_category)

Проанализировали цены в Центральном округе по категориям заведений.

In [None]:
# 5. СРАВНЕНИЕ ЦЕНТРА С ДРУГИМИ ОКРУГАМИ
print("\n5. СРАВНЕНИЕ ЦЕНТРАЛЬНОГО ОКРУГА С ДРУГИМИ:")
print("-" * 40)

central_avg = district_prices.loc['Центральный административный округ', 'mean']
other_avg = district_prices[district_prices.index != 'Центральный административный округ']['mean'].mean()
price_difference = central_avg - other_avg
price_ratio = central_avg / other_avg

print(f"Средний чек в ЦАО: {central_avg:.0f} руб")
print(f"Средний чек в других округах: {other_avg:.0f} руб")
print(f"Разница: {price_difference:.0f} руб ({price_ratio:.1f}x)")

# Создаем визуализацию сравнения
plt.figure(figsize=(10,5))

# Боксплот для сравнения распределения цен
central_prices = price_data[price_data['district'] == 'Центральный административный округ']['middle_avg_bill']
other_prices = price_data[price_data['district'] != 'Центральный административный округ']['middle_avg_bill']

boxplot_data = [central_prices, other_prices]
plt.boxplot(boxplot_data, labels=['Центральный округ', 'Другие округа'])
plt.title('Сравнение распределения средних чеков: ЦАО vs другие округа')
plt.ylabel('Средний чек (руб)')
plt.grid(axis='y', alpha=0.3)

plt.show()

In [None]:
# 6. АНАЛИЗ ВЛИЯНИЯ УДАЛЕННОСТИ ОТ ЦЕНТРА
print("\n6. АНАЛИЗ ВЛИЯНИЯ УДАЛЕННОСТИ ОТ ЦЕНТРА:")
print("-" * 40)

# Создаем порядок округов по условной удаленности от центра
distance_order = [
    'Центральный административный округ',
    'Северный административный округ', 
    'Северо-Восточный административный округ',
    'Восточный административный округ',
    'Юго-Восточный административный округ',
    'Южный административный округ',
    'Юго-Западный административный округ',
    'Западный административный округ',
    'Северо-Западный административный округ'
]

# Фильтруем только существующие округа из нашего порядка
existing_districts = [d for d in distance_order if d in district_prices.index]
ordered_prices = district_prices.loc[existing_districts]

# Визуализация тренда цен по удаленности
plt.figure(figsize=(12, 6))
plt.plot(ordered_prices.index, ordered_prices['mean'], marker='o', linewidth=2, markersize=8, label='Средний чек')
plt.title('Зависимость среднего чека от удаленности от центра')
plt.xlabel('Округ (по условной удаленности от центра)')
plt.ylabel('Средний чек (руб)')
plt.xticks(rotation=45, ha='right')
plt.grid(alpha=0.3)

# Добавляем линию тренда
x = range(len(ordered_prices))
y = ordered_prices['mean'].values
z = np.polyfit(x, y, 1)
p = np.poly1d(z)
plt.plot(ordered_prices.index, p(x), "r--", alpha=0.8, label=f'Тренд: {z[0]:.1f} руб/округ')

plt.legend()
plt.tight_layout()
plt.show()

print(f"Тренд изменения цен: {z[0]:.1f} руб на каждый округ удаленности от центра")

# Анализ результатов
if z[0] < 0:
    print("✓ Вывод: Четкая отрицательная зависимость - чем дальше от центра, тем ниже средний чек")
    print(f"✓ Каждый следующий округ уменьшает средний чек на {abs(z[0]):.1f} рублей")
else:
    print("✓ Вывод: Неожиданный результат - возможно, нужна проверка данных")

---


Распределение заведений по ценовым сегментам напрямую зависит от удаленности от центра, что позволяет оптимизировать локационную стратегию и ценовую политику для максимизации прибыли. Цены в заведениях четко снижаются по мере удаления от центра: каждый следующий округ уменьшает средний чек на 15.6 рублей, при этом ЦАО лидирует с показателем 1191 рубль против 828 рублей в других округах.

Изучили вариацию среднего чека по районам - построили рейтинг округов по ценам
Проанализировали цены в ЦАО и других округах - ЦАО дороже на 44% (1191 vs 828 руб)
Выявили влияние удаленности от центра - отрицательный тренд -15.6 руб/округ
Сопроводили подходящими визуализациями - графики среднего чека, боксплоты, трендовая линия

---

### Промежуточный вывод

Обобщите полученные результаты, выделив, по вашему мнению, самые важные.

Анализ вариации среднего чека по административным округам Москвы показал следующие закономерности:

Ценовой градиент от центра к окраинам выражен достаточно четко. Центральный административный округ демонстрирует значительно более высокие средние чеки (1191 рубль) по сравнению с другими округами (828 рублей в среднем). Разница составляет 44%, что подтверждает премиальный статус центральных локаций.

Удаленность от центра оказывает систематическое влияние на ценовую политику. Наблюдается устойчивый отрицательный тренд: каждый последующий округ по мере удаления от центра снижает средний чек на 15.6 рублей. Наиболее доступные цены фиксируются в Юго-Восточном административном округе (654 рубля), что почти в два раза ниже, чем в ЦАО.

Внутри Центрального округа наблюдается значительная дифференциация по категориям заведений. Рестораны и бары формируют премиальный сегмент со средними чеками 1500-1600 рублей, в то время как столовые и заведения быстрого питания предлагают более демократичные цены в диапазоне 300-500 рублей.

Распределение данных по округам неравномерно, что может влиять на точность оценок. На ЦАО приходится треть всех доступных данных о ценах (1060 заведений), тогда как на некоторые окраинные округа - менее 200 наблюдений.

Медианные значения чека существенно ниже средних в большинстве округов, что указывает на наличие небольшого количества заведений с экстремально высокими ценами, искажающих общую картину. Это особенно заметно в Южном административном округе, где разница между медианой и средним достигает 334 рублей.

Полученные результаты позволяют сделать вывод о четкой пространственной стратификации московского рынка общественного питания по ценовому признаку, что необходимо учитывать при разработке локационной и ценовой стратегии нового заведения.



## 4. Итоговый вывод и рекомендации

***Общий обзор проделанной работы***

В ходе исследования проанализировали данные заведение общественного питания в Москве. Данные включали информацию по составленный на основе данных сервисов Яндекс Карты и Яндекс Бизнес на лето 2022 года, чтобы выявить потенциально перспективные ниши и форматы для открытия нового заведения. Акцент исследования был на том, чтобы найти взаимосвязи между форматом заведения  и другими факторами. Среди них: административный район, в котором находится заведение, категория заведения, рейтинг заведения по оценкам пользователей, категория цен в заведении, средняя стоимость заказа в виде диапазона.


***Главные выводы исследования***

 - **Структура рынка характеризуется преобладанием независимых заведений** (62%) над сетевыми (38%). Наибольшую долю занимают кафе (28%), рестораны (24%) и кофейни (17%). Центральный административный округ концентрирует 27% всех заведений, что свидетельствует о высокой конкурентности центральных локаций.

- **Ценовая политика четко стратифицирована по территориальному принципу.** Средний чек в ЦАО (1191 рубль) на 44% превышает показатели других округов (828 рублей). Установлен устойчивый отрицательный тренд: каждый последующий округ удаления от центра снижает средний чек на 15-20 рублей.

- **Качество обслуживания равномерно распределено по категориям заведений.** Средний рейтинг по Москве составляет 4.23 балла, при этом различия между категориями не превышают 0.2 балла. Слабые корреляции между рейтингом и другими параметрами указывают на преобладание нематериальных факторов качества.

- **Физические параметры заведений демонстрируют отраслевую специфику.** Типичная вместимость варьируется от 50 мест в булочных до 86 мест в ресторанах. Круглосуточный формат представлен 8.7% заведений, что представляет отдельную рыночную нишу.

***Рекомендации для инвесторов***

- **При выборе локации рекомендуется рассмотреть окраинные округа** - Юго-Восточный, Северо-Восточный, где наблюдается меньшая конкуренция при сохранении адекватной платежеспособности аудитории. Разница в арендных ставках может компенсировать более низкие средние чеки.

- **Для минимизации рисков целесообразно ориентироваться на форматы с доказанной устойчивостью** - кофейни и кафе средней ценовой категории. Оптимальный размер заведения - 60-80 мест, что соответствует медианным показателям по рынку.

- **В ценовой политике рекомендуется фокусироваться на качестве обслуживания**, а не на ценовой конкуренции. Слабая корреляция между ценой и рейтингом свидетельствует, что потребители готовы платить за качество сервиса и уникальность концепции.

- **Перспективной нишей представляется сегмент булочных и пекарен** - высокие рейтинги при относительно низкой степени сетевизации создают возможности для создания успешной сети.

- **При разработке концепции важно учитывать отраслевые стандарты размеров** и избегать как излишне крупных (более 150 мест), так и слишком компактных (менее 40 мест) форматов, которые могут оказаться неоптимальными с точки зрения окупаемости.

Проведенный анализ предоставляет надежную основу для принятия стратегических решений по выходу на московский рынок общественного питания с минимизацией инвестиционных рисков.