# Напишите заголовок проекта здесь

- Автор: Колдашев Виталий Андреевич
- Дата: 31.12.2024
- Ссылка на Github: https://github.com/PsychoCoderrr/YPracticumProjects/blob/main/VizPythonProject.ipynb

### Цели и задачи проекта

#### Цель проекта

Цель проекта — провести исследовательский анализ рынка заведений общественного питания в Москве. Это поможет инвесторам фонда Shut Up and Take My Money принять обоснованное решение о формате заведения, его расположении, ценовом сегменте и других ключевых аспектах для запуска успешного бизнеса в этой области.
 
#### Задачи проекта:
  1. Анализ предоставленных данных:
     - Изучить структуру и содержание данных о заведениях общественного питания и их средней ценовой категории.
     - Проверить данные на наличие пропусков, дубликатов и ошибок, а также исправить их при необходимости.
     - Привести данные к формату, удобному для анализа, включая выделение новых признаков.
  2. Исследование характеристик рынка:
     - Определить распределение категорий заведений (кафе, рестораны, бары и т. д.) и их количество.
     - Исследовать распределение заведений по административным районам Москвы.
     - Выяснить, какие категории заведений чаще являются сетевыми.
     - Оценить количество посадочных мест в заведениях, выявить типичные значения и возможные аномалии.
  3. Изучение рейтингов:
     - Проанализировать средние рейтинги заведений по категориям и выявить различия между ними.
     - Определить, с какими факторами (тип заведения, район, ценовой сегмент и т. д.) наиболее сильно коррелируют рейтинги.
  4. Анализ ценового сегмента:
     - Исследовать распределение среднего чека по районам Москвы.
     - Сравнить цены в центральном административном округе с другими районами.
     - Изучить зависимость стоимости чашки кофе от типа заведения и района.
  6. Выявление популярных сетей:
     - Найти топ-15 самых популярных сетей в Москве и изучить их категории.
     - Рассчитать средний рейтинг для каждого из популярных брендов.
  7. Итоговый вывод и рекомендации:
      - Подготовить рекомендации для инвесторов по выбору.
      - Обосновать выбор на основе результатов анализа данных.

### Описание данных

#### Датасет rest_info.csv
- name - название заведения;
- address - адрес заведения;
- district — административный район, в котором находится заведение, например Центральный административный округ;
- category — категория заведения, например «кафе», «пиццерия» или «кофейня»;
- hours — информация о днях и часах работы;
- rating — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);
- chain — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки):
    * 0 — заведение не является сетевым;
    * 1 — заведение является сетевым.
- seats — количество посадочных мест.
#### Датасет rest_price.csv
- price — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;
- avg_bill — строка, которая хранит среднюю стоимость заказа в виде диапазона, например:
    * «Средний счёт: 1000–1500 ₽»;
    * «Цена чашки капучино: 130–220 ₽»;
    * «Цена бокала пива: 400–600 ₽».
- middle_avg_bill — число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Средний счёт»:
    * Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
    * Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
    * Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.
- middle_coffee_cup — число с оценкой одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Цена одной чашки капучино»:
    * Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
    * Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
    * Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.

### Оглавление проекта

- Загрузка данных
- Предобработка данных
- Исследовательский анализ данных
- Итоговый вывод и рекомендации

## 1. Загрузка данных и знакомство с ними

- Загрузите данные о заведениях общественного питания Москвы. Путь к файлам: `/datasets/rest_info.csv` и `/datasets/rest_price.csv`.

In [2]:
import pandas as pd

In [4]:
df_info = pd.read_csv('https://code.s3.yandex.net//datasets/rest_info.csv')

In [5]:
df_price = pd.read_csv('https://code.s3.yandex.net//datasets/rest_price.csv')

- Познакомьтесь с данными и изучите общую информацию о них.

In [9]:
#вывод первых пяти строк датафрейма df_info
df_info.head()

Unnamed: 0,id,name,category,address,district,hours,rating,chain,seats
0,0c3e3439a8c64ea5bf6ecd6ca6ae19f0,WoWфли,кафе,"Москва, улица Дыбенко, 7/1",Северный административный округ,"ежедневно, 10:00–22:00",5.0,0,
1,045780ada3474c57a2112e505d74b633,Четыре комнаты,ресторан,"Москва, улица Дыбенко, 36, корп. 1",Северный административный округ,"ежедневно, 10:00–22:00",4.5,0,4.0
2,1070b6b59144425896c65889347fcff6,Хазри,кафе,"Москва, Клязьминская улица, 15",Северный административный округ,"пн-чт 11:00–02:00; пт,сб 11:00–05:00; вс 11:00...",4.6,0,45.0
3,03ac7cd772104f65b58b349dc59f03ee,Dormouse Coffee Shop,кофейня,"Москва, улица Маршала Федоренко, 12",Северный административный округ,"ежедневно, 09:00–22:00",5.0,0,
4,a163aada139c4c7f87b0b1c0b466a50f,Иль Марко,пиццерия,"Москва, Правобережная улица, 1Б",Северный административный округ,"ежедневно, 10:00–22:00",5.0,1,148.0


In [8]:
#вывод информации о датафрейме df_info
df_info.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8406 entries, 0 to 8405
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   id        8406 non-null   object 
 1   name      8406 non-null   object 
 2   category  8406 non-null   object 
 3   address   8406 non-null   object 
 4   district  8406 non-null   object 
 5   hours     7870 non-null   object 
 6   rating    8406 non-null   float64
 7   chain     8406 non-null   int64  
 8   seats     4795 non-null   float64
dtypes: float64(2), int64(1), object(6)
memory usage: 591.2+ KB


In [10]:
#вывод первых пяти строк датафрейма df_price
df_price.head()

Unnamed: 0,id,price,avg_bill,middle_avg_bill,middle_coffee_cup
0,045780ada3474c57a2112e505d74b633,выше среднего,Средний счёт:1500–1600 ₽,1550.0,
1,1070b6b59144425896c65889347fcff6,средние,Средний счёт:от 1000 ₽,1000.0,
2,03ac7cd772104f65b58b349dc59f03ee,,Цена чашки капучино:155–185 ₽,,170.0
3,a163aada139c4c7f87b0b1c0b466a50f,средние,Средний счёт:400–600 ₽,500.0,
4,8a343546b24e4a499ad96eb7d0797a8a,средние,,,


In [12]:
#вывод информации о датафрейме df_price
df_price.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4058 entries, 0 to 4057
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 4058 non-null   object 
 1   price              3315 non-null   object 
 2   avg_bill           3816 non-null   object 
 3   middle_avg_bill    3149 non-null   float64
 4   middle_coffee_cup  535 non-null    float64
dtypes: float64(2), object(3)
memory usage: 158.6+ KB


### Промежуточный вывод

Сделайте промежуточный вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли данные описанию, встречаются ли в них пропуски, используются ли верные типы данных. Отметьте другие особенности данных, которые вы обнаружите на этой стадии и на которые стоит обратить внимание при предобработке.

Первый вывод, который можно сделать сразу по обоим датафреймам это то, что везде используются корректные названия, соблюдается snake case

Дальше по датафрейму df_info можно сделать вывод, что общее кол-во строк равно 8046, мы видим пропуски в столбцах hours и seats, данные в этом датафрейме используются правильные

В датафрейме df_price мы видим общее кол-во строк 4058, а так же то, что пропуски есть во всех стобцах, кроме id, типы данных используются правильные

### Подготовка единого датафрейма

- Объедините данные двух датасетов в один, с которым вы и продолжите работу.

In [13]:
df_merged = pd.merge(df_info, df_price, on='id')

In [14]:
df_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4058 entries, 0 to 4057
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 4058 non-null   object 
 1   name               4058 non-null   object 
 2   category           4058 non-null   object 
 3   address            4058 non-null   object 
 4   district           4058 non-null   object 
 5   hours              4050 non-null   object 
 6   rating             4058 non-null   float64
 7   chain              4058 non-null   int64  
 8   seats              2519 non-null   float64
 9   price              3315 non-null   object 
 10  avg_bill           3816 non-null   object 
 11  middle_avg_bill    3149 non-null   float64
 12  middle_coffee_cup  535 non-null    float64
dtypes: float64(4), int64(1), object(8)
memory usage: 412.3+ KB
