Название проекта: Анализ рынка заведений общественного питания г. Москва и рекомендации по потенциальному открытию кофейни.

Описание проекта: Инвесторы из фонда «Shut Up and Take My Money» решили попробовать себя в новой области и открыть заведение общественного питания в Москве. Заказчики ещё не знают, что это будет за место: кафе, ресторан, пиццерия, паб или бар, — и какими будут расположение, меню и цены.
Для начала они просят вас — аналитика — подготовить исследование рынка Москвы, найти интересные особенности и презентовать полученные результаты, которые в будущем помогут в выборе подходящего инвесторам места.

Описание данных: 
Файл moscow_places.csv:
name — название заведения;
address — адрес заведения;
category — категория заведения, например «кафе», «пиццерия» или «кофейня»;
hours — информация о днях и часах работы;
lat — широта географической точки, в которой находится заведение;
lng — долгота географической точки, в которой находится заведение;
rating — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);
price — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;
avg_bill — строка, которая хранит среднюю стоимость заказа в виде диапазона, например:
«Средний счёт: 1000–1500 ₽»;
«Цена чашки капучино: 130–220 ₽»;
«Цена бокала пива: 400–600 ₽».
и так далее;
middle_avg_bill — число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Средний счёт»:
Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.
middle_coffee_cup — число с оценкой одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Цена одной чашки капучино»:
Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.
Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.
Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.
chain — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки):
0 — заведение не является сетевым
1 — заведение является сетевым
district — административный район, в котором находится заведение, например Центральный административный округ;
seats — количество посадочных мест.

Цели работы:
1) Узнать, Какие категории заведений представлены в данных?
2) Исследуйте количество посадочных мест в местах по категориям? 
3) Рассмотреть и изобразить соотношение сетевых и несетевых заведений в датасете. Каких заведений больше?
4) Какие категории заведений чаще являются сетевыми? 
5) Найти топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе.
6) Рассмотреть административные районы Москвы, присутствующие в датасете. Отобразить общее количество заведений и количество заведений каждой категории по районам.
7) Визуализировать распределение средних рейтингов по категориям заведений. Сильно ли различаются усреднённые рейтинги в разных типах общепита?
8) Построить фоновую картограмму (хороплет) со средним рейтингом заведений каждого района. Границы районов Москвы, которые встречаются в датасете, хранятся в файле admin_level_geomap.geojson
9) Отобразить все заведения датасета на карте с помощью кластеров средствами библиотеки folium
10) Найти топ-15 улиц по количеству заведений. Построить график распределения количества заведений и их категорий по этим улицам.
11) Найти улицы, на которых находится только один объект общепита.
12) Посчитать медиану столбца middle_avg_bill для каждого района. Используйте это значение в качестве ценового индикатора района. Постройте фоновую картограмму (хороплет) с полученными значениями для каждого района. Проанализируйте цены в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях?
13) Посмотреть есть ли зависимость между рейтингом и средним чеком?
14) Узнать медианный размер чека по категориям 
15) Детализируем исследование: открытие кофейни
16) Подготовка презентации



Содержание:
1) Открыть файл с данными и изучить общую информацию
2) Предобработка данных
3) Анализ данных
4) Детализируем исследование: открытие кофейни
5) Презентация
6) Итоги работы

## Открыть файл с данными и изучить общую информацию.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import plotly.express as px
from plotly import graph_objects as go
import folium
from folium import Map, Choropleth, Marker
from folium.plugins import MarkerCluster
from folium.features import CustomIcon
import warnings
warnings.filterwarnings("ignore")

Считываем данные из csv-файлов в датафреймы и сохраняем в переменные

In [None]:
path = 'C://Users//123ka//Desktop//Я. Практикум//модуль 3//спринт 1//datasets//'
try:
    df = pd.read_csv(path + 'moscow_places.csv')
except:
    df = pd.read_csv('https://code.s3.yandex.net/datasets/moscow_places.csv')

Изучить общую информацию

In [None]:
df.head(5)

In [None]:
df.info()

Посчитать количество уникальных названий заведений

In [None]:

df['name'].nunique()

В датасете у нас 5512 уникальных названия заведений. Столбцы name, category, address, district, hours, price и avg_bill имеют подходящий тип данных object, так как они описывают информацию о заведении. Столбцы lat, lng, rating, middle_avg_bill, middle_coffee_cup имеют подходящий тип данных float, так как значения в этих столбцах выражаются рациональными числами. Столбец chain имеет подходящий тип данных int, так как выражается целыми чилами. Столбцу seats имеет тип данных float, но ему больше подходит int, т.к. количество сидяцих мест может быть только целым числом. Так же нужно будет перевести столбцы с названиями, адресом и средней стоимостью заказа в нижний регистр. В данных есть пропуски, что с ними делать-разберемся в следующей части.

## Предобработка данных

Перевести столбцы с названиями, адресом и средней стоимостью заказа в нижний регистр

In [None]:
df['name'] = df['name'].str.lower()
df['address'] = df['address'].str.lower()
df['avg_bill'] = df['avg_bill'].str.lower()

Проверить, что всё правильно перевелось

In [None]:
df.head(5)

Проверить на наличие явных дубликатов

In [None]:
df.duplicated().sum()

Проверить на наличие не явных дубликатов

Дубликатами будем считать совпадения в столбцах с названием и адресом

In [None]:
df.duplicated(subset = ['name', 'address']).sum()

Удалить совпадения в столбцах с названием и адресом

In [None]:
df = df.drop_duplicates(subset = ['name', 'address'])

Проверить, удалились ли совпадения в столбцах с названием и адресом

In [None]:
df.duplicated(subset = ['name', 'address']).sum()

Посчитать пропуски

In [None]:
df.isna().sum()

<div class="alert alert-info">
<b> Данная таблица не нуждается в сортировке. В примерах данных в Практикуме ранее, данная таблица не сортировалась ;)</b> 
</div>

In [None]:
df.shape


Пропусков очень много, просто удалить их не получится, но заполнять их не корректно. Столбцы hours и seats содержат индивидуальную информацию о заведение. Ресурсов и возможностей восполнить её мы не имеем. Значения в столбце avg_bill распределены по столбцам middle_avg_bill и middle_coffee_cup. Для ответа на поставленные вопросы эти данные для нас не принципиальны, по этому принимаю решение оставить данные как есть.

Создать столбец street с названиями улиц из столбца с адресом

In [None]:
#отобрать значение между запяттыми методом split()
df['street'] = df['address'].str.split(',').str[1]

Создать столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7)

In [None]:
df['is_24_7'] = df['hours'] == 'ежедневно, круглосуточно'

Проверить результат добавления столбцов

In [None]:
df.head(5)

В процессе предобработки были переведены столбцы с названиями, адресом и средней стоимостью заказа в нижний регистр. Обнаружены и удалены не явные дубликаты в столбцах с названием и адресом. Рассмотрелы пропуски в данных и было принято решение оставить их без изменения. Так же были созданы столбцы street с названиями улиц из столбца с адресом, а так же is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7).

## Анализ данных

###  Исследовать количество объектов общественного питания по категориям: рестораны, кофейни, пиццерии, бары и так далее. Построим визуализации.

In [None]:
category_count = df.pivot_table(index = 'category', values = 'name', aggfunc = 'count')\
.sort_values(by = 'name', ascending = False)
category_count.plot(kind = 'bar', figsize=(9, 6))
plt.title('Распределение заведений по категориям')
plt.ylabel('Количество заведений')
plt.xlabel('Категории')
plt.xticks(rotation = 45)
plt.grid()
plt.show()

Больше всего в Москве объектов общественного питания категории "кафе". На втором месте - "рестораны", на третьем - "кофейни". Категория - "булочная" самая малочисленная.

### Исследовать количество посадочных мест в местах по категориям: рестораны, кофейни, пиццерии, бары и так далее. Построить визуализации. Проанализировать результаты и сделать выводы

Кол-во посадочных мест посчитаем по медианному значению

In [None]:
df.pivot_table(index = 'category', values = 'seats', aggfunc = 'median').sort_values(by = 'seats', ascending = False).plot(kind = 'bar', figsize=(10, 7))
plt.title('График количества сидячих мест по категириям')
plt.ylabel('Медианное количество сидячих мест')
plt.xlabel('Категории')
plt.xticks(rotation = 45)
plt.grid()
plt.show()

Наибольшее медианное количество посадочных мест - в ресторанах, барах и кофейнях (80-90). Меньше всего - в булочных (50). Медианное количество посадочных мест в приниципе по категориям находится в диапазоне от 50 до 90. 

### Рассмотреть и изобразить соотношение сетевых и несетевых заведений в датасете. Каких заведений больше?

In [None]:
chain = df.pivot_table(index = 'chain', values = 'name', aggfunc = 'count').sort_values(by = 'name', ascending = False).reset_index()
chain.columns = ['chain', 'count']
fig = go.Figure(data=[go.Pie(labels=chain['chain'], values=chain['count'])])
fig.update_layout(title='Соотношение "сетевых" и "несетевых" заведений')
fig.show()

0 - несетевые. 1 - сетевые. Большая часть заведений общественного питания - несетевые (62 %), сетевых заведений 38 %.

### Какие категории заведений чаще являются сетевыми? Исследуйте данные и ответьте на вопрос графиком.

Посчитать долю сетевых заведений по категориям и сохранить в переменную share_by_category

In [None]:
share_by_category = df.groupby('category')\
      .agg({'chain': 'mean'})\
      .sort_values(by='chain', ascending=False)\
      .reset_index()

share_by_category['chain'] = round(share_by_category['chain'],2)      
share_by_category   

In [None]:
fig = px.bar(share_by_category, x='category', y='chain', color='chain', text ='chain')
fig.update_layout(title='Доля сетевых заведений по категориям',
                  xaxis_title="Категории",
                  yaxis_title="Доля сетевых заведений")
                  
fig.show()

Чаще всего являются сетевыми булочные - 61%, пиццерий и кофеин - сетевых и несетевых примерно поровну; заведения быстрого питания, рестораны, кафе, столовые, бары, пабы - чаще являются несетевыми.

### Сгруппировать данные по названиям заведений и найдите топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе. Постройте подходящую для такой информации визуализацию. Знакомы ли вам эти сети? Есть ли какой-то признак, который их объединяет? К какой категории заведений они относятся?

Получить топ-15 популярных сетей (по количеству заведений) и сохранить в переменную top_15.

In [None]:
top_15 = df.query('chain == 1').groupby(['name', 'category'], as_index = False)['lat']\
  .count().sort_values(by='lat', ascending=False).head(15)
top_15

In [None]:
# используем стиль dark из библиотеки seaborn
sns.set_style('darkgrid')
# назначаем размер графика
plt.figure(figsize=(10, 6))
# строим столбчатый график средствами seaborn
sns.barplot(x='lat', y='name', data=top_15, hue='category')
# формируем заголовок графика и подписи осей средствами matplotlib
plt.title('Топ-15 популярных сетей в Москве')
plt.xlabel('Количество заведений одной сети')
plt.ylabel('Название')
# выбираем положение легенды и указываем размер шрифта
plt.legend(loc='lower right', fontsize=12)
# добавляем сетку
plt.grid()
# отображаем график на экране
plt.show()

Кофейня Шоколадница (120 заведений в регионе) является явным лидером среди сетей. Больше всего заведений сети принадлежит категории кофейня. Шоколадница, так же как и прочие заведения, на слуху у большинства людей.

### Какие административные районы Москвы присутствуют в датасете? Отобразите общее количество заведений и количество заведений каждой категории по районам. Попробуйте проиллюстрировать эту информацию одним графиком.

Построить распределение заведений по административным районам без разделения по категориям

In [None]:
district = df.pivot_table(index = 'district', values = 'name', aggfunc = 'count')\
.sort_values(by = 'name', ascending = False).reset_index()
district

Визуализировать с учётом разделения на категории

In [None]:
district_per_category = df.groupby(['district', 'category']).agg(count=('category', 'count')).reset_index()
fig = px.bar(district_per_category.sort_values(by='count', ascending=False), 
             x='district', 
             y='count', 
             color='category')
fig.update_layout(title='Количество заведений каждой категории по районам',
                  xaxis_title='Район',
                  yaxis_title='Количество заведений',
                  height=800,
                  width=1000,
                  xaxis={'categoryorder':'total descending'})
fig.show()

Больше всего заведений находится в Центральном административном округе. В прочих округах кол-во примерно в 3 раза ниже. Северо-Западном округе имеет меньше всего точек общественного питания.
В Центральном администативном округе большую часть заведений составляют рестораны, затем следуют кафе, кофейни и бары. В других округах большую часть заведений составляют кафе. 

### Визуализировать распределение средних рейтингов по категориям заведений. Сильно ли различаются усреднённые рейтинги в разных типах общепита?

In [None]:
ratings = df.groupby('category').agg(mean_rating=('rating','mean')).sort_values(by='mean_rating',ascending=False).reset_index()
plt.figure(figsize=(10, 6))
sns.barplot(x='category', y='mean_rating', data=ratings) 
plt.title('Средний рейтинг заведений по категориям')
plt.xlabel('Категория')
plt.ylabel('Средний рейтинг')
plt.xticks(rotation=45)
plt.ylim(3.8, 4.5)
plt.grid()
plt.show()

Категория заведений "бар, паб"(около 4.4) занимает первое место. На втором месте пиццерии(около 4.3). На третьем месте рестораны(чуть ниже 4.3). Худший рейтинг у заведений быстрого питания(примерно 4.05).

### Построить фоновую картограмму (хороплет) со средним рейтингом заведений каждого района.

Создать таблицу с округами и средним рейтингом заведений по районам

In [None]:
district_ratings = df.groupby('district').agg(mean_rating=('rating', 'mean')).\
sort_values(by='mean_rating', ascending=False).reset_index()
district_ratings

Загрузить JSON-файл с границами округов Москвы

In [None]:
try:
    state_geo = 'https://code.s3.yandex.net/data-analyst/admin_level_geomap.geojson'
except:
    state_geo = '/datasets/admin_level_geomap.geojson'
    
# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=district_ratings,
    columns=['district', 'mean_rating'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.5,
    legend_name='Медианный рейтинг заведений по районам',
).add_to(m)

# выводим карту
m

Самый высокий средний рейтинг - у заведений Центрального административного округа (около 4.38). Самые низкие средние рейтинги - у Юго-Восточного административных округов (4.1). У заведений остальных округов средний рейтинг в диапазоне от 4.14 до 4.24

### Отобразите все заведения датасета на карте с помощью кластеров средствами библиотеки folium.

In [None]:
# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
df.apply(create_clusters, axis=1)

# выводим карту
m

### Найти топ-15 улиц по количеству заведений. Построить график распределения количества заведений и их категорий по этим улицам.

Найти топ 15 улиц по количеству заведений без деления по категориям

In [None]:
top_street = df.pivot_table(index = 'street', values = 'name', aggfunc = 'count')\
.sort_values(by = 'name', ascending = False).reset_index().head(15)
top_street

Записать топ улицы в переменную street

In [None]:
street = top_street['street']
#теперь можно делить на категории
street_per_category = df.query("street in @street").groupby(['street', 'category'])\
.agg(count=('category', 'count')).reset_index()
fig = px.bar(street_per_category.sort_values(by='count', ascending=False), 
             x='street', 
             y='count', 
             color='category')
fig.update_layout(title='Количество заведений каждой категории по районам',
                  xaxis_title='Район',
                  yaxis_title='Количество заведений',
                  height=800,
                  width=1000,
                  xaxis={'categoryorder':'total descending'})
fig.show()

Пр-к Мира явно лидирует по кол-ву заведений (более 180). На этой улице самые популярные категории - кафе, рестораны, кофейни. Последняя в топе - Пятницкая улица (48 заведений). В целом, категория кафе и рестораны на 15 самых популярных улицах практически равны. На МКАД категория кафе явно доминирует. Скорей всего люди на этой улице проездом, и их задача быстро поесть. По этому данный формат заведений там так популярен.

### Найти улицы, на которых находится только один объект общепита. Что можно сказать об этих заведениях?

In [None]:
street_one_place = df.pivot_table(index = 'street', values = 'name', aggfunc = 'count').query("name == 1").reset_index()
onlyone_street = street_one_place['street']
df_onlyone_street = df.query("street in @onlyone_street")
df_onlyone_street.head(5)

In [None]:
df_onlyone_street.shape

Всего 457 заведений. 

Посмотрим, как они распределены по категориям

In [None]:
df_onlyone_street.pivot_table(index = 'category', values = 'name', aggfunc = 'count')\
.sort_values(by = 'name', ascending = False).plot(kind = 'bar', figsize=(10, 7))
plt.title('Распределение заведений по категориям')
plt.ylabel('Количество заведений')
plt.xlabel('Категории')
plt.xticks(rotation = 45)
plt.grid()
plt.show()

Категория кафе в явных лидерах. В отличие от общего среза, рестораны и прочие категории значительно отстают. Категория булочная на последнем месте.

Посмотрим, какое распределение таких заведений по районам.

In [None]:
district_onlyone = df_onlyone_street.pivot_table(index = 'district', values = 'name', aggfunc = 'count')\
.sort_values(by = 'name', ascending = False).reset_index()
plt.figure(figsize=(10, 6))
sns.barplot(x = 'district', y = 'name', data = district_onlyone)
plt.title('Распределение заведений по административным районам')
plt.xlabel('Административный район')
plt.ylabel('Количество заведений')
plt.xticks(rotation = 90)
plt.show()

Лидирует, как и в целом, Центральном административном округе. А вот последнее место занимает тут уже Юго-Западный административный округ, а Северо-Западный административный округ тут на втором месте (По всем заведениям было наоборот-последним был по кол-ву заведений был Северо-Западный административный округ)

Узнать, какое соотношение сетевых и не сетевых заведений

In [None]:
chain_onlyone = df.pivot_table(index = 'chain', values = 'name', aggfunc = 'count')\
.sort_values(by = 'name', ascending = False).reset_index()
chain_onlyone.columns = ['chain', 'count']
fig = go.Figure(data=[go.Pie(labels=chain_onlyone['chain'], values=chain_onlyone['count'])])
fig.update_layout(title='Соотношение "сетевых" и "несетевых" заведений')
fig.show()

Пропорции по сравнению с общим распределением не изменились (38.1% и 61.9% для не сетевых и сетевых заведений соответственно)

Визуализировать с учётом разделения на категории и округа на одном графике. 

In [None]:
district_per_category = df_onlyone_street.groupby(['district', 'category']).agg(count=('category', 'count')).reset_index()
fig = px.bar(district_per_category.sort_values(by='count', ascending=False), 
             x='district', 
             y='count', 
             color='category')
fig.update_layout(title='Количество заведений каждой категории по районам',
                  xaxis_title='Район',
                  yaxis_title='Количество заведений',
                  height=800,
                  width=1000,
                  xaxis={'categoryorder':'total descending'})
fig.show()

В целом, про заведения которые находятся на улице в единственном числе можно сказать следующее:
- Всего таких 457 штук
- Категория кафе в явных лидерах. В отличие от общего среза, рестораны и прочие категории значительно отстают. Категория булочная на последнем месте
- Лидирует, как и в целом, Центральном административном округе. А вот последнее место занимает тут уже Юго-Западный административный округ, а Северо-Западный административный округ тут на втором месте (По всем заведениям было наоборот-последним был по кол-ву заведений был Северо-Западный административный округ)
- Пропорции по сравнению с общим распределением не изменились (38.1% и 61.9% для не сетевых и сетевых заведений соответственно)

### Посчитать медиану столбца middle_avg_bill для каждого района. Используйте это значение в качестве ценового индикатора района. Постройте фоновую картограмму (хороплет) с полученными значениями для каждого района. Проанализируйте цены в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях?

In [None]:
district_median_middle_avg_bill = df.groupby('district').agg(median_middle_avg_bill=('middle_avg_bill', 'median'))\
.sort_values(by='median_middle_avg_bill', ascending=False).reset_index()
district_median_middle_avg_bill

In [None]:
# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=district_median_middle_avg_bill,
    columns=['district', 'median_middle_avg_bill'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Медианный средний чек заведений по районам',
).add_to(m)

# выводим карту
m

Самые высокие средние(медианный) чеки в Центральном и Западном административных округах (1000 руб.), самый низкий - в Юго-Восточном административном округе (450 руб.). В остальных округах средние чеки находится в диапазоне от 500 до 700 руб. В целом, удаленность от центра влияет на средний чек, но не всегда

### Посмотреть есть ли зависимость между рейтингом и средним чеком

In [None]:
df['rating'].describe()

In [None]:
df.plot(x='rating', y='middle_avg_bill', kind='scatter', title='Зависимость между рейтингом и средним чеком',
        ylim=(0, 5000))
plt.xlabel('Рейтинг')
plt.ylabel('Средний чек')
plt.show()

1) Зависимостей между рейтингом и средним чеком найти не удалось
2) Большая часть посетителей ставит высокие оценки. Средняя оценка 4.23 и только четверть посетителей поставили оценку рейтинга менее 4.1 баллов

### Узнать медианный размер чека по категориям

Посмотреть взаимосвязь среднего чека и распределения по категориям заведений. Для более лучшей оценки воспользуемся всё таки средним значением чека, а медианой.

In [None]:
df.groupby(['category'])['middle_avg_bill'].median().reset_index().sort_values(by='middle_avg_bill',ascending=False)

Медианный размер чека по категориям самый высокий в барах, и ресторанах. Самый низкий в столовых. Отрыв первых двух категорий от всех прочих значителен (в два раза). Скорей всего, причина кроется в употребление алкоголя в первых двух категориях заведений, а так же, ресторан, бар ходят провести время в определённой атмосфере и общий ценник меню скорее всего там выше. 

### Вывод

- Всего 8402 заведения. 
- Больше всего в Москве объектов общественного питания категории "кафе". На втором месте - "рестораны", на третьем - "кофейни". Категория - "булочная" самая малочисленная. 
- Наибольшее медианное количество посадочных мест - в ресторанах, барах и кофейнях (80-90). Меньше всего - в булочных (50). 
- Медианное количество посадочных мест в приниципе по категориям находится в диапазоне от 50 до 90. 
- Большая часть заведений общественного питания - несетевые (62 %), сетевых заведений 38 %. 
- Чаще всего являются сетевыми булочные - 61%, пиццерий и кофеин - сетевых и несетевых примерно поровну; заведения быстрого питания, рестораны, кафе, столовые, бары, пабы - чаще являются несетевыми. 
- Кофейня Шоколадница (120 заведений в регионе) является явным лидером среди сетей. Больше всего заведений сети принадлежит категории кофейня. Шоколадница, так же как и прочие заведения, на слуху у большинства людей. 
- Всего мы рассматриваем 9 округов: Центральный,  Северный, Южный, Северо-Восточный, Западный, Восточный, Юго-Восточный, Юго-Западный, Северо-Западный. Больше всего заведений находится в Центральном административном округе. В прочих округах кол-во примерно в 3 раза ниже. 
- Северо-Западном округе имеет меньше всего точек общественного питания. В Центральном администативном округе большую часть заведений составляют рестораны, затем следуют кафе, кофейни и бары. В других округах большую часть заведений составляют кафе. 
- Категория заведений "бар, паб"(около 4.4) занимает первое место. На втором месте пиццерии(около 4.3). На третьем месте рестораны(чуть ниже 4.3). Худший рейтинг у заведений быстрого питания(примерно 4.05). 
- Самый высокий средний рейтинг - у заведений Центрального административного округа (около 4.38). Самые низкие средние рейтинги у Юго-Восточного административных округов (4.1). У заведений остальных округов средний рейтинг в диапазоне от 4.14 до 4.24. 
- Пр-к Мира явно лидирует по кол-ву заведений (более 180). На этой улице самые популярные категории - кафе, рестораны, кофейни. Последняя в топе - Пятницкая улица (48 заведений). В целом, категория кафе и рестораны на 15 самых популярных улицах практически равны. На МКАД категория кафе явно доминирует. Скорей всего люди на этой улице проездом, и их задача быстро поесть. По этому данный формат заведений там так популярен.
- В целом, про заведения которые находятся на улице в единственном числе можно сказать следующее: 
Всего таких 457 штук
Категория кафе в явных лидерах. В отличие от общего среза, рестораны и прочие категории значительно отстают. Категория булочная на последнем месте
Лидирует, как и в целом, Центральном административном округе. А вот последнее место занимает тут уже Юго-Западный административный округ, а Северо-Западный административный округ тут на втором месте (По всем заведениям было наоборот-последним был по кол-ву заведений был Северо-Западный административный округ)
Пропорции по сравнению с общим распределением не изменились (38.1% и 61.9% для не сетевых и сетевых заведений соответственно)
​
- Самые высокие средние(медианный) чеки в Центральном и Западном административных округах (1000 руб.), самый низкий - в Юго-Восточном административном округе (450 руб.). В остальных округах средние чеки находится в диапазоне от 500 до 700 руб. В целом, удаленность от центра влияет на средний чек, но не всегда.
- Во время анализа зависимостей между рейтингом и средним чеком найти не удалось 2) Большая часть посетителей ставит высокие оценки. Средняя оценка 4.23 и только четверть посетителей поставили оценку рейтинга менее 4.1 баллов. 
- Медианный размер чека по категориям самый высокий в барах, и ресторанах. Самый низкий в столовых. Отрыв первых двух категорий от всех прочих значителен (в два раза). Скорей всего, причина кроется в употребление алкоголя в первых двух категориях заведений, а так же, ресторан, бар ходят провести время в определённой атмосфере и общий ценник меню скорее всего там выше.
- Зависимостей между рейтингом и средним чеком найти не удалось
- Большая часть посетителей ставит высокие оценки. Средняя оценка 4.23 и только четверть посетителей поставили оценку рейтинга менее 4.1 баллов
- Медианный размер чека по категориям самый высокий в барах, и ресторанах. Самый низкий в столовых. Отрыв первых двух категорий от всех прочих значителен (в два раза). Скорей всего, причина кроется в употребление алкоголя в первых двух категориях заведений, а так же, ресторан, бар ходят провести время в определённой атмосфере и общий ценник меню скорее всего там выше.

## Детализируем исследование: открытие кофейни

Ответьте на следующие вопросы:

1) Сколько всего кофеен в датасете?
2) В каких районах их больше всего, каковы особенности их расположения?
3) Есть ли круглосуточные кофейни?
4) Как круглосуточные кофейни распределены по районам?
5) Какие у кофеен рейтинги? Как они распределяются по районам?
6) На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

Количество кофеен в датасете

In [None]:
df_coffeehouse = df[df['category'] == 'кофейня']
df_coffeehouse.count()[0]

В датасете всего 1413 кофеен.

В каких районах их больше всего, каковы особенности их расположения?

In [None]:
coffee_house = df.query('category== "кофейня"').groupby('district')['name'].count().reset_index()\
.sort_values(by='name',ascending=False)
coffee_house

Больше всего в Центральный административный округ находится 428 кофеен. В прочих районах кофеен значительно меньше. Самое малое кол-во наблюдается в Северо-Западный административный округ - 62.

Построим график, что бы визуально лучше представлять, сколько кофеен в каком округе. 

In [None]:
coffee_house_plt = df_coffeehouse.pivot_table(index = 'district', values = 'name', aggfunc = 'count')\
.sort_values(by = 'name', ascending = False)
coffee_house_plt.plot(kind = 'bar', figsize=(10, 6))
plt.title('Распределение кофеен по районам')
plt.ylabel('Количество заведений')
plt.xlabel('Районы')
plt.xticks(rotation = 90)
plt.grid()
plt.show()

Есть ли круглосуточные кофейни?

In [None]:
coffeehouse_24_7 = df_coffeehouse[df_coffeehouse['is_24_7'] == True]
coffeehouse_24_7.count()[0]

Всего обнаружено 59 кофеен

Как круглосуточные кофейни распределены по районам?

In [None]:
coffeehouse_24_7_plt = coffeehouse_24_7.pivot_table(index = 'district', values = 'name', aggfunc = 'count')\
.sort_values(by = 'name', ascending = False)
coffeehouse_24_7_plt

В центральном округе больше всего кофеен работает круглосуточно - 26, на втором месте Западный АО. Юго-Восточный и Южный административный округ	меньше всего - по одному.

Построим график, что бы визуально лучше представлять, сколько кофеен в каком округе работает круглосуточно.

In [None]:
coffeehouse_24_7_plt.plot(kind = 'bar', figsize=(10, 6))
plt.title('Распределение кофеен по районам')
plt.ylabel('Количество заведений')
plt.xlabel('Районы')
plt.xticks(rotation = 90)
plt.grid()
plt.show()

Какие у кофеен рейтинги? Как они распределяются по районам?

In [None]:
coffeehouse_rating_district = df_coffeehouse.groupby(['district'])['rating'].mean().reset_index().round(2)\
.sort_values('rating', ascending = False)
coffeehouse_rating_district

В Центральном административном округе средний рейтинг самый высокий - 4.34. Самый низкий в Западном - 4.20

На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

Посмотреть медианную стоимость по АО

In [None]:
df.groupby('district')['middle_coffee_cup'].median()

Посмотреть разброс стоимостей чашки капучино по АО 

In [None]:
sns.boxplot(data=df, x='middle_coffee_cup', y='district', showfliers=False)
plt.title('Разброс стоимостей чашки капучино')
plt.xlabel('Цена чашки капучино')
plt.ylabel('Административный округ')
plt.show()

Стоимость чашка капучино будет зависеть от выбора места. Района и удаленности от центра. В Москве на каждом направление складывается своя уникальная ценовая политика. Можно ориентироваться на медианные значения. При этом нужно учитывать, что даже среди кофеет, существуют условно разные классы (форма организации, дизайн, удаленность от метро, портрет потенциального покупателя). И всё таки, не рекомендовал бы превышать стоимость чашки дороже 350 рублей. Это максимальная граница по всем административным округам не считая выбросов. Исходя из графика можно сказать, что более высокая цена на чашку кофе встречается в Западном и Центральном округе.

Рекомендация: Для открытия кофейни лучше приглядеться к Центральному и Западному округам. В этих районах в среднем и чек выше заведений разного формата, и стоимость чашки кофе чаще всего одна из самых высоких. Так же количество кофеен работающих круглосуточно выше именно в этих округах. Возможно, именно формат 24/7 недооценён.

## Презентация

https://docs.google.com/presentation/d/1GMfZnlclzFtUokQJzvc2H2h5cfXiZdVOEXdCamTwKAI/edit?usp=sharing

## Итоги работы

- В датасете у нас 5512 уникальных названия заведений. Столбцы name, category, address, district, hours, price и avg_bill имеют подходящий тип данных object, так как они описывают информацию о заведении. Столбцы lat, lng, rating, middle_avg_bill, middle_coffee_cup имеют подходящий тип данных float, так как значения в этих столбцах выражаются рациональными числами. Столбец chain имеет подходящий тип данных int, так как выражается целыми чилами. Столбцу seats имеет тип данных float, но ему больше подходит int, т.к. количество сидяцих мест может быть только целым числом. Так же нужно будет перевести столбцы с названиями, адресом и средней стоимостью заказа в нижний регистр. В данных есть пропуски, что с ними делать-разберемся в следующей части.
- Пропусков очень много, просто удалить их не получится, но заполнять их не корректно. Столбцы hours и seats содержат индивидуальную информацию о заведение. Ресурсов и возможностей восполнить её мы не имеем. Значения в столбце avg_bill распределены по столбцам middle_avg_bill и middle_coffee_cup. Для ответа на поставленные вопросы эти данные для нас не принципиальны, по этому принимаю решение оставить данные как есть.
- Результаты анализа данных: 
Всего 8402 заведения.
Больше всего в Москве объектов общественного питания категории "кафе". На втором месте - "рестораны", на третьем - "кофейни". Категория - "булочная" самая малочисленная.
Наибольшее медианное количество посадочных мест - в ресторанах, барах и кофейнях (80-90). Меньше всего - в булочных (50).
Медианное количество посадочных мест в приниципе по категориям находится в диапазоне от 50 до 90.
Большая часть заведений общественного питания - несетевые (62 %), сетевых заведений 38 %.
Чаще всего являются сетевыми булочные - 61%, пиццерий и кофеин - сетевых и несетевых примерно поровну; заведения быстрого питания, рестораны, кафе, столовые, бары, пабы - чаще являются несетевыми.
Кофейня Шоколадница (120 заведений в регионе) является явным лидером среди сетей. Больше всего заведений сети принадлежит категории кофейня. Шоколадница, так же как и прочие заведения, на слуху у большинства людей.
Всего мы рассматриваем 9 округов: Центральный, Северный, Южный, Северо-Восточный, Западный, Восточный, Юго-Восточный, Юго-Западный, Северо-Западный. Больше всего заведений находится в Центральном административном округе. В прочих округах кол-во примерно в 3 раза ниже.
Северо-Западном округе имеет меньше всего точек общественного питания. В Центральном администативном округе большую часть заведений составляют рестораны, затем следуют кафе, кофейни и бары. В других округах большую часть заведений составляют кафе.
Категория заведений "бар, паб"(около 4.4) занимает первое место. На втором месте пиццерии(около 4.3). На третьем месте рестораны(чуть ниже 4.3). Худший рейтинг у заведений быстрого питания(примерно 4.05).
Самый высокий средний рейтинг - у заведений Центрального административного округа (около 4.38). Самые низкие средние рейтинги у Юго-Восточного административных округов (4.1). У заведений остальных округов средний рейтинг в диапазоне от 4.14 до 4.24.
Пр-к Мира явно лидирует по кол-ву заведений (более 180). На этой улице самые популярные категории - кафе, рестораны, кофейни. Последняя в топе - Пятницкая улица (48 заведений). В целом, категория кафе и рестораны на 15 самых популярных улицах практически равны. На МКАД категория кафе явно доминирует. Скорей всего люди на этой улице проездом, и их задача быстро поесть. По этому данный формат заведений там так популярен.
В целом, про заведения которые находятся на улице в единственном числе можно сказать следующее: Всего таких 457 штук Категория кафе в явных лидерах. В отличие от общего среза, рестораны и прочие категории значительно отстают. Категория булочная на последнем месте Лидирует, как и в целом, Центральном административном округе. А вот последнее место занимает тут уже Юго-Западный административный округ, а Северо-Западный административный округ тут на втором месте (По всем заведениям было наоборот-последним был по кол-ву заведений был Северо-Западный административный округ) Пропорции по сравнению с общим распределением не изменились (38.1% и 61.9% для не сетевых и сетевых заведений соответственно)​
Самые высокие средние(медианный) чеки в Центральном и Западном административных округах (1000 руб.), самый низкий - в Юго-Восточном административном округе (450 руб.). В остальных округах средние чеки находится в диапазоне от 500 до 700 руб. В целом, удаленность от центра влияет на средний чек, но не всегда.
Во время анализа зависимостей между рейтингом и средним чеком найти не удалось 2) Большая часть посетителей ставит высокие оценки. Средняя оценка 4.23 и только четверть посетителей поставили оценку рейтинга менее 4.1 баллов.
Медианный размер чека по категориям самый высокий в барах, и ресторанах. Самый низкий в столовых. Отрыв первых двух категорий от всех прочих значителен (в два раза). Скорей всего, причина кроется в употребление алкоголя в первых двух категориях заведений, а так же, ресторан, бар ходят провести время в определённой атмосфере и общий ценник меню скорее всего там выше.
Зависимостей между рейтингом и средним чеком найти не удалось
Большая часть посетителей ставит высокие оценки. Средняя оценка 4.23 и только четверть посетителей поставили оценку рейтинга менее 4.1 баллов
Медианный размер чека по категориям самый высокий в барах, и ресторанах. Самый низкий в столовых. Отрыв первых двух категорий от всех прочих значителен (в два раза). Скорей всего, причина кроется в употребление алкоголя в первых двух категориях заведений, а так же, ресторан, бар ходят провести время в определённой атмосфере и общий ценник меню скорее всего там выше.
​
- Рекомендация: Для открытия кофейни лучше приглядеться к Центральному и Западному округам. В этих районах в среднем и чек выше заведений разного формата, и стоимость чашки кофе чаще всего одна из самых высоких. Так же количество кофеен работающих круглосуточно выше именно в этих округах. Возможно, именно формат 24/7 недооценён.