## Проектная работа
**Исследование рынка заведений общественного питания Москвы. Открытие кофейни.**

## Описание проекта

Заказчики решили попробовать себя в новой области и открыть заведение общественного питания в Москве. Заказчики ещё не знают, что это будет за место: кафе, ресторан, пиццерия, паб или бар, — и какими будут расположение, меню и цены.

## Задачи
подготовить исследование рынка Москвы, найти интересные особенности и презентовать полученные результаты, которые в будущем помогут в выборе подходящего инвесторам места.

## Данные
Доступен датасет с заведениями общественного питания Москвы. Частично информация могла быть добавлена пользователями или найдена в общедоступных источниках.

## План работ

### 1. Загрузка и обзор данных

Изучите общую информацию о датасете. Сколько заведений представлено? Что можно сказать о каждом столбце? Значения какого типа они хранят? 

### 2. Предобработка

**2.1. Поиск и обработка пропусков, дубликатов.**

**2.2. Создание дополнительных колонок.**

   
### 3. Анализ данных

**3.1 Распределение заведений по категориям.**

**3.2. Количество посадочных мест по категориям.**

**3.3. Соотношение сетевых и несетевых заведений в датасете.**

**3.4. Распределение сетевых заведений.**

**3.5. Топ-15 популярных сетей в Москве.**

**3.6. Количество заведений каждой категории по административным районам.**

**3.7. Распределение средних рейтингов по категориям заведений.**

**3.8. Хороплет со средним рейтингом заведений каждого район.**

**3.9. Кластеризация заведений на карте.**

**3.10. Топ-15 улиц по количеству заведений.**

**3.11. Улицы с одним заведением.**

**3.12. Ценовая картограмма. Влияние удалённости от центра на цены.**

**3.13. Промежуточный вывод.**

### 4. Открытие кофейни

Желание заказчика - открыть доступную, как «Central Perk», кофейню в Москве. Заказчики не боятся конкуренции в этой сфере, ведь кофеен в больших городах уже достаточно.

**4.1. Распределение кофеен по районам.**

**4.2. Круглосуточные кофейни.**

**4.3. Рейтинги кофеен по районам.**

**4.4. Стоимость чашки капучино как ориентир.**

### 5. Материалы для коллег (презентация).

### 1. Загрузка и обзор данных.

Начнем с импорта необходимых для работы библиотек

In [1]:
# импортируем библиотеки 
import pandas as pd
import plotly.express as px
from plotly import graph_objects as go
import matplotlib.pyplot as plt
import seaborn as sns
import folium
from folium import Marker, Map, Choropleth
from folium.plugins import MarkerCluster
from folium.features import CustomIcon
import json

Загружаем данные.

In [2]:
data = pd.read_csv('C:/Users/79998/Documents/daqw/moscow_places.csv')

Выведем первые строки для обзора.

In [3]:
data.head(3)

Unnamed: 0,name,category,address,district,hours,lat,lng,rating,price,avg_bill,middle_avg_bill,middle_coffee_cup,chain,seats
0,WoWфли,кафе,"Москва, улица Дыбенко, 7/1",Северный административный округ,"ежедневно, 10:00–22:00",55.878494,37.47886,5.0,,,,,0,
1,Четыре комнаты,ресторан,"Москва, улица Дыбенко, 36, корп. 1",Северный административный округ,"ежедневно, 10:00–22:00",55.875801,37.484479,4.5,выше среднего,Средний счёт:1500–1600 ₽,1550.0,,0,4.0
2,Хазри,кафе,"Москва, Клязьминская улица, 15",Северный административный округ,"пн-чт 11:00–02:00; пт,сб 11:00–05:00; вс 11:00...",55.889146,37.525901,4.6,средние,Средний счёт:от 1000 ₽,1000.0,,0,45.0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8406 entries, 0 to 8405
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   name               8406 non-null   object 
 1   category           8406 non-null   object 
 2   address            8406 non-null   object 
 3   district           8406 non-null   object 
 4   hours              7870 non-null   object 
 5   lat                8406 non-null   float64
 6   lng                8406 non-null   float64
 7   rating             8406 non-null   float64
 8   price              3315 non-null   object 
 9   avg_bill           3816 non-null   object 
 10  middle_avg_bill    3149 non-null   float64
 11  middle_coffee_cup  535 non-null    float64
 12  chain              8406 non-null   int64  
 13  seats              4795 non-null   float64
dtypes: float64(6), int64(1), object(7)
memory usage: 919.5+ KB


**Вывод:**
1. В датасете представлено 8406 заведений
2. На первый взгляд типы данных соответствуют содержанию столбцов. Данных достаточно для проведения полноценного анализа.

### 2. Предобработка

#### 2.1. Поиск и обработка пропусков, дубликатов.

In [5]:
data.duplicated().sum()

0

In [6]:
data['name'] = data['name'].str.lower()
data.duplicated().sum()

0

In [7]:
data['address'] = data['address'].str.lower()
data.duplicated().sum()

0

In [8]:
data['name'].value_counts().head(20)

кафе                                   189
шоколадница                            120
домино'с пицца                          77
додо пицца                              74
one price coffee                        72
яндекс лавка                            69
cofix                                   65
prime                                   50
хинкальная                              44
шаурма                                  43
кофепорт                                42
кулинарная лавка братьев караваевых     39
теремок                                 38
чайхана                                 37
ресторан                                34
буханка                                 32
cofefest                                32
столовая                                28
му-му                                   27
drive café                              24
Name: name, dtype: int64

In [9]:
data['address'].value_counts().head(20)

москва, проспект вернадского, 86в          28
москва, усачёва улица, 26                  26
москва, площадь киевского вокзала, 2       20
москва, ярцевская улица, 19                20
москва, пресненская набережная, 2          16
москва, проспект мира, 211к2               16
москва, щёлковское шоссе, вл75             16
москва, каширское шоссе, 61г               16
москва, лесная улица, 20, стр. 3           16
москва, хорошёвское шоссе, 27              16
москва, профсоюзная улица, 56              15
москва, проспект мира, 211, корп. 2        15
москва, улица авиаконструктора миля, 3а    15
москва, улица вавилова, 64/1с1             14
москва, мытная улица, 74                   14
москва, улица вавилова, 3                  14
москва, проспект вернадского, 86а          12
москва, электродная улица, 2, стр. 32      11
москва, щукинская улица, 42                11
москва, хабаровская улица, 15              11
Name: address, dtype: int64

In [10]:
test_1 = data[data['address'] == 'москва, проспект вернадского, 86в']
test_1['name'].value_counts().head(5)

паrk фудхолл              1
i need doner              1
вафли, крепы, два яйца    1
бургер кинг               1
plov.com                  1
Name: name, dtype: int64

Сделаем еще одну проверку на неявные дубликаты.

In [11]:
c_list = ['name', 'address']
data.duplicated(subset=c_list).sum()

4

Нашли 4 возможных неявных дубликата у которых совпадает название и адрес

In [12]:
c_list = ['name', 'lat', 'lng']
data.duplicated(subset=c_list).sum()

1

Нашли 1 возможный неявный дубликат где совпадает название и координаты

Проверим все столбцы, кроме названия.

In [13]:
c_list = data.columns.values.tolist()
c_list
c_list = [
 'category',
 'address',
 'district',
 'hours',
 'lat',
 'lng',
 'rating',
 'price',
 'avg_bill',
 'middle_avg_bill',
 'middle_coffee_cup',
 'chain',
 'seats',
 'street',
 'is_24/7']

In [14]:
data.duplicated(subset=c_list).sum()

KeyError: Index(['is_24/7', 'street'], dtype='object')

In [None]:
data.query('chain == 1')['name'].value_counts().tail(10)

Допускаю, что могут быть некоторые некорректные названия заведений, отличающихся скажем латинским или русским написанием. В целях нашего исследования допускается, что в данных нет неявных дубликатов. Этот момент согласован с заказчиком.

Таким образом данных отсутвтуют явные и неявные дубликаты.

In [None]:
data.isna().sum()

Пропуски в следующих столбцах:
1. **hours (информация о днях и часах работы)** - заполнить нечем

2. **price (категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее)** - можно заполнить единообразно для известных кафе с одинаковым названием. Пока в этом нет необходимости.

3. **avg_bill (строка, которая хранит среднюю стоимость заказа в виде диапазона, например)** - можно заполнить аналогично столбцу price, но пока не будем этого делать.

4. **middle_avg_bill (число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Средний счёт»)** - пропуски там, где в столбце avg_bill нет значения или оно не начинается с подстроки «Средний счёт». Оставляем как есть.

5. **middle_coffee_cup (число с оценкой одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Цена одной чашки капучино»)** - пропуски там, где в столбце avg_bill нет значения или оно не начинается с подстроки «Цена одной чашки капучино». Оставляем как есть.

6. **seats (количество посадочных мест)** - можно было бы заполнить медианой в зависимости от категории. Пока не будем это делать.

#### Вывод: 
* В данных отсутвтуют явные и неявные дубликаты.
* Некоторые пропуски мы можем заполнить, но на данном этапе не будем этого делать

#### 2.1. Создание дополнительных колонок.

Создадим колонку с названием улицы.

In [None]:
def street(address):
    street = address.split(', ')
    return street[1]

In [None]:
data['street'] = data['address'].apply(street)

In [None]:
data['street'].value_counts().sort_values(ascending = True).head(20)

In [None]:
data.head(1)

Столбец создан

Теперь создадим колонку с категорией заведения по времени работы.

- логическое значение True — если заведение работает ежедневно и круглосуточно;
- логическое значение False — в противоположном случае.

In [None]:
data['hours'].value_counts().head(20)

In [None]:
def tf(hours):
    if hours == 'ежедневно, круглосуточно':
        return True
    else:
        return False

In [None]:
data['is_24/7'] = data['hours'].apply(tf)

In [None]:
data['is_24/7'].value_counts()

Столбец создан

### 3. Анализ данных

#### 3.1 Распределение заведений по категориям.

In [None]:
cat = data.groupby('category').agg({'name' : 'count'}).sort_values(by='name', ascending = False)
cat.reset_index(inplace= True)
cat.columns = ['category', 'count']
fig = px.bar(cat, x='category', y='count', title='Распределение заведений по категориям', text='count')
fig.update_layout(xaxis_title = 'Категория', yaxis_title = 'Количество заведений')
fig.update_xaxes(tickangle=45)
fig.show()

**Вывод:** В топ-3 категории входят кафе, рестораны и кофейни. Меньше всего булочных, столовых и заведений категории "быстрое питание".

#### 3.2. Количество посадочных мест по категориям.**

In [None]:
data['seats'].value_counts()

Для анализа количества посадочных мест в местах по категориям расчитаем медианное количество мест

In [None]:
catt = data.groupby('category').agg({'seats' : 'median'}).sort_values(by='seats', ascending = False)
catt.reset_index(inplace= True)
catt.columns = ['category', 'count']
fig = px.bar(catt, x='category', y='count', title='Медианное количество посадочных мест по категориям', text='count')
fig.update_layout(xaxis_title = 'Категория', yaxis_title = 'Медианное количество мест')
fig.update_xaxes(tickangle=45)
fig.show() 

Как правило больше всего посадочных мест в ресторанах, барах и кофейнях. Меньше всего в булочных, пиццериях и кафе.

Посмотрим на распределение количества посадочных мест по категориям. Построим диаграмму рассеяния.

In [None]:
plt.figure(figsize=(16, 6))
sns.stripplot(x='category', y='seats', data=data)
plt.title('Распределение количества посадочных мест по категориям')
plt.xlabel('Категория')
plt.ylabel('Количество посадочных мест')
plt.show()

**Вывод:** Как правило больше всего посадочных мест в ресторанах, барах и кофейнях. Меньше всего в булочных, пиццериях и кафе.

#### 3.3. Соотношение сетевых и несетевых заведений в датасете.

In [None]:
data['chain'].value_counts()

Больше всего не сетевых заведений.

Построим круговую диаграмму.

In [None]:
df_rooms = pd.DataFrame(data['chain'].value_counts()).reset_index()
# строим диаграмму с сегментами
fig = go.Figure(data=[go.Pie(labels=df_rooms['index'], # указываем значения, которые появятся на метках сегментов
                             values=df_rooms['chain'], # указываем данные, которые отобразятся на графике
                             pull = [0.1, 0])]) # добавляем аргумент, который выделит сегмент-лидер на графике
fig.update_layout(title='Соотношение количества сетевых и несетевых заведений', # указываем заголовок графика
                  width=800, # указываем размеры графика
                  height=600,
                  annotations=[dict(x=1.12, # вручную настраиваем аннотацию легенды
                                    y=1.05,
                                    text='0 - несетевое, 1 - сетевое',
                                    showarrow=False)])
fig.show() # выводим график

***Вывод:*** Больше всего не сетевых заведения. Они составляют 61.9 % от всех заведений.

#### 3.4. Распределение сетевых заведений.

Сначала посчитаем количество сетевых

In [None]:
qwer = data.query('chain == 1').groupby('category').agg({'name' : 'count'}).sort_values(by='name', ascending = False)
qwer.reset_index(inplace= True)
qwer.columns = ['category', 'count_chain']

Затем несетевых

In [None]:
qwer1 = data.query('chain == 0').groupby('category').agg({'name' : 'count'}).sort_values(by='name', ascending = False)
qwer1.reset_index(inplace= True)
qwer1.columns = ['category', 'count_no_chain']

Объединяем таблички и строим график.

In [None]:
chain_data = qwer.merge(
qwer1,
on='category',
how='inner'
)
chain_data['total'] = chain_data['count_chain'] + chain_data['count_no_chain']
chain_data['chane_share'] = round(chain_data['count_chain'] / chain_data['total'] * 100, 1)
chain_data = chain_data.sort_values(by='chane_share', ascending = False)

fig = px.bar(chain_data, x='category', y='chane_share', title='Доли сетевых заведений по категориям', text='chane_share')
fig.update_layout(xaxis_title = 'Категория', yaxis_title = 'Доля (%) сетевых среди всех заведений категории')
fig.update_xaxes(tickangle=45)
fig.show()

***Вывод:*** Чаще всего сетевыми заведениями являются булочные, пиццерии и кофейни. Реже - кафе, столовые и бары.

#### 3.5. Топ-15 популярных сетей в Москве.

In [None]:
heh = data.groupby('name').agg({'district' : 'count'}).sort_values(by='district', ascending = False).head(15)
heh

Видим что тут затесались безликие заведения с названием "кафе", "шаурма", "ресторан", "столовая". Исключим их из нашего топ-15.

In [None]:
chain_dff = data.query('chain == 1')
top_15 = chain_dff.query('name not in ("кафе", "шаурма", "ресторан", "столовая")').groupby('name')\
                  .agg({'district' : 'count'}).sort_values(by='district', ascending = False).head(15)
top_15.reset_index(inplace= True)
top_15.columns = ['name', 'count']
fig = px.bar(top_15, x='name', y='count', title='Топ-15 популярных сетей в Москве', text='count')
fig.update_layout(xaxis_title = 'Название заведения', yaxis_title = 'Количество заведений')
fig.update_xaxes(tickangle=45)
fig.show()

Посмотрим к каким категориям они относятся

In [None]:
top_list = top_15['name'].tolist()
data.query('name in @top_list')['category'].unique()

In [None]:
top_15_df = data.query('name in @top_list')
top_15_df_1 = top_15_df.groupby('category').agg({'name' : 'count'}).sort_values(by='name', ascending = False)
top_15_df_1.reset_index(inplace= True)
fig = px.bar(top_15_df_1, x='category', y='name', title='Заведения топ-15 сетей по категориям', text='name')
fig.update_layout(xaxis_title = 'Категория', yaxis_title = 'Количество заведений')
fig.update_xaxes(tickangle=45)
fig.show()

***Вывод:*** Судя по всему все сети из топ-15 объединяет наличие доставки еды. 15 популярных заведений относятся ко всем категориям, представленным в датасете. Больше всего кофеен.

#### 3.6. Количество заведений каждой категории по административным районам.

In [None]:
data['district'].value_counts()

В датасете представлено 9 районов. Больше всего заведений расположены в Центральном административном округе.

Посчитаем количество заведений разных категорий по округам.

In [None]:
district_df = data.pivot_table(index='district', values='name', aggfunc='count', columns='category')
district_df.reset_index(inplace= True)
district_df['общее'] = (district_df['бар,паб']+district_df['булочная']+district_df['быстрое питание']+district_df['кафе']\
                        +district_df['кофейня']+district_df['пиццерия']+district_df['ресторан']+district_df['столовая'])
district_df

Построим визуализацию.

In [None]:
fig = px.bar(district_df, x="district"\
             , y=["бар,паб", "булочная", "быстрое питание", "кафе", "кофейня", "пиццерия", "ресторан", "столовая"]\
             , title="Категории заведений по районам")
fig.update_layout(xaxis_title = 'Район', yaxis_title = 'Количество заведений')
fig.show()

***Вывод:*** В датасете представлено 9 районов. Больше всего заведений расположены в Центральном административном округе. В целом соотношение количества заведений по категориям в разных районах - равномерное.

#### 3.7. Распределение средних рейтингов по категориям заведений.

In [None]:
plt.figure(figsize=(16, 6))
sns.stripplot(x='category', y='rating', data=data)
plt.title('Распределение средних рейтингов по категориям заведений')
plt.xlabel('Категория')
plt.ylabel('Средний рейтинг')
plt.show()

Видим, что кафе, рестораны и заведения категории "быстрое питание" имеют самое неоднородное распределение по рейтингу.

In [None]:
data['rating'].describe()

Видим, что медианное значение немного выше чем среднее. Для дальнейшего анализа расчитаем медианное значение.

Построим график, рассчитывая среднее значение.

In [None]:
rat_1 = data.groupby('category').agg({'rating' : 'mean'}).sort_values(by='rating', ascending = False)
rat_1.reset_index(inplace= True)
rat_1.columns = ['category', 'mean_rating']
rat_1['mean_rating'] = rat_1['mean_rating'].round(2) 
fig = px.bar(rat_1,x='category',y='mean_rating',text='mean_rating',\
             title='Усредненный (средний) рейтинг заведений по категориям',range_y=[4, 4.5]) # ограничиваем ось Y)
fig.update_layout(xaxis_title = 'Категория', yaxis_title = 'Средний рейтинг')
fig.update_xaxes(tickangle=45)
fig.show() 

***Вывод:*** усреднённые рейтинги в разных типах общепита немного отличаются. Лидер - бары и пабы. Худшие показатели у кафе и заведений быстрого питания.

#### 3.8. Хороплет со средним рейтингом заведений каждого район.

Сначала рассчитаем средние рейтинги по округам.

In [None]:
rating_df = data.groupby('district', as_index=False)['rating'].agg('mean')
rating_df

Строим хороплет.

In [None]:

# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

try:
    with open("C:/daqw/admin_level_geomap.geojson", 'r', encoding='UTF-8') as f:
        data1 = json.load(f)
except:
    with open('/datasets/admin_level_geomap.geojson', 'r', encoding='UTF-8') as f:
        data1 = json.load(f)

# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=data1,
    data=rating_df,
    columns=['district', 'rating'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Средний рейтинг заведений по районам',
).add_to(m)

# выводим карту
m

***Вывод:*** Самые высокие рейтинги заведений, расположенных в ЦАО. Затем идет северо-восток города: САО и СЗАО. Худшие рейтинги у заведений из ЮВАО. 

#### 3.9. Кластеризация заведений на карте.

In [None]:
# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
data.apply(create_clusters, axis=1)

# выводим карту
m

***Вывод:*** Выбор велик. Большинство заведений как и ожидалось расположено в центре.

#### 3.10. Топ-15 улиц по количеству заведений.

In [None]:
street_df = data.groupby(['street'], as_index=False)['name'].agg('count').sort_values(by='name', ascending=False).head(15)
street_df

В топ-15 протяженные улицы с развитой застройкой.

Сгруппируем срез данных с топ-15 улиц по улице и категории. Затем визуализируем результат.

In [None]:
top_street = street_df['street'].tolist()
top_street_df = data.query('street in @top_street').groupby(['street', 'category'], as_index=False)['name'].agg('count')
top_street_df.head(3)

In [None]:
fig = px.bar(top_street_df, x='street', y='name', color = 'category', barmode = 'group')
fig.update_layout(width = 990, height = 600, title='Распределения количества заведений и их категорий по топ-15 улицам',
                 xaxis_title = 'Улица', yaxis_title = 'Количество заведений')
fig.update_xaxes(tickangle=45)
fig.show()

***Вывод:*** Больше вего кофеен на Проспекте Мира, а также на Ленинградском и Ленинском проспекте. 

#### 3.11. Улицы с одним заведением.

In [None]:
rrr = data.groupby(['street'], as_index=False)['name'].agg('count')
sm_street = rrr.query('name == 1')
sm_street.head(5)

457 улиц, на которых лишь одно заведение. Как правило это небольшие улочки и переулки.

In [None]:
sm_street_list = sm_street['street'].tolist()
top_street_df = data.query('street in @sm_street_list').groupby(['category'], as_index=False)['name'].agg('count')
top_street_df.sort_values(by = 'name', ascending = False)

***Вывод:*** 457 улиц, на которых лишь одно заведение. Чаще остальных этим единственным заведением является кафе.

#### 3.12. Ценовая картограмма. Влияние удалённости от центра на цены.

Сгруппируем данные по округу и расчитаем медианный средний чек.

In [None]:
bill_data = data.groupby('district', as_index=False)['middle_avg_bill']\
                .agg('median').sort_values(by='middle_avg_bill', ascending=False)
bill_data

Строим хороплет.

In [None]:
# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

try:
    with open("C:/daqw/admin_level_geomap.geojson", 'r', encoding='UTF-8') as f:
        data2 = json.load(f)
except:
    with open('/datasets/admin_level_geomap.geojson', 'r', encoding='UTF-8') as f:
        data2 = json.load(f)

# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=data2,
    data=bill_data,
    columns=['district', 'middle_avg_bill'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Медианный средний чек по районам',
).add_to(m)

# выводим карту
m

Посмотрим на распределение средних чеков по округам.

In [None]:
plt.figure(figsize=(16, 10))
sns.stripplot(x='middle_avg_bill', y='district', data=data)
plt.xlim(0, 8000)
plt.title('Распределение среднего чека по районам')
plt.xlabel('Средний чек')
plt.ylabel('Район')
plt.show()

***Вывод:*** Самым дорогим районом является ЦАО и ЗАО.

#### 3.13.  Промежуточный вывод.

### ***Вывод:***
1. Кафе, рестораны и кофейни - самые популярные категории заведений. Их больше всего в Москве.
2. Как правило больше всего посадочных мест в ресторанах, барах и кофейнях. Меньше всего в булочных, пиццериях и кафе.
3. 61.9 % заведений - не сетевые.
4. Чаще всего сетевыми заведениями являются кафе, рестораны и кофейни. Реже - столовые, булочные и бары.
5. Среди самых крупных сетей Москвы много кофеен. Популярны заведения имеющие доставку.
6. Больше всего заведений расположено в ЦАО.
7. Усредненные рейтинги баров и пабов выше, чем у остальных заведений. Худшие показатели у кафе и заведений быстрого питания.
8. Самые высокие рейтинги заведений, расположенных в ЦАО. Затем идет северо-восток города: САО и СЗАО. Худшие рейтинги у заведений из ЮВАО. 
9. Больше вего кофеен на Проспекте Мира, а также на Ленинградском и Ленинском проспекте.
10. Имеется 457 улиц, на которых лишь одно заведение. Чаще остальных этим единственным заведением является кафе.
11. Средний чек центрального округа самый высокий, что не удивительно. Не сильно по цене уступает и Западный округ. Бюджетные заведения легче встретить ЮАО, ЮВАО и СВАО.

### 4. Открытие кофейни.

Желание заказчика - открыть доступную, как «Central Perk», кофейню в Москве. Заказчики не боятся конкуренции в этой сфере, ведь кофеен в больших городах уже достаточно.

#### 4.1. Распределение кофеен по районам.

In [None]:
coffee = data[data['category'] == 'кофейня']
len(coffee['name'])

В датасете 1413 кофеен.

Выведем кластеризацию кофеен по районам.

In [None]:
moscow_lat, moscow_lng = 55.751244, 37.618423

# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
coffee.apply(create_clusters, axis=1)

# выводим карту
m

***Вывод***: Больше всего кофеен в ЦАО. Меньше всего в юго-восточной части города, а также на северо-западе.

#### 4.2. Круглосуточные кофейни.

In [None]:
coffee_24h = coffee[coffee['is_24/7'] == True]
len(coffee_24h)

В москве имеется 59 круглосуточных кофейни.

Посмотрим их расположение на карте.

In [None]:
moscow_lat, moscow_lng = 55.751244, 37.618423

# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
coffee_24h.apply(create_clusters, axis=1)

# выводим карту
m

***Вывод:*** В Москве имеется 59 круглосуточных кофейни. Большинство из них в центральной части города. Очень мало на севере и на юго востоке.

#### 4.3. Рейтинги кофеен по районам.

In [None]:
plt.figure(figsize=(16, 6))
plt.title('Распределение рейтингов кофеен')
plt.xlabel('Рейтинг')
plt.ylabel('Количество кофеен')
coffee['rating'].hist(bins=30)
plt.show()

Большинство кофеен имеет рейтинг от 4 до 4,5

In [None]:
coffee['rating'].describe()

Усредненный рейтинг кофеен ~ 4,3.

Посмотрим на распределение кофеен по районам.

In [None]:
coffee_df = coffee.groupby('district').agg({'name' : 'count'}).sort_values(by='name')
coffee_df.reset_index(inplace= True)
coffee_df

In [None]:
fig = px.bar(coffee_df, x='name', y='district', title='Количество кофеен по районам', text='name')
fig.update_layout(xaxis_title = 'Район', yaxis_title = 'Количество заведений')
fig.update_xaxes(tickangle=0)
fig.show()

***Вывод:*** Большинство кофеен имеет рейтинг от 4 до 4,5. Усредненный рейтинг кофеен ~ 4,3. Больше всего кофеен в ЦАО - 30.3%. За исключением центральной части города, лидер - Северный административный округ (САО). Меньше всего в Северо-Западном административном округе (СЗАО) - 4.39%

#### 4.4. На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

Посмотрим, как соотносится рейтинг заведения с ценой за чашку кофе.

In [None]:
fig = px.scatter(coffee,             # загружаем данные
                 range_x=[0, 400], # ограничиваем ось X
                 range_y=[3.9, 5.1], # ограничиваем ось Y
                 x='middle_coffee_cup', # указываем столбец с данными для оси X
                 y="rating",
                 color='district') # обозначаем категорию для разделения цветом
# оформляем график
fig.update_layout(title='Зависимость рейтинга кофейни от стоимости чашки капучино',
                   xaxis_title='Стоимость чашки капучино',
                   yaxis_title='Рейтинг кофейни')

fig.show() # выводим график

Посчитаем среднюю цену за чашку кофе по столице.

In [None]:
print(f"Cредняя цена за чашку кофе по столице:{round(data['middle_coffee_cup'].mean(), 0)}")

In [None]:
plt.figure(figsize=(16, 6))
plt.title('Распределение цен за чашку кофе')
plt.xlabel('Цена')
plt.ylabel('Количество кофеен')
plt.xlim(0,400)
coffee['middle_coffee_cup'].hist(bins=100)
plt.show()

***Вывод:*** 150 рублей за чашку капучино - хорошее решение при открытии кофейни. При качественном обслуживании и прочих важных для клиентов моментах, это позволит привлечь первых посетителей, удержать их и привлечь новых. Довольно часто кофейни с ценой за чашку капучино от 150 до 200 рублей имеют высокие рейтинги, начиная от 4,5.

## Финальный вывод

1. Кафе, рестораны и кофейни - самые популярные категории заведений. Их больше всего в Москве.
2. Как правило больше всего посадочных мест в ресторанах, барах и кофейнях. Меньше всего в булочных, пиццериях и кафе.
3. 61.9 % заведений - не сетевые.
4. Чаще всего сетевыми заведениями являются булочные, пиццерии и кофейни. Реже - кафе, столовые и бары..
5. Среди самых крупных сетей Москвы много кофеен. Популярны заведения имеющие доставку.
6. Больше всего заведений расположено в ЦАО.
7. Усредненные рейтинги баров и пабов выше, чем у остальных заведений. Худшие показатели у кафе и заведений быстрого питания.
8. Самые высокие рейтинги заведений, расположенных в ЦАО. Затем идет северо-восток города: САО и СЗАО. Худшие рейтинги у заведений из ЮВАО. 
9. Больше вего кофеен на Проспекте Мира, а также на Ленинградском и Ленинском проспекте.
10. Имеется 457 улиц, на которых лишь одно заведение. Чаще остальных этим единственным заведением является кафе.
11. Самым дорогим районом (по величине среднего чека) является ЦАО и ЗАО. 

### Рекомендации по месту открытия кофейни:

В Москве достаточно много кофеен - это третье по популярности (количеству заведений) категория. Большая часть из этих кофеен расположена в ЦАО. В свою очередь заведения, расположенные в ЦАО имеют самые высокие в Москве показатели по величине среднего чека и рейтингу заведения. Однако, учитывая высокую конкуренцию, возможно открытие первой, еще никому ранее не известной кофейни в этом районе будет достаточно рискованным.

Если не рассматривать ЦАО в качестве выбора места открытия кофейни, то следует иметь ввиду, что заведения в ЮВАО имеют худшие рейтинги относительно других округов. Картина в остальных районах достаточно одинаковая, за исключением СЗАО и в особенности САО, где рейтинги выше, относительно других районов не считая ЦАО. Также следует учесть что помимо ЦАО средний чек заведений также высок и в ЗАО. Далее идут САО и СЗАО. Худшие показатели в ЮАО, ЮВАО и СВАО.

Таким образом при выборе места следует найти золотую середину в погоне за отсутствием серьезной конкуренции, показателями среднего чека и среднего рейтинга по регионам. Исходя из планов конкретного соответствующего бизнеса, будет полезно учитывть результаты данного исследования. 

**Предложение:**
Учитывая, что заказчики желают открыть круглосуточную, стилизованную под антураж сериала "Друзья" кофейню, поклонники которого с большой долей вероятности наверняка захотят посетить хотябы раз такую кофейню - неплохим вариантом для открытия является район близ станции метро Таганская. Крупная кольцевая станция метро и оживленный район. Близость к ЦАО(с высоким средним чеком) и ЮВАО (где заведения с низким средним рейтингом). Из круглосуточных кофеен близ станции Таганской есть лишь Шоколадница, которую в свою очередб отличает высокие цены.
При этом ориентироваться стоит на цену одной чашки кофе в диапазоне от 150 до 175 р. (что является средней ценой по Москве).

### 5. Материалы для коллег (презентация).

Презентация: <https://drive.google.com/file/d/1SdcOgK1tP6CRy88UQmg5dgo-kWopOMun/view?usp=sharing>