# Анализ рынка заведений общественного питания Москвы

## Описание проекта:

Мы решили открыть небольшое кафе в Москве. Оно оригинальное — гостей должны обслуживать роботы. Проект многообещающий, но дорогой. Вместе с партнёрами вы решились обратиться к инвесторам. Их интересует текущее положение дел на рынке — сможете ли вы снискать популярность на долгое время, когда все зеваки насмотрятся на роботов-официантов?
Вы — гуру аналитики, и партнёры просят вас подготовить исследование рынка. У вас есть открытые данные о заведениях общественного питания в Москве.

В ходе исследования мы :

 - Исследуем соотношение видов объектов общественного питания по количеству. Построим график.
 - Исследуем соотношение сетевых и несетевых заведений по количеству. Построим график.
 - Узнаем, для какого вида объекта общественного питания характерно сетевое распространение?
 - Узнаем,что характерно для сетевых заведений: много заведений с небольшим числом посадочных мест в каждом или мало заведений    с большим количеством посадочных мест?
 - Для каждого вида объекта общественного питания опишем среднее количество посадочных мест. Узнаем какой вид предоставляет в      среднем  - самое большое количество посадочных мест? Постройте графики.
 - Выделим в отдельный столбец информацию об улице из столбца address .
 - Построем график топ-10 улиц по количеству объектов общественного питания. Воспользуемся внешней информацией и ответим на        вопрос — в каких районах Москвы находятся эти улицы?
 - Найдём число улиц с одним объектом общественного питания. Воспользуемся внешней информацией и ответим на вопрос — в каких      районах Москвы находятся эти улицы?

In [1]:
# устанавливаем библиотеки для получения координат и создания карты
%pip install yandex-geocoder
%pip install folium
%pip install geocoder

Collecting yandex-geocoder
  Downloading yandex_geocoder-2.0.0-py3-none-any.whl (4.5 kB)
Installing collected packages: yandex-geocoder
Successfully installed yandex-geocoder-2.0.0
Note: you may need to restart the kernel to use updated packages.
Collecting folium
  Downloading folium-0.12.1.post1-py2.py3-none-any.whl (95 kB)
     ---------------------------------------- 95.0/95.0 kB 1.3 MB/s eta 0:00:00
Collecting numpy
  Downloading numpy-1.23.3-cp310-cp310-win_amd64.whl (14.6 MB)
     ---------------------------------------- 14.6/14.6 MB 3.3 MB/s eta 0:00:00
Collecting branca>=0.3.0
  Downloading branca-0.5.0-py3-none-any.whl (24 kB)
Installing collected packages: numpy, branca, folium
Successfully installed branca-0.5.0 folium-0.12.1.post1 numpy-1.23.3
Note: you may need to restart the kernel to use updated packages.
Collecting geocoder
  Downloading geocoder-1.38.1-py2.py3-none-any.whl (98 kB)
     ---------------------------------------- 98.6/98.6 kB 1.4 MB/s eta 0:00:00
Collecti

In [2]:
# импорт библиотек
import pandas as pd
import plotly.express as px
import seaborn as sns
from yandex_geocoder import Client
from decimal import Decimal
from io import BytesIO
import requests
import folium
import geocoder

ModuleNotFoundError: No module named 'pandas'

In [None]:
# загрузка датасета
data = pd.read_csv('/datasets/rest_data.csv')

# Описание данных
Таблица rest_data:

id — идентификатор объекта;

object_name — название объекта общественного питания;

chain — сетевой ресторан;

object_type — тип объекта общественного питания;

address — адрес;

number — количество посадочных мест.

In [None]:
# функция для просмотра информации о датафрейме
def first_look (df):
    print('------------- Первые 5 строк ------------')
    display(df.head())
    print()
    print('------------- Типы данных ------------')
    df.info()
    print()
    print('------------- Пропуски ------------')
    count = 0
    for element in df.columns:
        print(element, ' - ', df[element].isna().sum(), 'пропусков')
        count = +1
    if count == 0:
        print()
        print('Дубликатов: ', df.duplicated().sum())
    else:
        print()
        print('Дубликатов НЕТ')

## Предобработка данных

In [None]:
first_look(data)

In [None]:
data['object_type'].unique()

In [None]:
# приведем данные о принадлежности к сети в булевому формату

data.loc[data.chain == 'да',"chain"] = 1
data.loc[data.chain == 'нет',"chain"] = 0

In [None]:
# переименум number в  seat_numbers
data.rename(columns={'number':'seats_number'}, inplace=True)

# переименуем 'предприятие быстрого обслуживания' в 'бистро' и 'магазин (отдел кулинарии)' в 'кулинария'
data.loc[data.object_type == 'предприятие быстрого обслуживания', 'object_type'] = 'бистро'
data.loc[data.object_type == 'магазин (отдел кулинарии)', 'object_type'] = 'кулинария'

In [None]:
# приведем названия в нижний регистр и проверим на дубликаты
data['object_name'] = data['object_name'].str.lower()
data[['object_name','address']].duplicated().sum()

In [None]:
# проверим, что за дубликаты по адресу и названию
data.groupby(['address','object_name']).agg({'id':'count'}).query('id>2')

In [None]:
# Мы обнаружили 225 совпадений названий и адреса, однако это оказались просто общие названия объектов
# по id совпадений нет
data.drop_duplicates(subset = ['object_name','address','id'] ,inplace = True)
data[['object_name','address','id']].duplicated().sum()

In [None]:
# проверим на аномалии по количеству посадочных мест
sns.set(rc={'figure.figsize':(11.7,8.27)})
ax = sns.boxplot(x="object_type", y="seats_number", data=data)
ax.set_xticklabels(ax.get_xticklabels(),rotation=30)

Разберемся, что же скрывается за столь огромным числом посадочных мест в некторых объектах.

In [None]:
print(data.query('seats_number > 700').count())
display(data.query('seats_number > 700'))

Обнаруженные заведения это отели, арены, столовые в вузах, храм христа спасителя, от данных значений мы избавимся.

In [None]:
data = data[data['seats_number'] < 700]

Выводы:
 - Пропусков и явных дубликатов в данных не обнаружено
 - Типы данных соответсвуют необходимым
 - Все названия приведены в нижний регистр
 - Переименовали длинные типы объектов
 - Удалили 9 аномалий

## Анализ данных

### Исследование видов объектов общественного питания

In [None]:
t = data.groupby('object_type').agg('count').sort_values(by = 'id').reset_index()
t['percent'] = t['id']/len(data)*100

fig = px.bar(
    t,
    x='object_type',
    y='id',
    title='Виды объектов общественного питания',
    width=800, height=600,
    text = round(t['percent']).astype(str)+'%'

)

fig.update_layout(
    xaxis_title = "Тип объекта",
    yaxis_title = "Процент от общего количества")

fig.update_xaxes(tickangle=45)
fig.show() 


Выводы:
- Самым популярным типом заведения является кафе
- Самым не популярным - отдел кулинарии в магазине

### Исследование соотношения сетевых и несетевых заведений

In [None]:
t = data.groupby('chain').agg('count').sort_values(by = 'id').reset_index()
print(t)

fig = px.bar(
    t,
    x='object_type',
    y='id',
    title='Сетевые и не сетевые заведения',
    width=500, height=500,
    color = 'chain',
    text = t['id'].astype(str) + [' не сетевых', ' сетевых']
)

fig.update_layout(
    xaxis_title = "Тип объекта",
    yaxis_title = "Общее количество сетевых объектов")

fig.show()


### Для какого вида объекта общественного питания характерно сетевое распространение?

In [None]:
# сгруппируем по типу объекта
t = data.groupby('object_type').agg({'id':'count', 'chain':'sum'}).reset_index()

# посчитаем дою сетевых заведений
t['chain_ratio'] = t['chain']/t['id']*100
t.sort_values(by = 'chain_ratio', ascending = 'False', inplace=True)
print(t)

fig = px.bar(
    t,
    x='object_type',
    y='chain_ratio',
    title='Виды объектов общественного питания',
    height=700,
    text = round(t['chain_ratio'],2).astype(str) + '%'

)
fig.update_layout(
    xaxis_title = "Тип объекта",
    yaxis_title = "Процент сетевых объектов")

fig.update_xaxes(tickangle=45)
fig.update_traces(textposition = 'outside')
fig.show()

Посмотрим, что за объекты скрываются за типом бистро  ("предприятие быстрого обслуживания")

In [None]:
data.query('object_type == "бистро"')['object_name'].sort_values().unique()

Отметим, что в названиях обнаружены неявные дубликаты, например: 'kfc', 'kfc волгоградский', 'kfc.'
Считаем, что это не повлияет на наше исследование.

### Что характерно для сетевых заведений: много заведений с небольшим числом посадочных мест в каждом или мало заведений с большим количеством посадочных мест?

In [None]:
# посчитаем суммарное количество ресторанов в сети и среднее количество посадочных мест
t = data[data['chain'] == 1]
t = (t.groupby('object_name')
     .agg({'id':'count','seats_number':'sum'})
     .reset_index().query('id>1')
     .sort_values(by = 'id', ascending = False))

t['mean_seats'] = t['seats_number']/t['id']
fig = px.line(
    t, x='id', y='mean_seats', title='Зависимость среднего числа мест в ресторане сети от количества ресторанов в сети'
)
fig.show()

In [None]:
p = sns.jointplot(x='id',
                  y='mean_seats',
                  data=t,
                 height = 10)

p.fig.suptitle("Распределение среднего числа мест и количества ресторанов")
p.set_axis_labels('Количество ресторанов в сети', 'Среднее число мест в ресторане', fontsize=10)
p.ax_joint.axvline(x=t['id'].median(), c = 'red', label = 'медиана',ls='--')

In [None]:
# выделим топ крупнейших сетей
t1 = t.head(10)
t1

In [None]:
fig = px.scatter(t1, x='id', y='mean_seats',
    size='seats_number', color='object_name',
    log_x=True, size_max=60)

fig.update_layout(
    xaxis_title = "Количество ресторанов в сети",
    yaxis_title = "Среднее количество мест")

fig.show()

In [None]:
# аналогично посчитаем медианное число посадочных мест в сетях
# и построим график

t = data[data['chain'] == 1]
t = (t.groupby('object_name')
     .agg({'id':'count','seats_number':'median'})
     .reset_index().query('id>1')
     .sort_values(by = 'id', ascending = False))

p = sns.jointplot(x='id', y='seats_number', data=t)
p.fig.suptitle("Распределение медианного числа мест и количества ресторанов")
p.set_axis_labels('Количество ресторанов в сети', 'Медианное число мест в ресторане', fontsize=16)
p.ax_joint.axvline(x=t['id'].median(), c = 'red', label = 'медиана',ls='--')

In [None]:
# аналогично посчитаем минимальное число посадочных мест в сетях
# и построим график

t = data[data['chain'] == 1]
t = (t.groupby('object_name')
     .agg({'id':'count','seats_number':'min'})
     .reset_index().query('id>1')
     .sort_values(by = 'id', ascending = False))

p = sns.jointplot(x='id', y='seats_number', data=t)
p.fig.suptitle("Распределение минимального числа мест и количества ресторанов")
p.set_axis_labels('Количество ресторанов в сети', 'Минимальное число мест в ресторане', fontsize=16)
p.ax_joint.axvline(x=t['id'].median(), c = 'red', label = 'медиана',ls='--')

In [None]:
# аналогично посчитаем максимальное число посадочных мест в сетях
# и построим график

t = data[data['chain'] == 1]
t = (t.groupby('object_name')
     .agg({'id':'count','seats_number':'max'})
     .reset_index().query('id>1')
     .sort_values(by = 'id', ascending = False))

p = sns.jointplot(x='id', y='seats_number', data=t)
p.fig.suptitle("Распределение максимального числа мест и количества ресторанов")

p.set_axis_labels('Количество ресторанов в сети', 'Максимальное число мест в ресторане', fontsize=16)

Выводы:
- Чаще всего сети имеют небольшое количество заведений (до 40) с большим количеством посадочных мест (от 50)

### Для каждого вида объекта общественного питания опишите среднее количество посадочных мест. Какой вид предоставляет в среднем самое большое количество посадочных мест? 

In [None]:
t = (data.groupby('object_type')
     .agg({'id':'count','seats_number':'sum'})
     .reset_index()
     )

t['mean_seats'] = t['seats_number']/t['id']
t = t.sort_values(by = 'mean_seats', ascending = False)

fig = px.bar(
    t, x='object_type',
    y='mean_seats',
    title='Среднее количество мест в заведении',
    text = round(t['mean_seats']).astype(str),
    width=800, height=700)
fig.update_xaxes(tickangle=45)

fig.update_layout(
    xaxis_title = "Тип объекта",
    yaxis_title = "шт.")

fig.show()

In [None]:
t = data[data['chain'] == 1]
p = px.box(t, x = 'object_type' , y = 'seats_number', title = 'Количество мест в объекте')
p.show()

Выводы:
- Больше всего средних мест предоставляет СТОЛОВАЯ и РЕСТОРАН
- самые значительные выбросы у кафе, бистро и ресторана
- в барах и столовых выбросы отсутсвует - возможно это говорит о каком то устоявшемся порядке (шаблоне) открытия заведения, то есть рестораторы не пытаются эксперементировать с размером объекта


### Выделите в отдельный столбец информацию об улице из столбца address

In [None]:
pattern = '\,*,(([а-яА-Я1-9\-ё\s"]+)?(улица|переулок|шоссе|проспект|площадь|проезд|село|Проезд|аллея|бульвар|набережная|тупик|линия|)([а-яА-Яё1-9\-\s"]+)?)\,'
data['street_name'] = data['address'].str.extract(pat = pattern)[0]
data

### Постройте график топ-10 улиц по количеству объектов общественного питания. Воспользуйтесь внешней информацией и ответьте на вопрос — в каких районах Москвы находятся эти улицы?

Возникла классическая проблема Зеленограда, по совету преподователя из канала проекта, я удаляю Зеленоград из рейтинга улиц. Уверен, что в Зеленограде улицы менее наполнены ресторанами, чем какая - либо в Москве.

In [None]:
# для получения района поодключим файл из публичной карты Москвы
# отсюда: https://hubofdata.ru/dataset/mosgaz_streets

spreadsheet_id = '15uLfCHCS3N5CetrHutjGa9xh46IfWRZ0_A5Id1si_2U'
file_name = 'https://docs.google.com/spreadsheets/d/{}/export?format=csv'.format(spreadsheet_id)
r = requests.get(file_name)
rest_data = pd.read_csv(BytesIO(r.content))
rest_data.rename(columns={'streetname':'street_name','area':'district'}, inplace=True)
rest_data

In [None]:
data['street_name'] = data['street_name'].str.strip()
rest_data['street_name'] = rest_data['street_name'].str.strip()

In [None]:
# данная проверка показывает, что одна улица может находиться в нескольких районах
rest_data[rest_data['street_name'] == 'улица Талалихина']

In [None]:
#rest_data.drop_duplicates(subset='street_name', keep="first" ,inplace = True)

In [None]:
# соединим нашу таблицу с данными из интернета по улице
data = data.merge(rest_data, on = 'street_name', how = 'left')
data

In [None]:
# сгруппируем по улице
top_streets = (data
 .groupby(['street_name','district'])
 .agg({'id':'count'})
 .reset_index()
 .sort_values(by = 'id', ascending = False)
              )

top_streets['street_name'] = top_streets['street_name'].str.strip()
top_streets = top_streets.query('street_name != "город Зеленоград"').head(50).reset_index(drop = True)
top_streets

In [None]:
# построим график
fig = px.bar(
    top_streets,
    x='street_name',
    y='id',
    title='Самые популярные улицы',
    width=1000, height=600,
    color = 'district',
    text = top_streets['id'].astype(str)
)

fig.update_layout(
    xaxis_title = "Улица",
    yaxis_title = "Количество объектов")

fig.update_traces(textposition = 'outside')

fig.update_xaxes(tickangle=45)
fig.show()

In [None]:
# получим объекты расположенные на самых популярных улицах

rest_in_top_streets = data.loc[data['street_name'].isin(top_streets['street_name'])]

In [None]:
print('Список самых популярных улиц:')
top_streets['street_name'].unique()

In [None]:
# определим самые популярные типы объектов на популярных улицах

t = (rest_in_top_streets
     .groupby(['object_type','chain'])
     .agg({'id':'count'})
     .sort_values(by = 'id', ascending = False)
     .head(10).reset_index())

# построим график
fig = px.bar(
    t,
    x='object_type',
    y='id',
    title='Самые популярные в зоне топ-улиц',
    width=1000, height=800,
    color = 'chain',
    text = t['id'].astype(str)
)

fig.update_layout(
    xaxis_title = "Тип объекта",
    yaxis_title = "Количество объектов")

fig.update_traces(textposition = 'outside')

fig.update_xaxes(tickangle=45)
fig.show()

### Найдите число улиц с одним объектом общественного питания. Воспользуйтесь внешней информацией и ответьте на вопрос — в каких районах Москвы находятся эти улицы?

In [None]:
# сгруппируем по улице
min_streets = (data
 .groupby(['street_name','district'])
 .agg({'id':'count'})
 .reset_index()
 .query('id == 1')
              )

min_streets

## Бонусная часть

In [None]:
m = folium.Map(location=[45.5236, -122.6750])
rest_in_top_street = rest_in_top_streets.reset_index(drop = True)
rest_in_top_streets

## Выводы:

- Мы провели исследование базы данных объектов общественного питания, провели предобработку данных - удалили неявные дубликаты, убрали аномалии (ХХС, гостинницы, столовые в вузах), с попмщью внешних данных определили районы в которых находятся объекты. 
- Обнаружили, что самым популярным типом заведения является кафе,a cамым не популярным - отдел кулинарии в магазине
- Сетевых заведений в три раза больше, чем не сетевых
- Среди сетевых самые популярные - Предприятие быстрого обслуживания, ресторан и кафе (отдел кулинарии мы не учитываем)
- Для сетевых завадения характерно большое количество заведений с большим количество мест
- Среднее количество посадочных мест:для столовой 129, для ресторана 95, кафе - 40
- Самые наполненные объхектами улицы: 'проспект Мира' 'Профсоюзная улица' 'Ленинградский проспект'
  'Пресненская набережная' 'Варшавское шоссе' 'Ленинский проспект'
  'проспект Вернадского' 'Кутузовский проспект' 'Каширское шоссе'
  'Кировоградская улица'
- Список улиц с одним объектом составляет 517 строк
 
 Рекомендуем открытие  __кафе__ или ресторана с числом мест от __46__ расположенного на одной из улиц:
 'проспект Мира' 'Профсоюзная улица' 'Ленинградский проспект'
  'Пресненская набережная' 'Варшавское шоссе' 'Ленинский проспект'
  'проспект Вернадского' 'Кутузовский проспект' 'Каширское шоссе'
  'Кировоградская улица'
 

Ссылка на презентацию:

https://docs.google.com/presentation/d/1qAoPQhgGsvoUBj6UiJ9Sz_7jjcEsQVDJXBGzELhOn14/edit?usp=sharing