In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Импортируем основной файл с данными по ресторанам (фастфуд) за 2019 год
df = pd.read_csv(r'C:\Users\chich\Desktop\CL-3\Данные\Datafiniti_Fast_Food_Restaurants_May19.csv', sep = ',')
# Создаем дополнительный столбец - "связка" город+провинция т.к. может быть несколько городов с одним названием
df['city_pr'] = df['city']+'_'+df['province']

In [None]:
# Импортируем данные с информацией по районам
df_dist = pd.read_csv(r'C:\Users\chich\Desktop\CL-3\Данные\district.csv', sep = ';')

In [None]:
# Импортируем дополнительные данные из внешних источников (численность населения, туристы, площадь городов, координаты городов)
df_pl = pd.read_csv(r'C:\Users\chich\Desktop\CL-3\Данные\plotnost.csv', sep = ';')

In [None]:
# Проверяем основной файл на наличие дубликатов
df.duplicated().sum()

In [None]:
# Проверяем основной файл на наличие null
df.isnull().sum()

In [None]:
# Оставляем в основном датафрейме только нужные нам поля
df_col = df[['id','address','categories','city','province','city_pr','latitude','longitude','name','postalCode']]

In [None]:
# Формируем список рассматриваемых городов
city = ['Birmingham_AL', 'Cincinnati_OH', 'Cleveland_OH', 'Columbus_OH', 'Indianapolis_IN', 'Portland_OR', 'Miami_FL', 'Las Vegas_NV']
# Фильтруем наш датафрейм по списку рассматриваемых городов
df_city = df_col[df_col['city_pr'].isin(city)]

In [None]:
df_city.info() # вместе с Las Vegas и Miami

In [None]:
# Джойним к нашему датафрейму информацию по районам 
df_city = df_city.merge(df_dist, how='left', on='id')

In [None]:
# По Лас Вегасу и Маями ничего не подтянулось, заполняем null значением Unknown
df_city['district'] = df_city['district'].fillna('Unknown')
df_city['county'] = df_city['county'].fillna('Unknown')

In [None]:
# Формируем сводную таблицу по городам, которая будет основой для визуализации
pivot = df_city.groupby('city_pr').agg(cnt=('id','count')).sort_values(by='cnt', ascending=True).reset_index()

In [None]:
# Оформляем визуализацию
fig = px.bar(pivot, x='cnt', y='city_pr', title = 'Кол-во ресторанов фастфуд по городам')
fig.update_layout(
xaxis_title='Кол-во точек общепита',
yaxis_title='Город')
fig.show()

In [None]:

# Формируем сводную таблицу, которая будет основой для визуализации кол-ва точек по районам конкретного города
# Информации много, в связи с чем на одной визуализации данные анализировать сложно, каждый город был отображен отдельно.
pivot2 = df_city[df_city['city_pr']=='Columbus_OH'].groupby('district')\
.agg(cnt=('id','count')).sort_values(by='cnt', ascending=True).reset_index()
# Прописываем условие cnt>=2, чтобы не показывать районы с незначительным кол-вом точек фастфуда
pivot2 = pivot2[pivot2['cnt']>=2]
# Формируем визуализацию
fig2 = px.bar(pivot2, x='cnt', y='district', title = 'Columbus')
fig2.update_layout(
xaxis_title='Кол-во точек общепита',
yaxis_title='Район',
autosize=False,
    width=1100,
    height=700,
    margin=dict(l=30,r=30,b=30,t=30,pad=3))
fig2.show()


In [None]:
# Аналогично по городу Birmingham
pivot3 = df_city[df_city['city_pr']=='Birmingham_AL'].groupby('district')\
.agg(cnt=('id','count')).sort_values(by='cnt', ascending=True).reset_index()
pivot3 = pivot3[pivot3['cnt']>=2]
fig3 = px.bar(pivot3, x='cnt', y='district', title = 'Birmingham')
fig3.update_layout(
xaxis_title='Кол-во точек общепита',
yaxis_title='Район',
autosize=False,
    width=1100,
    height=350,
    margin=dict(l=30,r=30,b=30,t=30,pad=3))
fig3.show()

In [None]:
# Аналогично по городу Cincinnati
pivot4 = df_city[df_city['city_pr']=='Cincinnati_OH'].groupby('district')\
.agg(cnt=('id','count')).sort_values(by='cnt', ascending=True).reset_index()
pivot4 = pivot4[pivot4['cnt']>=2]
fig4 = px.bar(pivot4, x='cnt', y='district', title = 'Cincinnati')
fig4.update_layout(
xaxis_title='Кол-во точек общепита',
yaxis_title='Район',
autosize=False,
    width=1100,
    height=500,
    margin=dict(l=30,r=30,b=30,t=30,pad=3))
fig4.show()

In [None]:
# Аналогично по городу Cleveland
pivot5 = df_city[df_city['city_pr']=='Cleveland_OH'].groupby('district')\
.agg(cnt=('id','count')).sort_values(by='cnt', ascending=True).reset_index()
pivot5 = pivot5[pivot5['cnt']>=2]
fig5 = px.bar(pivot5, x='cnt', y='district', title = 'Cleveland')
fig5.update_layout(
xaxis_title='Кол-во точек общепита',
yaxis_title='Район',
autosize=False,
    width=1100,
    height=300,
    margin=dict(l=30,r=30,b=30,t=30,pad=3))
fig5.show()

In [None]:
# Аналогично по городу Indianapolis
pivot6 = df_city[df_city['city_pr']=='Indianapolis_IN'].groupby('district')\
.agg(cnt=('id','count')).sort_values(by='cnt', ascending=True).reset_index()
pivot6 = pivot6[pivot6['cnt']>=2]
fig6 = px.bar(pivot6, x='cnt', y='district', title = 'Indianapolis')
fig6.update_layout(
xaxis_title='Кол-во точек общепита',
yaxis_title='Район',
autosize=False,
    width=1100,
    height=500,
    margin=dict(l=30,r=30,b=30,t=30,pad=3))
fig6.show()

In [None]:
# Аналогично по городу Portland
pivot7 = df_city[df_city['city_pr']=='Portland_OR'].groupby('district')\
.agg(cnt=('id','count')).sort_values(by='cnt', ascending=True).reset_index()
pivot7 = pivot7[pivot7['cnt']>=2]
fig7 = px.bar(pivot7, x='cnt', y='district', title = 'Portland')
fig7.update_layout(
xaxis_title='Кол-во точек общепита',
yaxis_title='Район',
autosize=False,
    width=1100,
    height=600,
    margin=dict(l=30,r=30,b=30,t=30,pad=3))
fig7.show()

In [None]:
# Формируем сводную таблицу по городам с расчетом количества точек общепита и кол-ва районов в городе
df_gr = df_city.groupby('city_pr').agg(places=('id','count'), districts=('district','nunique')).reset_index()
# Из рассмотрения убираем Лас Вегас и Маями т.к. эти города не являются "типичными" для Америки + не прошли по unit экономике
df_gr = df_gr[(df_gr['city_pr'] != 'Miami_FL') & (df_gr['city_pr'] != 'Las Vegas_NV')].reset_index(drop=True)

In [None]:
# Указываем необходимый коэффициент для дальнейших расчетов
K=0.33
# Джойним нашу сводную таблицу с таблицей, включающую данные из внешних источников (см. блок по импорту)
df_cal = df_gr.merge(df_pl, how='left',on='city_pr') # DF с расчетом плотности
# Рассчитываем следующие дополнительные поля:
df_cal['population_t'] = df_cal['population'] + df_cal['turists'] # Население+туристы
df_cal['ca_per_year'] = (df_cal['population_t']*K).round(2) # Размер ЦА в год
df_cal['plot_per_dist'] = (df_cal['places']/df_cal['districts']).round(2) # Плотность на Район, шт
df_cal['plot_per_km2'] = (df_cal['places']/df_cal['sqr, km2']).round(2) # Плотность на км2, шт
df_cal['pop_per_1place'] = (df_cal['population']/df_cal['places']).round(2) # Население на 1 ресторан, чел.
df_cal['pop_t_per_1place'] = (df_cal['population_t']/df_cal['places']).round(2) # Население+туристы на 1 ресторан, чел.
df_cal['ca_per_1place'] = (df_cal['ca_per_year']/df_cal['places']).round(2) # ЦА на 1 ресторан, чел.
df_cal # Получилась следующая таблица

In [None]:
# По геоданным городов строим следующую визуализацию:
# Цвет точек отвечает за кол-во ресторанов общепита в городе, размер точки за площадь города
fig_m1 = px.scatter_mapbox(df_cal, lat='lat', lon='lon', color='places', \
                           size='sqr, km2', title='Площадь города, кол-во точек', hover_name='city_pr', mapbox_style='carto-positron', zoom=3)
fig_m1.update_layout(autosize=False, width=1100, height=600)
fig_m1.update_layout(margin={"r": 0, "t": 30, "l": 0, "b": 0})
fig_m1.show()