# Завантажуємо датасети та виводимо загальну інформацію по них

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [2]:
pd.set_option('display.max_rows', 100)

In [3]:
stores = pd.read_excel('../data.xlsx', sheet_name='Stores')
stores.rename(columns={"Metric Store": "metric"},  inplace=True)
stores

Unnamed: 0,Store,lat,long,metric
0,Store 1,50.415258,30.522344,2.182985
1,Store 2,50.495292,30.512299,2.636889
2,Store 3,50.414301,30.650869,2.503791
3,Store 4,50.471703,30.47874,2.376577
4,Store 5,50.532248,30.608288,2.340841
5,Store 6,50.441108,30.520819,2.159567
6,Store 7,50.518478,30.45828,2.405688
7,Store 8,50.49556,30.358346,2.365488
8,Store 9,50.462101,30.481258,2.781109
9,Store 10,50.445203,30.444036,2.627058


In [4]:
stores.describe()

Unnamed: 0,lat,long,metric
count,92.0,92.0,92.0
mean,50.462205,30.524705,2.4388
std,0.04353,0.08408,0.175166
min,50.340938,30.337587,1.973128
25%,50.426479,30.458887,2.310214
50%,50.46209,30.516013,2.430961
75%,50.503453,30.602554,2.567672
max,50.533542,30.66618,2.816308


In [20]:
population = pd.read_excel('../data.xlsx', sheet_name='Population')
population.rename(columns={"metric population": "metric", "lon": "long"}, inplace=True)
population

Unnamed: 0,lat,long,metric
0,50.435976,30.625646,1.957358
1,50.435185,30.626106,1.948965
2,50.436381,30.626037,1.698104
3,50.436153,30.626818,2.087091
4,50.435430,30.626640,2.133889
...,...,...,...
12747,50.475089,30.447804,1.971530
12748,50.462290,30.487367,2.366262
12749,50.462651,30.487229,2.563051
12750,50.462345,30.488185,2.515801


In [6]:
population.describe()

Unnamed: 0,lat,long,metric
count,12752.0,12752.0,12752.0
mean,50.448166,30.508882,2.149327
std,0.038312,0.085991,0.440325
min,50.334463,30.318606,-0.229571
25%,50.424441,30.447162,1.910446
50%,50.444883,30.502212,2.149516
75%,50.471471,30.594576,2.426439
max,50.535869,30.717598,3.655685


In [7]:
task = pd.read_excel('../data.xlsx', sheet_name='Завдання')
task = ' '.join(str(line) for line in task['Unnamed: 1'])
task

"Завдання Вам надаються 2 датасета: 1. Метрика, що описує розподіл характеристики населення (Population) 2. Метрика, що описує характеристику локації (Stores) Вам необхідно: 1. Проаналізувати кореляцію характеристики магазину та населення (SQL / Python) 2. Візуалізувати результати дослідження, побудувати геокарту розподілу характеристик (будь-який доступний BI інструмент (Power BI, Tableau) / ліби Python) 3. Запропонувати найкращі локації для відкриття нового store (за допомоги аналітичних досліджень або моделі) Бонус: доповнити виборку даними з будь-яких відкритих джерел nan Note: Завдання націлене на демонстрацію технічних навиків та логіки дослідження. Не обов'язково знайти модель з високими характеристиками точності."

In [None]:
new_df = pd.DataFrame()
new_df['pop'] = population['metric']
new_df['store'] = stores['metric']
new_df

# Task 1. 

## E/xploration

`
Щоб знайти кореляцію між метриками населення та магазину я вирішив використати бібліотеку Geo Pandas. 
Для кожної точки з датасету популяції спершу знайдемо найближчий за координатами магазин використовуючи функцію sjoin_nearest.
Обʼєднавши 2 датасети, ми можемо погрупувати їх по індексу магазину та знайти середнє значення популяції для кожної групи.
Результат запишемо окремою колонкою в датасет stores.
Провівши кореляцію, ми бачимо, що вона дорівнює 1, а це означає, що змінні мають пряму залежність.
`

#### Припустимо, що чим більша метрика населення/магазину, тим краще



In [11]:
import pandas as pd
import geopandas as gpd
from shapely.geometry import Point

stores['store_index'] = [i for i in range(len(stores['Store']))]

# Load the store and population data as GeoDataFrames
store_gdf = gpd.GeoDataFrame(stores, geometry=gpd.points_from_xy(stores['long'], stores['lat']))
population_gdf = gpd.GeoDataFrame(population, geometry=gpd.points_from_xy(population['long'], population['lat']))

# Perform spatial join to associate population characteristics with the nearest store locations
merged_gdf = gpd.sjoin_nearest(population_gdf, store_gdf, how='inner')
merged_gdf

Unnamed: 0,lat_left,long_left,metric_left,geometry,index_right,Store,lat_right,long_right,metric_right,store_index
0,50.435976,30.625646,1.957358,POINT (30.62565 50.43598),83,Store 84,50.427168,30.639200,2.102434,83
1,50.435185,30.626106,1.948965,POINT (30.62611 50.43518),83,Store 84,50.427168,30.639200,2.102434,83
2,50.436381,30.626037,1.698104,POINT (30.62604 50.43638),83,Store 84,50.427168,30.639200,2.102434,83
3,50.436153,30.626818,2.087091,POINT (30.62682 50.43615),83,Store 84,50.427168,30.639200,2.102434,83
4,50.435430,30.626640,2.133889,POINT (30.62664 50.43543),83,Store 84,50.427168,30.639200,2.102434,83
...,...,...,...,...,...,...,...,...,...,...
11894,50.496194,30.373459,2.197967,POINT (30.37346 50.49619),7,Store 8,50.495560,30.358346,2.365488,7
12095,50.493922,30.369541,2.296639,POINT (30.36954 50.49392),7,Store 8,50.495560,30.358346,2.365488,7
12632,50.493691,30.370234,2.287962,POINT (30.37023 50.49369),7,Store 8,50.495560,30.358346,2.365488,7
12674,50.493256,30.370296,2.363002,POINT (30.37030 50.49326),7,Store 8,50.495560,30.358346,2.365488,7


In [None]:
stores

In [14]:
stores['mean_metric'] = merged_gdf.groupby(by=['store_index']).mean()['metric_right']
stores

Unnamed: 0,Store,lat,long,metric,store_index,geometry,mean_metric
0,Store 1,50.415258,30.522344,2.182985,0,POINT (30.52234 50.41526),2.182985
1,Store 2,50.495292,30.512299,2.636889,1,POINT (30.51230 50.49529),2.636889
2,Store 3,50.414301,30.650869,2.503791,2,POINT (30.65087 50.41430),2.503791
3,Store 4,50.471703,30.47874,2.376577,3,POINT (30.47874 50.47170),2.376577
4,Store 5,50.532248,30.608288,2.340841,4,POINT (30.60829 50.53225),2.340841
5,Store 6,50.441108,30.520819,2.159567,5,POINT (30.52082 50.44111),2.159567
6,Store 7,50.518478,30.45828,2.405688,6,POINT (30.45828 50.51848),2.405688
7,Store 8,50.49556,30.358346,2.365488,7,POINT (30.35835 50.49556),2.365488
8,Store 9,50.462101,30.481258,2.781109,8,POINT (30.48126 50.46210),2.781109
9,Store 10,50.445203,30.444036,2.627058,9,POINT (30.44404 50.44520),2.627058


In [15]:
stores.corr()

Unnamed: 0,lat,long,metric,store_index,mean_metric
lat,1.0,-0.168758,0.127044,-0.088236,0.127044
long,-0.168758,1.0,0.072085,-0.02517,0.072085
metric,0.127044,0.072085,1.0,-0.048449,1.0
store_index,-0.088236,-0.02517,-0.048449,1.0,-0.048449
mean_metric,0.127044,0.072085,1.0,-0.048449,1.0


# Task 2

## Plots

`
На жаль, на пайтоні не вдалось красиво візуалізувати розподіл по кластерах(магазинах), проте навіть з такої карти можна отримати користь.
Для візуалізації я обʼєднав 2 датасети, та пропорційно зменшив метрику для датасету популяцій, підібравши коефіцієнт - 5(зручно для перегляду)
Червоні точки - магазина, сині - популяція. Таким чином можна побачити візуально потенційні точки для відкриття нових магазинах на мапі.
1 з таких точок може бути Вишневе. Там є доволі велике скупчення точок датасету популяції, а найближчий Store лише на вулиці Булгакова.
Проте є і більш прикладні методи - кластеризація. Детальніше описано у 3 пункті.
`

In [68]:
stores = pd.read_excel('../data.xlsx', sheet_name='Stores')
stores.rename(columns={"Metric Store": "metric"},  inplace=True)

population = pd.read_excel('../data.xlsx', sheet_name='Population')
population.rename(columns={"metric population": "metric", "lon": "long"}, inplace=True)

stores.drop(columns=['Store'], inplace=True)
pop_new = population
pop_new['metric'] = population['metric']/5
pop_new = pop_new[pop_new['metric'] > 0]

df = pd.concat([stores, pop_new])
df

Unnamed: 0,lat,long,metric
0,50.415258,30.522344,2.182985
1,50.495292,30.512299,2.636889
2,50.414301,30.650869,2.503791
3,50.471703,30.478740,2.376577
4,50.532248,30.608288,2.340841
...,...,...,...
12747,50.475089,30.447804,0.394306
12748,50.462290,30.487367,0.473252
12749,50.462651,30.487229,0.512610
12750,50.462345,30.488185,0.503160


In [65]:
df[df['metric'] <= 0]

Unnamed: 0,lat,long,metric


In [74]:
fig = px.scatter_mapbox(
    df, 
    lat="lat", 
    lon="long", 

    size="metric", 
    color='metric',
    color_continuous_scale=["blue", "red"],
    zoom=10
)
fig.update_layout(mapbox_style="open-street-map")

# Show the plot
fig.show()

# Task 3
## Clustering

`Основна ідея цього завдання - поекспериментувати з кількістю кластерів. Це буде одним з гіперпараметрів.
Певні новостворені кластери ми також можемо відсіяти використовуючи коефіцієнт(metric). Якщо він малий, то просто не будемо розглядати такий кластер.
Розглянемо центри кластерів, що залишились, то знайдемо відстані від кожного з них, то кожного з магазинів.
Далі встановимо додатковий трешхолд(Км). Якщо в межах цієї відстані немає магазинів, тоді центр цього кластеру можна рекомендувати як потенційне місце для відкриття нового магазину.
`

In [77]:
population

Unnamed: 0,lat,long,metric
0,50.435976,30.625646,0.391472
1,50.435185,30.626106,0.389793
2,50.436381,30.626037,0.339621
3,50.436153,30.626818,0.417418
4,50.435430,30.626640,0.426778
...,...,...,...
12747,50.475089,30.447804,0.394306
12748,50.462290,30.487367,0.473252
12749,50.462651,30.487229,0.512610
12750,50.462345,30.488185,0.503160


In [78]:
from sklearn.cluster import KMeans
# create kmeans model/object

population = pd.read_excel('../data.xlsx', sheet_name='Population')
population.rename(columns={"metric population": "metric", "lon": "long"}, inplace=True)
stores = pd.read_excel('../data.xlsx', sheet_name='Stores')
stores.rename(columns={"Metric Store": "metric"},  inplace=True)


# data = pd.read_csv(file_url)
# features = data[['lat', 'lng']]
# print(features)

kmeans = KMeans(
    init="random",
    n_clusters=10,
    n_init=10,
    max_iter=300,
    random_state=42
)

# do clustering
kmeans.fit(population.drop(columns=['metric']))
# save results
labels = kmeans.labels_
labels


array([2, 2, 2, ..., 8, 8, 8], dtype=int32)

In [80]:
population['cluster'] = labels
population

Unnamed: 0,lat,long,metric,cluster
0,50.435976,30.625646,1.957358,2
1,50.435185,30.626106,1.948965,2
2,50.436381,30.626037,1.698104,2
3,50.436153,30.626818,2.087091,2
4,50.435430,30.626640,2.133889,2
...,...,...,...,...
12747,50.475089,30.447804,1.971530,1
12748,50.462290,30.487367,2.366262,8
12749,50.462651,30.487229,2.563051,8
12750,50.462345,30.488185,2.515801,8


In [85]:
# Можемо відкинути кластер №8, оскільки його метрика < 2
population.groupby(by='cluster').mean()

Unnamed: 0_level_0,lat,long,metric
cluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,50.504367,30.603809,2.3592
1,50.490981,30.430882,2.094281
2,50.449993,30.61778,2.210095
3,50.437814,30.44903,2.088268
4,50.419633,30.533588,2.150855
5,50.375045,30.466167,2.087348
6,50.413006,30.648684,2.344426
7,50.509235,30.497614,2.355469
8,50.450783,30.503147,1.941534
9,50.437857,30.372617,2.140407


In [88]:
# Отримаємо центри кластерів.
# Можна встановити певний трешхолд
cl_centers = kmeans.cluster_centers_
cl_centers

array([[50.50434298, 30.60383354],
       [50.49098071, 30.43088161],
       [50.44996118, 30.61779052],
       [50.43790579, 30.4491501 ],
       [50.41951666, 30.53365294],
       [50.37504491, 30.46616671],
       [50.41298528, 30.64869024],
       [50.50923539, 30.49761383],
       [50.45071275, 30.50329513],
       [50.43783698, 30.37267305]])

In [84]:
stores = pd.read_excel('../data.xlsx', sheet_name='Stores')
stores.rename(columns={"Metric Store": "metric"},  inplace=True)
stores

Unnamed: 0,Store,lat,long,metric
0,Store 1,50.415258,30.522344,2.182985
1,Store 2,50.495292,30.512299,2.636889
2,Store 3,50.414301,30.650869,2.503791
3,Store 4,50.471703,30.47874,2.376577
4,Store 5,50.532248,30.608288,2.340841
5,Store 6,50.441108,30.520819,2.159567
6,Store 7,50.518478,30.45828,2.405688
7,Store 8,50.49556,30.358346,2.365488
8,Store 9,50.462101,30.481258,2.781109
9,Store 10,50.445203,30.444036,2.627058


In [91]:
geopy.distance.geodesic([1, 2], [5, 5])

Distance(553.9120610832914)

In [92]:
cl_centers[0]

array([50.50434298, 30.60383354])

In [136]:
import geopy.distance


km_treshhold=1
distances = [[] for _ in range(len(cl_centers))]
for i in range(len(cl_centers)):
    for j in range(len(stores['lat'])):
        data = pd.DataFrame([cl_centers[i] for _ in range(len(stores['lat']))])
        distances[i].append(geopy.distance.geodesic(cl_centers[i], [stores['lat'][j], stores['long'][j]]).km)
        # data.bool()


recommended_locations = []
for _, dist in enumerate(distances):
#     print(len(dist))
#     print(max(dist))
#     print(min(dist))
#     print(dist)
    if min(dist) > km_treshhold:
        recommended_locations.append(((cl_centers[_]), _))
    # else:
    

recommended_locations

[(array([50.49098071, 30.43088161]), 1),
 (array([50.44996118, 30.61779052]), 2),
 (array([50.37504491, 30.46616671]), 5),
 (array([50.43783698, 30.37267305]), 9)]