Script pro výpočet vzdáleností mezi vysokoškolskými fakultami a kavárnami (podle souřadnic)

In [1]:
import pandas as pd
from geopy.distance import distance
import json

Definice funkce pro výpočet vzdálenosti:

In [None]:
def calculate_distance(row):
    coords_1 = (row['lat_x'], row['lng_x'])
    coords_2 = (row['lat_y'], row['lng_y'])
    return distance(coords_1, coords_2).meters

In [2]:
data_cafes = pd.read_csv('maps_google_scraped_final_dataset_V6.csv')
data_cafes.columns


Index(['placeId', 'searchString', 'title', 'categoryName', 'address', 'street',
       'city', 'postalCode', 'claimThisBusiness', 'location', 'totalScore',
       'temporarilyClosed', 'categories', 'cid', 'reviewsCount',
       'reviewsDistribution', 'openingHours', 'url', 'coords', 'neigbourhood'],
      dtype='object')

In [30]:
print(data_cafes['location'].apply(type).unique())

[<class 'str'>]


In [3]:
loc_data_cafes = data_cafes['location'].apply(lambda x: json.loads(x.replace("'", '"')))

In [5]:
locations = pd.json_normalize(loc_data_cafes)
locations

Unnamed: 0,lat,lng
0,49.230503,16.533767
1,49.233945,16.534374
2,49.260908,16.579816
3,49.245296,16.581878
4,49.240672,16.577390
...,...,...
349,49.193768,16.608420
350,49.198684,16.604073
351,49.194375,16.604793
352,49.193235,16.605239


In [33]:
loc_data_cafes_normalized = pd.concat([data_cafes.drop('location', axis=1), locations], axis=1)
loc_data_cafes_normalized = loc_data_cafes_normalized[['placeId', 'title', 'lat', 'lng']]
loc_data_cafes_normalized

Unnamed: 0,placeId,title,lat,lng
0,ChIJe8xi1c-WEkcRZHdDHuo3j90,Kavárna U Šimpanze,49.230503,16.533767
1,ChIJhYGFpheXEkcRajb-rh-zrNw,Křupkafé,49.233945,16.534374
2,ChIJObMrvW-REkcRVzYBCe8TIb0,Kavárna Dallmayr,49.260908,16.579816
3,ChIJwamoDsSREkcR9p9fj5gJeFs,Kafe a slanina,49.245296,16.581878
4,ChIJ0ZsWTPKREkcR28TIEmN3wzM,Pomlka Kavárna & Butik,49.240672,16.577390
...,...,...,...,...
349,ChIJUapYPACVEkcRo-3oyBeC9uI,Mellow,49.193768,16.608420
350,ChIJEWepNRmVEkcR-BUuY0XXNGU,Teamcaffe bistro,49.198684,16.604073
351,ChIJS6BBUcaVEkcR4ZT1jabPeMo,tyjátr coffee & wine,49.194375,16.604793
352,ChIJj5cikNKVEkcRiukU7AjL2ow,Patio Café & Bar,49.193235,16.605239


In [34]:
loc_data_cafes_normalized.to_csv('location_cafes.csv')

In [35]:
data_faculties = pd.read_csv('Fakulty_Brno.csv')
data_faculties.columns

Index(['objectid', 'X', 'Y', 'name', 'adresa', 'instituce'], dtype='object')

In [36]:
data_faculties.rename(columns={'X': 'lng', 'Y': 'lat'}, inplace=True)
loc_data_faculties = data_faculties[['objectid', 'name', 'lat', 'lng']]
loc_data_faculties

Unnamed: 0,objectid,name,lat,lng
0,2,Právnická fakulta,49.208302,16.592396
1,3,Lékařská fakulta,49.17716,16.568775
2,4,Přírodovědecká fakulta,49.204611,16.597818
3,5,Filozofická fakulta,49.200557,16.598404
4,6,Pedagogická fakulta,49.187176,16.595397
5,7,Farmaceutická fakulta,49.21908,16.596349
6,8,Ekonomicko-správní fakulta,49.193445,16.577318
7,9,Fakulta informatiky,49.209986,16.598847
8,10,Fakulta sociálních studií,49.197401,16.60237
9,11,Fakulta sportovních studií,49.178623,16.568931


CROSS JOIN (spojí každý řádek jednoho DataFrame s každým řádkem druhého DataFrame a vytvoří tak všechny možné kombinace řádků mezi oběma datovými sadami):

In [37]:
cross_joined_loc_data = pd.merge(loc_data_cafes_normalized, loc_data_faculties, how='cross')
cross_joined_loc_data

Unnamed: 0,placeId,title,lat_x,lng_x,objectid,name,lat_y,lng_y
0,ChIJe8xi1c-WEkcRZHdDHuo3j90,Kavárna U Šimpanze,49.230503,16.533767,2,Právnická fakulta,49.208302,16.592396
1,ChIJe8xi1c-WEkcRZHdDHuo3j90,Kavárna U Šimpanze,49.230503,16.533767,3,Lékařská fakulta,49.177160,16.568775
2,ChIJe8xi1c-WEkcRZHdDHuo3j90,Kavárna U Šimpanze,49.230503,16.533767,4,Přírodovědecká fakulta,49.204611,16.597818
3,ChIJe8xi1c-WEkcRZHdDHuo3j90,Kavárna U Šimpanze,49.230503,16.533767,5,Filozofická fakulta,49.200557,16.598404
4,ChIJe8xi1c-WEkcRZHdDHuo3j90,Kavárna U Šimpanze,49.230503,16.533767,6,Pedagogická fakulta,49.187176,16.595397
...,...,...,...,...,...,...,...,...
9907,ChIJS0FEsvmVEkcR9zM01uPpfjc,OC Nosreti - Café 52,49.190913,16.622244,33,Fakulta veterinární hygieny a ekologie,49.217867,16.594007
9908,ChIJS0FEsvmVEkcR9zM01uPpfjc,OC Nosreti - Café 52,49.190913,16.622244,34,Fakulta veterinárního lékařství,49.218902,16.597337
9909,ChIJS0FEsvmVEkcR9zM01uPpfjc,OC Nosreti - Café 52,49.190913,16.622244,36,Fakulta vojenského leadershipu,49.207790,16.594792
9910,ChIJS0FEsvmVEkcR9zM01uPpfjc,OC Nosreti - Café 52,49.190913,16.622244,37,Fakulta vojenských technologií,49.207312,16.595082


Výpočet vzdálenosti:

In [39]:
# Apply function to calculate distances
cross_joined_loc_data['distance_m'] = cross_joined_loc_data.apply(calculate_distance, axis=1)
cross_joined_loc_data['distance_m']

0       4933.419976
1       6457.736114
2       5483.228712
3       5767.836147
4       6586.778180
           ...     
9907    3635.874665
9908    3603.223303
9909    2743.326304
9910    2691.585134
9911    2157.892105
Name: distance_m, Length: 9912, dtype: float64

Uložení výsledků do souboru:

In [40]:
print(cross_joined_loc_data[['placeId', 'title', 'objectid', 'name', 'distance_m']])

cross_joined_loc_data.to_csv('distance_cafe_faculty.csv')

                          placeId                 title  objectid  \
0     ChIJe8xi1c-WEkcRZHdDHuo3j90    Kavárna U Šimpanze         2   
1     ChIJe8xi1c-WEkcRZHdDHuo3j90    Kavárna U Šimpanze         3   
2     ChIJe8xi1c-WEkcRZHdDHuo3j90    Kavárna U Šimpanze         4   
3     ChIJe8xi1c-WEkcRZHdDHuo3j90    Kavárna U Šimpanze         5   
4     ChIJe8xi1c-WEkcRZHdDHuo3j90    Kavárna U Šimpanze         6   
...                           ...                   ...       ...   
9907  ChIJS0FEsvmVEkcR9zM01uPpfjc  OC Nosreti - Café 52        33   
9908  ChIJS0FEsvmVEkcR9zM01uPpfjc  OC Nosreti - Café 52        34   
9909  ChIJS0FEsvmVEkcR9zM01uPpfjc  OC Nosreti - Café 52        36   
9910  ChIJS0FEsvmVEkcR9zM01uPpfjc  OC Nosreti - Café 52        37   
9911  ChIJS0FEsvmVEkcR9zM01uPpfjc  OC Nosreti - Café 52        38   

                                        name   distance_m  
0                          Právnická fakulta  4933.419976  
1                           Lékařská fakulta  6457.