<a href="https://colab.research.google.com/github/no-akatsu/training/blob/main/241018_%E5%BA%A7%E6%A8%99_3%E6%AC%A1%E5%85%83%E3%83%99%E3%82%AF%E3%83%88%E3%83%AB%E5%A4%89%E6%8F%9B_%2B_%E3%82%B3%E3%82%B5%E3%82%A4%E3%83%B3%E9%A1%9E%E4%BC%BC%E5%BA%A6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# import

In [18]:
import numpy as np
import pandas as pd

# data
- 東京、北海道、青森、ロサンゼルスの緯度・経度

In [3]:
tokyo_lat, tokyo_lon = 35.01833, 139.5986
hokkaido_lat, hokkaido_lon = 43.46722, 142.8278
aomori_lat, aomori_lon = 40.78028, 140.8319
los_lat, los_lon = 34.0522, -118.2437

# 緯度・経度を3次元ベクトルに変換する関数
- $x=r*cos(ϕ)*cos(λ)$
- $y=r*cos(ϕ)*sin(λ)$
- $z=r*sin(ϕ)$

In [4]:
# radiusは地球の半径[km]
def coordinate_to_vector(lat, lon, radius=6371):
    lat, lon = np.radians(lat), np.radians(lon)
    x = radius * np.cos(lat) * np.cos(lon)
    y = radius * np.cos(lat) * np.sin(lon)
    z = radius * np.sin(lat)
    return np.array([x, y, z])

# コサイン類似度を計算する関数
- $\frac{vec1⋅vec2}{||vec1||*||vec2|}$

In [5]:
def cosine_similarity(vec1, vec2):
    dot_product = np.dot(vec1, vec2)
    norm_vec1 = np.linalg.norm(vec1)
    norm_vec2 = np.linalg.norm(vec2)
    return dot_product / (norm_vec1 * norm_vec2)

# 2次元座標と3次元座標での類似度比較

In [7]:
# 緯度・経度を3次元ベクトルへ変換
vec_tokyo = coordinate_to_vector(tokyo_lat, tokyo_lon)
vec_hokkaido = coordinate_to_vector(hokkaido_lat, hokkaido_lon)
vec_aomori = coordinate_to_vector(aomori_lat, los_lon)
vec_los = coordinate_to_vector(los_lat, los_lon)

print('東京', vec_tokyo)
print('北海道', vec_hokkaido)
print('青森', vec_aomori)
print('ロサンゼルス', vec_los)

東京 [-3973.35645684  3381.75881556  3655.92488712]
北海道 [-3684.40550127  2793.79938727  4382.86231656]
青森 [-2282.94417738 -4249.88644023  4161.28251001]
ロサンゼルス [-2497.93043676 -4650.10086406  3567.4285539 ]


In [13]:
# 3次元ベクトル
sim_tokyo_los = cosine_similarity(vec_tokyo, vec_los)
sim_tokyo_hokkaido = cosine_similarity(vec_tokyo, vec_hokkaido)
sim_tokyo_aomori = cosine_similarity(vec_tokyo, vec_aomori)
sim_hokkaido_aomori = cosine_similarity(vec_hokkaido, vec_aomori)
sim_hokkaido_los = cosine_similarity(vec_hokkaido, vec_los)

three_dim_data = [sim_tokyo_los, sim_tokyo_hokkaido, sim_tokyo_aomori, sim_hokkaido_aomori, sim_hokkaido_los]

print('東京-ロサンゼルス　:', sim_tokyo_los)
print('東京-北海道　　　　:', sim_tokyo_hokkaido)
print('東京-青森　　　　　:', sim_tokyo_aomori)
print('北海道-青森　　　　:', sim_hokkaido_aomori)
print('北海道-ロサンゼルス:', sim_hokkaido_los)

東京-ロサンゼルス　: 0.17841742607676475
東京-北海道　　　　: 0.9882035545676177
東京-青森　　　　　: 0.24420507548008702
北海道-青森　　　　: 0.36404092007618993
北海道-ロサンゼルス: 0.291884519848628


In [15]:
# 2次元ベクトル
# コサイン類似度を計算
sim_tokyo_los = cosine_similarity([tokyo_lat, tokyo_lon], [los_lat, los_lon])
sim_tokyo_hokkaido = cosine_similarity([tokyo_lat, tokyo_lon], [hokkaido_lat, hokkaido_lon])
sim_tokyo_aomori = cosine_similarity([tokyo_lat, tokyo_lon], [aomori_lat, aomori_lon])
sim_hokkaido_aomori = cosine_similarity([hokkaido_lat, hokkaido_lon], [aomori_lat, aomori_lon])
sim_hokkaido_los = cosine_similarity([hokkaido_lat, hokkaido_lon], [los_lat, los_lon])

two_dim_data = [sim_tokyo_los, sim_tokyo_hokkaido, sim_tokyo_aomori, sim_hokkaido_aomori, sim_hokkaido_los]

print('東京-ロサンゼルス　:', sim_tokyo_los)
print('東京-北海道　　　　:', sim_tokyo_hokkaido)
print('東京-青森　　　　　:', sim_tokyo_aomori)
print('北海道-青森　　　　:', sim_hokkaido_aomori)
print('北海道-ロサンゼルス:', sim_hokkaido_los)

東京-ロサンゼルス　: -0.8647345558791522
東京-北海道　　　　: 0.9987677580431721
東京-青森　　　　　: 0.9993492097463185
北海道-青森　　　　: 0.9999079386348672
北海道-ロサンゼルス: -0.8387442268291957


# データ確認

In [31]:
df = pd.DataFrame(data=[three_dim_data, two_dim_data], index=['three_dim_data', 'two_dim_data'], columns=['東京-ロサンゼルス', '東京-北海道', '東京-青森', '北海道-青森', '北海道-ロサンゼルス']).T
df

Unnamed: 0,three_dim_data,two_dim_data
東京-ロサンゼルス,0.178417,-0.864735
東京-北海道,0.988204,0.998768
東京-青森,0.244205,0.999349
北海道-青森,0.364041,0.999908
北海道-ロサンゼルス,0.291885,-0.838744
