In [11]:
import pandas as pd
import sqlite3
import matplotlib.pyplot as plt
import numpy as np
import time
from stl import mesh

# Indlæs data fra Excel-filen
excel_file_path = "C:/Users/Silas/source/repos/StlProject/simplemaps_worldcities_basicv1.77/worldcities.xlsx"
df = pd.read_excel(excel_file_path)
conn = sqlite3.connect('worldcities.db')
df.to_sql('worldcities', conn, if_exists='replace', index=False)

47653

In [12]:
df = pd.read_sql_query("SELECT lat, lng, population FROM worldcities", conn)

def euclidean_distance(point, points, k):
    points = np.asarray(points)
    dist_2 = np.sum((points - point)**2, axis=1)
    distances = np.sqrt(dist_2)
    return np.argsort(distances)[1:k+1]

points = df[['lat', 'lng']].values

k = 10

row_counts = [1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000, 15000, 16000, 17000, 18000, 19000, 20000]

timings = {}

total_start_time = time.time()

cumulative_time = 0
for count in row_counts:
    subset = df.iloc[:count]
    points = subset[['lat', 'lng']].values
    
    start_time = time.time()
    
    closest_indices = []
    for point in points:
        closest_indices.append(euclidean_distance(point, points, k))
    
    end_time = time.time()
    
    cumulative_time += (end_time - start_time)
    timings[count] = cumulative_time
    print(f"Samlet tid for {count} rækker: {int(timings[count])} sekunder")

Samlet tid for 1000 rækker: 0 sekunder
Samlet tid for 2000 rækker: 1 sekunder
Samlet tid for 3000 rækker: 1 sekunder
Samlet tid for 4000 rækker: 3 sekunder
Samlet tid for 5000 rækker: 5 sekunder
Samlet tid for 6000 rækker: 7 sekunder
Samlet tid for 7000 rækker: 11 sekunder
Samlet tid for 8000 rækker: 16 sekunder
Samlet tid for 9000 rækker: 22 sekunder
Samlet tid for 10000 rækker: 30 sekunder
Samlet tid for 11000 rækker: 39 sekunder
Samlet tid for 12000 rækker: 50 sekunder
Samlet tid for 13000 rækker: 64 sekunder
Samlet tid for 14000 rækker: 80 sekunder
Samlet tid for 15000 rækker: 97 sekunder
Samlet tid for 16000 rækker: 117 sekunder
Samlet tid for 17000 rækker: 140 sekunder
Samlet tid for 18000 rækker: 166 sekunder
Samlet tid for 19000 rækker: 196 sekunder
Samlet tid for 20000 rækker: 227 sekunder


In [13]:
# Funktion til at finde de k nærmeste punkter ved hjælp af Manhattan-distance
def manhattan_distance(point, points, k):
    points = np.asarray(points)
    distances = np.sum(np.abs(points - point), axis=1)
    return np.argsort(distances)[1:k+1]

k = 10

row_counts = [1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000, 15000, 16000, 17000, 18000, 19000, 20000]

timings = {}

total_start_time = time.time()

cumulative_time = 0
for count in row_counts:
    subset = df.iloc[:count]
    points = subset[['lat', 'lng']].values
    
    start_time = time.time()
    
    closest_indices = []
    for point in points:
        closest_indices.append(manhattan_distance(point, points, k))
    
    end_time = time.time()
    
    cumulative_time += (end_time - start_time)
    timings[count] = cumulative_time
    print(f"Samlet tid for {count} rækker: {int(timings[count])} sekunder")

Samlet tid for 1000 rækker: 0 sekunder
Samlet tid for 2000 rækker: 1 sekunder
Samlet tid for 3000 rækker: 1 sekunder
Samlet tid for 4000 rækker: 3 sekunder
Samlet tid for 5000 rækker: 5 sekunder
Samlet tid for 6000 rækker: 8 sekunder
Samlet tid for 7000 rækker: 12 sekunder
Samlet tid for 8000 rækker: 17 sekunder
Samlet tid for 9000 rækker: 24 sekunder
Samlet tid for 10000 rækker: 32 sekunder
Samlet tid for 11000 rækker: 43 sekunder
Samlet tid for 12000 rækker: 56 sekunder
Samlet tid for 13000 rækker: 70 sekunder
Samlet tid for 14000 rækker: 87 sekunder
Samlet tid for 15000 rækker: 107 sekunder
Samlet tid for 16000 rækker: 129 sekunder
Samlet tid for 17000 rækker: 167 sekunder
Samlet tid for 18000 rækker: 210 sekunder
Samlet tid for 19000 rækker: 261 sekunder
Samlet tid for 20000 rækker: 308 sekunder


In [19]:
import pandas as pd
import numpy as np
import sqlite3
import time
from math import sin, cos, sqrt, asin, radians

def haversine_distance(point, points, k):
    lat1, lon1 = point
    R = 6371.0

    def haversine_distance_formula(lat1, lon1, lat2, lon2):
        dlat = radians(lat2 - lat1)
        dlon = radians(lon2 - lon1)
        a = sin(dlat / 2)**2 + cos(radians(lat1)) * cos(radians(lat2)) * sin(dlon / 2)**2
        c = 2 * asin(min(1, sqrt(a)))
        d = R * c
        return d
    
    distances = np.array([haversine_distance_formula(lat1, lon1, lat2, lon2) for lat2, lon2 in points])
    return np.argsort(distances)[1:k+1]

k = 10

row_counts = [1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000, 15000, 16000, 17000, 18000, 19000, 20000]

timings = {}

total_start_time = time.time()

cumulative_time = 0
for count in row_counts:
    subset = df.iloc[:count]
    points = subset[['lat', 'lng']].values
    
    start_time = time.time()
    
    closest_indices = []
    for point in points:
        closest_indices.append(haversine_distance(point, points, k))
    
    end_time = time.time()
    
    cumulative_time += (end_time - start_time)
    timings[count] = cumulative_time
    print(f"Samlet tid for {count} rækker: {int(timings[count])} sekunder")

Samlet tid for 1000 rækker: 3 sekunder
Samlet tid for 2000 rækker: 20 sekunder
Samlet tid for 3000 rækker: 57 sekunder
Samlet tid for 4000 rækker: 125 sekunder
Samlet tid for 5000 rækker: 227 sekunder
Samlet tid for 6000 rækker: 377 sekunder
Samlet tid for 7000 rækker: 581 sekunder
Samlet tid for 8000 rækker: 841 sekunder
Samlet tid for 9000 rækker: 1158 sekunder
Samlet tid for 10000 rækker: 1549 sekunder
Samlet tid for 11000 rækker: 2013 sekunder
Samlet tid for 12000 rækker: 2631 sekunder
Samlet tid for 13000 rækker: 3344 sekunder
Samlet tid for 14000 rækker: 4088 sekunder
Samlet tid for 15000 rækker: 4975 sekunder
Samlet tid for 16000 rækker: 75368 sekunder
Samlet tid for 17000 rækker: 76537 sekunder
Samlet tid for 18000 rækker: 77827 sekunder
Samlet tid for 19000 rækker: 79171 sekunder
Samlet tid for 20000 rækker: 131946 sekunder
