In [None]:
from google.colab import files
uploaded = files.upload()

In [None]:
import pandas as pd
data = pd.read_csv("hanoiweather.csv")

data.info()

In [None]:
import math
import pandas as pd
import random
from collections import Counter

# Hàm tính khoảng cách Euclide giữa 2 điểm
def euclide_distance(point1, point2):
    distance = 0
    for i in range(len(point1)):
        distance += (point1[i] - point2[i]) ** 2
    return math.sqrt(distance)

# Hàm dự đoán nhãn dựa vào KNN
def predict(X_train, y_train, test_point, k):
    distances = []
    # Tính khoảng cách từ test_point đến tất cả các điểm trong X_train
    for i in range(len(X_train)):
        distance = euclide_distance(X_train[i], test_point)
        distances.append((distance, y_train[i]))

    # Sắp xếp theo khoảng cách tăng dần và lấy k điểm gần nhất
    distances.sort(key=lambda x: x[0])
    k_nearest_neighbors = [label for _, label in distances[:k]]

    # Đếm số lượng nhãn trong k hàng xóm gần nhất
    most_common = Counter(k_nearest_neighbors).most_common(1)
    return most_common[0][0]  # Nhãn xuất hiện nhiều nhất

# Hàm KNN cho toàn bộ tập dữ liệu
def knn(X_train, y_train, X_test, k):
    y_pred = []
    for test_point in X_test:
        prediction = predict(X_train, y_train, test_point, k)
        y_pred.append(prediction)
    return y_pred

# Chia dữ liệu ngẫu nhiên
def split_data(X, y, train_size=0.8):
    # Tạo các chỉ số cho X và y
    data = list(zip(X, y))
    random.shuffle(data)  # Xáo trộn dữ liệu
    split_idx = int(len(data) * train_size)  # Tính chỉ số chia
    train_data = data[:split_idx]
    test_data = data[split_idx:]

    # Tách X và y từ các phần tử trong train_data và test_data
    X_train, y_train = zip(*train_data)
    X_test, y_test = zip(*test_data)

    return list(X_train), list(y_train), list(X_test), list(y_test)

# Đọc dữ liệu và chuẩn bị tập dữ liệu
features = ['tempmax', 'tempmin', 'temp', 'humidity', 'winddir', 'cloudcover', 'sealevelpressure', 'windspeed']
X = data[features].values     # Tập dữ liệu đầu vào
y = data['preciptype'].values # Nhãn đầu ra

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, y_train, X_test, y_test = split_data(X, y)

# Huấn luyện và dự đoán với k=99
k = 99
y_pred = knn(X_train, y_train, X_test, k)

# Hàm tính độ chính xác
def accuracy(y_test, y_pred):
    correct = sum([1 for test, pred in zip(y_test, y_pred) if test == pred])
    return correct / len(y_test)
acc = accuracy(y_test, y_pred)

# Thông tin mô hình
print(f"Tổng số mẫu dữ liệu: {len(X_train) + len(X_test)}")
print(f"Số mẫu dữ liệu dùng để huấn luyện: {len(X_train)}")
print(f"Số mẫu dữ liệu dùng để kiểm tra: {len(X_test)}")
print(f"Độ chính xác: {acc:.2%}\n\n")