<h1>KNN</h1>

# Dự báo thời tiết với KNN

Notebook này thực hiện các bước sau:
- Đọc và tiền xử lý dữ liệu từ file `weatherHCM_preprocessed.csv`
- Tách dữ liệu thành tập huấn luyện và kiểm tra
- Huấn luyện mô hình KNN
- Đánh giá mô hình
- Dự báo thời tiết cho nhiều mẫu dữ liệu mới


In [3]:
import pandas as pd

# Đọc file CSV
file_path = "weatherHCM_preprocessed.csv"  # Cập nhật đường dẫn nếu cần
df = pd.read_csv(file_path, sep="\t")

# Chọn các cột đặc trưng
feature_columns = ["Temp", "Feels", "Gust", "Rain", "Humidity", "Cloud", "Pressure", "Wind Speed"]
X = df[feature_columns].copy()

# Chuyển đổi các cột sang kiểu số và xử lý giá trị thiếu
X = X.apply(pd.to_numeric, errors="coerce")
X.fillna(X.mean(), inplace=True)

# Mã hóa biến mục tiêu "Weather"
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(df["Weather"])

print("Dữ liệu đã được tiền xử lý.")


Dữ liệu đã được tiền xử lý.


In [2]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Dữ liệu huấn luyện: {X_train.shape}, Dữ liệu kiểm tra: {X_test.shape}")


Dữ liệu huấn luyện: (27980, 8), Dữ liệu kiểm tra: (6996, 8)


## Huấn Luyện Mô Hình KNN

In [4]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Khởi tạo mô hình KNN với k
k = 8
knn_model = KNeighborsClassifier(n_neighbors=k)

# Huấn luyện mô hình
knn_model.fit(X_train, y_train)

# Đánh giá mô hình
y_pred = knn_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f"Độ chính xác của KNN (k={k}): {accuracy:.2%}")
print("Thứ tự mã hóa của nhãn Weather:", label_encoder.classes_)


Độ chính xác của KNN (k=8): 65.51%
Thứ tự mã hóa của nhãn Weather: ['Clear' 'Cloudy' 'Mist' 'Overcast' 'Rain' 'Sunny']


## Dự Báo Thời Tiết Cho Dữ Liệu Mới

In [30]:
# Danh sách dữ liệu mới
new_samples = [
    {"Temp": 30.0, "Feels": 34.0, "Gust": 5.0, "Rain": 0.0, "Humidity": 70.0, "Cloud": 50.0, "Pressure": 1008.0, "Wind Speed": 3.0},
    {"Temp": 25.0, "Feels": 27.0, "Gust": 2.0, "Rain": 1.0, "Humidity": 80.0, "Cloud": 90.0, "Pressure": 1012.0, "Wind Speed": 4.0},
    {"Temp": 35.0, "Feels": 38.0, "Gust": 8.0, "Rain": 0.0, "Humidity": 60.0, "Cloud": 20.0, "Pressure": 1005.0, "Wind Speed": 5.0},
    {"Temp": 28.0, "Feels": 30.0, "Gust": 3.0, "Rain": 2.0, "Humidity": 90.0, "Cloud": 85.0, "Pressure": 1015.0, "Wind Speed": 2.0}
]

# Chuyển thành DataFrame
new_data_df = pd.DataFrame(new_samples, columns=feature_columns)

# Dự báo
y_new_pred = knn_model.predict(new_data_df)
weather_preds = label_encoder.inverse_transform(y_new_pred)

# In kết quả
for i, pred in enumerate(weather_preds):
    print(f"Dữ liệu mới {i+1}: Dự báo thời tiết -> {pred}")


Dữ liệu mới 1: Dự báo thời tiết -> Overcast
Dữ liệu mới 2: Dự báo thời tiết -> Mist
Dữ liệu mới 3: Dự báo thời tiết -> Cloudy
Dữ liệu mới 4: Dự báo thời tiết -> Mist
