In [8]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

from keras.models import Sequential
from keras.layers import Embedding, LSTM, Dense
from keras.layers import Flatten

**Loading data**

In [2]:
df = pd.read_csv("../data/weather_data_combined.csv")
df.info()
df.head(5)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16900 entries, 0 to 16899
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Timestamp            16900 non-null  int64  
 1   Temperature          16900 non-null  float64
 2   Feels Like           16900 non-null  float64
 3   Temp Min             16900 non-null  float64
 4   Temp Max             16900 non-null  float64
 5   Pressure             16900 non-null  int64  
 6   Humidity             16900 non-null  int64  
 7   Weather Description  16900 non-null  object 
 8   Wind Speed           16900 non-null  float64
 9   Wind Degree          16900 non-null  int64  
 10  City                 16900 non-null  object 
dtypes: float64(5), int64(4), object(2)
memory usage: 1.4+ MB


Unnamed: 0,Timestamp,Temperature,Feels Like,Temp Min,Temp Max,Pressure,Humidity,Weather Description,Wind Speed,Wind Degree,City
0,1696093200,289.62,289.59,288.05,290.84,1022,87,light intensity drizzle,6.26,360,United States-New York City
1,1696096800,290.65,290.62,289.03,292.21,1022,83,light intensity drizzle,5.36,16,United States-New York City
2,1696100400,291.75,291.7,289.79,294.18,1021,78,overcast clouds,6.71,27,United States-New York City
3,1696104000,291.97,291.92,289.9,294.46,1021,77,overcast clouds,4.47,34,United States-New York City
4,1696107600,291.78,291.74,290.08,293.48,1022,78,overcast clouds,5.14,40,United States-New York City


**Preprocessing data**

In [3]:
#df['Timestamp'] = pd.to_datetime(df['Timestamp'], unit='s')
df['Timestamp'] = df['Timestamp'].astype('int64')/1e9
lb = LabelEncoder()
df['Weather Description'] = lb.fit_transform(df['Weather Description'])

In [4]:
# Split the data
X = df.drop(['Weather Description', 'City', 'Timestamp'], axis=1)
y = df['Weather Description']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [5]:
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

In [6]:
# Calculate metrics
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)

recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

# Print metrics
print(f'Accuracy: {accuracy}')
print(f'Precision: {precision}')
print(f'Recall: {recall}')
print(f'F1 Score: {f1}')

# Confusion Matrix
cm = confusion_matrix(y_test, y_pred)
print(f'Confusion Matrix: \n{cm}')

Accuracy: 0.5890532544378698
Precision: 0.5555644075478618
Recall: 0.5890532544378698
F1 Score: 0.5479039686679893
Confusion Matrix: 
[[ 161  182    0   20    1    2    0    0    0    0    9    0   48   23
     1    0    0    0    0]
 [  45 1451    0   61    1    3    0    0    0    0   12    0   20   17
     0    0    0    0    0]
 [   0    1    0    0    0    0    0    0    0    0    0    0    0    1
     0    0    0    0    0]
 [  40  280    0   92    1    3    0    0    0    0    1    0   12   25
     0    0    0    0    0]
 [   1   24    0    1   10    1    0    0    0    0    8    0    1    1
     0    1    0    0    0]
 [   4   27    0    4    0   13    0    0    0    0    2    0    1    2
     0    0    0    0    0]
 [   0    0    0    0    0    0    0    0    0    0    1    1    1    0
     0    0    0    0    0]
 [   1    1    0    0    0    0    0    1    0    0    1    0    4    0
     0    0    0    0    0]
 [   7    2    0    0    0    0    0    0   18    0    3    0    7

In [7]:
model = LogisticRegression(solver='liblinear', multi_class='auto')

# Train the model
model.fit(X_train, y_train)

# Make predictions
y_pred = model.predict(X_test)

# Print a classification report
print(classification_report(y_test, y_pred, zero_division=0))

# Calculate metrics
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)

recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

# Print metrics
print(f'Accuracy: {accuracy}')
print(f'Precision: {precision}')
print(f'Recall: {recall}')
print(f'F1 Score: {f1}')

# Confusion Matrix
cm = confusion_matrix(y_test, y_pred)
print(f'Confusion Matrix: \n{cm}')

              precision    recall  f1-score   support

           0       0.41      0.13      0.20       447
           1       0.52      0.97      0.68      1610
           3       0.00      0.00      0.00         2
           4       0.00      0.00      0.00       454
           5       0.00      0.00      0.00        48
           6       0.00      0.00      0.00        53
           7       0.00      0.00      0.00         3
           8       0.00      0.00      0.00         8
          10       0.50      0.03      0.05        39
          11       0.00      0.00      0.00         1
          12       0.36      0.09      0.15        98
          13       0.00      0.00      0.00        20
          14       0.32      0.20      0.24       311
          15       0.00      0.00      0.00       255
          16       0.00      0.00      0.00         1
          17       0.00      0.00      0.00        10
          18       0.00      0.00      0.00        18
          19       0.00    

In [8]:
# K-Nearest Neighbors (KNN)
knn_model = KNeighborsClassifier(n_neighbors=5)
knn_model.fit(X_train, y_train)
y_pred_knn = knn_model.predict(X_test)

# Calculate metrics for KNN
accuracy_knn = accuracy_score(y_test, y_pred_knn)
precision_knn = precision_score(y_test, y_pred_knn, average='weighted', zero_division=0)
recall_knn = recall_score(y_test, y_pred_knn, average='weighted')
f1_knn = f1_score(y_test, y_pred_knn, average='weighted')
cm_knn = confusion_matrix(y_test, y_pred_knn)

# Create DataFrame for KNN metrics
metrics_df_knn = pd.DataFrame({
    'Accuracy': [accuracy_knn],
    'Precision': [precision_knn],
    'Recall': [recall_knn],
    'F1 Score': [f1_knn]
})

# Print KNN metrics
print("Metrics (KNN):")
print(metrics_df_knn)

# Create DataFrame for KNN confusion matrix
cm_df_knn = pd.DataFrame(cm_knn, index=np.unique(y_test), columns=np.unique(y_test))

# Print KNN confusion matrix
print("\nConfusion Matrix (KNN):")
print(cm_df_knn)

Metrics (KNN):
   Accuracy  Precision    Recall  F1 Score
0  0.495858   0.447301  0.495858   0.45792

Confusion Matrix (KNN):
     0     1   3   4   5   6   7   8   10  11  12  13  14  15  16  17  18  19  \
0   132   196   0  48   3   4   0   0   1   0   9   0  42  12   0   0   0   0   
1   137  1293   0  89   7   7   0   0   1   0   8   0  36  30   0   2   0   0   
3     0     1   0   0   0   0   0   0   0   0   0   0   0   1   0   0   0   0   
4    55   271   0  88   2   7   0   0   0   0   4   0  12  15   0   0   0   0   
5     5    23   0   1   8   1   0   0   1   0   7   0   2   0   0   0   0   0   
6     5    26   0   7   0   8   0   0   0   0   3   0   4   0   0   0   0   0   
7     1     0   0   0   0   0   0   0   1   0   1   0   0   0   0   0   0   0   
8     2     4   0   1   0   0   0   0   0   0   1   0   0   0   0   0   0   0   
10    6     8   0   2   0   0   0   0  14   0   2   0   4   3   0   0   0   0   
11    0     1   0   0   0   0   0   0   0   0   0   0   0   0   

In [9]:
# scaler = StandardScaler()
# X_train = scaler.fit_transform(X_train)
# X_test = scaler.transform(X_test)

# Create an SVM model
model = SVC(kernel='linear', C=1.0)

# Train the model
model.fit(X_train, y_train)

# Make predictions
y_pred = model.predict(X_test)

# Print a classification report
print(classification_report(y_test, y_pred, zero_division=0))

# Calculate metrics
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

# Print metrics
print(f'Accuracy: {accuracy}')
print(f'Precision: {precision}')
print(f'Recall: {recall}')
print(f'F1 Score: {f1}')

# Confusion Matrix
cm = confusion_matrix(y_test, y_pred)
print(f'Confusion Matrix: \n{cm}')

              precision    recall  f1-score   support

           0       0.42      0.15      0.22       447
           1       0.53      0.97      0.69      1610
           3       0.00      0.00      0.00         2
           4       0.00      0.00      0.00       454
           5       0.00      0.00      0.00        48
           6       0.00      0.00      0.00        53
           7       0.00      0.00      0.00         3
           8       0.00      0.00      0.00         8
          10       0.85      0.28      0.42        39
          11       0.00      0.00      0.00         1
          12       0.24      0.12      0.16        98
          13       0.00      0.00      0.00        20
          14       0.29      0.23      0.26       311
          15       0.00      0.00      0.00       255
          16       0.00      0.00      0.00         1
          17       0.00      0.00      0.00        10
          18       0.00      0.00      0.00        18
          19       0.00    

In [3]:
# Assuming you have a 'text' column and a 'weather' column in your DataFrame
X_text = df['Weather Description'].astype(str).values  # Convert to string
X_numeric = df[['Temperature', 'Feels Like', 'Temp Min', 'Temp Max', 'Pressure', 'Humidity', 'Wind Speed', 'Wind Degree']]

# Convert labels to numerical values
le = LabelEncoder()
y = le.fit_transform(df['Weather Description'])

# Tokenize the text data
max_vocab_size = 16000  # Adjust as needed
tokenizer = Tokenizer(num_words=max_vocab_size)
tokenizer.fit_on_texts(X_text)
X_text = tokenizer.texts_to_sequences(X_text)

# Pad sequences to a fixed length
max_len = max(len(seq) for seq in X_text)
X_text = pad_sequences(X_text, maxlen=max_len)

# Define the preprocessing pipeline for numeric features
numeric_features = ['Temperature', 'Feels Like', 'Temp Min', 'Temp Max', 'Pressure', 'Humidity', 'Wind Speed', 'Wind Degree']
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

# Combine text and numeric features
preprocessor = ColumnTransformer(
    transformers=[
        ('text', Tokenizer(), 'Weather Description'),
        ('num', numeric_transformer, numeric_features)
    ]
)

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X_text, y, test_size=0.2, random_state=42)

# Xây dựng mô hình
embedding_dim = 50  # Đặt kích thước của không gian embedding
model = Sequential()
model.add(Embedding(input_dim=max_vocab_size, output_dim=embedding_dim, input_length=max_len))
model.add(Flatten())
model.add(Dense(128, activation='relu'))
model.add(Dense(len(le.classes_), activation='softmax'))

# Biên soạn và huấn luyện mô hình
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_test, y_test))

# Đánh giá mô hình
loss, accuracy = model.evaluate(X_test, y_test)
print(f"Test Loss: {loss:.4f}")
print(f"Test Accuracy: {accuracy:.4f}")


Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Test Loss: 0.0058
Test Accuracy: 0.9997


In [4]:
import pandas as pd
from keras.preprocessing.text import Tokenizer

# Đọc dữ liệu từ file hoặc nguồn dữ liệu khác
# df = pd.read_csv('your_data.csv')

# Xác định cột chứa văn bản
text_column = 'Weather Description'

# Lấy ra toàn bộ văn bản từ cột
all_text = df[text_column].astype(str).values

# Khởi tạo Tokenizer và fit trên dữ liệu
tokenizer = Tokenizer()
tokenizer.fit_on_texts(all_text)

# Xác định max_vocab_size dựa trên số từ vựng trong tokenizer
max_vocab_size = len(tokenizer.word_index)
print("Max Vocab Size:", max_vocab_size)


Max Vocab Size: 23


In [5]:
# Đọc dữ liệu từ file hoặc nguồn dữ liệu khác
# df = pd.read_csv('your_data.csv')

# Xác định cột chứa văn bản
text_column = 'Weather Description'

# Lấy giá trị và số lần xuất hiện của chúng
word_counts = df[text_column].value_counts()

# In ra một số giá trị đầu tiên
print(word_counts.head())


Weather Description
clear sky           7981
few clouds          2159
broken clouds       2130
overcast clouds     1601
scattered clouds    1411
Name: count, dtype: int64


## 1. Chia dữ liệu thành tập huấn luyện, tập kiểm tra và tập validation:

In [18]:
# Chia dữ liệu thành tập huấn luyện, tập kiểm tra và tập validation
X_train, X_temp, y_train, y_temp = train_test_split(X_text, y, test_size=0.2, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)


## 2. Xây dựng và huấn luyện mô hình trên tập huấn luyện và đánh giá trên tập validation:

In [19]:
# Xây dựng mô hình
embedding_dim = 50  
model = Sequential()
model.add(Embedding(input_dim=max_vocab_size, output_dim=embedding_dim, input_length=max_len))
model.add(Flatten())
model.add(Dense(128, activation='relu'))
model.add(Dense(len(le.classes_), activation='softmax'))

# Biên soạn mô hình
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# Huấn luyện mô hình trên tập huấn luyện và đánh giá trên tập validation
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_val, y_val))


Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x2884e2d90>

## 3. Điều chỉnh hyperparameters dựa trên đánh giá trên tập validation:

Dựa vào kết quả huấn luyện và đánh giá trên tập validation, mô hình đã cho thấy hiệu suất rất tốt với độ chính xác lên đến 99.99% trên tập validation. Dưới đây là một số điều nhóm đề xuất để điều chỉnh hyperparameters:

**Số lượng epochs:**
Dựa vào kết quả, mô hình có vẻ đã hội tụ khá nhanh với số lượng epochs tương đối ít.
Nhóm nhận thấy có thể thử giảm số lượng epochs hoặc sử dụng early stopping để ngừng huấn luyện khi không có cải thiện đáng kể.

**Batch size:**
Batch size hiện đang là 32. Nhóm dự định thử nghiệm các giá trị khác nhau để xem liệu có sự thay đổi nào không.

**Kích thước embedding (embedding_dim):**
Nhóm em đã sử dụng embedding_dim = 50, có thể thử các giá trị khác nhau, ví dụ như 32, 64, 128, để xem liệu có sự cải thiện nào không.

**Tăng cường dữ liệu (Data Augmentation):**
có thể thử tăng cường dữ liệu để cải thiện khả năng tổng quát hóa của mô hình.

**Dropout:**
Thêm dropout layer để giảm overfitting.

**Learning rate:**
Thử điều chỉnh learning rate.

In [26]:
# Assuming you have a 'text' column and a 'weather' column in your DataFrame
X_text = df['Weather Description'].astype(str).values  # Convert to string
X_numeric = df[['Temperature', 'Feels Like', 'Temp Min', 'Temp Max', 'Pressure', 'Humidity', 'Wind Speed', 'Wind Degree']]

# Convert labels to numerical values
le = LabelEncoder()
y = le.fit_transform(df['Weather Description'])

# Tokenize the text data
max_vocab_size = 16000  # Adjust as needed
tokenizer = Tokenizer(num_words=max_vocab_size)
tokenizer.fit_on_texts(X_text)
X_text = tokenizer.texts_to_sequences(X_text)

# Pad sequences to a fixed length
max_len = max(len(seq) for seq in X_text)
X_text = pad_sequences(X_text, maxlen=max_len)

# Define the preprocessing pipeline for numeric features
numeric_features = ['Temperature', 'Feels Like', 'Temp Min', 'Temp Max', 'Pressure', 'Humidity', 'Wind Speed', 'Wind Degree']
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

# Combine text and numeric features
preprocessor = ColumnTransformer(
    transformers=[
        ('text', Tokenizer(), 'Weather Description'),
        ('num', numeric_transformer, numeric_features)
    ]
)

# Chia dữ liệu thành tập huấn luyện, tập kiểm tra và tập validation
X_train, X_temp, y_train, y_temp = train_test_split(X_text, y, test_size=0.2, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

# Xây dựng mô hình
embedding_dim = 50
model = Sequential()
model.add(Embedding(input_dim=max_vocab_size, output_dim=embedding_dim, input_length=max_len))
model.add(Flatten())
model.add(Dense(128, activation='relu'))
model.add(Dropout(0.5))  # Thêm Dropout Layer để giảm overfitting
model.add(Dense(len(le.classes_), activation='softmax'))

# Biên soạn mô hình
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# Sử dụng Early Stopping để ngừng huấn luyện khi không có cải thiện trên tập validation
early_stopping = EarlyStopping(monitor='val_loss', patience=3, restore_best_weights=True)

# Huấn luyện mô hình trên tập huấn luyện và đánh giá trên tập validation
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_val, y_val), callbacks=[early_stopping])

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x178edb490>

## 4. Re-train mô hình trên (tập huấn luyện + tập validation)

In [27]:
best_epochs = 5  # Thay thế bằng giá trị bạn muốn sử dụng
best_batch_size = 32  # Thay thế bằng giá trị bạn muốn sử dụng

X_train_final = np.concatenate((X_train, X_val))
y_train_final = np.concatenate((y_train, y_val))

model.fit(X_train_final, y_train_final, epochs=best_epochs, batch_size=best_batch_size)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.src.callbacks.History at 0x118e3c890>

## 5. Đánh giá mô hình cuối cùng trên tập kiểm tra

In [28]:
loss, accuracy = model.evaluate(X_test, y_test)
print(f"Test Loss: {loss:.4f}")
print(f"Test Accuracy: {accuracy:.4f}")

Test Loss: 0.0128
Test Accuracy: 0.9994
