#### **Khám phá dữ liệu & Tiền xử lý dữ liệu**

In [397]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [398]:
# Đọc dữ liệu
df = pd.read_csv('dengue.csv')

In [399]:
# Hiển thị tỉ lệ thiếu dữ liệu

for i in range(len(df.columns)):
  missing_data = df[df.columns[i]].isna().sum()
  perc = missing_data / len(df) * 100
  print(f'> Columns {i}[{df.columns[i]}][{df[df.columns[i]].dtypes}], missing entries: {missing_data}, percentage {perc}%')

> Columns 0[p_i_d][int64], missing entries: 0, percentage 0.0%
> Columns 1[date_of_fever][object], missing entries: 0, percentage 0.0%
> Columns 2[residence][object], missing entries: 0, percentage 0.0%
> Columns 3[days][object], missing entries: 0, percentage 0.0%
> Columns 4[current_temp][float64], missing entries: 0, percentage 0.0%
> Columns 5[wbc][float64], missing entries: 117, percentage 36.11111111111111%
> Columns 6[servere_headche][object], missing entries: 52, percentage 16.049382716049383%
> Columns 7[pain_behind_the_eyes][object], missing entries: 0, percentage 0.0%
> Columns 8[joint_muscle_aches][object], missing entries: 41, percentage 12.654320987654321%
> Columns 9[metallic_taste_in_the_mouth][object], missing entries: 0, percentage 0.0%
> Columns 10[appetite_loss][object], missing entries: 0, percentage 0.0%
> Columns 11[addominal_pain][object], missing entries: 0, percentage 0.0%
> Columns 12[nausea_vomiting][object], missing entries: 0, percentage 0.0%
> Columns 13[

In [400]:
# Xóa dữ liệu thiếu nhãn
df.dropna(subset=['dengue'], inplace=True)

In [401]:
# Xóa dữ liệu 'hemoglobin', 'hematocrit'
df.drop(columns=['hemoglobin', 'hematocrit'], inplace=True)

In [402]:
missing_data = df[df['wbc'].isnull() | df['platelet'].isnull()][['current_temp', 'wbc', 'platelet']]
available_data = df.dropna(subset=['wbc', 'platelet'])[['current_temp', 'wbc', 'platelet']]

In [403]:
from sklearn.linear_model import LinearRegression

for column in ['wbc', 'platelet']:
    lr = LinearRegression()
    y = available_data[column]
    X = available_data.drop(columns=column)
    lr.fit(X, y)
    restCol = list(set(['wbc', 'platelet']) - set([column]))[0]
    for index, row in missing_data.iterrows():
        if pd.notna(row[restCol]):
            X_missing = row[['current_temp', restCol]].values.reshape(1, -1)
            predicted_value = lr.predict(X_missing)[0]
            df.at[index, column] = predicted_value




In [404]:
missing_data = df[df['wbc'].isnull() | df['platelet'].isnull()][['current_temp', 'wbc', 'platelet']]
available_data = df.dropna(subset=['wbc', 'platelet'])[['current_temp', 'wbc', 'platelet']]

In [405]:
from sklearn.linear_model import LinearRegression

for column in ['wbc', 'platelet']:
  lr = LinearRegression()
  y = available_data[column]
  X = available_data[['current_temp']]
  lr.fit(X, y)

  for index, row in missing_data.iterrows():
    X_missing = row[['current_temp']].values.reshape(1, -1)
    predicted_value = lr.predict(X_missing)[0]
    df.at[index, column] = predicted_value




In [406]:
from sklearn.tree import DecisionTreeClassifier

imputed_column = ['pain_behind_the_eyes', 'metallic_taste_in_the_mouth', 'appetite_loss', 'addominal_pain', 'nausea_vomiting']
missing_column = ['servere_headche', 'joint_muscle_aches']

for column in missing_column:
    clf = DecisionTreeClassifier()
    X = df.dropna(subset=column)[imputed_column]
    y = df.dropna(subset=column)[column]
    encoding = {"yes": 1, "no": 0}
    decoding = {1: "yes", 2: "no"}
    X = X.replace(encoding)
    y = y.replace(encoding)


    clf.fit(X, y)
    X_missing = df[df[column].isnull()][imputed_column].replace(encoding)
    for index, row in X_missing.iterrows():
        predicted_labels = 'yes' if clf.predict([row])[0] else "no"
        df.at[index, column] = predicted_labels




In [407]:
# Xử lý dữ liệu không nhất quán

def process_days(x):
  if pd.isna(x):
      return np.nan
  if 'days' in x:
      return int(x.split(' days')[0])
  if 'weeks' in x:
      return int(x.split(' weeks')[0]) * 7
  if 'months' in x:
      return int(x.split(' months')[0]) * 30
  if '--' in x:
      return int(x.split('--')[1])
  return np.nan

df['days'] = df['days'].apply(process_days)

In [408]:
# Chuẩn hóa dữ liệu

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

columns_to_scale = ['wbc', 'platelet']
df[columns_to_scale] = scaler.fit_transform(df[columns_to_scale])

In [409]:
# Xóa những cột không cần thiết
del_columns = ['p_i_d', 'date_of_fever', 'residence']

df.drop(columns=del_columns, inplace=True)

In [410]:
df

Unnamed: 0,days,current_temp,wbc,servere_headche,pain_behind_the_eyes,joint_muscle_aches,metallic_taste_in_the_mouth,appetite_loss,addominal_pain,nausea_vomiting,diarrhoea,platelet,dengue
0,10,100.0,0.444444,yes,no,no,yes,yes,yes,no,yes,0.291667,yes
1,4,104.0,0.000000,no,yes,yes,no,no,no,no,no,0.541667,no
2,5,104.0,0.444444,yes,no,no,yes,yes,yes,yes,no,0.208333,yes
3,30,101.0,0.350342,yes,yes,no,no,no,no,no,no,0.249385,no
4,12,101.0,0.055556,yes,no,no,no,no,no,yes,no,0.000000,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...
318,3,104.0,0.222222,yes,no,no,yes,no,no,no,no,0.083333,yes
319,5,103.5,0.133333,yes,yes,no,yes,no,no,no,no,0.166667,yes
321,6,101.0,0.233333,yes,no,no,no,no,yes,no,no,0.187500,yes
322,4,104.0,0.355556,yes,no,yes,no,yes,no,yes,no,0.229167,yes


In [411]:
# Vẽ biểu đồ phụ thuộc cho biến phân loại
# categorical_columns = ['servere_headche', 'pain_behind_the_eyes', 'joint_muscle_aches', 'metallic_taste_in_the_mouth', 'appetite_loss', 'addominal_pain', 'nausea_vomiting', 'diarrhoea']
# for column in categorical_columns:
#     df[column].value_counts().plot(kind='bar')
#     plt.title(f'Counts for {column}')
#     plt.xlabel(column)
#     plt.ylabel('Count')
#     plt.show()

In [412]:
# Vẽ biểu đồ phân phối của biến mục tiêu (dengue)
# df['dengue'].value_counts().plot(kind='bar')
# plt.title('Counts for Dengue (Target Variable)')
# plt.xlabel('Dengue')
# plt.ylabel('Count')
# plt.show()


In [413]:
# Tính ma trận tương quan cho các biến số và biến mục tiêu
# correlation_matrix = df.corr()
# plt.figure(figsize=(10, 6))
# plt.imshow(correlation_matrix, cmap='coolwarm', interpolation='none', aspect='auto')
# plt.colorbar()
# plt.xticks(range(len(correlation_matrix.columns), correlation_matrix.columns, rotation=90))
# plt.yticks(range(len(correlation_matrix.columns), correlation_matrix.columns))
# plt.title('Correlation Matrix')
# plt.show()

In [396]:
# Xuất file .csv

df.to_csv('dengue_data_processed.csv', index=False)

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import classification_report, accuracy_score

# Tải dữ liệu vào DataFrame (đã thay đổi theo nội dung của bạn)
X = df.drop('dengue', axis=1)
y = df['dengue']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Tạo mô hình Gaussian Naive Bayes
model = GaussianNB()

# Huấn luyện mô hình trên tập huấn luyện
model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# In ra báo cáo đánh giá
print("Báo cáo đánh giá:\n", classification_report(y_test, y_pred))

# In ra độ chính xác
accuracy = accuracy_score(y_test, y_pred)
print("Độ chính xác:", accuracy)
