In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics.pairwise import cosine_similarity


In [2]:

# Tạo DataFrame từ bảng dữ liệu
data = {
    'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'Age': [28, 25, 57, 60, 55, 56, 45, 34, 47, 68, 38, 42],
    'Income': [12000, 11000, 17000, 7000, 4200, 3700, 4600, 6800, 8600, 9000, 8000, 6700],
    'Student': ['No', 'No', 'No', 'No', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'No'],
    'Credit_Rating': [0.4, 0.7, 0.3, 0.4, 0.45, 0.9, 0.88, 0.46, 0.45, 0.69, 0.9, 0.89],
    'Buy_Computer': ['No', 'No', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'Yes']
}

df = pd.DataFrame(data)


In [3]:
# Chuẩn hoá dữ liệu theo phương pháp Min-Max normalization.

# Tạo một đối tượng MinMaxScaler và chuẩn hoá các cột 'Age', 'Income', 'Credit_Rating'
scaler = MinMaxScaler()
df[['Age', 'Income', 'Credit_Rating']] = scaler.fit_transform(df[['Age', 'Income', 'Credit_Rating']])

# Hiển thị DataFrame đã chuẩn hoá
print(df)


    ID       Age    Income Student  Credit_Rating Buy_Computer
0    1  0.069767  0.624060      No       0.166667           No
1    2  0.000000  0.548872      No       0.666667           No
2    3  0.744186  1.000000      No       0.000000          Yes
3    4  0.813953  0.248120      No       0.166667          Yes
4    5  0.697674  0.037594     Yes       0.250000          Yes
5    6  0.720930  0.000000     Yes       1.000000           No
6    7  0.465116  0.067669     Yes       0.966667          Yes
7    8  0.209302  0.233083      No       0.266667           No
8    9  0.511628  0.368421     Yes       0.250000          Yes
9   10  1.000000  0.398496     Yes       0.650000          Yes
10  11  0.302326  0.323308     Yes       1.000000          Yes
11  12  0.395349  0.225564      No       0.983333          Yes


In [4]:
# Dự đoán giá trị trường Buy_Computer của dữ liệu 
# ID = 13, Age = 20, Income = 8.000, Student = Yes, Credit_Rating = 0.85 sử dụng thuật toán KNN với k = 3.
# Sử dụng phép đo khoảng cách Cosine.

# Chuẩn bị dữ liệu mới
new_data = {
    'Age': [20],
    'Income': [8000],
    'Student': ['Yes'],
    'Credit_Rating': [0.85]
}

new_df = pd.DataFrame(new_data)
new_df[['Age', 'Income', 'Credit_Rating']] = scaler.transform(new_df[['Age', 'Income', 'Credit_Rating']])

# Thêm cột Student (chuyển đổi thành 0 và 1)
df['Student'] = df['Student'].map({'No': 0, 'Yes': 1})
new_df['Student'] = new_df['Student'].map({'No': 0, 'Yes': 1})

# Tính khoảng cách Cosine
def cosine_distance(a, b):
    return 1 - cosine_similarity([a], [b])[0][0]

distances = []
for i in range(len(df)):
    distance = cosine_distance(
        [df.loc[i, 'Age'], df.loc[i, 'Income'], df.loc[i, 'Student'], df.loc[i, 'Credit_Rating']],
        [new_df.loc[0, 'Age'], new_df.loc[0, 'Income'], new_df.loc[0, 'Student'], new_df.loc[0, 'Credit_Rating']]
    )
    distances.append((distance, df.loc[i, 'Buy_Computer']))

# Sắp xếp các khoảng cách và chọn k=3 hàng xóm gần nhất
distances.sort(key=lambda x: x[0])
k = 3
nearest_neighbors = distances[:k]

# Dự đoán nhãn dựa trên đa số nhãn của k hàng xóm gần nhất
labels = [neighbor[1] for neighbor in nearest_neighbors]
prediction = max(set(labels), key=labels.count)

print(f"Dự đoán cho ID = 13 là: {prediction}")

Dự đoán cho ID = 13 là: Yes


In [5]:
# Cho biết:
# o Age < 30: Age = Young.
# o Age >= 30 và Age <50: Age = Medium
# o Age >=50: Age = Old
# o Income < 7.000: Income = Low
# o Imcome >= 7.000 và Income < 12.000: Imcome = Medium.
# o Imcome >= 12.000: Imcome = High.
# o Credit_Rating >= 0.7: Credit_rating = Excellent
# o Credict_Rating < 0.7: Credit_rating = Fair.

# Sử dụng thuật toán phân lớp Naïve Bayes, hãy cho biết một người có 
# ID = 14, Age = 35, Imcome = 12.000, Student = Yes, Credit_Rating = 0.5 
# hãy dự đoán xem giá trị Buy_Computer là gì? 
# Yêu cầu chỉ rõ các bước thực hiện, các xác suất thành phần cần tính.
    
# Chuyển đổi các giá trị theo các quy tắc đã cho
def convert_age(age):
    if age < 30:
        return 'Young'
    elif age < 50:
        return 'Medium'
    else:
        return 'Old'

def convert_income(income):
    if income < 7000:
        return 'Low'
    elif income < 12000:
        return 'Medium'
    else:
        return 'High'

def convert_credit_rating(rating):
    if rating >= 0.7:
        return 'Excellent'
    else:
        return 'Fair'

df['Age'] = df['Age'].apply(convert_age)
df['Income'] = df['Income'].apply(convert_income)
df['Credit_Rating'] = df['Credit_Rating'].apply(convert_credit_rating)

# Chuẩn bị dữ liệu mới
new_data = {
    'ID': [14],
    'Age': ['Medium'],
    'Income': ['High'],
    'Student': ['Yes'],
    'Credit_Rating': ['Fair']
}

new_df = pd.DataFrame(new_data)

# Tính xác suất tiên nghiệm
p_yes = df['Buy_Computer'].value_counts()['Yes'] / len(df)
p_no = df['Buy_Computer'].value_counts()['No'] / len(df)

# Tính xác suất có điều kiện
def calc_cond_prob(df, feature, value, label):
    subset = df[df['Buy_Computer'] == label]
    return subset[feature].value_counts().get(value, 0) / len(subset)

# Tính xác suất có điều kiện cho từng thuộc tính
features = ['Age', 'Income', 'Student', 'Credit_Rating']
yes_probs = p_yes
no_probs = p_no

for feature in features:
    yes_probs *= calc_cond_prob(df, feature, new_df[feature][0], 'Yes')
    no_probs *= calc_cond_prob(df, feature, new_df[feature][0], 'No')

# Tính xác suất hậu nghiệm
p_buy_yes = yes_probs / (yes_probs + no_probs)
p_buy_no = no_probs / (yes_probs + no_probs)

# Dự đoán
prediction = 'Yes' if p_buy_yes > p_buy_no else 'No'
print(f"Dự đoán cho ID = 14 là: {prediction}")

Dự đoán cho ID = 14 là: No


  p_buy_yes = yes_probs / (yes_probs + no_probs)
  p_buy_no = no_probs / (yes_probs + no_probs)


In [1]:
import pandas as pd

# Đọc dữ liệu từ file CSV
file_path = 'Buoi 3/Mall_Customers.csv'  # Thay 'your_file.csv' bằng đường dẫn tới file của bạn
data = pd.read_csv(file_path)

# Lấy 30 dòng đầu tiên
data_head = data.head(30)

# Hiển thị kết quả
print(data_head)

# Lưu 30 dòng đầu tiên ra file CSV mới
output_file_path = 'test30.csv'  # Đường dẫn tới file mới
data_head.to_csv(output_file_path, index=False)

print(f'30 dòng đầu tiên đã được lưu vào {output_file_path}')


    CustomerID  Gender  Age  Annual Income (k$)  Spending Score (1-100)
0            1    Male   19                  15                      39
1            2    Male   21                  15                      81
2            3  Female   20                  16                       6
3            4  Female   23                  16                      77
4            5  Female   31                  17                      40
5            6  Female   22                  17                      76
6            7  Female   35                  18                       6
7            8  Female   23                  18                      94
8            9    Male   64                  19                       3
9           10  Female   30                  19                      72
10          11    Male   67                  19                      14
11          12  Female   35                  19                      99
12          13  Female   58                  20                 