# Cho tập dữ liệu Wine Quality


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
#1. Đọc dữ liệu, sau đó hiển thị 5 dòng đầu tiên , thông tin về dữ liệu, thống kê mô tả.

df = pd.read_csv("/Users/qytheturtle/Documents/HK3/Số hoá và quản trị thông tin số/Lab5/winequality-red.csv", sep=";")

# Hiển thị 5 dòng đầu tiên
print("5 dòng đầu tiên:")
print(df.head(5))

# Thông tin về dữ liệu
print("\nThông tin về dữ liệu:")
print(df.info())

# Thống kê mô tả
print("\nThống kê mô tả:")
print(df.describe())

#2. Phân tích khám phá dữ liệu
#2.1 Kiểm tra giá trị thiếu
print("Số lượng giá trị thiếu trong mỗi cột:")
print(df.isnull().sum())
#2.2 Vẽ histogram cho tất cả các biến và nhận xét
df.hist(bins=20, figsize=(20, 15))
plt.tight_layout()
plt.show()
# Nhận xét: Kiểm tra phân bố của từng biến, tìm hiểu xem có bị lệch hay không
#2.3 Vẽ boxplot cho tất cả các biến và nhận xét
plt.figure(figsize=(12, 6))
sns.boxplot(data=df)
plt.xticks(rotation=90)  # Xoay tên cột nếu bị dính nhau
plt.show()
# Nhận xét: Xác định các giá trị ngoại lai.
#2.4 Vẽ Scatterplot cho "alcohol và quality"
plt.figure(figsize=(8, 5))
sns.scatterplot(x="alcohol", y="quality", data=df)
plt.title("Mối quan hệ giữa Alcohol và Quality")
plt.show()
# Nhận xét: Kiểm tra xem có mối tương quan nào giữa độ cồn và chất lượng rượu không.



#3.Tính toán ma trận tương quan và vẽ heatmap của ma trận tương quan đó
corr=df.corr()
#vẽ heatmap
plt.figure(figsize=(12, 8))  # Đặt kích thước biểu đồ
sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
sns.heatmap(corr,annot=True,cmap="coolwarm",fmt=".2f")
plt.title("Heatmap của ma trận tương quan")
plt.show()

#4.Chia tập dữ liệu thủ công không dùng thư viện có sẵn
# 4.1 Xáo trộn dữ liệu
np.random.seed(42)  # Đặt seed để tái hiện kết quả giống nhau
shuffled_indices = np.random.permutation(len(df))  # Trộn ngẫu nhiên các chỉ số

# 4.2 Chia dữ liệu với 80% huấn luyện, 20% kiểm tra
test_size = int(0.2 * len(df))  # Số lượng mẫu dành cho tập kiểm tra
train_indices = shuffled_indices[:-test_size]  # 80% đầu
test_indices = shuffled_indices[-test_size:]  # 20% cuối

# Tạo tập huấn luyện và tập kiểm tra
train_set = df.iloc[train_indices]
test_set = df.iloc[test_indices]

# Kiểm tra kích thước tập dữ liệu
print(f"Tập huấn luyện: {train_set.shape}")
print(f"Tập kiểm tra: {test_set.shape}")
#4.3 Tách dữ liệu
# 4.3 Tách dữ liệu huấn luyện và kiểm tra (đặt lại biến cho đồng nhất)
X_train = train_set.drop(columns=['quality'])  
y_train = train_set['quality']

X_test = test_set.drop(columns=['quality'])
y_test = test_set['quality']

#4.4 Tách đặc trưng và nhãn
print("Tập huấn luyện (X_train) kích thước:", X_train.shape)
print("Tập kiểm tra (X_test) kích thước:", X_test.shape)
print("Số mẫu trong tập huấn luyện:", len(X_train))
print("Số mẫu trong tập kiểm tra:", len(X_test))



#5.Chuẩn bị dữ liệu
# 5.1 Chia tập dữ liệu (Giả sử df có cột 'quality' là y, còn lại là X)
X = df.drop(columns=['quality'])  # Loại bỏ cột quality (đầu vào)
y = df['quality']  # Biến mục tiêu

# Chia dữ liệu thành tập huấn luyện và kiểm tra (80% - 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 5.1 Khởi tạo bộ chuẩn hóa
scaler = StandardScaler()

# 5.2 Chuẩn hóa tập huấn luyện
X_train_scaled = scaler.fit_transform(X_train)

# 5.3 Chuẩn hóa tập kiểm tra (Chỉ transform, không fit lại)
X_test_scaled = scaler.transform(X_test)

# 6. Ứng dụng mô hình hồi quy tuyến tính
# 6.1 Khởi tạo mô hình
model = LinearRegression()

# 6.2 Huấn luyện mô hình
model.fit(X_train_scaled, y_train)

# 6.3 Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test_scaled)

# Kiểm tra kết quả
print(f"Dự đoán đầu tiên: {y_pred[:5]}")


#7.Đánh giá mô hình
#Tính MSE và R^2
# 7.1 Tính MSE
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error (MSE): {mse:.4f}")

# 7.2 Tính R^2
r2 = r2_score(y_test, y_pred)
print(f"R-squared (R²): {r2:.4f}")

#BTVN
1. Hoàn thành bài tập trên sao cho đoạn code có thể chạy mượt mà và chính xác

2.Cho bộ dữ liệu howlongwelive:

2.1 Tôi muốn biết có bao nhiêu cột và bao nhiêu hàng
2.2 Tôi muốn biết danh sách tên của các cột
2.3 Thử dùng df["status"]
2.4 Cho tôi biết có bao nhiêu nước đang phát triển và bao nhiêu nước phát triển
2.5 Tính min,max,mean,median của alcohol
2.6:
-Bài 1: Đếm những hàng có rựou nhiều hơn mức trung bình và liệt kê những quốc gia độc đáo này
-Bài 2: Lấy danh sách quốc gia có trình độ học vấn cao hơn mức trung bình và GDP cao hơn mức trung bình

In [9]:
#BTVN
import pandas as pd

# Đọc dữ liệu
file_path = "/Users/qytheturtle/Documents/HK3/Số hoá và quản trị thông tin số/Lab5/howlongwelive.csv"
df = pd.read_csv(file_path)

# 2.1 Số hàng và số cột
num_rows, num_cols = df.shape
print(f"Số hàng: {num_rows}, Số cột: {num_cols}")

# 2.2 Danh sách tên cột
print("Danh sách các cột:", df.columns.tolist())

# 2.3 Thử truy xuất df["status"]
print(df["Status"].head())

# 2.4 Đếm số lượng nước đang phát triển và phát triển
developing_count = (df["Status"] == "Developing").sum()
developed_count = (df["Status"] == "Developed").sum()

print(f"Số nước đang phát triển: {developing_count}")
print(f"Số nước phát triển: {developed_count}")

# 2.5 Thống kê min, max, mean, median của alcohol
alcohol_min = df["Alcohol"].min()
alcohol_max = df["Alcohol"].max()
alcohol_mean = df["Alcohol"].mean()
alcohol_median = df["Alcohol"].median()

print(f"Alcohol - Min: {alcohol_min}, Max: {alcohol_max}, Mean: {alcohol_mean}, Median: {alcohol_median}")

# 2.6 - Bài 1: Đếm và liệt kê các quốc gia có mức rượu cao hơn trung bình
high_alcohol_countries = df[df["Alcohol"] > alcohol_mean]["Country"].unique()
print(f"Số quốc gia có mức rượu cao hơn trung bình: {len(high_alcohol_countries)}")
print("Danh sách các quốc gia:", high_alcohol_countries)

# 2.6 - Bài 2: Quốc gia có trình độ học vấn và GDP cao hơn mức trung bình
education_mean = df["Schooling"].mean()
gdp_mean = df["GDP"].mean()

high_edu_gdp_countries = df[(df["Schooling"] > education_mean) & (df["GDP"] > gdp_mean)]["Country"].unique()
print(f"Số quốc gia có trình độ học vấn và GDP cao hơn trung bình: {len(high_edu_gdp_countries)}")
print("Danh sách các quốc gia:", high_edu_gdp_countries)


Số hàng: 2938, Số cột: 22
Danh sách các cột: ['Country', 'Year', 'Status', 'Life expectancy ', 'Adult Mortality', 'infant deaths', 'Alcohol', 'percentage expenditure', 'Hepatitis B', 'Measles ', ' BMI ', 'under-five deaths ', 'Polio', 'Total expenditure', 'Diphtheria ', ' HIV/AIDS', 'GDP', 'Population', ' thinness  1-19 years', ' thinness 5-9 years', 'Income composition of resources', 'Schooling']
0    Developing
1    Developing
2    Developing
3    Developing
4    Developing
Name: Status, dtype: object
Số nước đang phát triển: 2426
Số nước phát triển: 512
Alcohol - Min: 0.01, Max: 17.87, Mean: 4.602860787172012, Median: 3.755
Số quốc gia có mức rượu cao hơn trung bình: 92
Danh sách các quốc gia: ['Albania' 'Angola' 'Antigua and Barbuda' 'Argentina' 'Australia'
 'Austria' 'Bahamas' 'Barbados' 'Belarus' 'Belgium' 'Belize'
 'Bosnia and Herzegovina' 'Botswana' 'Brazil' 'Bulgaria' 'Burkina Faso'
 'Burundi' 'Cabo Verde' 'Cameroon' 'Canada' 'Chile' 'China' 'Colombia'
 'Croatia' 'Cyprus' 'Cze