<a href="https://colab.research.google.com/github/bigdreamn/-etwe/blob/main/nhom6_nguyenphamhonglam.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from google.colab import drive
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Kết nối Google Drive
drive.mount('/content/drive')

# Đọc dữ liệu từ file Excel
file_path = "/content/drive/MyDrive/nhom6_nguyenphamhonglam1.xlsx"
df = pd.read_excel(file_path, engine='openpyxl')

print("Dữ liệu ban đầu:")
print(df.head())

print("\nGiá trị bị thiếu trong từng cột:")
print(df.isnull().sum())

df.fillna(df.mean(numeric_only=True), inplace=True)

print("\nKiểu dữ liệu ban đầu:")
print(df.dtypes)

if "NGÀY SINH" in df.columns:
    df["NGÀY SINH"] = pd.to_datetime(df["NGÀY SINH"], errors='coerce')

df.dropna(inplace=True)

df.to_excel("/content/drive/MyDrive/clean_data.xlsx", index=False, engine='openpyxl')
print("\nDữ liệu đã được làm sạch và lưu vào clean_data.xlsx")

print("\nThống kê mô tả dữ liệu:")
print(df.describe())

if "ĐIỂM TRUNG BÌNH" in df.columns:
    plt.figure(figsize=(8, 5))
    sns.histplot(df["ĐIỂM TRUNG BÌNH"], bins=10, kde=True, color='blue')
    plt.title("Phân phối điểm trung bình của sinh viên")
    plt.xlabel("Điểm trung bình")
    plt.ylabel("Số lượng sinh viên")
    plt.grid(True)
    plt.show()

if "NGÀNH HỌC" in df.columns and "SỐ TÍN CHỈ ĐẠT" in df.columns:
    plt.figure(figsize=(10, 5))
    sns.barplot(x="NGÀNH HỌC", y="SỐ TÍN CHỈ ĐẠT", data=df, palette="viridis")
    plt.xticks(rotation=45)
    plt.title("Số tín chỉ đạt được theo ngành học")
    plt.xlabel("Ngành học")
    plt.ylabel("Số tín chỉ đạt")
    plt.grid(True)
    plt.show()

if "SỐ TÍN CHỈ ĐẠT" in df.columns and "ĐIỂM TRUNG BÌNH" in df.columns:
    plt.figure(figsize=(8, 5))
    sns.scatterplot(x="SỐ TÍN CHỈ ĐẠT", y="ĐIỂM TRUNG BÌNH", data=df, hue=df["NGÀNH HỌC"] if "NGÀNH HỌC" in df.columns else None, palette="coolwarm")
    plt.title("Mối quan hệ giữa Điểm trung bình và Số tín chỉ đạt")
    plt.xlabel("Số tín chỉ đạt")
    plt.ylabel("Điểm trung bình")
    plt.grid(True)
    plt.show()

# ---------------- PHẦN 4: HỒI QUY TUYẾN TÍNH ----------------
if "SỐ TÍN CHỈ ĐẠT" in df.columns and "ĐIỂM TRUNG BÌNH" in df.columns:
    # Tách biến độc lập (X) và phụ thuộc (y)
    X = df["SỐ TÍN CHỈ ĐẠT"].values.reshape(-1, 1)
    y = df["ĐIỂM TRUNG BÌNH"].values

    # Xây dựng mô hình hồi quy tuyến tính
    model = LinearRegression()
    model.fit(X, y)

    # Dự đoán giá trị
    y_pred = model.predict(X)

    # Tính toán các hệ số hồi quy
    beta_0 = model.intercept_  # Hệ số chặn
    beta_1 = model.coef_[0]    # Hệ số dốc

    # Đánh giá mô hình
    r2 = r2_score(y, y_pred)  # Hệ số xác định R^2
    mse = mean_squared_error(y, y_pred)  # Sai số bình phương trung bình (MSE)

    # Hiển thị kết quả
    print(f"\nPhương trình hồi quy: y = {beta_0:.2f} + {beta_1:.2f}x")
    print(f"Hệ số chặn (beta_0): {beta_0}")
    print(f"Hệ số dốc (beta_1): {beta_1}")
    print(f"Hệ số xác định (R^2): {r2}")
    print(f"Sai số bình phương trung bình (MSE): {mse}")

    # Vẽ biểu đồ hồi quy
    plt.figure(figsize=(8, 5))
    plt.scatter(X, y, color="blue", label="Dữ liệu thực tế")
    plt.plot(X, y_pred, color="red", label="Dự đoán (hồi quy)")
    plt.title("Hồi quy tuyến tính: Số Tín Chỉ Đạt và Điểm Trung Bình")
    plt.xlabel("Số tín chỉ đạt")
    plt.ylabel("Điểm trung bình")
    plt.legend()
    plt.grid(True)
    plt.show()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Dữ liệu ban đầu:
   Unnamed: 0    Unnamed: 1  Unnamed: 2    Unnamed: 3           Unnamed: 4  \
0         NaN  MÃ SINH VIÊN         NaN        HỌ TÊN            NGÀY SINH   
1         NaN           NaN         NaN           NaN                  NaN   
2         NaN         SV001         NaN  NGUYỄN VĂN A  2003-12-27 00:00:00   
3         NaN           NaN         NaN           NaN                  NaN   
4         NaN         SV002         NaN  NGUYỄN VĂN B  2003-02-13 00:00:00   

   Unnamed: 5 Unnamed: 6  Unnamed: 7       Unnamed: 8  Unnamed: 9  \
0         NaN  GIỚI TÍNH         NaN       NGHÀNH HỌC         NaN   
1         NaN        NaN         NaN              NaN         NaN   
2         NaN        NAM         NaN  Y HỌC CỔ TRUYỀN         NaN   
3         NaN        NaN         NaN              NaN         NaN   
4         NaN        NAM         NaN    

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive
