<a href="https://colab.research.google.com/github/Jasper-Zhang-A/Linear-Algebra-Projcet/blob/main/Linear_Algebra_Project.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import statsmodels.api as sm # 用于方便地添加常数项

# 1. 加载数据集
# 文件名根据你上传的实际名称，这里假设为 "Admission_Predict.csv"
try:
    df = pd.read_csv("Admission_Predict.csv")
except FileNotFoundError:
    print("错误：请确保 'Admission_Predict.csv' 文件已上传到 Colab 的会话存储中，或者提供了正确的路径。")
    # 如果在本地运行，请确保文件在正确的目录下
    exit()

# 2. 数据探索与理解 (简要)
print("数据集的前5行:")
print(df.head())
print("\n数据集信息:")
df.info()
print("\n数据集统计描述:")
print(df.describe())
print("\n数据集列名:")
print(df.columns)

# 3. 识别并处理无关列
# 根据常见的 "Admission_Predict.csv" 数据集结构，"Serial No." 是无关列
# 请根据你实际数据集的 df.columns 输出确认无关列的准确名称
columns_to_drop = []
if 'Serial No.' in df.columns:
    columns_to_drop.append('Serial No.')
# 如果还有其他明确的无关列（比如有时会有 'Unnamed: 0'），也加入到列表中
# 例如: if 'Unnamed: 0' in df.columns: columns_to_drop.append('Unnamed: 0')

if columns_to_drop:
    df_processed = df.drop(columns=columns_to_drop)
    print(f"\n已删除无关列: {columns_to_drop}")
else:
    df_processed = df.copy() # 如果没有需要删除的列，则复制原始DataFrame
    print("\n未发现明确的无关列 'Serial No.'，将使用所有原始列进行后续处理（除了目标变量）。")


# 4. 定义特征 (X_initial) 和目标 (y)
# 目标变量通常是 'Chance of Admit ' (注意末尾可能有空格)
# 请根据你实际数据集的 df.columns 输出确认目标列的准确名称
target_column_name = None
possible_target_names = ['Chance of Admit ', 'Chance of Admit'] # 常见的几种名称
for name in possible_target_names:
    if name in df_processed.columns:
        target_column_name = name
        break

if target_column_name is None:
    print(f"\n错误：在列名中未找到预期的目标变量名（尝试了 {possible_target_names}）。请检查你的数据集。")
    exit()

print(f"\n目标变量为: '{target_column_name}'")
y = df_processed[target_column_name]
X_initial = df_processed.drop(columns=[target_column_name])

print("\n初始特征 X_initial 的前5行:")
print(X_initial.head())
print(f"\n目标变量 y 的前5行:\n{y.head()}")

# 5. 为特征矩阵 X_initial 添加常数项 (截距项/偏置项)
# 这将在 X_initial 的最左边添加一列名为 'const' 的常数项 (全为1)
X = sm.add_constant(X_initial)

print("\n添加常数项后的特征矩阵 X 的前5行 (包含截距项 'const'):")
print(X.head())

print(f"\n最终特征矩阵 X 的维度: {X.shape}")
print(f"最终目标向量 y 的维度: {y.shape}")

# 6. 数据拆分 (训练集:测试集 = 9:1)
# test_size=0.1 表示测试集占10% (即训练集占90%)
# random_state 是为了保证每次拆分结果一致，便于复现
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=42)

print("\n数据拆分完成:")
print(f"训练集 X_train 维度: {X_train.shape}")
print(f"测试集 X_test 维度: {X_test.shape}")
print(f"训练集 y_train 维度: {y_train.shape}")
print(f"测试集 y_test 维度: {y_test.shape}")

数据集的前5行:
   Serial No.  GRE Score  TOEFL Score  University Rating  SOP  LOR   CGPA  \
0           1        337          118                  4  4.5   4.5  9.65   
1           2        324          107                  4  4.0   4.5  8.87   
2           3        316          104                  3  3.0   3.5  8.00   
3           4        322          110                  3  3.5   2.5  8.67   
4           5        314          103                  2  2.0   3.0  8.21   

   Research  Chance of Admit   
0         1              0.92  
1         1              0.76  
2         1              0.72  
3         1              0.80  
4         0              0.65  

数据集信息:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Serial No.         400 non-null    int64  
 1   GRE Score          400 non-null    int64  
 2   TOEFL Score        400 non-

In [3]:
# 确保 X_train, y_train 已经从上一步正确生成并加载
# import pandas as pd # 如果 X_train, y_train 还是 pandas 对象，需要导入
# import numpy as np

# 1. 将训练数据转换为 Numpy 数组
if 'pd' in globals() and isinstance(X_train, pd.DataFrame): # 检查pandas是否已导入且X_train是DataFrame
    X_train_np = X_train.values
else:
    X_train_np = np.array(X_train) # 确保是numpy array

if 'pd' in globals() and isinstance(y_train, pd.Series): # 检查pandas是否已导入且y_train是Series
    y_train_np = y_train.values.reshape(-1, 1)
else:
    y_train_np = np.array(y_train).reshape(-1, 1) # 确保是numpy array并是列向量

print("--- 步骤 1: Numpy 数组转换完成 ---")
print(f"X_train_np 维度: {X_train_np.shape}")
print(f"y_train_np 维度: {y_train_np.shape}")

# 2. 计算 XTX = X_train_np.T @ X_train_np
print("\n--- 步骤 2: 计算 XTX ---")
XTX = X_train_np.T @ X_train_np
print(f"XTX 维度: {XTX.shape}")
# print("XTX 的值:\n", XTX) # 矩阵较大，通常不打印具体值

# 3. 计算 XTX_inv = np.linalg.inv(XTX)
print("\n--- 步骤 3: 计算 XTX的逆 ---")
try:
    XTX_inv = np.linalg.inv(XTX)
    print(f"XTX_inv 维度: {XTX_inv.shape}")
    # print("XTX_inv 的值:\n", XTX_inv) # 矩阵较大
except np.linalg.LinAlgError:
    print("错误: XTX (X_train_np.T @ X_train_np) 是奇异矩阵 (不可逆)。")
    print("这可能是由于特征之间存在完全的线性相关性（多重共线性）。")
    print("建议检查特征或考虑使用伪逆 (np.linalg.pinv) 或正则化。")
    # 为了演示，如果出错，程序将停止。实际项目中你可能需要更复杂的错误处理。
    w = None # 表示计算失败
    # exit()
else:
    # 4. 计算 XTy = X_train_np.T @ y_train_np
    print("\n--- 步骤 4: 计算 XTy ---")
    XTy = X_train_np.T @ y_train_np
    print(f"XTy 维度: {XTy.shape}")
    # print("XTy 的值:\n", XTy)

    # 5. 计算 w = XTX_inv @ XTy
    print("\n--- 步骤 5: 计算权重向量 w ---")
    w = XTX_inv @ XTy
    print(f"权重向量 w 的维度: {w.shape}")
    print("计算得到的权重向量 w:\n", w)

# 检查 w 是否成功计算
if w is not None:
    print("\n权重向量 w 成功计算。")
    # 权重向量 w 的第一个值对应截距项 (因为 X_train 的第一列是常数1)
    # 后续的值对应 X_train 中各个特征的权重 (按原始列序)
    if 'X' in locals() and hasattr(X, 'columns'): # 检查X是否存在并且有columns属性（即它是DataFrame）
        feature_names_with_intercept = list(X.columns) # X 是添加常数项后的DataFrame
        print("\n特征名称 (包括截距):", feature_names_with_intercept)
        print("对应的权重:")
        for name, weight_val in zip(feature_names_with_intercept, w.flatten()): # w.flatten()将w转为1D数组
            print(f"  {name}: {weight_val:.4f}")
    else: # 如果 X 不是DataFrame，我们可能没有特征名列表
        print("\n权重 (第一个是截距，其余对应特征):")
        for i, weight_val in enumerate(w.flatten()):
            if i == 0:
                print(f"  Intercept (w0): {weight_val:.4f}")
            else:
                print(f"  Feature {i} (w{i}): {weight_val:.4f}")
else:
    print("\n权重向量 w 未能成功计算，因为XTX不可逆。")

--- 步骤 1: Numpy 数组转换完成 ---
X_train_np 维度: (360, 8)
y_train_np 维度: (360, 1)

--- 步骤 2: 计算 XTX ---
XTX 维度: (8, 8)

--- 步骤 3: 计算 XTX的逆 ---
XTX_inv 维度: (8, 8)

--- 步骤 4: 计算 XTy ---
XTy 维度: (8, 1)

--- 步骤 5: 计算权重向量 w ---
权重向量 w 的维度: (8, 1)
计算得到的权重向量 w:
 [[-1.18749944e+00]
 [ 1.62971908e-03]
 [ 2.36786696e-03]
 [ 6.87238595e-03]
 [ 7.51524079e-04]
 [ 1.64262192e-02]
 [ 1.22080062e-01]
 [ 2.50445315e-02]]

权重向量 w 成功计算。

特征名称 (包括截距): ['const', 'GRE Score', 'TOEFL Score', 'University Rating', 'SOP', 'LOR ', 'CGPA', 'Research']
对应的权重:
  const: -1.1875
  GRE Score: 0.0016
  TOEFL Score: 0.0024
  University Rating: 0.0069
  SOP: 0.0008
  LOR : 0.0164
  CGPA: 0.1221
  Research: 0.0250


In [4]:
# 确保 X_test, y_test, w, X_train_np, y_train_np 已经从上一步正确生成并加载
# import numpy as np
# import pandas as pd # 如果 X_test, y_test 还是 pandas 对象
# from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score # 可选的快捷方式

# 1. 将测试数据转换为 Numpy 数组 (如果需要)
if 'pd' in globals() and isinstance(X_test, pd.DataFrame):
    X_test_np = X_test.values
else:
    X_test_np = np.array(X_test)

if 'pd' in globals() and isinstance(y_test, pd.Series):
    y_test_np = y_test.values.reshape(-1, 1)
else:
    y_test_np = np.array(y_test).reshape(-1, 1)

print("--- 使用测试集进行预测 ---")
# 2. 进行预测
y_pred_test = X_test_np @ w
print(f"X_test_np 维度: {X_test_np.shape}")
print(f"w 维度: {w.shape}")
print(f"预测结果 y_pred_test 维度: {y_pred_test.shape}")
# 打印部分预测值和真实值进行比较
print("\n部分测试集预测值 vs 真实值:")
for i in range(min(5, len(y_pred_test))): # 最多打印5个样本
    print(f"  预测值: {y_pred_test[i][0]:.4f}, 真实值: {y_test_np[i][0]:.4f}")


# 3. 评估模型性能
print("\n--- 模型性能评估 (基于测试集) ---")
errors = y_pred_test - y_test_np

# 均方误差 (MSE)
mse = np.mean(errors**2)
# mse_sklearn = mean_squared_error(y_test_np, y_pred_test) # 使用sklearn

# 均方根误差 (RMSE)
rmse = np.sqrt(mse)

# 平均绝对误差 (MAE)
mae = np.mean(np.abs(errors))
# mae_sklearn = mean_absolute_error(y_test_np, y_pred_test) # 使用sklearn

# 决定系数 (R-squared)
ss_res = np.sum(errors**2)
ss_tot = np.sum((y_test_np - np.mean(y_test_np))**2)
if ss_tot == 0: # 防止除以零错误（如果y_test_np所有值都一样）
    r2 = -np.inf # 或者可以设为0或NaN，具体取决于如何定义这种情况
else:
    r2 = 1 - (ss_res / ss_tot)
# r2_sklearn = r2_score(y_test_np, y_pred_test) # 使用sklearn

print(f"均方误差 (MSE): {mse:.4f}")
print(f"均方根误差 (RMSE): {rmse:.4f}")
print(f"平均绝对误差 (MAE): {mae:.4f}")
print(f"决定系数 (R-squared): {r2:.4f}")

# (可选) 评估训练集表现
print("\n--- 模型性能评估 (基于训练集，可选) ---")
y_pred_train = X_train_np @ w
train_errors = y_pred_train - y_train_np
mse_train = np.mean(train_errors**2)
rmse_train = np.sqrt(mse_train)
mae_train = np.mean(np.abs(train_errors))
ss_res_train = np.sum(train_errors**2)
ss_tot_train = np.sum((y_train_np - np.mean(y_train_np))**2)
if ss_tot_train == 0:
    r2_train = -np.inf
else:
    r2_train = 1 - (ss_res_train / ss_tot_train)

print(f"训练集 MSE: {mse_train:.4f}")
print(f"训练集 RMSE: {rmse_train:.4f}")
print(f"训练集 MAE: {mae_train:.4f}")
print(f"训练集 R-squared: {r2_train:.4f}")

--- 使用测试集进行预测 ---
X_test_np 维度: (40, 8)
w 维度: (8, 1)
预测结果 y_pred_test 维度: (40, 1)

部分测试集预测值 vs 真实值:
  预测值: 0.6546, 真实值: 0.6800
  预测值: 0.7304, 真实值: 0.6800
  预测值: 0.9366, 真实值: 0.9000
  预测值: 0.8256, 真实值: 0.7900
  预测值: 0.5850, 真实值: 0.4400

--- 模型性能评估 (基于测试集) ---
均方误差 (MSE): 0.0066
均方根误差 (RMSE): 0.0810
平均绝对误差 (MAE): 0.0571
决定系数 (R-squared): 0.7691

--- 模型性能评估 (基于训练集，可选) ---
训练集 MSE: 0.0037
训练集 RMSE: 0.0611
训练集 MAE: 0.0433
训练集 R-squared: 0.8059
