In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np
from sklearn.model_selection import ShuffleSplit

# Đọc dữ liệu
data = pd.read_csv('housing.csv')

# Câu hỏi 1
min_max_values = data.describe()['median_house_value'][['min', 'max']]
print("Khoảng min-max của biến mục tiêu (median_house_value):")
print(min_max_values)

# Câu hỏi 2
num_rows, num_columns = data.shape
columns_list = data.columns.tolist()
print("Số dòng:", num_rows)
print("Số thuộc tính:", num_columns)
print("Danh sách các thuộc tính:", columns_list)

# Câu hỏi 3
na_count = data.isna().sum()
print("Số lượng giá trị NaN trong các thuộc tính:")
print(na_count)

# Câu hỏi 4
correlation = data.corr(method='pearson')
plt.figure(figsize=(10, 10))
sns.heatmap(correlation, annot=True, cmap='coolwarm')
plt.title("Ma trận tương quan")
plt.show()

# Câu hỏi 5
sns.scatterplot(data=data, x="median_income", y="median_house_value")
plt.title("Biểu đồ tán xạ giữa median_income và median_house_value")
plt.show()

# Câu hỏi 6
X = data['median_income']
y = data['median_house_value']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Kích thước tập huấn luyện:", X_train.shape, y_train.shape)
print("Kích thước tập kiểm thử:", X_test.shape, y_test.shape)

# Câu hỏi 7
sc = MinMaxScaler(feature_range=(1, 55))
y_train_transformed = sc.fit_transform(y_train.values.reshape(-1,1)).reshape(-1)
y_test_transformed = sc.fit_transform(y_test.values.reshape(-1,1)).reshape(-1)

model = LinearRegression()
model.fit(X_train.values.reshape(-1, 1), y_train_transformed)
y_pred = model.predict(X_test.values.reshape(-1, 1))

mse = mean_squared_error(y_test_transformed, y_pred, squared=True)
print("Mean Square Error (MSE):", mse)

# Cross Validation
kf = ShuffleSplit(n_splits=10, test_size=0.2, random_state=42)
avg_mse = []

for train_index, test_index in kf.split(X, y_transformed):
    X_train, X_test = X.values[train_index].reshape(-1,1), X.values[test_index].reshape(-1,1)
    y_train, y_test = y_transformed[train_index], y_transformed[test_index]

    model = LinearRegression()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred, squared=True)
    avg_mse.append(mse)

avg_mse = np.mean(np.array(avg_mse))
print("Kết quả Cross Validation (MSE trung bình):", avg_mse)


Khoảng min-max của biến mục tiêu (median_house_value):
min     14999.0
max    500001.0
Name: median_house_value, dtype: float64
Số dòng: 20640
Số thuộc tính: 10
Danh sách các thuộc tính: ['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income', 'median_house_value', 'ocean_proximity']
Số lượng giá trị NaN trong các thuộc tính:
longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        207
population              0
households              0
median_income           0
median_house_value      0
ocean_proximity         0
dtype: int64


ValueError: could not convert string to float: 'NEAR BAY'