In [8]:
import pandas as pd 
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error,mean_squared_error
from sklearn.model_selection import train_test_split
# Đọc dữ liệu từ file CSV
df = pd.read_csv("./melb_data.csv")

# Lọc dữ liệu và xóa các hàng có giá trị bị thiếu
data = df.head(10).dropna(axis=0)

# Chọn features (đặc trưng) và dữ liệu cần dự đoán
features = ['Rooms', 'Distance', 'Bedroom2', 'Bathroom']
X = data[features]
y = data['Price']

# Chia dữ liệu thành tập huấn luyện và tập validation
train_X, val_X, train_y, val_y = train_test_split(X, y, test_size=0.3, random_state=0)

# Tạo mô hình Linear Regression và huấn luyện trên tập huấn luyện
model = LinearRegression()
model.fit(train_X, train_y)

# Dự đoán giá trị trên tập validation
y_pred = model.predict(val_X)

# Tính toán sai số trung bình tuyệt đối (MAE) và sai số trung bình bình phương (MSE)
mae = mean_absolute_error(val_y, y_pred)
mse = mean_squared_error(val_y, y_pred)
#Dữ liệu train y (Những giá nhà trong dataset)
print("Train_y",train_y)
# Dữ liệu thẩm định y (Giá nhà thực tế)
print("Val_y",val_y)
#  Dữ liệu train X (Những cái data cần train cho model)
print("Train_X",train_X)
# Dữ liệu thẩm định X ( Những cái data sẽ thẩm định )
print("Val_X",val_X)
#
print("MAE:", mae)
print("MSE:", mse)
print(y_pred)



Train_y 2    1465000.0
6    1876000.0
7    1636000.0
Name: Price, dtype: float64
Val_y 4    1600000.0
1    1035000.0
Name: Price, dtype: float64
Train_X    Rooms  Distance  Bedroom2  Bathroom
2      3       2.5       3.0       2.0
6      3       2.5       4.0       2.0
7      2       2.5       2.0       1.0
Val_X    Rooms  Distance  Bedroom2  Bathroom
4      4       2.5       3.0       1.0
1      2       2.5       2.0       1.0
MAE: 368000.0000000001
MSE: 189712999999.9999
[1465000. 1636000.]


In [1]:
import numpy as np
from sklearn.linear_model import LinearRegression

# Tạo dữ liệu huấn luyện
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2, 4, 6, 8, 10])

# Tạo dữ liệu mới cần dự đoán
X_new = np.array([[6]])

# Tính toán trọng số cho mỗi điểm dữ liệu
def calculate_weights(X, X_new, tau):
    weights = np.exp(-np.sum((X - X_new)**2, axis=1) / (2 * tau**2))
    return weights

# Huấn luyện mô hình locally weighted regression và dự đoán giá trị mới
def locally_weighted_regression(X, y, X_new, tau):
    weights = calculate_weights(X, X_new, tau)
    model = LinearRegression()
    model.fit(X, y, sample_weight=weights)
    y_pred = model.predict(X_new)
    return y_pred

# Dự đoán giá trị mới với tau = 0.5
y_pred = locally_weighted_regression(X, y, X_new, 0.5)
print("Predicted value:", y_pred)


Predicted value: [12.]


In [2]:
import numpy as np
from sklearn.linear_model import LogisticRegression

# Tạo dữ liệu huấn luyện
X = np.array([[2], [4], [5], [7], [8]])
y = np.array([0, 0, 0, 1, 1])

# Khởi tạo và huấn luyện mô hình logistic regression
model = LogisticRegression()
model.fit(X, y)

# Dự đoán xác suất mới
X_new = np.array([[6]])
y_pred_proba = model.predict_proba(X_new)
print("Predicted probability:", y_pred_proba)


Predicted probability: [[0.50653174 0.49346826]]
