In [246]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import sklearn

### Hồi quy tuyến tính

Sử dụng tập dữ liệu giá nhà đất - HousePrice.csv

- Area: Khu vực nhà
- Room: Số phòng trong nhà
- Parking: Có/Không có chỗ đậu xe
- Warehouse: Có/Không có nhà kho
- Elevator: Có/Không có thang máy
- Price: Giá của nhà (USE)

In [247]:
df = pd.read_csv('https://raw.githubusercontent.com/tranlybuu/BaiTap/main/2022/HousePrice.csv')
df = df.drop(['Address','Price'],axis=1)
df.head(5)

Unnamed: 0,Area,Room,Parking,Warehouse,Elevator,Price(USD)
0,63,1,True,True,True,61666.67
1,60,1,True,True,True,61666.67
2,79,2,True,True,True,18333.33
3,95,2,True,True,True,30083.33
4,123,2,True,True,True,233333.33


In [248]:
from sklearn import preprocessing
# Tách cột giá nhà và chuyển hóa các giá trị True/False thành 1/0
df = df[df.columns[:]].apply(preprocessing.LabelEncoder().fit_transform)
output = df['Price(USD)']
input = df.drop(['Price(USD)'],axis=1)

Mô tả dữ liệu

In [249]:
print("Kích thước của tập dữ liệu:",df.shape)

Kích thước của tập dữ liệu: (3479, 6)


In [251]:
df.describe()

Unnamed: 0,Area,Room,Parking,Warehouse,Elevator,Price(USD)
count,3479.0,3479.0,3479.0,3479.0,3479.0,3479.0
mean,141.590974,2.079908,0.847945,0.914631,0.787295,431.971831
std,84.56493,0.758275,0.359126,0.279471,0.409279,232.006456
min,0.0,0.0,0.0,0.0,0.0,0.0
25%,46.0,2.0,1.0,1.0,1.0,253.5
50%,185.0,2.0,1.0,1.0,1.0,432.0
75%,214.0,2.0,1.0,1.0,1.0,604.0
max,242.0,5.0,1.0,1.0,1.0,931.0


Chia tập dữ liệu train và test

In [252]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(input, output, test_size=0.3, random_state=0)

Huấn luyện mô hình với tập dữ liệu train

In [253]:
from sklearn.linear_model import LinearRegression
from sklearn import linear_model
model = linear_model.LinearRegression()
model.fit(X_train, y_train)

LinearRegression()

Kiểm thử mô  hình với tập dữ liệu test

In [254]:
y_pred = model.predict(X_test)
print("accuracy:",model.score(X_test, y_test))
print('mse:',sklearn.metrics.mean_squared_error(y_test, y_pred))

accuracy: 0.46601206447086774
mse: 27576.444051931194


### Hồi quy phi tuyến tính

Sử dụng tập dữ liệu số lượng người dùng Facebook hàng tháng từ 2008-2021
- Time: Quý trong năm
- Số lượng người hoạt động (Triệu người)

In [255]:
df = pd.read_csv('https://raw.githubusercontent.com/tranlybuu/BaiTap/main/2022/countFacebookUser.csv')
df.head(5)

Unnamed: 0,Time,Count
0,Q3 '08,100
1,Q1 '09,197
2,Q2 '09,242
3,Q3 '09,305
4,Q4 '09,360


In [256]:
# Chuyển cột Time từ Quý trong năm thành số thứ tự
df['Time'] = range(1,len(df['Time'])+1)
df.head(5)

Unnamed: 0,Time,Count
0,1,100
1,2,197
2,3,242
3,4,305
4,5,360


In [257]:
print("Kích thước của tập dữ liệu:",df.shape)

Kích thước của tập dữ liệu: (51, 2)


In [258]:
df.describe()

Unnamed: 0,Time,Count
count,51.0,51.0
mean,26.0,1506.784314
std,14.866069,807.168392
min,1.0,100.0
25%,13.5,873.0
50%,26.0,1441.0
75%,38.5,2215.0
max,51.0,2895.0


In [259]:
time = df.Time.values
count = df.Count.values
dataset =np.concatenate((time.reshape(-1, 1), count.reshape(-1, 1)), axis=1)
np.random.shuffle(dataset)
dataset = np.array_split(dataset, 10)
x_train = np.concatenate(dataset[:7])[:, :1]
y_train = np.concatenate(dataset[:7])[:, 1]
x_test = np.concatenate(dataset[7:])[:, :1]
y_test = np.concatenate(dataset[7:])[:, 1]

In [261]:
def sigmoid(x, Beta_1, Beta_2):
     y = 1 / (1 + np.exp(-Beta_1*(x-Beta_2)))
     return y

In [262]:
from scipy.optimize import curve_fit
popt, pcov = curve_fit(sigmoid, x_train.reshape(-1), y_train)

In [263]:
y_pred = sigmoid(x_test, *popt)
print('mse:',sklearn.metrics.mean_squared_error(y_test, y_pred))

mse: 0.001732332719621306


### Hồi quy logistic

Sử dụng tập dữ liệu Iris

In [264]:
df= pd.read_csv ('https://raw.githubusercontent.com/tranlybuu/BaiTap/main/2022/Iris.csv')
df = df.drop(['Id'],axis=1)
df.head(5)

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [278]:
# Mã hóa các loài hoa
df = df[df.columns[:]].apply(preprocessing.LabelEncoder().fit_transform)

In [279]:
print("Kích thước của tập dữ liệu:",df.shape)

Kích thước của tập dữ liệu: (150, 5)


In [280]:
df.describe()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
count,150.0,150.0,150.0,150.0,150.0
mean,15.386667,9.54,18.2,8.986667,1.0
std,8.175743,4.300195,11.64866,6.40573,0.819232
min,0.0,0.0,0.0,0.0,0.0
25%,8.0,7.0,6.0,2.0,0.0
50%,15.0,9.0,19.5,9.0,1.0
75%,21.0,12.0,27.0,14.0,2.0
max,34.0,22.0,42.0,21.0,2.0


In [281]:
output = df['Species']
input = df.drop(['Species'],axis=1)
X_train, X_test, y_train, y_test = train_test_split(input, output, test_size=0.3, random_state=0)

In [282]:
from sklearn.linear_model import LogisticRegression
logisticRegr = LogisticRegression()
logisticRegr.fit(X_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression()

In [283]:
y_pred = logisticRegr.predict(X_test)
print("accuracy:",logisticRegr.score(X_test, y_test))
print('mse:',sklearn.metrics.mean_squared_error(y_test, y_pred))

accuracy: 0.9777777777777777
mse: 0.022222222222222223
