In [1]:
import numpy as np
import pandas as pd

In [2]:
np.random.seed(42)

In [4]:
fastball_speed = np.random.randint(90,106, size = 500)

In [5]:
tommy_john = np.where(fastball_speed > 96, np.random.choice([0,1], size = 500, p = [0.3, 0.7]), 0)

In [10]:
d = {'fastball_speed': fastball_speed, 'tommy_john' : tommy_john}

In [11]:
df = pd.DataFrame(data = d)

In [12]:
df

Unnamed: 0,fastball_speed,tommy_john
0,96,0
1,93,0
2,102,1
3,104,1
4,100,0
...,...,...
495,104,1
496,92,0
497,101,1
498,90,0


In [13]:
X = df[['fastball_speed']]

In [14]:
y = df[['tommy_john']]

In [16]:
#normal train test split
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 11)

In [17]:
from sklearn.linear_model import LogisticRegression

# Khởi tạo mô hình
lr = LogisticRegression()

# Huấn luyện mô hình với tập huấn luyện
lr.fit(X_train, y_train.values.ravel())

# Đánh giá độ chính xác trên tập kiểm tra
lr.score(X_test, y_test)


0.71

In [18]:
# test with diff random_state
X2_train, X2_test, y2_train, y2_test = train_test_split(X, y, test_size=0.2, random_state = 25)
# Huấn luyện mô hình với tập huấn luyện
lr.fit(X2_train, y2_train.values.ravel())

# Đánh giá độ chính xác trên tập kiểm tra
lr.score(X2_test, y2_test)

0.8

In [19]:
from sklearn.model_selection import cross_val_score

# Thực hiện cross-validation với 10 phần (cv=10)
cvscore = cross_val_score(lr, X, y.values.ravel(), cv=10)

# Hiển thị kết quả
cvscore


array([0.68, 0.78, 0.72, 0.72, 0.78, 0.82, 0.74, 0.74, 0.76, 0.82])

In [20]:
np.average(cvscore)

np.float64(0.756)

In [21]:
np.std(cvscore)

np.float64(0.04270831300812523)

In [22]:
from sklearn.model_selection import KFold

In [23]:
from sklearn.model_selection import KFold, cross_val_score

# Thiết lập KFold với 15 lần gập, xáo trộn dữ liệu và seed ngẫu nhiên
kf = KFold(n_splits=15, shuffle=True, random_state=42)

# Tính điểm F1 với KFold
kfscore = cross_val_score(lr, X, y.values.ravel(), cv=kf, scoring='f1')

# Tính độ chính xác (accuracy) với cùng cấu hình KFold
kfscore2 = cross_val_score(lr, X, y.values.ravel(), cv=kf, scoring='accuracy')

# Hiển thị kết quả F1
kfscore


array([0.66666667, 0.82758621, 0.72727273, 0.7027027 , 0.6875    ,
       0.72727273, 0.74074074, 0.72      , 0.66666667, 0.60869565,
       0.66666667, 0.63157895, 0.64516129, 0.66666667, 0.6       ])

In [24]:
np.average(kfscore)

np.float64(0.6856785107611354)

In [25]:
np.std(kfscore)

np.float64(0.05620337068328653)

In [26]:
kfscore2

array([0.76470588, 0.85294118, 0.82352941, 0.67647059, 0.70588235,
       0.81818182, 0.78787879, 0.78787879, 0.78787879, 0.72727273,
       0.72727273, 0.78787879, 0.66666667, 0.78787879, 0.63636364])

In [27]:
np.average(kfscore2)

np.float64(0.7559120617944146)

In [28]:
np.std(kfscore2)


np.float64(0.060970963505883366)

In [29]:
from sklearn.model_selection import StratifiedKFold, cross_val_score
import numpy as np

# Tạo đối tượng chia tập theo tỷ lệ lớp (stratification)
kf3 = StratifiedKFold(n_splits=10, shuffle=True, random_state=11)

# Thực hiện đánh giá chéo (cross-validation)
kfscore3 = cross_val_score(lr, X, y.values.ravel(), cv=kf3)

# In kết quả điểm từng fold
print(kfscore3)

# Tính giá trị trung bình
print(np.average(kfscore3)) 

# Tính độ lệch chuẩn
print(np.std(kfscore3))      

[0.66 0.76 0.76 0.8  0.8  0.74 0.76 0.74 0.78 0.76]
0.756
0.03773592452822642


In [30]:
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

# Khởi tạo bộ chuẩn hóa StandardScaler
scaler = StandardScaler()


In [31]:
pipe1 = make_pipeline(scaler, lr)
pipe1.fit(X_train, y_train.values.ravel())


In [32]:


# Thực hiện cross-validation với pipeline
scorespipe = cross_val_score(pipe1, X, y.values.ravel(), cv=10)

# In kết quả cross-validation
print("Cross-validation scores:", scorespipe)

# Tính và in trung bình
print("Average score:", np.average(scorespipe))

# Tính và in độ lệch chuẩn
print("Standard deviation:", np.std(scorespipe))


Cross-validation scores: [0.68 0.78 0.72 0.72 0.78 0.82 0.74 0.74 0.76 0.82]
Average score: 0.756
Standard deviation: 0.04270831300812523
