In [1]:
import numpy as np
import pandas as pd
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_columns = 20
pd.options.display.max_rows = 20
pd.options.display.max_colwidth = 80
np.set_printoptions(precision=4, suppress=True)

In [2]:
data = pd.DataFrame({
    'x0': [1, 2, 3, 4, 5],
    'x1': [0.01, -0.01, 0.25, -4.1, 0.],
    'y': [-1.5, 0., 3.6, 1.3, -2.]})
data
data.columns
data.to_numpy()

array([[ 1.  ,  0.01, -1.5 ],
       [ 2.  , -0.01,  0.  ],
       [ 3.  ,  0.25,  3.6 ],
       [ 4.  , -4.1 ,  1.3 ],
       [ 5.  ,  0.  , -2.  ]])

In [3]:
df2 = pd.DataFrame(data.to_numpy(), columns=['one', 'two', 'three'])
df2

Unnamed: 0,one,two,three
0,1.0,0.01,-1.5
1,2.0,-0.01,0.0
2,3.0,0.25,3.6
3,4.0,-4.1,1.3
4,5.0,0.0,-2.0


In [4]:
df3 = data.copy()
df3['strings'] = ['a', 'b', 'c', 'd', 'e']
df3
df3.to_numpy()

array([[1, 0.01, -1.5, 'a'],
       [2, -0.01, 0.0, 'b'],
       [3, 0.25, 3.6, 'c'],
       [4, -4.1, 1.3, 'd'],
       [5, 0.0, -2.0, 'e']], dtype=object)

In [8]:
model_cols = ['x0', 'x1']
# data.loc[:, model_cols].to_numpy()
data.loc[:, model_cols].values

array([[ 1.  ,  0.01],
       [ 2.  , -0.01],
       [ 3.  ,  0.25],
       [ 4.  , -4.1 ],
       [ 5.  ,  0.  ]])

In [6]:
data['category'] = pd.Categorical(['a', 'b', 'a', 'a', 'b'],
                                  categories=['a', 'b'])
data

Unnamed: 0,x0,x1,y,category
0,1,0.01,-1.5,a
1,2,-0.01,0.0,b
2,3,0.25,3.6,a
3,4,-4.1,1.3,a
4,5,0.0,-2.0,b


In [9]:
dummies = pd.get_dummies(data.category, prefix='category', dtype=float)
data_with_dummies = data.drop('category', axis=1).join(dummies)
data_with_dummies

Unnamed: 0,x0,x1,y,category_a,category_b
0,1,0.01,-1.5,1.0,0.0
1,2,-0.01,0.0,0.0,1.0
2,3,0.25,3.6,1.0,0.0
3,4,-4.1,1.3,1.0,0.0
4,5,0.0,-2.0,0.0,1.0


`pd.get_dummies()` là một hàm trong thư viện Pandas (được viết tắt là `pd`) của Python, và nó được sử dụng để thực hiện mã hóa biến dạng rời rạc (categorical variables) thành các biến giả định (dummy variables) trong quá trình tiền xử lý dữ liệu.

Khi làm việc với dữ liệu, chúng ta thường phải làm việc với các biến dạng rời rạc (categorical variables), như ví dụ, giới tính, trạng thái hôn nhân, loại sản phẩm, quốc tịch, và nhiều hơn nữa. Những biến này không thể được sử dụng trực tiếp trong mô hình học máy, vì chúng không phải là các giá trị số, mà là các nhãn, tên, hoặc chuỗi.

Để có thể sử dụng những thông tin này trong các mô hình học máy, chúng ta cần chuyển đổi chúng thành các biến giả định (dummy variables). Biến giả định là các biến nhị phân (binary variables), có giá trị 0 hoặc 1, thể hiện sự có mặt hoặc không có mặt của một nhóm cụ thể.

Hàm `pd.get_dummies()` giúp chúng ta thực hiện quá trình mã hóa này. Khi áp dụng hàm này cho một cột (Series) chứa dữ liệu dạng rời rạc, nó sẽ tạo ra một DataFrame mới chứa các cột giả định tương ứng cho từng nhóm trong cột gốc ban đầu. Các cột giả định sẽ có giá trị 1 tại các vị trí mà nhóm tương ứng xuất hiện và giá trị 0 ở các vị trí khác.

Dưới đây là một ví dụ đơn giản về cách sử dụng `pd.get_dummies()`:

```python
import pandas as pd

# Tạo DataFrame chứa cột "fruit" với các giá trị dạng rời rạc
data = {'fruit': ['apple', 'banana', 'orange', 'apple']}
df = pd.DataFrame(data)

# Sử dụng pd.get_dummies() để mã hóa cột "fruit" thành các cột giả định
dummy_df = pd.get_dummies(df['fruit'])

print(dummy_df)
```

Kết quả sẽ là:

```
   apple  banana  orange
0      1       0       0
1      0       1       0
2      0       0       1
3      1       0       0
```

Như vậy, cột "fruit" ban đầu chứa các giá trị "apple", "banana", và "orange" đã được chuyển đổi thành ba cột giả định tương ứng với mỗi nhóm.

In [21]:
data = pd.DataFrame({
    'x0': [1, 2, 3, 4, 5],
    'x1': [0.01, -0.01, 0.25, -4.1, 0.],
    'y': [-1.5, 0., 3.6, 1.3, -2.]})
data


Unnamed: 0,x0,x1,y
0,1,0.01,-1.5
1,2,-0.01,0.0
2,3,0.25,3.6
3,4,-4.1,1.3
4,5,0.0,-2.0


In [23]:
import patsy
y, X = patsy.dmatrices('y ~ x0 + x1', data)

In [24]:
X

DesignMatrix with shape (5, 3)
  Intercept  x0     x1
          1   1   0.01
          1   2  -0.01
          1   3   0.25
          1   4  -4.10
          1   5   0.00
  Terms:
    'Intercept' (column 0)
    'x0' (column 1)
    'x1' (column 2)

In [25]:
y

DesignMatrix with shape (5, 1)
     y
  -1.5
   0.0
   3.6
   1.3
  -2.0
  Terms:
    'y' (column 0)

In [31]:
np.asarray(y)
np.asarray(X)

array([[ 1.  ,  1.  ,  0.01],
       [ 1.  ,  2.  , -0.01],
       [ 1.  ,  3.  ,  0.25],
       [ 1.  ,  4.  , -4.1 ],
       [ 1.  ,  5.  ,  0.  ]])

In [32]:
patsy.dmatrices('y ~ x0 + x1 + 0', data)[1]

DesignMatrix with shape (5, 2)
  x0     x1
   1   0.01
   2  -0.01
   3   0.25
   4  -4.10
   5   0.00
  Terms:
    'x0' (column 0)
    'x1' (column 1)

In [33]:
coef, resid, _, _ = np.linalg.lstsq(X, y, rcond=None)

Trong NumPy, `np.linalg.lstsq` là một hàm được sử dụng để giải bài toán tối thiểu hóa bình phương tối thiểu (least squares) trong mô hình hồi quy tuyến tính. Nó thực hiện phương pháp OLS (Ordinary Least Squares) mà chúng ta đã thảo luận trước đó.

Hàm `np.linalg.lstsq` giải quyết bài toán tối thiểu hóa bình phương tối thiểu như sau:

Cho ma trận dữ liệu đầu vào `A` (chứa các biến độc lập) và vector kết quả `b` (biến phụ thuộc), tìm vector hệ số `x` sao cho `Ax` xấp xỉ gần nhất `b` dưới dạng bình phương tối thiểu. Điều này tương đương với việc tìm đường cong (đường thẳng trong trường hợp hồi quy tuyến tính) mà sai số giữa các điểm dữ liệu thực tế và các điểm dự đoán trên đường cong là nhỏ nhất.

Cú pháp của hàm `np.linalg.lstsq` như sau:

```python
x, residuals, rank, singular_values = np.linalg.lstsq(A, b, rcond=None)
```

Trong đó:
- `A`: Ma trận dữ liệu đầu vào, chứa các biến độc lập và có kích thước `(m, n)`, trong đó `m` là số lượng mẫu và `n` là số lượng biến độc lập.
- `b`: Vector kết quả, chứa các giá trị của biến phụ thuộc và có kích thước `(m,)`.
- `x`: Vector hệ số hồi quy, chứa các giá trị của các biến độc lập tối ưu tìm được.
- `residuals`: Tổng bình phương sai số (tổng bình phương của sai số giữa các điểm dữ liệu thực tế và các điểm dự đoán trên đường cong).
- `rank`: Hạng của ma trận `A`.
- `singular_values`: Các giá trị đơn số (singular values) của ma trận `A`.

Khi bạn sử dụng `np.linalg.lstsq`, bạn nhận được hệ số hồi quy tối ưu `x` và thông tin về tổng bình phương sai số và các giá trị phụ trợ khác để đánh giá mô hình hồi quy.

Xem chi tiết trong file Lesson5_Note.ipynb  

In [35]:
coef

Intercept    0.312910
x0          -0.079106
x1          -0.265464
dtype: float64

In [34]:

coef = pd.Series(coef.squeeze(), index=X.design_info.column_names)
coef

Intercept    0.312910
x0          -0.079106
x1          -0.265464
dtype: float64

In [36]:
y, X = patsy.dmatrices('y ~ x0 + np.log(np.abs(x1) + 1)', data)
X

DesignMatrix with shape (5, 3)
  Intercept  x0  np.log(np.abs(x1) + 1)
          1   1                 0.00995
          1   2                 0.00995
          1   3                 0.22314
          1   4                 1.62924
          1   5                 0.00000
  Terms:
    'Intercept' (column 0)
    'x0' (column 1)
    'np.log(np.abs(x1) + 1)' (column 2)

In [37]:
y, X = patsy.dmatrices('y ~ standardize(x0) + center(x1)', data)
X

DesignMatrix with shape (5, 3)
  Intercept  standardize(x0)  center(x1)
          1         -1.41421        0.78
          1         -0.70711        0.76
          1          0.00000        1.02
          1          0.70711       -3.33
          1          1.41421        0.77
  Terms:
    'Intercept' (column 0)
    'standardize(x0)' (column 1)
    'center(x1)' (column 2)

In [38]:
new_data = pd.DataFrame({
    'x0': [6, 7, 8, 9],
    'x1': [3.1, -0.5, 0, 2.3],
    'y': [1, 2, 3, 4]})
new_X = patsy.build_design_matrices([X.design_info], new_data)
new_X

[DesignMatrix with shape (4, 3)
   Intercept  standardize(x0)  center(x1)
           1          2.12132        3.87
           1          2.82843        0.27
           1          3.53553        0.77
           1          4.24264        3.07
   Terms:
     'Intercept' (column 0)
     'standardize(x0)' (column 1)
     'center(x1)' (column 2)]

In [39]:
y, X = patsy.dmatrices('y ~ I(x0 + x1)', data)
X

DesignMatrix with shape (5, 2)
  Intercept  I(x0 + x1)
          1        1.01
          1        1.99
          1        3.25
          1       -0.10
          1        5.00
  Terms:
    'Intercept' (column 0)
    'I(x0 + x1)' (column 1)

In [18]:
data = pd.DataFrame({
    'key1': ['a', 'a', 'b', 'b', 'a', 'b', 'a', 'b'],
    'key2': [0, 1, 0, 1, 0, 1, 0, 0],
    'v1': [1, 2, 3, 4, 5, 6, 7, 8],
    'v2': [-1, 0, 2.5, -0.5, 4.0, -1.2, 0.2, -1.7]
})
y, X = patsy.dmatrices('v2 ~ key1', data)
X

In [19]:
y, X = patsy.dmatrices('v2 ~ key1 + 0', data)
X

In [20]:
y, X = patsy.dmatrices('v2 ~ C(key2)', data)
X

In [21]:
data['key2'] = data['key2'].map({0: 'zero', 1: 'one'})
data
y, X = patsy.dmatrices('v2 ~ key1 + key2', data)
X
y, X = patsy.dmatrices('v2 ~ key1 + key2 + key1:key2', data)
X

In [40]:
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [41]:
# To make the example reproducible
rng = np.random.default_rng(seed=12345)

def dnorm(mean, variance, size=1):
    if isinstance(size, int):
        size = size,
    return mean + np.sqrt(variance) * rng.standard_normal(*size)

N = 100
X = np.c_[dnorm(0, 0.4, size=N),
          dnorm(0, 0.6, size=N),
          dnorm(0, 0.2, size=N)]
eps = dnorm(0, 0.1, size=N)
beta = [0.1, 0.3, 0.5]

y = np.dot(X, beta) + eps

In [42]:
X[:5]
y[:5]

array([-0.5995, -0.5885,  0.1856, -0.0075, -0.0154])

In [43]:
X_model = sm.add_constant(X)
X_model[:5]

array([[ 1.    , -0.9005, -0.1894, -1.0279],
       [ 1.    ,  0.7993, -1.546 , -0.3274],
       [ 1.    , -0.5507, -0.1203,  0.3294],
       [ 1.    , -0.1639,  0.824 ,  0.2083],
       [ 1.    , -0.0477, -0.2131, -0.0482]])

In [44]:
model = sm.OLS(y, X)

In [45]:
results = model.fit()
results.params

array([0.0668, 0.268 , 0.4505])

In [46]:
print(results.summary())

                                 OLS Regression Results                                
Dep. Variable:                      y   R-squared (uncentered):                   0.469
Model:                            OLS   Adj. R-squared (uncentered):              0.452
Method:                 Least Squares   F-statistic:                              28.51
Date:                Wed, 26 Jul 2023   Prob (F-statistic):                    2.66e-13
Time:                        14:50:03   Log-Likelihood:                         -25.611
No. Observations:                 100   AIC:                                      57.22
Df Residuals:                      97   BIC:                                      65.04
Df Model:                           3                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

In [47]:
data = pd.DataFrame(X, columns=['col0', 'col1', 'col2'])
data['y'] = y
data[:5]

Unnamed: 0,col0,col1,col2,y
0,-0.900506,-0.18943,-1.02787,-0.599527
1,0.799252,-1.545984,-0.327397,-0.588454
2,-0.550655,-0.120254,0.329359,0.185634
3,-0.163916,0.82404,0.208275,-0.007477
4,-0.047651,-0.213147,-0.048244,-0.015374


In [48]:
results = smf.ols('y ~ col0 + col1 + col2', data=data).fit()
results.params
results.tvalues

Intercept   -0.652501
col0         1.219768
col1         6.312369
col2         6.567428
dtype: float64

In [49]:
results.predict(data[:5])

0   -0.592959
1   -0.531160
2    0.058636
3    0.283658
4   -0.102947
dtype: float64

In [32]:
init_x = 4

values = [init_x, init_x]
N = 1000

b0 = 0.8
b1 = -0.4
noise = dnorm(0, 0.1, N)
for i in range(N):
    new_x = values[-1] * b0 + values[-2] * b1 + noise[i]
    values.append(new_x)

In [33]:
from statsmodels.tsa.ar_model import AutoReg
MAXLAGS = 5
model = AutoReg(values, MAXLAGS)
results = model.fit()

In [34]:
results.params

In [35]:
train = pd.read_csv('datasets/titanic/train.csv')
test = pd.read_csv('datasets/titanic/test.csv')
train.head(4)

In [36]:
train.isna().sum()
test.isna().sum()

In [37]:
impute_value = train['Age'].median()
train['Age'] = train['Age'].fillna(impute_value)
test['Age'] = test['Age'].fillna(impute_value)

In [38]:
train['IsFemale'] = (train['Sex'] == 'female').astype(int)
test['IsFemale'] = (test['Sex'] == 'female').astype(int)

In [39]:
predictors = ['Pclass', 'IsFemale', 'Age']

X_train = train[predictors].to_numpy()
X_test = test[predictors].to_numpy()
y_train = train['Survived'].to_numpy()
X_train[:5]
y_train[:5]

In [40]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()

In [41]:
model.fit(X_train, y_train)

In [42]:
y_predict = model.predict(X_test)
y_predict[:10]

In [43]:
from sklearn.linear_model import LogisticRegressionCV
model_cv = LogisticRegressionCV(Cs=10)
model_cv.fit(X_train, y_train)

In [44]:
from sklearn.model_selection import cross_val_score
model = LogisticRegression(C=10)
scores = cross_val_score(model, X_train, y_train, cv=4)
scores

In [46]:
pd.options.display.max_rows = PREVIOUS_MAX_ROWS