In [51]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


[가장 자주 사용되는 최적화 방법]
- 경사하강법(Gradient Descent)
- 확률적 경사하강법(Stochastic Gradient Descent : SGD)


---

# 경사하강법(Gradient Descent)
- 함수의 최소값을 찾는 반복적인 최적화 알고리즘
- 경사 하강을 이용하여 함수의 최소값을 찾는 방법
  - 임의의 지점에서 시작하여 기울기의 음수에 비례하도록 움직임
- linear regression, logistic regression, SYM and neural network를 위한 최적화된 파라미터를 찾음
- 선형은 경사 하강법을 잘 사용하지 않음
- 비선형일 때 미분하여 기울기를 줄이며 최적의 해 찾음
  - 기울기가 0일 때의 값을 사용(local minima)

- 단점 : 기울어진 방향으로 이동하며 탐색
  -> 데이터의 양이 크면 탐색(수렴)하는데 오래 걸림

- 기울기를 반복적으로 줄여 미분 가능한 함수의 최솟값을 찾음
- 비용 함수를 최소화
- 반복적으로 수행
- 최적의 해를 찾기 위해 사용
- 비선형에서 많이 사용
- 2차원 이상의 곡선을 미분하여 겅사(기울기)가 최소가 되는 점을 찾음
- 기울기가 0일 때의 값 사용(최소점)
- 데이터가 많으면, Gobal minima에 도달하기까지 시간이 오래 걸림(전체 훈련 세트 사용)
- Local minima에 빠지면 나오기 어려움
- 학습률 설정에 따라 Global minimum에 수렴하는 속도가 너무 느리거나, 학습 간격이 너무 넓어서 훈련데이터를 제대로 학습하지 못할 수 있음
- 학습률(Learning Rate) : 훈련 데이터 학습 간격 설정


---
### 경사하강법 학습 방법
- 선형 회귀 모델 : f(x) = wx + b
- 반복(epoch) 수행
   - 1회 반복마다 각 파라미터를 전체 훈련데이터 세트로 업데이트 함
   - 첫번째 (epoch) : w <- 0, b <- 0
   - 1회 반복(epoch)마다 편미분 수행
    - 학습률 = 알파
    

---

### 손실함수
- 실제값과 예측값의 차이를 구하는 함수
- 오차와 손실함수는 비례 관계
- 머신러닝 학습에서 손실함수 값을 최소화하는 파라미터(W, b)를 찾는 것이 목표
- 손실함수의 값을 최소화하기 위해 경사하강법 이용
- 평균제곱근(MSE, mean squared error) 사용



---





# 확률적 경사하강법 (Stochastic Gradient Descent : SGD)
- 기존 Gradient Descent의 문제점
  - local minima에 빠지기 쉬움
  - 학습률 알파에 굉장히 민감함
  - 대용량 데이터 세트에서는 느림
  => Solution : 확률적 경사하강법 (SGD)

- SGD학습에서는 각 샘플 데이터에 따라 가중치 갱신
  - 잦은 가중치 갱신으로 수렴 시간이 오래 걸릴 가능성 있음
  - 잦은 가중치 갱신으로 local minima에서 갇혔을 때 빠져나올 가능성이 높음

- 미니 배치를 사용
- 매 스텝에서 1개의 배치를 무작위로 선택 후 gradient를 계산하여 Gobal Minima를 찾음
- 순차적으로 데이터의 기울기를 계산하지 않고, 미니 배치를 이용하여 학습
- 학습 단계 마다 배치가 변경되어 결과의 진폭이 크지만, 속도가 매우 빠름
- 일반적으로 데이터가 많으면 최적화에 오래 걸림
- 그러나 SGD는 미니배치를 이용, 학습속도가 매우 빠르다!
- SGD Classifier와 Regressor



---
## 사이킷런의 SGD Classifier
###SGDClassifier
- 분류에 대한 다양한 손실 함수 및 패널티를 지원하는 확률적 경사하강법

### 손실 파라미터
- loss ="hinge" : (소프트마진) 선형 SYM
- loss = "modified_huber" : smoothed hinge loss
- loss = "log" : 로지스틱 회귀

### 패널티 파라미터 (=regularization, 정규화 : 과대적합을 예방하고 성능을 높임)
- penalty="L2" : Ridge
  - 손실함수에 가중치에 대한 제곱을 더하는 방법(가장 많이 사용)
  - 변수 간 상관성 때문에 실제로 사용할 수 있는 정보가 적을 경우
  - 독립 변수 간의 편차를 줄이기 위해 사용

- penalty = "L1" : Lasso
  - 손실함수에 가중치의 절대값을 더해주는 방법
  - 변수가 무수히 많은 경우, 관련성이 작은 변수들의 계수를 0으로 만들어 영향력 있는 변수들만 남겨놓는 방법
  - 중요 변수만 사용하여 해석력이 강하지만, 정보의 손실과 정확도의 감소가 발생

- penalty = "Elastic Net"
  - L1, L2 혼합형
  - 큰 데이터 세트에서 작동, Ridge와 Lasso의 장점을 모두 가짐
  - 편차와 변수 수를 줄임


In [52]:
import numpy as np
from sklearn.linear_model import SGDClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
import pandas as pd
import time
from sklearn.model_selection import train_test_split

# 코드 실행 시간을 측정하기 위해 시작 시간을 기록함
startTime = time.time()
data = pd.read_csv('/content/drive/MyDrive/머신러닝_오유수/weatherHistory.csv')
data.head()

Unnamed: 0,Formatted Date,Summary,Precip Type,Temperature (C),Apparent Temperature (C),Humidity,Wind Speed (km/h),Wind Bearing (degrees),Visibility (km),Loud Cover,Pressure (millibars),Daily Summary
0,2006-04-01 00:00:00.000 +0200,Partly Cloudy,rain,9.472222,7.388889,0.89,14.1197,251.0,15.8263,0.0,1015.13,Partly cloudy throughout the day.
1,2006-04-01 01:00:00.000 +0200,Partly Cloudy,rain,9.355556,7.227778,0.86,14.2646,259.0,15.8263,0.0,1015.63,Partly cloudy throughout the day.
2,2006-04-01 02:00:00.000 +0200,Mostly Cloudy,rain,9.377778,9.377778,0.89,3.9284,204.0,14.9569,0.0,1015.94,Partly cloudy throughout the day.
3,2006-04-01 03:00:00.000 +0200,Partly Cloudy,rain,8.288889,5.944444,0.83,14.1036,269.0,15.8263,0.0,1016.41,Partly cloudy throughout the day.
4,2006-04-01 04:00:00.000 +0200,Mostly Cloudy,rain,8.755556,6.977778,0.83,11.0446,259.0,15.8263,0.0,1016.51,Partly cloudy throughout the day.


In [53]:
# 데이터의 요약 정보를 출력
data.info()

# precip type 열의 값을 rain은 1, snow는 0으로 변환
data['Precip Type'] = data['Precip Type'].map({'rain':1, 'snow':0})

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96453 entries, 0 to 96452
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Formatted Date            96453 non-null  object 
 1   Summary                   96453 non-null  object 
 2   Precip Type               95936 non-null  object 
 3   Temperature (C)           96453 non-null  float64
 4   Apparent Temperature (C)  96453 non-null  float64
 5   Humidity                  96453 non-null  float64
 6   Wind Speed (km/h)         96453 non-null  float64
 7   Wind Bearing (degrees)    96453 non-null  float64
 8   Visibility (km)           96453 non-null  float64
 9   Loud Cover                96453 non-null  float64
 10  Pressure (millibars)      96453 non-null  float64
 11  Daily Summary             96453 non-null  object 
dtypes: float64(8), object(4)
memory usage: 8.8+ MB


In [54]:
# 결측값을 0으로 대체
data['Precip Type'].fillna(value=0, inplace=True)

# Precip type을 정수형으로 변환
data['Precip Type'].astype(int)

Unnamed: 0,Precip Type
0,1
1,1
2,1
3,1
4,1
...,...
96448,1
96449,1
96450,1
96451,1


In [55]:
#Temperature (C), Humidity 열을 x로 설정하고, 인덱스 1부터 90000까지 데이터를 사용한다.
x = data[['Temperature (C)', 'Humidity']].loc[1:90000].values.reshape((90000,2))

y = data['Precip Type'].loc[1:90000]

In [56]:
# 데이터를 훈련 세트와 테스트 세트로 나눈다.
train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.2, shuffle=True)

In [57]:
# 데이터 전처리와 모델 학습을 위한 파이프라인을 만든다.
'''
- make_pipeline : 여러 데이터 처리 단계를 순차적으로 실행할 수 있는 파이프라인 객체를 생성하는 함수
이 함수는 데이터 전처리와 모델 학습을 순차적으로 수행할 수 있는 파이프라인을 생성하여 코드의 가독성과 재사용성을 높임

- standardScaler : 데이터의 특성(피처)을 표준화하는데 사용한다.
표준화는 데이터의 평균을 0, 표준편차를 1로 변환하여 데이터의 스케일을 맞추는 과정이다.
이는 많은 머신러닝 알고리즘이 특성의 스케일에 민감하기 때문에 필요하다.

- SGDClassifier : 확률적 경사하강법을 사용하여 분류 문제를 해결하는 모델이다
이는 대규모 데이터셋에 대해 효율적으로 학습할 수 있는 알고리즘이다.
'sGDClassifier'는 여러 가지 손실 함수와 함게 사용할 수 있으며, 여기서는 'loss='log_loss''를 설정

[주요 매개변수]
'loss='log_loss'' : 손실함수는 모델의 예측이 얼마나 정확한지를 측정하는 함수이다.
log_loss는 로지스틱의 손실함수로 이진 분류 문제에 적합하다.
로지스틱 회귀는 클래스 확률을 예측하고 이를 기반으로 분류를 수행한다.

max_iter=1000 : 최대 반복 횟수를 설정합니다.
이 값은 모델 학습이 수행될 최대 반복 횟수를 지정합니다.
이 설정은 알고리즘이 얼마나 많은 에포크(반복)를 진행할지를 결정합니다.
1000은 최대 1000회 반복하겠다는 의미입니다.

tol=1e-3: 반복 종료 기준으로 설정되는 허용 오차(정밀도)입니다.
이 값은 알고리즘이 수렴했다고 판단하기 위한 기준입니다.
1e-3은 0.001을 의미하며, 손실 함수의 변화가 이 값 이하로 작아지면 반복을 종료합니다.
'''
clf = make_pipeline(StandardScaler(), SGDClassifier(loss='log_loss', max_iter=1000, tol=1e-3))
clf.fit(train_x, train_y)

In [58]:
print(clf.score(test_x, test_y))
print(clf.score(train_x, train_y))

0.9971111111111111
0.9967361111111112


In [59]:
# 예측할 샘플 데이터를 준비한다.
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
Soeul_1_7 = [-5.7, 0.61]
Soeul_1_8 = [-5.6, 0.58]
Soeul_1_9 = [-1.9, 0.69]
Soeul_1_15 = [7.7, 0.33]
Soeul_1_16 = [6.8, 0.35]
Soeul_1_28 = [-1.2, 0.19]

# 샘플 데이터를 배열로 변환한다.
sample_weather = np.array([Soeul_1_7, Soeul_1_8, Soeul_1_9, Soeul_1_15, Soeul_1_16, Soeul_1_28])

print(clf.predict(sample_weather))


weather = clf.predict(sample_weather)
weather_list = []
for i in weather:
  if i == 1:
    weather_list.append('비')
  else:
    weather_list.append('눈')
print(weather_list)

[0. 0. 0. 1. 1. 0.]
['눈', '눈', '눈', '비', '비', '눈']


In [60]:
endTime = time.time() - startTime
print("SGD Running Time : ", endTime)

SGD Running Time :  6.565324068069458


# StandardScaler
- feature scaling을 위한 전처리 방법으로 feature scaling에 민감한 모델이나 데이터의 최소, 최댓값을 모르는 경우나 데이터 크기의 편차가 큰 경우에 사용

- 특징
  - 다차원의 값을 비교 분석하기 쉽게 만듦
  - 데이터의 overflow 및 underflow 방지
  - 이상치가 존재하는 경우 균형 있는 스케일링이 되지않음

- 방법
  - 각 feature의 평균을 0, 분산을 1로 변경
  - 입력 벡터 속성을 [0,1] 혹은 [-1,1]로 스케일링
  

In [62]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDRegressor

# Split the data into training and testing sets
train_feature, test_feature, train_target, test_target = train_test_split(
    feature, target, test_size=0.3, shuffle=True
)

# Initialize and fit the scaler
scaler = StandardScaler()
train_feature = scaler.fit_transform(train_feature)
test_feature = scaler.transform(test_feature)

# Initialize the SGDRegressor with valid parameters
clf = SGDRegressor(
    loss='squared_error',  # Corrected from 'squared_loss' to 'squared_error'
    penalty='l2',          # Ensure this is a valid option
    alpha=0.0001,
    l1_ratio=0.25,
    tol=1e-4
)

# Fit the model
clf.fit(train_feature, train_target)

# Print the R^2 score on both training and test sets
print(f"Training set score: {clf.score(train_feature, train_target)}")
print(f"Test set score: {clf.score(test_feature, test_target)}")

Training set score: 0.602530345791813
Test set score: 0.6223918282431653


### SGDRegressor
- 선형 회귀 모델에 맞게 다양한 손실 함수와 패널티를 지원하는 확률적 경사하강법
- 일반적으로 대용량 데이터(10000개 이상)의 회귀문제에 적합
  - 다른 경우(10000개 이하) : Ridge, Lasso, ElasticNet 추천

- 손실 파라미터
  - loss="squared_loss"
    - 보통의 최소 제곱 방법
  - loss = "huber"
    - 모든 지점에서 미분 가능하며, Outlier에 강함
    - MSE와 MAE를 절충한 손실함수
  - loss = "epsilon_insensitive"
    - epsilon보다 작은 오류에 무관한 손실함수
    - 선형 Support vector Regression에 사용
  - epsilon
    - 오류에 대한 페널티가 주어지지 않는 허용 단계
  - alpha
    - 정규화 항을 곱하는 상수
    - 값이 높을수록 정규화가 강해짐
    - 기본값 = 0.0001

  - toi
    - 미세 조정값

In [63]:
import numpy as np
import pandas as pd

Concrete_data = pd.read_csv('/content/drive/MyDrive/머신러닝_오유수/Concrete_Data_Yeh.csv')
Concrete_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1030 entries, 0 to 1029
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   cement            1030 non-null   float64
 1   slag              1030 non-null   float64
 2   flyash            1030 non-null   float64
 3   water             1030 non-null   float64
 4   superplasticizer  1030 non-null   float64
 5   coarseaggregate   1030 non-null   float64
 6   fineaggregate     1030 non-null   float64
 7   age               1030 non-null   int64  
 8   csMPa             1030 non-null   float64
dtypes: float64(8), int64(1)
memory usage: 72.5 KB


In [64]:
Concrete_data.nunique()

Unnamed: 0,0
cement,278
slag,185
flyash,156
water,195
superplasticizer,111
coarseaggregate,284
fineaggregate,302
age,14
csMPa,845


- Features : 시멘트, 광재, 비산회, 물, Superplasticizer, 거친 골재, 미세 골재, 연도, 콘크리트 압축 강도
- 예측을 위한 feature 선택 : 콘크리트 압축 강도를 제외한 나머지 전체 피처 사용
- Target : 콘크리트 압축 강도

In [65]:
feature = Concrete_data.drop(columns=['csMPa'])
target = Concrete_data['csMPa']
feature.head()

Unnamed: 0,cement,slag,flyash,water,superplasticizer,coarseaggregate,fineaggregate,age
0,540.0,0.0,0.0,162.0,2.5,1040.0,676.0,28
1,540.0,0.0,0.0,162.0,2.5,1055.0,676.0,28
2,332.5,142.5,0.0,228.0,0.0,932.0,594.0,270
3,332.5,142.5,0.0,228.0,0.0,932.0,594.0,365
4,198.6,132.4,0.0,192.0,0.0,978.4,825.5,360


In [66]:
target.head()

Unnamed: 0,csMPa
0,79.99
1,61.89
2,40.27
3,41.05
4,44.3


- 데이터 전처리 : StandardScaler
- 학습 파라미터 설정 : 'squared loss'와 'I2' 사용

In [67]:
from sklearn.model_selection import train_test_split
train_feature, test_feature, train_target, test_target = train_test_split(feature, target, test_size=0.3, shuffle=True)

print(train_feature.shape)
print(train_target.shape)

(721, 8)
(721,)


In [72]:
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDRegressor

# Initialize the scaler and transform the data
scaler = StandardScaler()
train_feature = scaler.fit_transform(train_feature)
test_feature = scaler.transform(test_feature)

# Initialize the SGDRegressor with the correct loss parameter
clf = SGDRegressor(
    loss='squared_error',  # Corrected from 'squared_loss' to 'squared_error'
    penalty='l2',
    alpha=0.0001,
    l1_ratio=0.25,
    tol=1e-4
)

# Fit the model
clf.fit(train_feature, train_target)

# Print the R^2 score on both training and test sets
print(f"Training set score: {clf.score(train_feature, train_target)}")
print(f"Test set score: {clf.score(test_feature, test_target)}")

Training set score: 0.5906264225625368
Test set score: 0.659587350454957


- 정규화(I1, elasticnet) 방법 간의 정확도 비교

In [78]:
clf_l1 = SGDRegressor(
    loss='squared_error',  # Corrected from 'squared_loss' to 'squared_error'
    penalty='l1',          # Using L1 regularization
    alpha=0.0001,
    tol=1e-4
)
clf_l1.fit(train_feature, train_target)

# Print the R^2 score on both training and test sets
print(f"Training set score (L1 penalty): {clf_l1.score(train_feature, train_target)}")
print(f"Test set score (L1 penalty): {clf_l1.score(test_feature, test_target)}")

Training set score (L1 penalty): 0.5908154205967966
Test set score (L1 penalty): 0.6607433206888931


In [79]:
clf_ela = SGDRegressor(
    loss = 'squared_error',
    penalty='elasticnet',
    alpha = 0.0001,
    l1_ratio=0.25,
    tol=1e-4
    )
clf_ela.fit(train_feature, train_target)

print(clf_ela.score(train_feature, train_target))
print(clf_ela.score(test_feature, test_target))

0.5915314131716474
0.6601206193087555


In [87]:
# Initialize the SGDRegressor with the correct parameters
clf = SGDRegressor(
    loss='squared_error',  # Corrected from 'squared_loss' to 'squared_error'
    penalty='elasticnet',
    alpha=0.0001,
    l1_ratio=0.25,
    tol=1e-4
)

# Fit the model
clf.fit(train_feature, train_target)

# Print the R^2 score on both training and test sets
print(f"Training set score: {clf.score(train_feature, train_target)}")
print(f"Test set score: {clf.score(test_feature, test_target)}")

Training set score: 0.5910636488038428
Test set score: 0.6598674712329335


In [91]:
# Initialize the SGDRegressor with the correct parameters
clf = SGDRegressor(
    loss='squared_error',  # Corrected from 'squared_loss' to 'squared_error'
    penalty='elasticnet',
    alpha=0.0001,
    l1_ratio=0.5,
    tol=1e-4
)

# Fit the model
clf.fit(train_feature, train_target)

# Print the R^2 score on both training and test sets
print(f"Training set score: {clf.score(train_feature, train_target)}")
print(f"Test set score: {clf.score(test_feature, test_target)}")

Training set score: 0.5916863906775606
Test set score: 0.6586947712712545


In [94]:
print("콘크리트의 강도는?")
# Sample data - 1-dimensional
sample = np.array([19.0, 19.0, 0.0, 0.0, 220.0, 0.0, 0.0, 90.0, 67.0, 27.0])

# Reshape the sample to 2-dimensional
sample_reshaped = sample.reshape(1, -1)  # Reshape to (1, 10)

# Transform the first 8 features
sample_features = sample_reshaped[:, :8]

# Scale the features
sample_scaled = scaler.transform(sample_features)

# Predict the strength using the trained model
print(clf.predict(sample_scaled))

콘크리트의 강도는?
[1421.18851925]


## 학습 알고리즘의 특수성에 따른 선택
1. 범주형 feature 적용 가능한 경우
  - Decision Tree / SVM / Logistic & Linear Regression /KNN
    - 범주형 변수(순서에 상관없이 두가지 이상의 그룹으로 나눌 수 있는 변수)
    - ex) 색상 변수 = 빨, 노, 초

2. 각 클래스에 가중치 적용 가능
  - SVM
    - 데이터의 비중이 다르거나 중요도가 다를 때 적용

3. 오직 주어진 feature vector에 의해서만 클래스 출력하는 경우
  - SVM/ KNN
    - SVM : 집합 군 사이의 Support Vector에 의한 결정 경계로 클래스 분류
    - KNN : k개의 이웃 탐색 후 가장 많은 feature의 target으로 클래스 분류

4. 0과 1 사이의 값이 반환 가능한 경우
  - Logistic regression / Decision Tree
    - 정답에 가까울 확률(%)로 표현

5. 한번에 전체 데이터 집합을 사용해 모델을 학습하는 경우
  - Decision Tree / Logistic regression / SVM classification

6. 미니 배치로 나눈 후 한번에 한 배치씩 반복적으로 학습하는 경우
  - Naive Bayes / Multilayer Perceptron / SGD Classifier / SGD Regressor / PassiveAgressive Classifier / PassiveAgressive Regressor

7. classification과 regression 모두 사용가능한 경우
  - Decision tree / SVM / KNN
    - Decision tree와 KNN : Classification을 더 많이 사용
    - SVM : Regression과 Classification 모두 사용
