# **Algorithms supported in BQML**

BQML에서 지원되는 알고리즘을 구분화 해보면, 아래와 같다. 

BQML은 다음과 같은 카테고리의 알고리즘을 지원합니다.

1. 분류(Classification): 텍스트, 이미지, 숫자 데이터와 같은 다양한 데이터 유형을 사용하여 객체를 분류하는 알고리즘입니다. 예를 들어, 텍스트 데이터를 사용하여 이메일이 스팸인지 정상인지 분류하거나, 이미지 데이터를 사용하여 개와 고양이를 구분하는 데 사용할 수 있습니다.
  - 로지스틱 회귀(Logistic Regression): 이진 분류 문제에 사용되는 가장 기본적인 분류 알고리즘입니다.
  - SVM(Support Vector Machine): 이진 분류 및 다중 분류 문제에 모두 사용되는 강력한 분류 알고리즘입니다.
  - 랜덤 포레스트(Random Forest): 다중 분류 문제에 잘 작동하는 앙상블 분류 알고리즘입니다.
  - XGBoost(eXtreme Gradient Boosting): 랜덤 포레스트와 유사한 앙상블 분류 알고리즘이지만 더 빠르고 정확합니다.

2. 회귀(Regression): 숫자 데이터를 사용하여 값을 예측하는 알고리즘입니다. 예를 들어, 과거 판매 데이터를 사용하여 미래의 판매량을 예측하거나, 기상 데이터를 사용하여 다음 날의 기온을 예측하는 데 사용할 수 있습니다.
  - 선형 회귀(Linear Regression): 가장 기본적인 회귀 알고리즘입니다.
  - 다중 회귀(Multiple Regression): 여러 개의 입력 변수를 사용하여 값을 예측하는 알고리즘입니다.
  - 로지스틱 회귀(Logistic Regression): 분류 문제에도 사용할 수 있는 회귀 알고리즘입니다.
  - SVM(Support Vector Machine): 회귀 문제에도 사용할 수 있는 회귀 알고리즘입니다.

3. 군집화(Clustering): 유사한 데이터 포인트를 그룹으로 묶는 알고리즘입니다. 예를 들어, 고객 데이터를 사용하여 고객을 세분화하거나, 이미지 데이터를 사용하여 이미지를 유사한 그룹으로 묶는 데 사용할 수 있습니다.
  - 군집화평균(K-Means): 가장 기본적인 군집 알고리즘입니다.
  - DBSCAN(Density-Based Spatial Clustering of Applications with Noise): 비선형 데이터에 잘 작동하는 군집 알고리즘입니다.
  - Gaussian Mixture Models(GMM): 가우시안 분포를 사용하여 데이터를 그룹으로 묶는 군집 알고리즘입니다.

4. 시계열 : 시계열 알고리즘
  - TiDE (Time-series Dense Encoder) : 시계열 분석을 위해, Tranformer모델을 이용. TFT의 발전 모델
  - TFT (Temporal Fusion Transformer): 시계열 분석을 위해, Tranformer모델을 이용 
  - Arima :시계열 데이터의 자기회귀, 차분, 이동평균을 사용하여 미래의 데이터를 예측하는 알고리즘입니다

5. 컴퓨터 비전(Computer Vision): 이미지 데이터를 이해하고 처리하는 알고리즘입니다. 예를 들어, 이미지에서 물체를 인식하거나, 이미지의 특성을 분석하거나, 이미지를 생성하는 데 사용할 수 있습니다.

  - 이미지 분류(Image Classification): 이미지의 내용을 식별하는 알고리즘입니다.
  - 이미지 검색(Image Search): 이미지에서 특정 내용을 검색하는 알고리즘입니다.
  - 이미지 인식(Object Detection): 이미지에서 특정 물체를 인식하는 알고리즘입니다.

6. 추천 시스템(Recommendation System): 사용자에게 관심 있을 만한 항목을 추천하는 알고리즘입니다. 예를 들어, 영화를 추천하거나, 음악을 추천하거나, 상품을 추천하는 데 사용할 수 있습니다.

  - 협업 필터링(Collaborative Filtering): 사용자의 과거 행동을 기반으로 추천을 생성하는 알고리즘입니다.
  - 콘텐츠 기반 필터링(Content-Based Filtering): 사용자의 관심사를 기반으로 추천을 생성하는 알고리즘입니다.
  - BQML은 이러한 알고리즘을 사용하여 다양한 비즈니스 문제를 해결할 수 있습니다

해당 Training 자료는 위에 나온 알고리즘 중 분류/회귀, 군집화 및 시계열 분석을 위주로 수행한다.


In [1]:
#!pip install google-cloud-bigquery
#!pip install pandas

**중요 !!**

public dataset은 대부분, 'US' 리전에서 동작합니다. 
만약, public dataset으로 테스트를 수행하신다면, dataset을 US로 생성하시기 바랍니다. 

자체 데이터셋이 asia-northeast3 (서울)에 존재하고 해당하는 데이터셋을 이용하여 처리하고 싶다면, bigquery client초기화 시점에 default location 정보를 변경하시기 바랍니다. 

In [26]:
### 하기 내용은 꼭 확인하시기 바랍니다. 데이터셋의 명칭, 위치등을 결정하게 됩니다.

location='US'
#location='asia-northeast3'

# 기존 데이터셋(일반 데이터베이스로 보면, Schema)을 이용한다면, 아래 내용은 실행하지 않으셔도 됩니다. 
dataset_name='us_trainingset'


In [31]:
# Intialize All necessary modules
from google.cloud import bigquery

client = bigquery.Client(location=location)
project_id = client.project

In [42]:
# 기존 데이터셋(일반 데이터베이스로 보면, Schema)을 이용한다면, 아래 내용은 실행하지 않으셔도 됩니다. 
# Unit of table_expiration is millisecond. 3600000 * 24
! bq --location=$location mk --dataset --default_table_expiration=86400000 $project_id:$dataset_name

Dataset 'turnkey-charter-358922:us_trainingset' successfully created.


In [47]:
## 여기에 Model을 작성하고, 임시 테이블을 생성할 데이터 셋 명칭을 지정한다!!!!

#dataset_id = "<your_project_id>.<your_dataset_id>"
dataset_id = f"{project_id}.{dataset_name}"


## Classification



### 1-1. Census Classification

머신 러닝에서의 일반적인 문제 중 하나는 데이터를 두 가지 유형으로 분류하는 것인데, 이를 레이블이라고 합니다. 예를 들어, 소매업자는 고객이 다른 고객 정보를 기반으로 새로운 제품을 구매할지 예측하려고 할 수 있습니다. 이 경우 두 가지 레이블은 '구매할 것'과 '구매하지 않을 것'일 수 있습니다. 이러한 경우, 하나의 열이 레이블을 나타내도록 데이터 집합을 구성할 수 있습니다. 바이너리 로지스틱 회귀 모델을 훈련하기 위해 사용할 수 있는 데이터에는 고객의 위치, 이전 구매 내역, 고객이 제공한 선호도 등이 포함될 수 있습니다.

이 가이드에서는 BigQuery ML의 바이너리 로지스틱 회귀 모델을 사용하여 미국 인구조사 데이터 세트의 응답자 소득 범위를 예측합니다. 이 데이터 세트에는 2000년과 2010년 미국 거주자의 인구 통계 및 소득 정보가 포함되어 있습니다. 이 데이터에는 고용 상태, 직업 범주, 교육 수준 및 소득 데이터가 포함됩니다.

**목표**
이 가이드에서는 다음 작업을 수행합니다.
로지스틱 회귀 모델을 만듭니다.
로지스틱 회귀 모델을 평가합니다.
로지스틱 회귀 모델을 사용하여 예측합니다.


로지스틱 회귀 모델 만들기는 다음 단계로 구성됩니다.

- 1단계: 모델을 저장할 데이터 세트를 만듭니다.
  - 1단계에서는 모델을 저장할 BigQuery 데이터 세트를 만듭니다.
- 2단계: 데이터를 검사합니다.
  - 이 단계에서는 데이터 세트를 검사하고 로지스틱 회귀 모델의 학습 데이터로 사용할 열을 식별합니다.
- 3단계: 학습 데이터를 선택합니다.
  -다음 단계로 census_adult_income 테이블을 대상으로 쿼리를 실행하여 바이너리 로지스틱 회귀 모델을 학습하는 데 사용할 데이터를 준비합니다. 이 단계에서는 관련 특성을 식별하고 나중에 쿼리를 입력 데이터로 사용할 수 있도록 뷰에 저장합니다.
- 4단계: 로지스틱 회귀 모델을 만듭니다.
  - 이 단계에서는 CREATE MODEL 문을 사용하여 로지스틱 회귀 모델을 만듭니다.
- 5단계: ML.EVALUATE 함수를 사용하여 모델을 평가합니다.
  - 그런 다음 ML.EVALUATE 함수를 사용하여 모델 성능에 대한 통계를 제공합니다.
- 6단계: ML.PREDICT 함수를 사용하여 참여자의 소득을 예측합니다.
  - 마지막으로 ML.PREDICT 함수를 사용하여 특정 인구조사 참가자 집합의 소득 계층을 예측합니다.



### 1-2. Penguin 체중 예측

Penguin 자료의 종, 지역, 부리 길이, 부리 높이, 발사이즈, 성별이 주어졌을 때, 몸무게를 알아맞추는 방법이다. 
즉 여기서는 목표가 "몸무게" 컬럼이 되며, 연속 데이터 셋이 Target이 되었으니, regression 모델을 이용해 본다.

먼저, Penguin 데이터 셋을 살펴보자

In [43]:
ml_dataset = 'bigquery-public-data.ml_datasets.penguins'

df_penguin = client.query(f"""
select *
  from `{ml_dataset}`
""").to_dataframe()

자료를 트레이닝과 검증용으로 구분하여 진행하여야 하나, 

AutoML을 이용할 경우, 자료 분리, 전처리를 알아서 진행하기 때문에 매우 편하다. 

하지만, 일단은 나중 검증용으로 일부 데이터 셋을 분리해보자. 

In [44]:
df_penguin.head(10)

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie Penguin (Pygoscelis adeliae),Dream,36.6,18.4,184.0,3475.0,FEMALE
1,Adelie Penguin (Pygoscelis adeliae),Dream,39.8,19.1,184.0,4650.0,MALE
2,Adelie Penguin (Pygoscelis adeliae),Dream,40.9,18.9,184.0,3900.0,MALE
3,Chinstrap penguin (Pygoscelis antarctica),Dream,46.5,17.9,192.0,3500.0,FEMALE
4,Adelie Penguin (Pygoscelis adeliae),Dream,37.3,16.8,192.0,3000.0,FEMALE
5,Adelie Penguin (Pygoscelis adeliae),Dream,43.2,18.5,192.0,4100.0,MALE
6,Chinstrap penguin (Pygoscelis antarctica),Dream,46.9,16.6,192.0,2700.0,FEMALE
7,Chinstrap penguin (Pygoscelis antarctica),Dream,50.5,18.4,200.0,3400.0,FEMALE
8,Chinstrap penguin (Pygoscelis antarctica),Dream,49.5,19.0,200.0,3800.0,MALE
9,Adelie Penguin (Pygoscelis adeliae),Dream,40.2,20.1,200.0,3975.0,MALE


In [45]:
df_penguin.describe()

Unnamed: 0,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g
count,342.0,342.0,342.0,342.0
mean,43.92193,17.15117,200.915205,4201.754386
std,5.459584,1.974793,14.061714,801.954536
min,32.1,13.1,172.0,2700.0
25%,39.225,15.6,190.0,3550.0
50%,44.45,17.3,197.0,4050.0
75%,48.5,18.7,213.0,4750.0
max,59.6,21.5,231.0,6300.0


table이 작기 때문에, dataframe에 모두 loading되어 있는 상태이다. 

테이블이 큰 경우에는 이를 Dataframe에 모두 loading하고자 할 경우, 시간과 비용이 증가한다. 이럴 경우에는 되도록 BigQuery에서 SQL을 통해 작업하는 것이 매우 유효하다.
(나중에 BigFrame library이용을 고려해 볼 것)

어떤 방법을 사용하던, 최종적으로는 bigquery안에, 훈련/테스트 데이터 셋을 구성하여야 한다.

In [9]:
wanna_process_in_bigquery = True

In [49]:
train_table_name = 'penguin_train'
test_table_name = 'penguin_test'

def split_data_in_dataframe(split_ratio):
    df_penguin_shuffled = df_penguin.sample(frac=1.0, random_state=32)
    total_row = len(df_penguin_shuffled)
    split_loc = int(total_row * split_ratio)

    df_penguin_shuffled_train = df_penguin_shuffled[:split_loc]
    df_penguin_shuffled_test = df_penguin_shuffled[split_loc:]
    
    df_penguin_shuffled_train.to_gbq(f'{dataset_id}.{train_table_name}', inplace=True)
    df_penguin_shuffled_test.to_gbq(f'{dataset_id}.{test_table_name}', inplace=True)

def split_data_in_bigquery(split_ratio):
    client.query(f"""create or replace table {dataset_id}.{train_table_name} as
select * from `{ml_dataset}` where rand() < {split_ratio}""").to_dataframe()
    client.query(f"""create or replace table {dataset_id}.{test_table_name} as
select * from `{ml_dataset}`
except distinct
select * from {dataset_id}.{train_table_name}""").to_dataframe()
    
def split_data(split_ratio):
    if wanna_process_in_bigquery:
        split_data_in_bigquery(split_ratio)
    else:
        split_data_in_dataframe(split_ratio)

split_data(0.7)

준비가 다 되었다. 

training 테이블을 이용하여, 모델을 생성해보자. 

모델 생성할 때, enable_global_explain 항목을 추가하면, 모델 생성후에, 모델에 대한 설명 지표가 나오기 때문에, 도움이 될 경우 활성하 한다.(훈련 시간은 증가)

In [67]:
model_name = 'penguin_regression_model'

model_creation_query = client.query(f"""
create or replace model `{dataset_id}.{model_name}`
options
( model_type='linear_reg', input_label_cols=['body_mass_g'], enable_global_explain=True) 
as
select *
  from `{dataset_id}.{train_table_name}` where body_mass_g is not null""").to_dataframe()

In [69]:
# 호출한 모델이 잘 진행되고 있는지 확인해보자
df_model_training_info = client.query(f"""
select * from ml.training_info(model `{dataset_id}.{model_name}`) order by iteration asc""").to_dataframe()
print(df_model_training_info)

   training_run  iteration          loss  eval_loss  learning_rate  \
0             0          0  77122.337199        NaN            NaN   

   duration_ms  
0         2542  


duration time 이 변경되지 않는 것을 확인하면 모델 생성이 끝났다는 것을 알 수 있다. 필요하면 아래와 같은 대기 루틴을 만들어서, 모델링이 끝날 때까지 대기할 수 있다.

In [70]:
def wait_for_creating_model():
    prev_duration_ms = 0
    while True:
        df_model_training_info = client.query(f"""select duration_ms from ml.training_info(model `{dataset_id}.{model_name}`) order by iteration asc""").to_dataframe()
        if prev_duration_ms == df_model_training_info.iloc[0][0]:
            prev_duration_ms = df_model_training_info.iloc[0][0]
            sleep(5)
        else:
            return
        
wait_for_creating_model()

모델에 대한 검증을 수행해 보자. 먼저 모델 훈련에서 발생한 모델 평가 항목들을 확인해 보자

In [71]:
client.query(f"""
select *
  from ml.global_explain(model `{dataset_id}.{model_name}`)""").to_dataframe()

Unnamed: 0,feature,attribution
0,island,3206.100737
1,sex,2630.708014
2,species,1556.858432
3,flipper_length_mm,217.96769
4,culmen_length_mm,90.83139
5,culmen_depth_mm,72.213017


In [78]:
# client.query(f"""
# select *
#   from ml.FEATURE_IMPORTANCE(model `{dataset_id}.{model_name}`)""").to_dataframe()
# This feature isn't supported in linear regression.

모델을 이용하여, 테스트 데이터셋에서 추정치를 계산하고, 실제값과 비교해 보자. 

ML_PREDICT는 실제 예상치와 관련된 정보를 제공하고, EXPLAIN_PREDICT 예측치에 대한 설명저보가 추가된다. 

먼저 ML_EXPLAIN_PREDICT를 사용해보자.

In [81]:
client.query(f"""
select * from ML.EXPLAIN_PREDICT(MODEL `{dataset_id}.{model_name}`,(select * from `{dataset_id}.{test_table_name}` where body_mass_g is not null))""").to_dataframe()

Unnamed: 0,predicted_body_mass_g,top_feature_attributions,baseline_prediction_value,prediction_value,approximation_error,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,4581.817911,"[{'feature': 'island', 'attribution': 3193.923...",-3198.820693,4581.817911,0.0,Gentoo penguin (Pygoscelis papua),Biscoe,42.0,13.5,210.0,4150.0,FEMALE
1,4668.811125,"[{'feature': 'island', 'attribution': 3193.923...",-3198.820693,4668.811125,0.0,Gentoo penguin (Pygoscelis papua),Biscoe,46.5,13.5,210.0,4550.0,FEMALE
2,4593.190196,"[{'feature': 'island', 'attribution': 3193.923...",-3198.820693,4593.190196,0.0,Gentoo penguin (Pygoscelis papua),Biscoe,43.3,14.0,208.0,4575.0,FEMALE
3,4797.713246,"[{'feature': 'island', 'attribution': 3193.923...",-3198.820693,4797.713246,0.0,Gentoo penguin (Pygoscelis papua),Biscoe,49.1,14.5,212.0,4625.0,FEMALE
4,4837.915780,"[{'feature': 'island', 'attribution': 3193.923...",-3198.820693,4837.915780,0.0,Gentoo penguin (Pygoscelis papua),Biscoe,46.4,15.0,216.0,4700.0,FEMALE
...,...,...,...,...,...,...,...,...,...,...,...,...
109,4302.033119,"[{'feature': 'island', 'attribution': 3220.848...",-3198.820693,4302.033119,0.0,Chinstrap penguin (Pygoscelis antarctica),Dream,49.0,19.6,212.0,4300.0,MALE
110,3424.973798,"[{'feature': 'island', 'attribution': 3220.848...",-3198.820693,3424.973798,0.0,Chinstrap penguin (Pygoscelis antarctica),Dream,45.7,17.3,193.0,3600.0,FEMALE
111,3544.301873,"[{'feature': 'island', 'attribution': 3220.848...",-3198.820693,3544.301873,0.0,Chinstrap penguin (Pygoscelis antarctica),Dream,47.5,16.8,199.0,3900.0,FEMALE
112,4113.699238,"[{'feature': 'island', 'attribution': 3220.848...",-3198.820693,4113.699238,0.0,Chinstrap penguin (Pygoscelis antarctica),Dream,50.2,18.8,202.0,3800.0,MALE


이후 ML_PREDICT를 사용해보자.


In [82]:
client.query(f"""
select * from ML.PREDICT(MODEL `{dataset_id}.{model_name}`,(select * from `{dataset_id}.{test_table_name}` where body_mass_g is not null))""").to_dataframe()

Unnamed: 0,predicted_body_mass_g,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,4581.817911,Gentoo penguin (Pygoscelis papua),Biscoe,42.0,13.5,210.0,4150.0,FEMALE
1,4668.811125,Gentoo penguin (Pygoscelis papua),Biscoe,46.5,13.5,210.0,4550.0,FEMALE
2,4593.190196,Gentoo penguin (Pygoscelis papua),Biscoe,43.3,14.0,208.0,4575.0,FEMALE
3,4797.713246,Gentoo penguin (Pygoscelis papua),Biscoe,49.1,14.5,212.0,4625.0,FEMALE
4,4837.915780,Gentoo penguin (Pygoscelis papua),Biscoe,46.4,15.0,216.0,4700.0,FEMALE
...,...,...,...,...,...,...,...,...
109,4302.033119,Chinstrap penguin (Pygoscelis antarctica),Dream,49.0,19.6,212.0,4300.0,MALE
110,3424.973798,Chinstrap penguin (Pygoscelis antarctica),Dream,45.7,17.3,193.0,3600.0,FEMALE
111,3544.301873,Chinstrap penguin (Pygoscelis antarctica),Dream,47.5,16.8,199.0,3900.0,FEMALE
112,4113.699238,Chinstrap penguin (Pygoscelis antarctica),Dream,50.2,18.8,202.0,3800.0,MALE


EXPLAIN_PREDICT와 PREDICT 함수차이가 보인다. 

즉 Feature에 대한 attribution 정보가 들어가 있다는 부분이 확실히 다르게 보인다. 


## **Closing**

해당 테이블은 하루가 지나면 자동으로 지워지나, Model의 경우, 명시적인 삭제가 필요하다. 

모델을 삭제하면서 해당 Step을 마무리한다.

In [83]:
client.query(f"""
drop model if exists `{dataset_id}.{model_name}`""").to_dataframe()

In [85]:
client.query(f"""
drop table if exists `{dataset_id}.{train_table_name}`""").to_dataframe()

In [86]:
client.query(f"""
drop table if exists `{dataset_id}.{test_table_name}`""").to_dataframe()

### Iris Classification

## **Regression**

### Penguine Weight Prediction

이 튜토리얼에서는 penguin 테이블을 사용하여 펭귄의 종, 사는 섬, 컬멘 길이 및 깊이, 지느러미 길이 및 성별을 기반으로 펭귄의 무게를 예측하는 모델을 만듭니다.

목표
이 튜토리얼에서는 다음을 수행합니다.

BigQuery ML에서 CREATE MODEL 문을 사용하여 선형 회귀 모델 만들기
ML.EVALUATE 함수를 사용하여 ML 모델 평가
ML.PREDICT 함수를 사용하여 ML 모델로 예측


### New York City - East River Bicycle Crossings


## **Time Series Analysis**

### 날씨, 온도에 대한 시계열 분석

날씨, 기온, 풍속 정보에 대한 시계열 예측모델을 구성합니다. 


목표
이 가이드에서는 다음을 사용합니다.

CREATE MODEL 문: 시계열 모델을 만듭니다.
ML.ARIMA_EVALUATE 함수: 모델의 ARIMA 관련 평가 정보를 검사합니다.
ML.ARIMA_COEFFICIENTS 함수: 모델 계수를 검사합니다.
ML.FORECAST 함수: 일일 PM 2.5를 예측합니다.
ML.EVALUATE 함수: 실제 데이터가 있는 모델을 평가합니다.
ML.EXPLAIN_FORECAST 함수: 예측 결과를 설명하는 데 사용할 수 있는 시계열의 다양한 구성요소 (예: 계절성, 트렌드, 특성 기여 분석)를 검색합니다.



### 주류 소비량 예측

목표
이 가이드에서는 다음을 사용합니다. 

CREATE MODEL 문: 시계열 모델을 만듭니다.
ML.ARIMA_EVALUATE 함수: 모델의 ARIMA 관련 평가 정보를 검사합니다.
ML.ARIMA_COEFFICIENTS 함수: 모델 계수를 검사합니다.
ML.FORECAST 함수: 일일 PM 2.5를 예측합니다.
ML.EVALUATE 함수: 실제 데이터가 있는 모델을 평가합니다.
ML.EXPLAIN_FORECAST 함수: 예측 결과를 설명하는 데 사용할 수 있는 시계열의 다양한 구성요소 (예: 계절성, 트렌드, 특성 기여 분석)를 검색합니다.


### Energy Consumption Time Series Dataset

목표
이 가이드에서는 다음을 사용합니다. 

CREATE MODEL 문: 시계열 모델을 만듭니다.
ML.ARIMA_EVALUATE 함수: 모델의 ARIMA 관련 평가 정보를 검사합니다.
ML.ARIMA_COEFFICIENTS 함수: 모델 계수를 검사합니다.
ML.FORECAST 함수: 일일 PM 2.5를 예측합니다.
ML.EVALUATE 함수: 실제 데이터가 있는 모델을 평가합니다.
ML.EXPLAIN_FORECAST 함수: 예측 결과를 설명하는 데 사용할 수 있는 시계열의 다양한 구성요소 (예: 계절성, 트렌드, 특성 기여 분석)를 검색합니다.


## **Image Classification**

### fabric defect dataset

https://www.kaggle.com/datasets/rmshashi/fabric-defect-dataset