# **Algorithms supported in BQML**

BQML에서 지원되는 알고리즘을 구분화 해보면, 아래와 같다. 

BQML은 다음과 같은 카테고리의 알고리즘을 지원합니다.

1. 분류(Classification): 텍스트, 이미지, 숫자 데이터와 같은 다양한 데이터 유형을 사용하여 객체를 분류하는 알고리즘입니다. 예를 들어, 텍스트 데이터를 사용하여 이메일이 스팸인지 정상인지 분류하거나, 이미지 데이터를 사용하여 개와 고양이를 구분하는 데 사용할 수 있습니다.
  - 로지스틱 회귀(Logistic Regression): 이진 분류 문제에 사용되는 가장 기본적인 분류 알고리즘입니다.
  - SVM(Support Vector Machine): 이진 분류 및 다중 분류 문제에 모두 사용되는 강력한 분류 알고리즘입니다.
  - 랜덤 포레스트(Random Forest): 다중 분류 문제에 잘 작동하는 앙상블 분류 알고리즘입니다.
  - XGBoost(eXtreme Gradient Boosting): 랜덤 포레스트와 유사한 앙상블 분류 알고리즘이지만 더 빠르고 정확합니다.

2. 회귀(Regression): 숫자 데이터를 사용하여 값을 예측하는 알고리즘입니다. 예를 들어, 과거 판매 데이터를 사용하여 미래의 판매량을 예측하거나, 기상 데이터를 사용하여 다음 날의 기온을 예측하는 데 사용할 수 있습니다.
  - 선형 회귀(Linear Regression): 가장 기본적인 회귀 알고리즘입니다.
  - 다중 회귀(Multiple Regression): 여러 개의 입력 변수를 사용하여 값을 예측하는 알고리즘입니다.
  - 로지스틱 회귀(Logistic Regression): 분류 문제에도 사용할 수 있는 회귀 알고리즘입니다.
  - SVM(Support Vector Machine): 회귀 문제에도 사용할 수 있는 회귀 알고리즘입니다.

3. 군집화(Clustering): 유사한 데이터 포인트를 그룹으로 묶는 알고리즘입니다. 예를 들어, 고객 데이터를 사용하여 고객을 세분화하거나, 이미지 데이터를 사용하여 이미지를 유사한 그룹으로 묶는 데 사용할 수 있습니다.
  - 군집화평균(K-Means): 가장 기본적인 군집 알고리즘입니다.
  - DBSCAN(Density-Based Spatial Clustering of Applications with Noise): 비선형 데이터에 잘 작동하는 군집 알고리즘입니다.
  - Gaussian Mixture Models(GMM): 가우시안 분포를 사용하여 데이터를 그룹으로 묶는 군집 알고리즘입니다.

4. 시계열 : 시계열 알고리즘
  - TiDE (Time-series Dense Encoder) : 시계열 분석을 위해, Tranformer모델을 이용. TFT의 발전 모델
  - TFT (Temporal Fusion Transformer): 시계열 분석을 위해, Tranformer모델을 이용 
  - Arima :시계열 데이터의 자기회귀, 차분, 이동평균을 사용하여 미래의 데이터를 예측하는 알고리즘입니다

5. 컴퓨터 비전(Computer Vision): 이미지 데이터를 이해하고 처리하는 알고리즘입니다. 예를 들어, 이미지에서 물체를 인식하거나, 이미지의 특성을 분석하거나, 이미지를 생성하는 데 사용할 수 있습니다.

  - 이미지 분류(Image Classification): 이미지의 내용을 식별하는 알고리즘입니다.
  - 이미지 검색(Image Search): 이미지에서 특정 내용을 검색하는 알고리즘입니다.
  - 이미지 인식(Object Detection): 이미지에서 특정 물체를 인식하는 알고리즘입니다.

6. 추천 시스템(Recommendation System): 사용자에게 관심 있을 만한 항목을 추천하는 알고리즘입니다. 예를 들어, 영화를 추천하거나, 음악을 추천하거나, 상품을 추천하는 데 사용할 수 있습니다.

  - 협업 필터링(Collaborative Filtering): 사용자의 과거 행동을 기반으로 추천을 생성하는 알고리즘입니다.
  - 콘텐츠 기반 필터링(Content-Based Filtering): 사용자의 관심사를 기반으로 추천을 생성하는 알고리즘입니다.
  - BQML은 이러한 알고리즘을 사용하여 다양한 비즈니스 문제를 해결할 수 있습니다

해당 Training 자료는 위에 나온 알고리즘 중 분류/회귀, 군집화 및 시계열 분석을 위주로 수행한다.


In [None]:
# Intialize All necessary modules

## Classification



### Census Classification

머신 러닝에서의 일반적인 문제 중 하나는 데이터를 두 가지 유형으로 분류하는 것인데, 이를 레이블이라고 합니다. 예를 들어, 소매업자는 고객이 다른 고객 정보를 기반으로 새로운 제품을 구매할지 예측하려고 할 수 있습니다. 이 경우 두 가지 레이블은 '구매할 것'과 '구매하지 않을 것'일 수 있습니다. 이러한 경우, 하나의 열이 레이블을 나타내도록 데이터 집합을 구성할 수 있습니다. 바이너리 로지스틱 회귀 모델을 훈련하기 위해 사용할 수 있는 데이터에는 고객의 위치, 이전 구매 내역, 고객이 제공한 선호도 등이 포함될 수 있습니다.

이 가이드에서는 BigQuery ML의 바이너리 로지스틱 회귀 모델을 사용하여 미국 인구조사 데이터 세트의 응답자 소득 범위를 예측합니다. 이 데이터 세트에는 2000년과 2010년 미국 거주자의 인구 통계 및 소득 정보가 포함되어 있습니다. 이 데이터에는 고용 상태, 직업 범주, 교육 수준 및 소득 데이터가 포함됩니다.

**목표**
이 가이드에서는 다음 작업을 수행합니다.
로지스틱 회귀 모델을 만듭니다.
로지스틱 회귀 모델을 평가합니다.
로지스틱 회귀 모델을 사용하여 예측합니다.


로지스틱 회귀 모델 만들기는 다음 단계로 구성됩니다.

- 1단계: 모델을 저장할 데이터 세트를 만듭니다.
  - 1단계에서는 모델을 저장할 BigQuery 데이터 세트를 만듭니다.
- 2단계: 데이터를 검사합니다.
  - 이 단계에서는 데이터 세트를 검사하고 로지스틱 회귀 모델의 학습 데이터로 사용할 열을 식별합니다.
- 3단계: 학습 데이터를 선택합니다.
  -다음 단계로 census_adult_income 테이블을 대상으로 쿼리를 실행하여 바이너리 로지스틱 회귀 모델을 학습하는 데 사용할 데이터를 준비합니다. 이 단계에서는 관련 특성을 식별하고 나중에 쿼리를 입력 데이터로 사용할 수 있도록 뷰에 저장합니다.
- 4단계: 로지스틱 회귀 모델을 만듭니다.
  - 이 단계에서는 CREATE MODEL 문을 사용하여 로지스틱 회귀 모델을 만듭니다.
- 5단계: ML.EVALUATE 함수를 사용하여 모델을 평가합니다.
  - 그런 다음 ML.EVALUATE 함수를 사용하여 모델 성능에 대한 통계를 제공합니다.
- 6단계: ML.PREDICT 함수를 사용하여 참여자의 소득을 예측합니다.
  - 마지막으로 ML.PREDICT 함수를 사용하여 특정 인구조사 참가자 집합의 소득 계층을 예측합니다.



### Penguin / Iris Classification



## **Regression**

### Penguine Weight Prediction

이 튜토리얼에서는 penguin 테이블을 사용하여 펭귄의 종, 사는 섬, 컬멘 길이 및 깊이, 지느러미 길이 및 성별을 기반으로 펭귄의 무게를 예측하는 모델을 만듭니다.

목표
이 튜토리얼에서는 다음을 수행합니다.

BigQuery ML에서 CREATE MODEL 문을 사용하여 선형 회귀 모델 만들기
ML.EVALUATE 함수를 사용하여 ML 모델 평가
ML.PREDICT 함수를 사용하여 ML 모델로 예측


### New York City - East River Bicycle Crossings


## **Time Series Analysis**

### 날씨, 온도에 대한 시계열 분석

날씨, 기온, 풍속 정보에 대한 시계열 예측모델을 구성합니다. 


목표
이 가이드에서는 다음을 사용합니다.

CREATE MODEL 문: 시계열 모델을 만듭니다.
ML.ARIMA_EVALUATE 함수: 모델의 ARIMA 관련 평가 정보를 검사합니다.
ML.ARIMA_COEFFICIENTS 함수: 모델 계수를 검사합니다.
ML.FORECAST 함수: 일일 PM 2.5를 예측합니다.
ML.EVALUATE 함수: 실제 데이터가 있는 모델을 평가합니다.
ML.EXPLAIN_FORECAST 함수: 예측 결과를 설명하는 데 사용할 수 있는 시계열의 다양한 구성요소 (예: 계절성, 트렌드, 특성 기여 분석)를 검색합니다.



### 주류 소비량 예측

목표
이 가이드에서는 다음을 사용합니다. 

CREATE MODEL 문: 시계열 모델을 만듭니다.
ML.ARIMA_EVALUATE 함수: 모델의 ARIMA 관련 평가 정보를 검사합니다.
ML.ARIMA_COEFFICIENTS 함수: 모델 계수를 검사합니다.
ML.FORECAST 함수: 일일 PM 2.5를 예측합니다.
ML.EVALUATE 함수: 실제 데이터가 있는 모델을 평가합니다.
ML.EXPLAIN_FORECAST 함수: 예측 결과를 설명하는 데 사용할 수 있는 시계열의 다양한 구성요소 (예: 계절성, 트렌드, 특성 기여 분석)를 검색합니다.


## Energy Consumption Time Series Dataset

목표
이 가이드에서는 다음을 사용합니다. 

CREATE MODEL 문: 시계열 모델을 만듭니다.
ML.ARIMA_EVALUATE 함수: 모델의 ARIMA 관련 평가 정보를 검사합니다.
ML.ARIMA_COEFFICIENTS 함수: 모델 계수를 검사합니다.
ML.FORECAST 함수: 일일 PM 2.5를 예측합니다.
ML.EVALUATE 함수: 실제 데이터가 있는 모델을 평가합니다.
ML.EXPLAIN_FORECAST 함수: 예측 결과를 설명하는 데 사용할 수 있는 시계열의 다양한 구성요소 (예: 계절성, 트렌드, 특성 기여 분석)를 검색합니다.
