## 프로젝트 개요
플라즈마 이상 신호를 진단하기 위해 광 신호를 활용하는 센서를 개발 중입니다.

![플라즈마 이미지](image/project/plasma.jpg)

PMT 소자를 활용하여 플라즈마에서 방출된 photon을 electron으로 변환하여 세기를 측정하는 방식입니다.

데이터 형식은 1차원 배열로, 센서에서는 두 가지 형태의 데이터를 생성합니다:
1. **Streaming Data**: 초당 10,000,000 포인트를 생성합니다.
2. **Trend Data**: 초당 200 포인트를 생성하며, Streaming Data에서 최소값, 최대값, 평균을 50,000 포인트마다 샘플링하여 생성합니다.

현재 데이터의 양이 많아서 사람이 수동으로 데이터를 확인하고 있습니다.

두 데이터 모두 양이 많아서 사람이 수동으로 확인하기 어렵습니다.

이번 교육을 통해 머신러닝/딥러닝을 활용하여 센서 데이터를 학습하여 진단 결과를 도출하는 모델을 개발하고자 합니다.

---
## **기획**


 ### <기획 가이드>
> #### 현업 적용 문제 정의
(공유 가능한 선에서 업무를 소개해 주세요)
- **요구사항 확인 :** 현업에서의 분석 요구사항, 요구사항이 나오게 된 배경 등 과 같은 실제 현업의 문제점 작성.
- **문제 범위 설정 :** 인텐시브 과정 내 가능한 수준인가, 분석 범위 및 계획 등과 같은 범위를 설정.
- **문제 정의 도출 :** 위 내용을 바탕으로 해결하고 싶은 문제(가설) 정의.<br> (main 정의 후 main을 해결하기 위한 sub 문제 2-3개)

> #### 데이터 수집 방안 및 사용 데이터 정의
- **데이터 확보 방법 :** 사내 DB 추출, 웹데이터 크롤링 등 확보 방법을 작성해 주세요.
- **활용 데이터 정의 :** 데이터 소스(사내 시스템명, 외부 사이트 URL 등), 데이터 유형(정형, 비정형_텍스트, 이미지, 영상 등), Feature, 형태(확장자, shape, size, count) 등 데이터에 관한 설명<br>

> #### 분석 방향 설정
- **분석 시 예상되는 어려움 :** 논리적 추론을 통해 문제를 해결해 나가는 과정에서 짐작되는 어려운 부분을 작성.
- **문제 해결을 위한 모델 사용 방법 :** 문제에 적합한 모델을 어떻게 구성해 나갈 것인지 작성.

### [배경 설명 & 요구사항 확인]

배경: 온라인 쇼핑몰에서 고객의 구매 이력 데이터를 분석하여 고객별 맞춤형 상품 추천을 제공하고자 합니다.

요구사항 확인: 고객의 구매 패턴을 분석하고, 고객별로 관심 있을 만한 상품을 추천하여 구매 전환율을 높이고자 합니다.

### [문제 범위 설정]

분석 범위는 지난 1년간의 구매 이력 데이터를 활용하여 주요 구매 패턴을 식별하고, 상품 추천 알고리즘을 개발하는 것으로 합니다.

### [문제 정의 도출]

Main 문제 정의: 고객별 구매 이력 데이터를 바탕으로 개인화된 상품 추천 모델을 개발합니다.

Sub 문제:

고객의 구매 패턴 식별

추천 시스템의 정확도 향상

추천 시스템의 다양성 및 새로움 증가

### [데이터 확보 방법]

데이터 확보 방법: 사내 DB에서 고객의 구매 이력, 상품 정보, 고객 행동 로그 데이터를 추출합니다.

---
데이터 확보 방법: 자체 개발 중인 사내 센서 SSD에 남는 플라즈마 광 신호 데이터를 추출합니다.

### [활용 데이터 정의]

데이터 소스: 사내 DB

데이터 유형: 정형 데이터(구매 이력, 상품 정보)

Feature: 고객 ID, 상품 ID, 구매 날짜, 가격, 카테고리 등

형태: CSV 파일, 각 파일은 수만 건의 레코드를 포함

### [분석시 예상되는 어려움]

고객별 데이터의 불균형이 심각하여 일부 고객에 대한 과적합이 발생할 수 있습니다.

### [문제 해결을 위한 모델 사용 방법]

협업 필터링과 콘텐츠 기반 필터링을 결합한 하이브리드 추천 시스템을 구현합니다.

---
## **준비**

### <준비 가이드>
#### 데이터 수집 및 로드
- 문제 해결에 필요한 데이터를 수집 및 로드.

#### 데이터 전처리
- 결측치 처리, 이상치 처리, feature scale 등 데이터 정제.
- 데이터의 품질을 향상시키는 것이 중요.

### [데이터 수집 및 로드]

사내 DB에서 SQL 쿼리를 사용하여 고객 구매 이력, 상품 정보, 고객 행동 로그 데이터를 추출합니다.
데이터는 CSV 형식으로 저장되며, Python의 pandas 라이브러리를 사용하여 로드합니다.

In [1]:
import pandas as pd

# df_signal1 = pd.read_csv('./data/signal/data_1.csv')
# df_signal2 = pd.read_csv('./data/signal/data_2.csv')
# df_signal3 = pd.read_csv('./data/signal/data_3.csv')
# df_signal5 = pd.read_csv('./data/signal/data_5.csv')

df = pd.read_csv('./data/signal/data_1.csv')

### [데이터 전처리]

결측치는 해당 필드의 평균값(연속형 변수)이나 최빈값(범주형 변수)으로 대체합니다.
이상치는 IQR(Interquartile Range) 방법을 사용하여 식별하고 처리합니다.
모든 수치형 변수는 스케일링을 통해 정규화합니다.

In [4]:
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,963,964,965,966,967,968,969,970,971,target
0,-0.000414,0.113503,0.115483,0.114211,0.114504,0.11462,0.115538,0.116129,0.114801,0.114487,...,0.112629,0.109676,0.111317,0.113297,0.113891,0.114276,0.113838,0.110918,0.114412,0
1,-0.000227,0.115443,0.116199,0.114594,0.114832,0.115542,0.114883,0.114099,0.114944,0.113515,...,0.111973,0.110908,0.110696,0.113504,0.112509,0.114222,0.112637,0.113515,0.113386,0
2,0.001722,0.115994,0.11433,0.115491,0.11599,0.115405,0.115891,0.113405,0.11377,0.11627,...,0.112083,0.11174,0.109524,0.108517,0.112409,0.110985,0.112347,0.114709,0.112251,0
3,0.001385,0.114956,0.114278,0.115936,0.114713,0.114224,0.11508,0.117024,0.112015,0.114841,...,0.111162,0.110104,0.112126,0.1119,0.112269,0.112431,0.112811,0.11218,0.115191,0
4,-0.000735,0.115981,0.116034,0.114257,0.115232,0.117068,0.116323,0.115252,0.11653,0.114763,...,0.110643,0.109587,0.11085,0.112937,0.114614,0.111606,0.113599,0.113403,0.113228,0


In [6]:
df.columns

Index(['0', '1', '2', '3', '4', '5', '6', '7', '8', '9',
       ...
       '963', '964', '965', '966', '967', '968', '969', '970', '971',
       'target'],
      dtype='object', length=973)

In [23]:
df.isnull().sum()[df.isnull().sum()!=0]

Series([], dtype: int64)

In [7]:
df['target'].unique()

array([0, 1, 4, 2, 5, 3, 6], dtype=int64)

In [2]:
X = df.iloc[:, :-1]
y = df.iloc[:, -1]

In [7]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, Normalizer

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

scaler = StandardScaler()
scaler.fit(X_train)
X_train_std = scaler.transform(X_train)
X_test_std = scaler.transform(X_test)

scaler = Normalizer(norm='max')
scaler.fit(X_train)
X_train_norm = scaler.transform(X_train)
X_test_norm = scaler.transform(X_test)

X_pairs = [('original', X_train, X_test), ('standardization', X_train_std, X_test_std), ('normalization', X_train_norm, X_test_norm)]

In [None]:
from sklearn import svm
from sklearn.metrics import confusion_matrix, classification_report

for title, x_train, x_test in X_pairs:
    clf = svm.SVC()
    clf.fit(x_train, y_train)
    pred = clf.predict(x_test)

    print(title)
    print(confusion_matrix(y_test, pred))
    print(classification_report(y_test, pred, zero_division=1))

In [22]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

classifiers = {
    'logistic_regression': {
        'model': LogisticRegression(),
        'params': {
            'model__C': [0.1, 1, 10]
        }
    },
    'knn': {
        'model': KNeighborsClassifier(),
        'params': {
            'model__n_neighbors': [3, 5, 7],
            'model__weights': ['uniform', 'distance']
        }
    }
}

scaler_list = [None, StandardScaler(), MinMaxScaler()]

for clf_name, clf in classifiers.items():
    for scaler in scaler_list:
        pipe = Pipeline([
            ('scaler', scaler),
            ('model', clf['model'])
        ])
        
        grid = GridSearchCV(pipe, clf['params'], cv=5)
        
        grid.fit(X_train, y_train)
        
        print(f"{clf_name}, {scaler}")
        print("Best Parameters:", grid.best_params_)
        print("Train Accuracy:", grid.best_score_)
        
        test_accuracy = grid.score(X_test, y_test)
        print("Test Accuracy:", test_accuracy)
        print()


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

logistic_regression, None
Best Parameters: {'model__C': 10}
Train Accuracy: 0.9583333333333334
Test Accuracy: 1.0

logistic_regression, StandardScaler()
Best Parameters: {'model__C': 10}
Train Accuracy: 0.9583333333333334
Test Accuracy: 1.0

logistic_regression, MinMaxScaler()
Best Parameters: {'model__C': 10}
Train Accuracy: 0.95
Test Accuracy: 0.9666666666666667

knn, None
Best Parameters: {'model__n_neighbors': 7, 'model__weights': 'uniform'}
Train Accuracy: 0.95
Test Accuracy: 1.0

knn, StandardScaler()
Best Parameters: {'model__n_neighbors': 7, 'model__weights': 'distance'}
Train Accuracy: 0.95
Test Accuracy: 1.0

knn, MinMaxScaler()
Best Parameters: {'model__n_neighbors': 3, 'model__weights': 'uniform'}
Train Accuracy: 0.95
Test Accuracy: 0.9666666666666667



In [None]:
# from sklearn.preprocessing import StandardScaler
# from scipy import stats
# import numpy as np

# # 결측치 처리
# customer_purchase.fillna(customer_purchase.mean(), inplace=True)

# # 이상치 처리
# Q1 = customer_purchase.quantile(0.25)
# Q3 = customer_purchase.quantile(0.75)
# IQR = Q3 - Q1
# customer_purchase = customer_purchase[~((customer_purchase < (Q1 - 1.5 * IQR)) |(customer_purchase > (Q3 + 1.5 * IQR))).any(axis=1)]

# # 스케일링
# scaler = StandardScaler()
# customer_purchase_scaled = scaler.fit_transform(customer_purchase.select_dtypes(include=[np.number]))

---
## **EDA**

### <EDA 가이드>
- 데이터의 구조, 패턴, 이상치, 상관 관계 등을 파악
- 시각화 도구를 사용하여 데이터를 분석
- 모델의 성능을 향상시키기 위해 피처를 선택, 변환, 생성
- 데이터의 정보를 최대한 활용

matplotlib과 seaborn 라이브러리를 사용하여 데이터의 분포, 상관 관계를 시각화합니다.
고객의 구매 패턴, 상품 카테고리별 판매량 등 주요 인사이트를 도출합니다.

In [None]:
# import matplotlib.pyplot as plt
# import seaborn as sns

# # 고객별 구매 빈도 시각화
# customer_purchase_frequency = customer_purchase['customer_id'].value_counts()
# sns.histplot(customer_purchase_frequency, kde=True)
# plt.title('Customer Purchase Frequency')
# plt.xlabel('Number of Purchases')
# plt.ylabel('Frequency')
# plt.show()

# # 상품 카테고리별 판매량
# sns.countplot(data=product_info, x='category')
# plt.title('Sales by Product Category')
# plt.xticks(rotation=45)
# plt.ylabel('Number of Sales')
# plt.show()

위 시각화 결과를 통해 다음과 같은 패턴을 확인할 수 있었습니다.

`bill_length_mm`과 `bill_depth_mm`로 Scatter plot를 그려볼 시 각 종별로 일부 데이터를 제외하고 군집이 잘 형성됨을 확인하였습니다.

- **Adelie:** 다른 펭귄 보다 bill_length가 작고, Chinstrap 펭귄과  bill_depth가 비슷하게 분포한다.
- **Chinstrap:** Adelie 펭귄 보다 bill_length가 크고, Gentoo 펭귄과 bill_depth가 비슷하게 분포한다.
- **Gentoo:**  Chinstrap 펭귄과 bill_length가 비슷하고, 다른 펭귄 보다 bill_depth가 작게 분포한다.


종과 상관없이 수컷 팽귄의 `bill_length`와 `bill_depth`이 암컷보다 선형적으로 커진다는 것을 확인할 수 있었으며,
<br>`body_mass`를 통해 Gentoo 펭귄이 다른 종보다 큰 몸집을 갖는다는 것을 확인하였습니다.

이 내용을 기반으로 종별 bill_length, bill_depth 등 각 컬럼의 Number Summary를 확인 하고자 합니다.

---
## **모델**

### <모델 가이드>
- 문제에 적합한 머신러닝 알고리즘을 선택
- 모델을 훈련하고 최적화
- 모델의 성능을 평가(정확도, 정밀도, 재현율, F1 점수 등 다양한 지표를 사용)

고객의 구매 이력을 기반으로 하는 협업 필터링 모델을 구현합니다.
scikit-learn 라이브러리를 사용하여 훈련 데이터와 테스트 데이터를 분할하고, 모델을 훈련 및 평가합니다.

In [None]:
# from sklearn.model_selection import train_test_split
# from sklearn.metrics import accuracy_score
# from sklearn.ensemble import RandomForestClassifier

# # 데이터 준비
# X = customer_behavior.drop('purchase', axis=1)
# y = customer_behavior['purchase']

# # 데이터 분할
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# # 모델 훈련 및 평가
# model = RandomForestClassifier(n_estimators=100000000, random_state=420000000)
# model.fit(X_train, y_train)
# predictions = model.predict(X_test)

# print(f"Accuracy: {accuracy_score(y_test, predictions)}")

---
## **결론**

### <결론 가이드>
- 처음 정의한 문제 해결
- 문제와 관련된 새로운 사실
- 기존 업무 효율화
- 데이터셋에 대한 인사이트
- 등등

여러 관점에서 프로젝트의 결과를 정리하여 최종 결론을 논리적으로 서술

추천 시스템을 통해 구매 전환율이 예상보다 X% 향상될 것으로 예측합니다.

추가 데이터 수집 및 다른 알고리즘의 적용 가능성에 대해서도 탐색합니다.

더 정밀한 타겟팅과 개인화된 추천을 위해, 향후에는 고급 기법들을 도입할 계획입니다. 예를 들어, 딥러닝 기반의 추천 시스템이나, 시간에 따라 변화하는 고객의 선호를 반영할 수 있는 동적 모델링 방법들입니다.

이 프로젝트를 통해 얻은 인사이트와 모델은 실제 업무 프로세스에 통합될 예정입니다. 예를 들어, 마케팅 캠페인의 타겟팅 전략 수립, 재고 관리 및 물류 계획의 최적화, 신제품 개발의 방향성 결정 등 다양한 분야에서 활용될 수 있습니다.
또한, 프로젝트 결과는 내부 리포트와 워크숍을 통해 공유되어, 조직 전반의 데이터 기반 의사결정 문화를 강화하는 데 기여할 것입니다.