## 제조 AI를 위한 데이터 전처리 그리고 모델 설계

데이터가 잘 모이고 있다고 가정하고, 이제 데이터를 정리하고 또 인공지능으로 변모시켜 봅시다.

## 2. 데이터의 전처리 그리고 피처 엔지니어링 (혹은 마사지(?))

### a. Python 설치
- 데이터 사이언스를 수행해 가는 과정에서 Python은 데이터 분석, 머신러닝, 시각화 등 다양한 작업을 위한 핵심 도구이다.
- NumPy, Pandas, Scikit-learn과 같은 강력한 라이브러리 덕분에 복잡한 데이터 처리와 모델링을 효율적으로 수행할 수 있다. 
- 접근성이 높고 다양한 분야의 커뮤니티가 활성화되어 있어 협업과 지식 공유가 용이하다는 점도 큰 장점이다.
<br><br>
- 그리고 결정적으로... <i>배우기가 그 어떤 coding language 보다 쉽다.</i>

<img src="images/image_surprise.png" width="200" height="200">

- 다음 사이트에 가서 적당한 버전을 설치하면 바로 사용할 수 있다.
    - https://www.python.org/
    - 그리고 이점 꼭 주의하시길!!!

        <img src="images/image_017.png" width="600">

- Python이 설치가 되었다면 이제는 Visual Studio Code를 설치하자.
    - 코딩을 처음 시작하는 분들에게 VS Code는 가볍고 강력한 무료 코드 편집기이다. 다양한 프로그래밍 언어를 지원하며, 특히 Python 작업을 하는 데 없어서는 안 될 필수 프로그램이다.
    - 다양한 확장 프로그램: VS Code의 가장 큰 장점 중 하나는 방대한 확장 프로그램 생태계이다. Python 확장 프로그램을 설치하면 Jupyter Notebook, 데이터 시각화, Git 연동 등 다양한 기능을 추가해 나만의 맞춤형 개발 환경을 구축할 수 있다.
    - 아무튼 거의 <b>만병통치약</b>이라는 느낌이다. "묻지 말고 따지지도 말고" 그냥 설치하자... (https://code.visualstudio.com/)

- 가상환경 구축하기
    - Python으로 개발할 때 가상 환경을 만드는 것은 프로젝트의 안정성과 독립성을 보장하기 위한 필수적인 작업이다.
    - 가상 환경은 각 프로젝트마다 고유한 Python 환경을 만들어, 서로 다른 프로젝트 간에 설치된 라이브러리들이 충돌하는 것을 방지한다.
    - 프로젝트 종속성 관리: 가상 환경을 사용하면 해당 프로젝트에 필요한 라이브러리만 깔끔하게 관리할 수 있다. pip freeze > requirements.txt 명령어를 사용해 프로젝트에 사용된 모든 라이브러리 목록을 requirements.txt 파일로 쉽게 만들 수 있다. 이 파일만 있으면 다른 개발자나 새로운 환경에서도 동일한 개발 환경을 손쉽게 구축할 수 있어 협업과 배포가 용이해진다.
    - 전역 환경 오염 방지: 가상 환경 없이 라이브러리를 설치하면, 시스템 전역에 라이브러리가 설치되어 다른 프로젝트나 심지어 시스템 자체의 Python 환경에 영향을 줄 수 있는데 이는 예기치 않은 오류를 유발할 수 있다. 가상 환경은 이 문제를 해결하여 시스템의 기본 Python 환경을 깨끗하게 유지해 준다.

In [None]:
!python -m venv .venv

In [None]:
!.venv/Sripts/Activate.ps1

- 이제 설치가 끝났으니 여러분의 쥬피터 노트북 (jupyter notebook) 파일의 각 셀들을 실행해 볼 수 있습니다. 자 시작해볼까요?

In [None]:
print("hello, world!")

### b. AI 모델 수립을 위한 데이터 사이언스 로드맵
- 문제 정의 및 목표 설정 (Problem Definition & Goal Setting)
    - 목표 명확화: 해결하고자 하는 품질 또는 제조공정상의 문제를 구체적으로 정의한다. 어떤 예측(예: 고장예측), 분류(예: 불량 및 이상 분류), 또는 분석(예: 공정조건 변화에 따른 품질의 변화 상관관계)을 할 것인지 명확히 한다.
    - 지표 설정: 모델의 성능을 어떻게 평가할 것인지 기준을 세운다. 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) 등 구체적인 지표를 설정하여 모델 개발 방향을 잡는다.
- 데이터 수집 (Data Collection)
    - 센서는 뭘로?
    - 기존에 축적된 디지털 데이터가 있는가?
    - 디지털화할 수 있는 아날로그(수작업) 데이터가 있는가?
- 데이터 전처리 (Data Preprocessing)
    - 수집된 데이터를 모델이 이해할 수 있도록 다듬는 작업이다. 이 단계가 모델의 성능을 크게 좌우한다.
    - 결측치 처리: 데이터의 빈 부분을 채우거나 제거한다.
    - 이상치 처리: 데이터의 정상 범위를 벗어나는 특이한 값(outliers)을 찾아 분석하거나 제거한다.
    - 데이터 정규화/표준화: 다양한 스케일을 가진 데이터들을 일정한 범위로 맞춰 모델 학습에 적합한 형태로 만든다. 이걸 안하면 엉뚱한 방향으로...
- 탐색적 데이터 분석 (EDA: Exploratory Data Analysis)
    - 데이터를 깊이 이해하는 과정이다. 그냥 일단 본다. 뭐 어떻게 생겼는지... 이때 구체적 분석의 방향이나 아이디어도 떠오를 수 있다. 순전히 운이다!!
    - 데이터 시각화: 차트나 그래프를 그려 데이터의 분포, 변수 간의 관계, 숨겨진 패턴을 시각적으로 파악한다. (노가다가 너희를 자유롭게 하리라.)
    - 통계적 분석: 데이터의 핵심적인 특징을 이해하기 위해 평균, 분산, 상관관계 등을 계산한다. (대체로는 아무것도 안나올 가능성이 많다!!! 그래서 피처 엔지니어링이 필요하다.)
- 피처 엔지니어링 (Feature Engineering)
    - 모델의 성능을 향상시키기 위해 새로운 변수를 만드는 창의적인 단계이다. (사실은 더 심한 노가다일수도...쩝)
    - 새로운 변수 생성: 기존 변수들을 조합하거나 변환하여 모델이 더 잘 학습할 수 있는 의미 있는 특성(features)을 만든다. 예를 들어, 진동이나 소음데이터에서 데시벨(진동압 혹은 음압) 값의 변화로 변환시켜본다든지, 진폭 데이터를 FFT (Fast Fourier Transformation) 해서 주파수 데이터로 변환(time domain - frequency domain)시켜본다든지. (하여간 아는 거는 다 동원해 본다. 그래도 아무것도 안나오면 그냥 팔자겠거니....)
- 모델링 (Modeling)
    - 이제 데이터를 기반으로 AI 모델을 만드는 핵심 단계이다. (하지만 이것도 내가 딱히 아이디어를 넣기는 쉽지 않다. 어떤 알고리즘을 써야 할지는 뭐 거의 정해져 있다.)
    - 모델 선택: 문제 유형에 맞는 머신러닝/딥러닝 알고리즘(예: 선형 회귀, 랜덤 포레스트, 합성곱 신경망)을 선택한다.
    - 모델 학습: 준비된 데이터를 이용해 모델을 훈련시킨다. (좋은 GPU가 있으면 금상첨와, 없어도 상관없다.. 시간이 많이 걸릴 뿐이다. 우리가 머리가 없지 시간이 없나.)
    - 모델 검증 및 튜닝: 학습된 모델의 성능을 평가하고, 하이퍼파라미터(모델 학습에 영향을 미치는 설정값)를 조정하여 최적의 성능을 끌어낸다. (대부분은 이걸로 논문 쓰면 된다.)
- 모델 배포 및 운영 (Deployment & Operation)
    - 만들어진 모델이 실제로 작동하게 하는 것이다.
    - 모델 배포: 완성된 모델을 실제 서비스 환경(예: 웹어플리케이션, 혹은 데스크탑 애플리케이션)에 적용한다.
    - 지속적 모니터링: 배포된 모델의 성능이 시간이 지나면서 저하되지 않는지 계속해서 확인하고, 필요 시 다시 학습시킨다. (노가다는 끝나지 않는다.)

이 과정을 통해 데이터에서 가치를 창출하고, 제조현장의 공정 및 품질 문제를 해결하거나 불량이 발생할 것을 예측하는 AI 모델이 탄생하게 된다. 각 단계는 서로 유기적으로 연결되어 있으며, 문제의 복잡성에 따라 반복적인 과정을 거치게 된다. (즉, 노가다다...ㅠㅠ)

### c. 기초실습 I
- 아래의 셀들을 하나씩 수행해 봅시다.

In [None]:
%pip install pandas

- 단순히 파일을 읽어서 그 내용을 보여주는 코드.

In [None]:
import pandas as pd
import os

# CSV 파일 경로 설정
# 현재 스크립트 파일과 동일한 폴더에 해당 파일이 있다고 가정합니다.
file_path = 'data/view/data_ex_02.csv'

# CSV 파일 읽기
try:
    df = pd.read_csv(file_path)
    
    # 데이터 프레임의 내용을 화면에 출력
    print(f"'{file_path}' 파일의 내용:")
    print(df.head())
    
except FileNotFoundError:
    print(f"오류: '{file_path}' 파일을 찾을 수 없습니다.")
    print("CSV 파일이 스크립트와 동일한 위치에 있는지 확인해 주세요.")
except Exception as e:
    print(f"파일을 읽는 도중 오류가 발생했습니다: {e}")

- 이번에는 그래프를 그려볼까? (걷지도 못하는데 뛰라고???)

In [None]:
%pip install matplotlib

In [None]:
import matplotlib.pyplot as plt

# 그래프 생성
plt.figure(figsize=(8, 6))
plt.plot(df['_time'], df['x'])
plt.title('vib. X vs. Time')
plt.xlabel('Time')
plt.ylabel('Vib. x')
plt.grid(axis='y', linestyle='--', alpha=0.7)

# 그래프를 화면에 보여주기
plt.show()

- 전체 데이터를 다 보여주고 싶은데, 너무 많아서 그래프를 그릴 수가 없다. 어떡하지???
    - 그래, 1분동안의 데이터를 평균내서 보자.

In [None]:
## 라이브러리 불러오기

import pandas as pd
import matplotlib.pyplot as plt

In [None]:
## 원본 데이터 파일 불러오기

# 예시 데이터 파일 경로
file_path = 'data/Accelermeter_SEN002_2023-05-16T07.csv'

# 파일 열기
df = pd.read_csv(file_path)
print(df.head())

In [None]:
## 1분 단위로 평균 내기

# 일단 시간 형식으로 데이터를 변환합니다.
df['_time'] = pd.to_datetime(df['_time'], errors='coerce')
df.set_index('_time', inplace=True)

# 데이터를 1분 단위로 재표본(resample)하여 평균을 계산합니다.
# 'T'는 'minute'을 의미합니다.
minutely_avg = df.resample('1T').mean()

# 1분 단위 평균 데이터를 출력합니다.
print("1분 단위 평균 데이터:")
print(minutely_avg)

In [None]:
# 1분 단위 평균 데이터를 그래프로 시각화합니다.
plt.figure(figsize=(12, 7))
plt.plot(minutely_avg.index, minutely_avg['x'], marker='o', linestyle='-', color='skyblue')

# 그래프 제목과 라벨 설정
plt.title('Average by one minute', fontsize=16)
plt.xlabel('time', fontsize=12)
plt.ylabel('value', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.6)
plt.xticks(rotation=45)
plt.tight_layout() # 라벨이 잘리지 않도록 레이아웃 조정

# 그래프를 화면에 보여주기
plt.show()

- 자, 이제 좀더 알아보기 쉽게 만들어 볼까요?
    - 아니, 사실은 "알아보기 쉽게"가 아니라, 뭔가 좀더 프로페셔날하게 화장을 하는 건데....

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
## 함수를 먼저 만들고...

def read_data(file_path):
    # 파일 열기
    df = pd.read_csv(file_path)
    print(df.head())
    return df

def make_average(df:pd.DataFrame):
    work_df = df.copy()
    # 일단 시간 형식으로 데이터를 변환합니다.
    work_df['_time'] = pd.to_datetime(work_df['_time'], errors='coerce')
    work_df.set_index('_time', inplace=True)

    # 데이터를 1분 단위로 재표본(resample)하여 평균을 계산합니다.
    # 'T'는 'minute'을 의미합니다.
    minutely_avg = work_df.resample('1T').mean()

    # 1분 단위 평균 데이터를 출력합니다.
    print("1분 단위 평균 데이터:")
    print(minutely_avg)

    return minutely_avg

def plot_graph(df:pd.DataFrame, col_key):
    # 1분 단위 평균 데이터를 그래프로 시각화합니다.
    plt.figure(figsize=(12, 7))
    plt.plot(df.index, df[col_key], marker='o', linestyle='-', color='skyblue')
    # plt.scatter(df.index, df[col_key], linestyle='-', color='skyblue')

    # 그래프 제목과 라벨 설정
    plt.title('Stats by one minute', fontsize=16)
    plt.xlabel('time', fontsize=12)
    plt.ylabel('value', fontsize=12)
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.xticks(rotation=45)
    plt.tight_layout() # 라벨이 잘리지 않도록 레이아웃 조정

    # 그래프를 화면에 보여주기
    plt.show()    

In [None]:
## 이게 Main 프로그램이죠.

df = read_data("data/Accelermeter_SEN002_2023-05-16T07.csv")
ave_df = make_average(df)
plot_graph(ave_df, "x")

- 평균을 그려봤으니, 이제 뭘 해봐야하죠?
    - 그렇죠 표준편차를 그려봐야겠네요....

In [None]:
def make_statistics(df:pd.DataFrame):
    work_df = df.copy()

    # 일단 시간 형식으로 데이터를 변환합니다.
    work_df['_time'] = pd.to_datetime(work_df['_time'], errors='coerce')
    work_df.set_index('_time', inplace=True)

    # 데이터를 1분 단위로 재표본(resample)하여 평균과 표준편차를 계산합니다.
    minutely_stats = work_df.resample('1min').agg(['mean', 'std'])
    # print(minutely_stats)
    
    # 열 이름 재구성
    minutely_stats.columns = ['_'.join(col).strip() for col in minutely_stats.columns.values]
    

    # 1분 단위 평균, 표준편차 데이터를 출력합니다.
    print("Minutely std data:")
    print(minutely_stats)
    print(minutely_stats.columns.values)

    return minutely_stats

In [None]:
# df = read_data("data/Accelermeter_SEN002_2023-05-16T07.csv")
state_df = make_statistics(df)
print(state_df.head())

plot_graph(state_df, "x_std")

- 두개의 그래프를 한꺼번에 볼 수는 없나요????

In [None]:
def plot_graph_all(df:pd.DataFrame):
    # 두 개의 서브플롯을 생성하여 평균과 표준편차를 각각 그립니다.
    fig, axes = plt.subplots(2, 1, figsize=(12, 12), sharex=True)
    
    # 첫 번째 서브플롯: 평균 그래프
    ave_axes:plt.Axes = axes[0]
    ave_axes.plot(df.index, df['x_mean'], marker='o', linestyle='-', color='skyblue')
    ave_axes.set_title('Minutely ave data', fontsize=16)
    ave_axes.set_ylabel('Ave', fontsize=12)
    ave_axes.grid(True, linestyle='--', alpha=0.6)

    # 두 번째 서브플롯: 표준편차 그래프
    std_axes:plt.Axes = axes[1]
    std_axes.plot(df.index, df['x_std'], marker='o', linestyle='-', color='salmon')
    std_axes.set_title('Minutely std data', fontsize=16)
    std_axes.set_xlabel('Time', fontsize=12)
    std_axes.set_ylabel('STD', fontsize=12)
    std_axes.grid(True, linestyle='--', alpha=0.6)
    
    plt.xticks(rotation=45)
    plt.tight_layout() # 라벨이 잘리지 않도록 레이아웃 조정
    
    # 그래프를 화면에 보여주기
    plt.show()

In [None]:
plot_graph_all(state_df)

- 작업한 내용을 파일로 저장하면, 그러면 마무리 되는거죠...

In [None]:
## 결과를 CSV 파일로 저장하는 함수
def save_to_csv(df:pd.DataFrame, filename):
    """
    데이터프레임을 CSV 파일로 저장합니다.
    
    Args:
        df (pd.DataFrame): 저장할 데이터프레임.
        filename (str): 저장할 파일 이름.
    """
    try:
        df.to_csv(filename)
        print(f"\n데이터가 '{filename}' 파일에 성공적으로 저장되었습니다.")
    except Exception as e:
        print(f"\n오류: 파일을 저장하는 도중 오류가 발생했습니다: {e}")

In [None]:
# minutely_stats를 'minutely_stats.csv' 파일로 저장합니다.
save_to_csv(state_df, 'minutely_stats.csv')

### d. 기초실습 II - 결측 데이터 처리

- 평균/분산만 있는 것은 아니다. 데이터 빠짐, 즉 결측치를 다루는 작업을 해보자.

In [None]:
missing_df = read_data("data/missing_values.csv")

# 일단 시간 형식으로 데이터를 변환합니다.
missing_df['_time'] = pd.to_datetime(missing_df['_time'], errors='coerce')
missing_df.set_index('_time', inplace=True)

plot_graph(missing_df, "x")

- 결측치를 채워보자.
    - 일단은 단순하게 접근하는게 제일 좋지 않을까... 그냥 평균이나, 0, 혹은 중간값???
    - 이 방법은 데이터의 분포가 정규 분포에 가깝거나, 결측치가 무작위로 발생했을 때 효과적이다.

In [None]:
filled_df = missing_df.copy()

# 'x' 컬럼의 결측치를 평균값으로 채우기
# filled_df['x'] = filled_df['x'].fillna(filled_df['x'].mean())
# print("결측치를 평균값으로 채운 후:")

# 'x' 컬럼의 결측치를 0으로 채우기
# filled_df['x'] = filled_df['x'].fillna(0)
# print("결측치를 평균값으로 채운 후:")

# 'x' 컬럼의 결측치를 중간값(median)으로 채우기
filled_df['x'] = missing_df['x'].fillna(missing_df['x'].median())
print("결측치를 중간값으로 채운 후:")

plot_graph(filled_df, "x")

- 이전값 혹은 이후값을 채우는 방법도 있다.
    - 시계열 데이터인 경우 이런 방법이 많이 쓰인다. 하지만....

In [None]:
filled_df = missing_df.copy()

# 이전 값으로 채우기 (forward fill)
filled_df['x'] = filled_df['x'].ffill()
print("결측치를 이전 값으로 채운 후:")

# 이후 값으로 채우기 (backward fill)
# filled_df['x'] = filled_df['x'].bfill()
# print("결측치를 이후 값으로 채운 후:")

plot_graph(filled_df, "x")

- 보간법(Interpolation) 사용하기
    - 보간법은 결측치 주변의 값들을 기반으로 "추정하여" 값을 채우는 방법이다.
    - interpolate() 함수를 사용하며, 특히 선형(linear) 보간법이 자주 쓰인다.

In [None]:
filled_df = missing_df.copy()

# 선형 보간법으로 결측치 채우기
filled_df['x'] = filled_df['x'].interpolate(method='linear')

print("선형 보간법으로 결측치를 채운 후:")
plot_graph(filled_df, "x")

### e. 기초실습 IV - 정규화, 표준화
- 데이터 정규화와 표준화는 둘 다 데이터의 스케일을 조정하는 전처리 방법이지만, 목표와 방식에 차이가 있다.
- 정규화 (Normalization)
    - 정규화는 데이터의 범위를 0과 1 사이로 조정하는 것. 마치 점수를 100점 만점으로 통일하듯, 값의 최솟값을 0으로, 최댓값을 1로 바꾸고, 나머지 값들을 그 사이에 맞춰 변환한다.
    - 목적: 데이터의 값을 특정 범위(주로 0과 1)로 맞춰서, 값이 너무 크거나 작아 학습에 불균형한 영향을 주는 것을 방지한다.
    - 방법: '최소-최대 정규화(Min-Max Normalization)'가 가장 일반적이다.

        <img src="images/Image_018.png"><br>

    - 특징: 데이터의 원래 분포는 그대로 유지된다.
        - "이상치(Outlier)"에 매우 민감하다. 만약 데이터에 극단적으로 큰 값이 있다면, 다른 값들은 0에 가까운 매우 작은 값으로 몰리게 되어 변별력이 떨어질 수 있다. (반에 공부를 졸라 잘하는 놈이 있으면 모두가 바보가 되는 것과 같다. 더러운 세상...)
    - 주요 사용처: 이미지 픽셀 값 조정(0~255를 0~1로), 딥러닝 모델의 입력 데이터 등, 데이터의 절대적인 스케일이 중요한 경우에 주로 사용한다.
- 표준화 (Standardization)
    - 표준화는 데이터의 분포를 평균이 0이고 표준편차가 1인 표준정규분포로 만드는 것이다. 이 과정은 마치 시험 점수를 평균과 표준편차를 이용해 'Z 점수'로 변환하는 것과 같다. (언제나 시험은 이모양이다. 빌어먹을.)
    - 목적: 데이터의 평균을 0에 맞춰 중심을 이동시키고, 표준편차를 1로 만들어 데이터가 퍼진 정도를 일정하게 만든다.
    - 방법: 'Z-점수 표준화(Z-score Standardization)'가 대표적이다.

        <img src="images/image_019.png"><br>
        (μ는 평균, σ는 표준편차)

    - 특징: 정규화와 달리 특정 범위로 제한되지 않는다.
    - 이상치의 영향을 덜 받는다. 이상치가 있어도 모든 데이터를 평균 0을 중심으로 재배치하기 때문에 상대적으로 안정적이다.
    - 주요 사용처: 선형 회귀, 로지스틱 회귀, PCA(주성분 분석) 등 통계적 가정을 기반으로 하는 머신러닝 모델이나, 데이터에 이상치가 많을 때 유용하다. (하지만 뭐 일률적인 것은 아니다. 해보고 결정해야 한다. 그러니까 노가다다.)

In [None]:
hourly_df = read_data("data/hourly_stats.csv")

# # 일단 시간 형식으로 데이터를 변환합니다.
# hourly_df['_time'] = pd.to_datetime(hourly_df['_time'], errors='coerce')
# hourly_df.set_index('_time', inplace=True)

In [None]:
def normalize_data(df: pd.DataFrame, col_key):
    """
    Min-Max 정규화를 수행합니다.
    
    Args:
        df (pd.DataFrame): 정규화할 데이터프레임.
        col_key (str): 정규화할 열의 이름.
    
    Returns:
        pd.DataFrame: 정규화된 데이터가 포함된 새로운 데이터프레임.
    """
    df_copy = df.copy()
    min_val = df_copy[col_key].min()
    max_val = df_copy[col_key].max()
    df_copy[col_key] = (df_copy[col_key] - min_val) / (max_val - min_val)
    return df_copy

def standardize_data(df: pd.DataFrame, col_key):
    """
    Z-스코어 표준화를 수행합니다.
    
    Args:
        df (pd.DataFrame): 표준화할 데이터프레임.
        col_key (str): 표준화할 열의 이름.
    
    Returns:
        pd.DataFrame: 표준화된 데이터가 포함된 새로운 데이터프레임.
    """
    df_copy = df.copy()
    mean_val = df_copy[col_key].mean()
    std_val = df_copy[col_key].std()
    df_copy[col_key] = (df_copy[col_key] - mean_val) / std_val
    return df_copy

In [None]:
# 원본 데이터 시각화
plot_graph(hourly_df, 'x')

# 정규화된 데이터 시각화
normalized_df = normalize_data(hourly_df, 'x')
plot_graph(normalized_df, 'x')

# 표준화된 데이터 시각화
standardized_df = standardize_data(hourly_df, 'x')
plot_graph(standardized_df, 'x')

- 한꺼번에 때려넣고 하니까 별 소득이 없다.
    - 하루씩 끊어서 해볼까나?

In [None]:
def normalize_by_day(df: pd.DataFrame, col_key):
    """
    데이터를 하루 단위로 그룹화하여 Min-Max 정규화를 수행합니다.
    
    Args:
        df (pd.DataFrame): 정규화할 데이터프레임. '_time' 컬럼이 datetime 객체여야 합니다.
        col_key (str): 정규화할 열의 이름.
    
    Returns:
        pd.DataFrame: 하루 단위로 정규화된 데이터가 포함된 새로운 데이터프레임.
    """
    df_normalized = df.copy()

    # '_time' 컬럼을 datetime 형식으로 변환 (오류 방지를 위해 추가)
    df_normalized['_time'] = pd.to_datetime(df_normalized['_time'], errors='coerce')

    # '_time' 컬럼의 날짜(일자)를 기준으로 그룹화하고 각 그룹에 정규화 적용
    def apply_normalize(group):
        min_val = group[col_key].min()
        max_val = group[col_key].max()
        if max_val - min_val == 0:
            group[col_key] = 0
        else:
            group[col_key] = (group[col_key] - min_val) / (max_val - min_val)
        return group
    
    return df_normalized.groupby(df_normalized['_time'].dt.date).apply(apply_normalize)

def standardize_by_day(df: pd.DataFrame, col_key):
    """
    데이터를 하루 단위로 그룹화하여 Z-스코어 표준화를 수행합니다.
    
    Args:
        df (pd.DataFrame): 표준화할 데이터프레임. 인덱스는 datetime 객체여야 합니다.
        col_key (str): 표준화할 열의 이름.
    
    Returns:
        pd.DataFrame: 하루 단위로 표준화된 데이터가 포함된 새로운 데이터프레임.
    """
    df_standardized = df.copy()
    
    # 날짜를 기준으로 그룹화하고 각 그룹에 표준화 적용
    def apply_standardize(group):
        mean_val = group[col_key].mean()
        std_val = group[col_key].std()
        if std_val == 0:
            group[col_key] = 0
        else:
            group[col_key] = (group[col_key] - mean_val) / std_val
        return group
        
    return df_standardized.groupby(df_standardized.index.date).apply(apply_standardize)

# 표준화
def normalize_by_day_zscroe(df:pd.DataFrame):
    df_normalized = df.copy()

    # '_time' 컬럼을 datetime 형식으로 변환
    df_normalized['_time'] = pd.to_datetime(df_normalized['_time'])

    # 날짜(일자) 컬럼 생성
    df_normalized['date'] = df_normalized['_time'].dt.date

    # 일자별로 그룹화하고 Z-점수 정규화 적용
    df_normalized['x_normalized'] = df_normalized.groupby('date')['x'].transform(lambda x: (x - x.mean()) / x.std())

    return df_normalized


In [None]:
# 원본 데이터 시각화
plot_graph(hourly_df, 'x')

# 정규화된 데이터 시각화
standardized_df = normalize_by_day(df, 'x')
print(standardized_df)

plt.figure(figsize=(12, 7))
plt.plot(standardized_df['_time'], standardized_df['x'], marker='o', linestyle='-', color='skyblue')

# 그래프 제목과 라벨 설정
plt.title('Stats by one minute', fontsize=16)
plt.xlabel('Time', fontsize=12)
plt.ylabel('x', fontsize=12)
plt.grid(True)
plt.show()

In [None]:
# 원본 데이터 시각화
plot_graph(hourly_df, 'x')

# 표준화된 데이터 시각화
normalized_df = normalize_by_day_zscroe(hourly_df)
plot_graph(normalized_df, 'x_normalized')


### f. 기초실습 III - 이상치 처리

- 이상치를 발견하고 그걸 어떻게 처리할지 고민해보자.
    - 없애야하나... 그래도 되나...
- 이상치 식별 방법 🕵️‍♂️
    - 통계적 방법:
        - Z-점수(Z-score): 데이터가 평균에서 얼마나 떨어져 있는지 표준편차를 이용해서 가늠해본다. 보통 Z-score가 3보다 크면 이상치로 간주한다. (아니 그럴 수 있다. 물론 아닐 수도 있고...ㅠㅠ)
    - 사분위수 범위(IQR, Interquartile Range): 
        - 데이터의 상위 25%와 하위 25% 사이의 범위를 이용. 0.25 ± 1.5 * IQR 범위를 주로 이용한다.
- 시각화 방법:
    - Box Plot: 데이터의 분포를 시각적으로 보여주며, IQR을 기준으로 이상치를 점으로 표시.
    - 산점도(Scatter Plot): 두 변수 간의 관계를 시각화하여, 패턴에서 크게 벗어난 점을 찾는다.
- 이상치 처리 방법 🛠️
    - 이상치를 처리하는 방법은 이상치의 원인과 데이터의 특성에 따라 신중하게 결정해야. (하나마나한 소리...)
    - 제거(Deletion): 이상치가 명백한 오류이거나 데이터가 충분히 많을 경우, 해당 이상치 데이터를 제거한다. 단, 데이터 손실이 발생할 수 있다. (버렸는데 당연히 손실이지... 나참.)
    - 수정(Capping/Flooring): 이상치 값을 특정 임계값(예: Q_3+1.5×IQR)으로 대체하는 방법. 이는 데이터 손실 없이 이상치의 영향을 줄일 수 있다. 하지만 의도를 가진 수정이 될 수 있다. (외설과 예술의 경계는???)
    - 변환(Transformation): 로그 변환이나 제곱근 변환 등을 통해 데이터의 분포를 정규분포에 가깝게 만들어 이상치의 영향을 완화한다.
    - 대체(Imputation): 이상치를 제거하는 대신, 해당 값을 평균, 중앙값 또는 다른 통계적 값으로 대체한다.
    - 유지(Retention): 이상치가 데이터의 자연스러운 변동성을 반영하는 경우(예: 특정 공정의 변화에는 필연적으로 수반되는 신호)에는 그대로 유지하는 것이 모델의 정확도를 높일 수도 있다.
- 이상치를 잘못 처리하면 모델의 성능에 부정적인 영향을 미칠 수 있으므로, 항상 데이터의 맥락을 이해하고 적절한 방법을 선택하는 것이 중요하다.
- OUtlier와 Anomaly를 혼동하지 말자!
    - 이상치(outlier) 식별은 주로 단일 변수(Univariate) 또는 소수의 변수에서 데이터의 통계적 분포를 벗어난 극단적인 값을 찾아내는 데 초점을 맞춘다.
        - 예를 들어, 열처리 온도를 측정하고 있는데 -290도 라는 값이 있다면 이는 물리적으로 명백한 오류이므로 이상치로 제거 되어야 한다.
    - 이상 탐지는 더 넓은 개념으로, 여러 변수 간의 복합적인 관계나 데이터의 전체적인 패턴을 고려하여 정상적인 행동에서 벗어난 "비정상적인" 데이터 포인트를 찾아내는 데 초점을 맞춘다. 이는 단지 통계적 극단값뿐만 아니라, 예상치 못한 패턴이나 이벤트까지 포함한다.
        - 예를 들어, 공작기계의 진동을 측정하고 있는데, 밤 11시에 진동신호가 측정된다면 이는 물리적으로 불가능한 극단값은 아니지만 통상적이지 않은 공정활동으로 탐지될 수 있다.

- 우선 outlier detection (이상치 감지)를 먼저 해보자.

In [None]:
# 2. IQR(사분위수 범위) 계산
Q1 = normalized_df['x_normalized'].quantile(0.25)
Q3 = normalized_df['x_normalized'].quantile(0.75)
IQR = Q3 - Q1
print(f"1사분위수 (Q1): {Q1}")
print(f"3사분위수 (Q3): {Q3}")
print(f"IQR: {IQR}")

# 3. 이상치 경계값 설정
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
print(f"하한 경계: {lower_bound}")
print(f"상한 경계: {upper_bound}")

# 4. 이상치 탐지 및 제거
outliers = normalized_df[(normalized_df['x_normalized'] < lower_bound) | (normalized_df['x_normalized'] > upper_bound)]
df_cleaned = normalized_df[(normalized_df['x_normalized'] >= lower_bound) & (normalized_df['x_normalized'] <= upper_bound)]

print("\n--- 탐지된 이상치 ---")
print(outliers)

print("\n--- 이상치가 제거된 데이터 ---")
print(df_cleaned)

def plot_graph_scale(df:pd.DataFrame, col_key):
    # 1분 단위 평균 데이터를 그래프로 시각화합니다.
    plt.figure(figsize=(12, 7))
    plt.plot(df.index, df[col_key], marker='o', linestyle='-', color='skyblue')
    # plt.scatter(df.index, df[col_key], linestyle='-', color='skyblue')

    # 그래프 제목과 라벨 설정
    plt.title('Stats by one minute', fontsize=16)
    plt.xlabel('time', fontsize=12)
    plt.ylabel('value', fontsize=12)
    plt.ylim(-5, 5)
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.xticks(rotation=45)
    plt.tight_layout() # 라벨이 잘리지 않도록 레이아웃 조정

    # 그래프를 화면에 보여주기
    plt.show()

plot_graph_scale(normalized_df, "x_normalized")
plot_graph_scale(df_cleaned, "x_normalized")

- 이번에는 anomaly detection (이상 감지.. 엥?)를 해보자.

In [None]:
!pip install scikit-learn

In [None]:
from sklearn.ensemble import IsolationForest

model = IsolationForest(contamination=0.13, random_state=42)
model.fit(normalized_df[['x_normalized']])

# 3. 이상치 예측 및 결과 추가
# -1은 이상치, 1은 정상치를 의미합니다.
normalized_df['anomaly'] = model.predict(normalized_df[['x_normalized']])
print(normalized_df)

# 4. 결과 시각화
# 정상 데이터와 이상치를 시각적으로 구분하여 보여줍니다.
plt.figure(figsize=(10, 6))
plt.scatter(normalized_df.index, normalized_df['x_normalized'], c=normalized_df['anomaly'], cmap='viridis')
plt.title('Anomaly Detection using Isolation Forest')
plt.xlabel('Data Index')
plt.ylabel('Value')
plt.show()

# 5. 이상치 데이터만 출력
anomalies = normalized_df[normalized_df['anomaly'] == -1]
print("\n--- Identified Anomalies ---")
print(anomalies)

### g. 피처 엔지니어링 I - Fast Fourier Transformation

- Time domain에서 Frequency domain으로 변환
    - 데이터를 다른 각도에서 보는 것이다.
    - 보이지 않던 특징을 볼 수 있을지도...

- Fourier Transform (푸리에 변환)
    - Fourier Transform은 시간 영역(time-domain)의 신호를 주파수 영역(frequency-domain)의 신호로 변환하는 수학적 기법이다.
    - 복잡한 파동을 여러 개의 단순한 사인파와 코사인파의 합으로 분해하여 각 주파수 성분이 얼마나 포함되어 있는지 보여준다.
        - 오케스트라의 연주음에서 각 악기(특정 주파수)의 소리를 분리해서 들을 수 있는 것과 유사.
    - Fast Fourier Transform (FFT)
        - FFT는 Fourier Transform을 수행하는 매우 빠른 알고리즘.
        - 기존 Fourier Transform 연산법에서 계산수를 획기적으로 줄인 계산법
            - 예를 들어, 1024개의 데이터를 변환할 때 DFT는 약 100만 번의 연산이 필요하지만, FFT는 1만 번의 연산만으로 충분.
        - 수학적 차이점: FFT는 기존 Fourier Transform과 동일한 수학적 정의를 사용한다. 결과는 완벽하게 동일하고, 단지 연산의 순서를 효율적으로 재배열하여 계산량을 줄인 것뿐.
            마치 덧셈을 할 때 1+2+3+4+5를 순서대로 계산하는 대신, (1+5)+(2+4)+3으로 묶어 계산하는 것과 같다.

- 데이터를 열어서 Fourier Transformation을 직접 해보자.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os

In [None]:
def plot_mpu6050_data(df:pd.DataFrame):
    # 필요한 열이 존재하는지 확인합니다.
    required_columns = ['acceleration_x', 'acceleration_y', 'acceleration_z']
    if not all(col in df.columns for col in required_columns):
        print("오류: CSV 파일에 필요한 열이 포함되어 있지 않습니다.")
        print(f"예상되는 열: {required_columns}")
        return

    # 원본 파형 플롯
    plt.style.use('seaborn-v0_8-darkgrid')
    fig, ax = plt.subplots(figsize=(12, 8))
    
    ax.plot(df.index, df['acceleration_x'], label='Acceleration X', color='blue')
    ax.plot(df.index, df['acceleration_y'], label='Acceleration Y', color='red')
    ax.plot(df.index, df['acceleration_z'], label='Acceleration Z', color='green')

    ax.set_title('Vibration wave form', fontsize=16)
    ax.set_xlabel('Data index', fontsize=12)
    ax.set_ylabel('Acceleration (g)', fontsize=12)
    ax.legend(loc='upper right')
    
    ax.grid(True)
    plt.tight_layout()

    # # FFT 플롯
    # plot_fft(df)

    # 모든 플롯을 표시합니다.
    plt.show()

def plot_fft(df:pd.DataFrame):
    """
    FFT를 계산하고 가속도계 데이터의 주파수 스펙트럼을 플로팅합니다.
    """
    # 샘플링 주파수 (예: 1초에 1000개의 데이터 포인트를 수집한다고 가정)
    N = len(df)
    T = 1.0 / 975.0  # 샘플링 간격
    fs = 1.0 / T

    # DC 오프셋(평균값)을 제거하여 0 Hz의 스파이크를 제거합니다.
    accel_x_centered = df['acceleration_x'] - df['acceleration_x'].mean()
    accel_y_centered = df['acceleration_y'] - df['acceleration_y'].mean()
    accel_z_centered = df['acceleration_z'] - df['acceleration_z'].mean()

    # 각 축에 대해 FFT를 수행합니다.
    fft_x = np.fft.fft(accel_x_centered)
    fft_y = np.fft.fft(accel_y_centered)
    fft_z = np.fft.fft(accel_z_centered)

    # 주파수 축을 계산합니다.
    freq = np.fft.fftfreq(N, T)

    # 양의 주파수만 취하여 양면 스펙트럼을 단면 스펙트럼으로 변환합니다.
    n_positive = N // 2
    freq_positive = freq[:n_positive]
    fft_x_positive = 2.0/N * np.abs(fft_x[:n_positive])
    fft_y_positive = 2.0/N * np.abs(fft_y[:n_positive])
    fft_z_positive = 2.0/N * np.abs(fft_z[:n_positive])

    # 주파수 스펙트럼을 플로팅합니다.
    fig_fft, ax_fft = plt.subplots(figsize=(12, 8))
    
    ax_fft.plot(freq_positive, fft_x_positive, label='FFT X', color='blue')
    ax_fft.plot(freq_positive, fft_y_positive, label='FFT Y', color='red')
    ax_fft.plot(freq_positive, fft_z_positive, label='FFT Z', color='green')

    ax_fft.set_title('FFT results', fontsize=16)
    ax_fft.set_xlabel('frequency (Hz)', fontsize=12)
    ax_fft.set_ylabel('signal strength', fontsize=12)
    ax_fft.legend(loc='upper right')
    ax_fft.grid(True)
    plt.tight_layout()

    # 각 축의 대표 주파수 값을 찾아서 출력합니다.
    dominant_freq_x_idx = np.argmax(fft_x_positive)
    dominant_freq_y_idx = np.argmax(fft_y_positive)
    dominant_freq_z_idx = np.argmax(fft_z_positive)

    dominant_freq_x = freq_positive[dominant_freq_x_idx]
    dominant_freq_y = freq_positive[dominant_freq_y_idx]
    dominant_freq_z = freq_positive[dominant_freq_z_idx]

    print("\n--- 대표 주파수 ---")
    print(f"X축: {dominant_freq_x:.2f} Hz")
    print(f"Y축: {dominant_freq_y:.2f} Hz")
    print(f"Z축: {dominant_freq_z:.2f} Hz")
    print("------------------\n")

In [None]:
# 플로팅할 CSV 파일의 이름
csv_file = "mpu6050_data.csv"
df = pd.read_csv(csv_file)
plot_mpu6050_data(df)

In [None]:
plot_fft(df)

- 실제 데이터로 한번 해볼까나?

In [None]:
# 플로팅할 CSV 파일의 이름
csv_file = "data/Accelermeter_SEN002_2023-05-16T07.csv"
df = pd.read_csv(csv_file)
plot_graph(df, "x")

In [None]:
# 샘플링 주파수 (예: 1초에 1000개의 데이터 포인트를 수집한다고 가정)
N = len(df)
T = 1.0 / 50.0  # 샘플링 간격
fs = 1.0 / T

# DC 오프셋(평균값)을 제거하여 0 Hz의 스파이크를 제거합니다.
x_centered = df['x'] - df['x'].mean()

# FFT를 수행합니다.
fft_x = np.fft.fft(x_centered)

# 주파수 축을 계산합니다.
freq = np.fft.fftfreq(N, T)

# 양의 주파수만 취하여 양면 스펙트럼을 단면 스펙트럼으로 변환합니다.
n_positive = N // 2
freq_positive = freq[:n_positive]
fft_x_positive = 2.0/N * np.abs(fft_x[:n_positive])

# 주파수 스펙트럼을 플로팅합니다.
fig_fft, ax_fft = plt.subplots(figsize=(12, 8))

ax_fft.plot(freq_positive, fft_x_positive, label='FFT X', color='blue')

ax_fft.set_title('FFT results', fontsize=16)
ax_fft.set_xlabel('frequency (Hz)', fontsize=12)
ax_fft.set_ylabel('signal strength', fontsize=12)
ax_fft.legend(loc='upper right')
ax_fft.grid(True)
plt.tight_layout()

# 각 축의 대표 주파수 값을 찾아서 출력합니다.
dominant_freq_x_idx = np.argmax(fft_x_positive)

dominant_freq_x = freq_positive[dominant_freq_x_idx]

print("\n--- 대표 주파수 ---")
print(f"my data: {dominant_freq_x:.2f} Hz")
print("------------------\n")

### h. 피처 엔지니어링 II - Spectrogram

- 암튼, 나는 모르겠고... 컴퓨터야 네가 한번 보렴... 넌 참으로 뛰어나잖아, 그치?
- "그럼, spectrogram을 이용해보는 건 어때요?" 엥????
- Spectrogram: 신호의 주파수 성분이 시간에 따라 어떻게 변하는지 시각적으로 나타낸 그래프
    - 특히 오디오, 지진파, 의료 신호(심전도 등)와 같은 비정상(non-stationary) 신호, 즉 주파수가 시간에 따라 변하는 신호를 분석하는 데 매우 유용하다.
    - 기본적으로 신호를 작은 시간 조각(segment)으로 나눈 뒤, 각 조각에 대해 Fourier Transform을 수행하여 주파수 성분을 분석한다.
        - 가로축 (X축): 시간 ⏱️
        - 세로축 (Y축): 주파수 🎶
        - 색상 또는 밝기: 특정 시간-주파수 조합에서의 신호의 강도(amplitude) 또는 에너지 💡
    - Spectrogram을 생성하는 핵심은 "Short-Time Fourier Transform (STFT)".
        - 일반적인 Fourier Transform은 전체 신호에 대해 한 번에 주파수 분석을 수행하여 "어떤 주파수 성분들이 존재하는가"를 알려주지만, "언제" 그 주파수들이 나타나는지는 알려주지 않는다.
        - STFT는 "짧은 시간 윈도우(window)"를 적용하고, 이 윈도우를 신호 전체에 걸쳐 이동시키면서 각 윈도우 내의 신호에 대해 푸리에 변환을 반복적으로 수행함으로써 시간에 따른 주파수 분포의 변화를 포착할 수 있다.
    - 활용 분야
        - 음성 및 오디오 분석: 사람의 목소리나 음악에서 특정 음정, 음색, 억양 등을 시각적으로 분석하는 데 사용. 음성 인식 시스템의 핵심 기술 중 하나.
        - 레이더 및 소나: 물체와의 거리나 속도를 측정하는 신호에서 주파수 변화를 분석.
        - 지진학: 지진파의 주파수 특성 변화를 분석하여 지진의 종류나 원인을 파악.
        - 의학: 심전도(ECG)나 뇌전도(EEG) 신호의 주파수 변화를 분석하여 질병을 진단.
    - Spectrogram의 장점
        - Spectrogram은 복잡한 시계열 데이터를 직관적인 2D 이미지 형태로 변환하므로 CNN(Convolutional Neural Network)과 같은 딥러닝 모델에 입력 데이터로 사용하기 매우 적합하다.
            - CNN은 이미지의 공간적 특징을 잘 학습하므로, spectrogram의 시간-주파수 패턴을 효율적으로 인식할 수 있다. 🤖

- 아, 됐고... 암튼 한번 해보자고.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from io import BytesIO
from PIL import Image
import glob
import os

In [None]:
def create_spectrogram_from_df(df, sampling_rate=50):
    """
    Takes a pandas DataFrame with an 'x' column, computes a spectrogram,
    and returns the spectrogram image as a NumPy array.
    
    Args:
        df (pd.DataFrame): The input DataFrame containing time-series data.
        sampling_rate (int): The number of data points per second. Default is 50.
        
    Returns:
        np.ndarray: A NumPy array representing the spectrogram image.
    """
    
    # Check if the required 'x' column exists
    if 'x' not in df.columns:
        raise ValueError("The input DataFrame must contain an 'x' column.")

    # Extract the 'x' column data
    data = df['x'].values
    
    # Create a figure and axes without displaying them
    fig, ax = plt.subplots(figsize=(10, 5)) 

    # Compute the spectrogram
    ax.specgram(data, NFFT=256, Fs=sampling_rate, noverlap=128, cmap='viridis')
    
    # --- Remove axes, ticks, labels, and title ---
    ax.set_axis_off()
    plt.subplots_adjust(left=0, right=1, top=1, bottom=0)
    
    # Save the plot to an in-memory buffer
    buf = BytesIO()
    plt.savefig(buf, format='png', bbox_inches='tight', pad_inches=0)
    
    # Close the figure to free up memory
    plt.close(fig)
    
    # Rewind the buffer to the beginning
    buf.seek(0)
    
    # Open the image from the buffer and convert it to a NumPy array
    img = Image.open(buf)
    img_array = np.array(img)
    
    # Close the buffer
    buf.close()
    
    return img_array

def save_spectrogram_array_with_matplotlib(spectrogram_array, output_path):
    """
    Saves a NumPy array representing an image to a file using Matplotlib.

    Args:
        spectrogram_array (np.ndarray): The NumPy array of the spectrogram image.
        output_path (str): The path to save the output file (e.g., 'spectrogram.png').
    """
    # 새로운 figure를 생성합니다.
    fig, ax = plt.subplots()

    # imshow 함수를 사용하여 배열을 이미지로 표시합니다.
    ax.imshow(spectrogram_array)

    # 축과 경계선을 제거하여 순수한 이미지만 저장되도록 합니다.
    ax.set_axis_off()
    plt.subplots_adjust(left=0, right=1, top=1, bottom=0)

    # 이미지를 파일로 저장합니다.
    plt.savefig(output_path, bbox_inches='tight', pad_inches=0)
    
    # 메모리 해제를 위해 figure를 닫습니다.
    plt.close(fig)
    print(f"Spectrogram image saved to {output_path}")

def plot_graph_simple(df:pd.DataFrame, col_key):
    # 1분 단위 평균 데이터를 그래프로 시각화합니다.
    plt.figure(figsize=(12, 7))
    plt.plot(df.index, df[col_key], marker='o', linestyle='-', color='skyblue')
    # plt.scatter(df.index, df[col_key], linestyle='-', color='skyblue')

    # 그래프 제목과 라벨 설정
    plt.title('Simple Data View', fontsize=16)
    plt.xlabel('time', fontsize=12)
    plt.ylabel('value', fontsize=12)
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.xticks(rotation=45)
    plt.tight_layout() # 라벨이 잘리지 않도록 레이아웃 조정

    # 그래프를 화면에 보여주기
    plt.show() 

In [None]:
csv_file = "data/Accelermeter_SEN002_2023-05-16T07.csv"
df = pd.read_csv(csv_file)
spectrogram_array = create_spectrogram_from_df(df)
save_spectrogram_array_with_matplotlib(spectrogram_array, 'Accelermeter_SEN002_2023-05-16T07.png')

In [None]:
from PIL import Image
from IPython.display import display

plot_graph_simple(df, "x")

# 저장된 이미지를 열어서 봅니다.
img = Image.open('Accelermeter_SEN002_2023-05-16T07.png')

# Display the image
display(img)

In [None]:
input_folder = "data/by_hour"
output_folder = "data/spectrograms"

# 파일 목록을 가져옵니다.
csv_files = glob.glob(os.path.join(input_folder, '*.csv'))

for csv_file in csv_files:
    df = pd.read_csv(csv_file)
    spectrogram_array = create_spectrogram_from_df(df)
    # Get the output file path
    output_filename = os.path.splitext(os.path.basename(csv_file))[0] + '.png'
    output_path = os.path.join(output_folder, output_filename)
    save_spectrogram_array_with_matplotlib(spectrogram_array, output_path)

- 그럼 이걸 가지고 뭘 어떻게 한다는 건가?
    - "궁금하면 500원!"

### i. 피처 엔지니어링 III - Clustering

- 뭘해도 보이지가 않는다...
    - 그럼 할 수 없다. 그냥.... 다 때려넣고 흔들어... 언제까지? 뭔가 나올때까지...!!

        <img src="images/image_machine_learning.png"><br>

- 일단 spectrogram을 얻은 것은 큰 진전(??!!)

    <img src="images/image_021.png"><br>

- 그런데 데이터를 보니 전반적으로 이런식!!

    <img src="images/image_022.png" width="600"><br>

- 혹시 이거 뭐 두가지 정도의 데이터로 구분되는 거 아닌가?
    - 하루치 데이터를 한시간 단위로 spectrogram을 만들고 그걸 비교해보자.

        <img src="images/image_023.png" width="600"><br>

    - 그래서 그 두 그룹간의 거리가 매일 조금씩 달라지는 것은 아닐까?

        <img src="images/image_024.png" width="600"><br>