In [None]:
!pip install IPython
from IPython.display import display, HTML, Image

In [None]:
!git clone https://github.com/Seung-hwanSong/HS_0706.git #코랩 사용

# Diagnostic Data Analytics 1

# 2. Pareto Analysis (파레토 분석) 실습
# Pareto Analysis

##### jupyter notebook 단축키

- ctrl+enter: 셀 실행   
- shift+enter: 셀 실행 및 다음 셀 이동   
- alt+enter: 셀 실행, 다음 셀 이동, 새로운 셀 생성
- a: 상단에 새로운 셀 만들기
- b: 하단에 새로운 셀 만들기
- dd: 셀 삭제(x: 셀 삭제)
- 함수 ( ) 안에서 shift+tab: arguments description. shift+tab+tab은 길게 볼 수 있도록

- 파레토 분석  <br>
    - 문제의 원인을 가장 중요한 것에서 가장 덜 중요한 것으로 분류하는 그래픽 도구
    - '대부분의 결과는 가능한 원인의 20%에서 비롯된 파레토 원리를 기반으로 한다'를 전제로 하고있음
    - 파레토 분석 (Pareto Analysis)은 7개의 기본 품질 도구 중 하나로 중요한 결과를 도출하는 제한된 수의 작업 중 선택하는데 사용하는 의사 결정의 통계 기법
    <br><br>


In [None]:
Image('/content/HS_0706/image/intro1.png')

## 1. 분석 데이터 
### (1) [sae(pre).csv --> V23, V24, V50]
### (2) [scm(pre).csv -->  V12, V55, V57]

- 데이터 description <br>
    - sae, scm 데이터는 모터의 전류를 예측하여 실제 전류와 비교 후 값의 차이가 크면 모터 이상으로 판단하는 선재 라인 압연기 모터 이상 감지를 위해 수집된 센서 데이터
    - 해당 데이터셋에서는 RSM Mootor Current (실시간 데이터의 최대값을 활용하여 이상 탐지를 수행함 <br><br>
- 변수 설명
    - sae(pre).csv
        - 독립 변수 (3개): V23, V24, V50
    - scm(pre).csv
        - 독립 변수 (3개): V12, V55, V57<br><br>



In [None]:
Image('/content/HS_0706/image/intro2.png')

## 2. 모듈 불러오기

In [None]:
''' 기본 모듈 및 시각화 모듈 '''
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## 3. sae(pre).csv 데이터

### 데이터 불러오기

In [None]:
data = pd.read_csv('/content/HS_0706/data/[1] sae(pre).csv')
# data = pd.read_csv('./data/[1] sae(pre).csv') #로컬

data = data[['V23', 'V24', 'V50']]

### 데이터 확인

In [None]:
print('Data shape: {}'.format(data.shape))
data.head()

In [None]:
V23 = data['V23']
V24 = data['V24']
V50 = data['V50']

### 데이터 각 변수에 대한 Plotting

In [None]:
plt.figure(figsize=(15,12))

plt.subplot(311)       
plt.plot(data['V23'], color='r', label='V23')
plt.title("SAE V23 Curve", fontsize=18)
plt.legend(fontsize=15)

plt.subplot(312)       
plt.plot(data['V24'], color='b', label='V24')
plt.title("SAE V24 Curve", fontsize=18)
plt.legend(fontsize=15)

plt.subplot(313)       
plt.plot(data['V50'], color='k', label='V50')
plt.title("SAE V50 Curve", fontsize=18)
plt.legend(fontsize=15)

plt.show()

### 파레토 차트를 그리기 위한 전처리

In [None]:
# 파레토 차트를 그리기 위해 각 변수에 대한 축을 설정하는 작업을 수행
# 각 변수에 대해 동일한 값을 갖는 변수의 개수를 저장

V23_count = data['V23'].value_counts()
V24_count = data['V24'].value_counts()
V50_count = data['V50'].value_counts()

print(V23_count.head())

In [None]:
# 파레토 차트의 X축을 그리기 위해, 값을 나열하고, 문자열로 변환 

X23 = list(map(str, V23_count.index))
X24 = list(map(str, V24_count.index))
X50 = list(map(str, V50_count.index))

print(X23)

In [None]:
# 파레토 차트의 y축을 그리기 위해, Count 값을 저장

y23 = V23_count.values
y24 = V24_count.values
y50 = V50_count.values

print(y23)

In [None]:
# 누적 데이터를 확인하기 위해 y 값 각각에 대한 비율을 구하고, cumulative sums 값을 비율로 저장해줌

Ratio_V23 = y23/(y23.sum())
Ratio_V23_Cum = Ratio_V23.cumsum()

Ratio_V24 = y24/y24.sum()
Ratio_V24_Cum = Ratio_V24.cumsum()

Ratio_V50 = y50/y50.sum()
Ratio_V50_Cum = Ratio_V50.cumsum()

print(Ratio_V23_Cum)

### 파레토 차트 그리기

In [None]:
## v23 파레토 차트 그리기
fig, ax = plt.subplots(figsize = (20, 8)) # # 그래프 사이즈 지정
ax.bar(X23, y23) # bar 차트 그리기
ax.set_xlabel('Data components', fontsize = 12)
ax.set_ylabel('Number of counts', fontsize = 12)

ax2 = ax.twinx() # 새로운 axis 생성
ax2.plot(X23, Ratio_V23_Cum, '-g^', alpha = 0.5) # -: 대쉬 / g: green, ^: 세모  
# 기존 ax2 plot의 y 축의 포멧을 변경
range = ax2.get_yticks() 
ax2.set_yticklabels(['{0:.1%}'.format(x) for x in range])

# ax2에 annotation 
ratio_sum_percentages = ['{0:.0%}'.format(x) for x in Ratio_V23_Cum]
for i, txt in enumerate(ratio_sum_percentages):
    ax2.annotate(txt, (X23[i], Ratio_V23_Cum[i]), fontsize = 12)

plt.title('Pareto Chart - Number of values of V23', fontsize = 18)
plt.show()

In [None]:
## v23 파레토 차트 그리기 (20 point)
fig, ax = plt.subplots(figsize = (20, 8)) # # 그래프 사이즈 지정
ax.bar(X23[:20], y23[:20]) # bar 차트 그리기
ax.set_xlabel('Data components', fontsize = 12)
ax.set_ylabel('Number of counts', fontsize = 12)

ax2 = ax.twinx() # 새로운 axis 생성
ax2.plot(X23[:20], Ratio_V23_Cum[:20], '-g^', alpha = 0.5) # -: 대쉬 / g: green, ^: 세모  
# 기존 ax2 plot의 y 축의 포멧을 변경
range = ax2.get_yticks() 
ax2.set_yticklabels(['{0:.1%}'.format(x) for x in range])

# ax2에 annotation 
ratio_sum_percentages = ['{0:.0%}'.format(x) for x in Ratio_V23_Cum[:20]]
for i, txt in enumerate(ratio_sum_percentages):
    ax2.annotate(txt, (X23[i], Ratio_V23_Cum[i]), fontsize = 12)

plt.title('Pareto Chart - Number of values of V23', fontsize = 18)
plt.show()

In [None]:
## v50 파레토 차트 그리기
fig, ax = plt.subplots(figsize = (20, 8)) # # 그래프 사이즈 지정
ax.bar(X50, y50) # bar 차트 그리기
ax.set_xlabel('Data components', fontsize = 12)
ax.set_ylabel('Number of counts', fontsize = 12)

ax2 = ax.twinx() # 새로운 axis 생성
ax2.plot(X50, Ratio_V50_Cum, '-g^', alpha = 0.5) # -: 대쉬 / g: green, ^: 세모  
# 기존 ax2 plot의 y 축의 포멧을 변경
range = ax2.get_yticks() 
ax2.set_yticklabels(['{0:.1%}'.format(x) for x in range])

# ax2에 annotation 
ratio_sum_percentages = ['{0:.0%}'.format(x) for x in Ratio_V50_Cum]
for i, txt in enumerate(ratio_sum_percentages):
    ax2.annotate(txt, (X50[i], Ratio_V50_Cum[i]), fontsize = 12)

plt.title('Pareto Chart - Number of values of V50', fontsize = 18)
plt.show()

# EOD