## 보쉬 생산 라인 데이터 분석 학습하기

안녕하세요! 이 노트북은 '보쉬 생산 라인 성능' 데이터를 분석하는 방법을 배우기 위해 만들어졌어요.
생산 라인에서 만들어지는 수많은 부품들 중에서 어떤 부품이 불량품일지 예측하는 것이 목표랍니다.
코드가 조금 어려워 보일 수 있지만, 각 줄마다 어떤 의미인지 주석으로 쉽게 설명해 놓았으니 천천히 따라와 주세요.

### 1단계: 데이터 분석 도구 불러오기

가장 먼저, 데이터 분석에 필요한 도구(라이브러리)들을 컴퓨터에 불러와야 해요.

In [None]:
# pandas는 엑셀 시트처럼 생긴 데이터를 다룰 때 사용하는 가장 중요한 도구예요. pd라는 별명으로 부를게요.
import pandas as pd

# numpy는 복잡한 숫자 계산을 쉽게 할 수 있도록 도와주는 도구예요. np라는 별명으로 부를게요.
import numpy as np

# matplotlib.pyplot은 데이터를 멋진 그래프로 보여주는 도구예요. plt라는 별명으로 부를게요.
import matplotlib.pyplot as plt

### 2단계: 데이터 불러와서 살펴보기

이제 분석할 데이터를 불러올 차례예요. 보쉬 데이터는 크기가 매우 크기 때문에, 여기서는 맛보기로 숫자 데이터의 앞부분 1만 줄만 불러와서 살펴볼게요.

In [None]:
# 'train_numeric.csv' 파일에서 첫 10,000개의 줄만 읽어와서 numeric_data라는 변수에 저장해요.
# CSV 파일은 쉼표(comma)로 데이터가 구분된 파일을 의미해요.
numeric_data = pd.read_csv('train_numeric.csv', nrows=10000)

# head() 함수는 데이터의 맨 앞 5줄을 보여줘요. 데이터가 어떻게 생겼는지 빠르게 훑어볼 수 있죠.
print("불러온 숫자 데이터 (앞부분 5줄)")
numeric_data.head()

### 3단계: 데이터의 기본 정보 확인하기

데이터를 불러왔으니, 이제 이 데이터가 어떤 정보를 담고 있는지 자세히 알아볼게요.

In [None]:
# Response 열은 이 부품이 불량품인지(1) 아닌지(0)를 알려주는 가장 중요한 정보예요.
# value_counts() 함수로 0과 1이 각각 몇 개씩 있는지 세어볼 수 있어요.
response_counts = numeric_data['Response'].value_counts()

print("정상(0)과 불량(1) 부품의 개수")
print(response_counts)

In [None]:
# 위에서 센 개수를 막대그래프로 그려볼게요. 데이터는 숫자로만 보는 것보다 그림으로 보면 훨씬 이해하기 쉬워요.

# 그래프의 크기를 정해요.
plt.figure(figsize=(6, 4))

# 막대그래프를 그려요. x축에는 부품 상태(0, 1), y축에는 개수를 표시해요.
response_counts.plot(kind='bar', color=['skyblue', 'salmon'])

plt.title('정상과 불량 부품의 개수 비교') # 그래프의 제목이에요.
plt.xlabel('부품 상태') # 그래프의 x축이 무엇을 의미하는지 알려줘요.
plt.ylabel('개수') # 그래프의 y축이 무엇을 의미하는지 알려줘요.
plt.xticks(ticks=[0, 1], labels=['정상', '불량'], rotation=0) # x축의 0과 1을 '정상', '불량'으로 바꿔서 보여줘요.

# 그래프를 화면에 보여줘요.
plt.show()

그래프를 보니 불량(1) 부품이 정상(0) 부품보다 훨씬 적다는 것을 알 수 있어요. 이렇게 데이터가 한쪽으로 치우쳐져 있는 것을 '불균형 데이터'라고 불러요.

### 4단계: 하나의 측정값 자세히 들여다보기

데이터에는 수많은 측정값(특성)들이 있어요. 그중 하나를 골라서 어떤 값들이 있는지 자세히 살펴볼게요.

In [None]:
# 수많은 측정값 중에서 'L3_S32_F3850'이라는 특성을 하나 골라볼게요.
feature_to_plot = 'L3_S32_F3850'

# 이 특성의 데이터 중에서 비어있는 값(NaN)은 제외하고, 어떤 값들이 얼마나 있는지 히스토그램으로 그려볼게요.
# 히스토그램은 데이터가 어디에 많이 모여있는지 보여주는 그래프예요.
plt.figure(figsize=(8, 5))
plt.hist(numeric_data[feature_to_plot].dropna(), bins=50, color='lightgreen')

plt.title(f'{feature_to_plot} 측정값의 분포') # 그래프 제목
plt.xlabel('측정값') # x축 이름
plt.ylabel('빈도수') # y축 이름

plt.show() # 그래프 보여주기

### 5단계: 다음 학습을 위한 제안

축하해요! 데이터 분석의 첫걸음을 뗐어요. 지금까지 우리는 다음을 배웠어요.

1.  데이터를 불러오고 기본적인 정보를 확인하는 방법
2.  데이터를 막대그래프나 히스토그램으로 그려서 이해하는 방법

다음 단계에서는 더 많은 데이터를 다루거나, 어떤 측정값이 불량 부품을 예측하는 데 중요한 역할을 하는지 찾아보는 더 재미있는 분석을 해볼 수 있답니다.