# 보쉬(Bosch) 데이터 분석 🕵️‍♂️ - 공장의 탐정이 되어보자!

안녕하세요! 데이터 분석의 세계에 오신 것을 환영합니다.

우리는 지금부터 보쉬라는 회사의 생산 라인 데이터를 가지고 '탐정 놀이'를 해볼 거예요.
우리의 임무는 **어떤 부품이 불량품이 될지 미리 예측**하는 것입니다.

이 노트북은 데이터 분석을 처음 배우는 분들을 위해 만들어졌어요. 차근차근 따라오시면 데이터 분석이 얼마나 재미있는지 알게 될 거예요!

## 1단계: 탐정 도구 챙기기 (라이브러리 불러오기)

데이터 분석을 하려면 특별한 도구들이 필요해요. 파이썬에서는 이런 도구들을 '라이브러리'라고 불러요.
우리는 `pandas`라는 아주 강력한 도구를 사용할 거예요. 판다스는 거대한 표(데이터)를 자유자재로 다룰 수 있게 해줘요.

In [1]:
# pandas 라이브러리를 pd 라는 별명으로 불러올게요. 앞으로 pd라고 쓰면 pandas를 쓰는 것과 같아요.
import pandas as pd

## 2단계: 사건 파일 열어보기 (데이터 불러오기)

이제 우리의 사건 파일, 즉 데이터가 담긴 파일을 열어볼 시간이에요.
아까 우리가 만든 '맛보기용' 파일(`train_sample.csv`)을 `pd.read_csv()` 함수를 사용해서 열어볼게요.

컴퓨터에게 "`train_sample.csv` 파일을 읽어서 `df`라는 이름의 표로 만들어줘!" 라고 명령하는 것과 같아요.

In [3]:
# 'train_sample.csv' 파일을 읽어서 df라는 변수(표)에 저장해요.
# 혹시 파일이 없으면 오류 메시지를 보여주도록 try-except 구문을 사용했어요.
try:
    df = pd.read_csv('data/train_sample.csv')
    print("파일을 성공적으로 불러왔습니다! 이제 데이터 탐험을 시작해볼까요? 🚀")
except FileNotFoundError:
    print("⚠️ 오류: 'train_sample.csv' 파일을 찾을 수 없어요. 파일이 현재 폴더에 있는지 확인해주세요!")

파일을 성공적으로 불러왔습니다! 이제 데이터 탐험을 시작해볼까요? 🚀


## 3단계: 데이터 훑어보기 (탐색적 데이터 분석)

탐정은 사건 현장을 꼼꼼히 살피죠? 우리도 데이터를 훑어보면서 어떤 정보가 있는지, 문제는 없는지 살펴볼 거예요.

### 🔍 3-1. 데이터의 첫인상 확인하기

`df.head()` 명령어를 사용하면 데이터 표의 맨 위 5줄을 살짝 엿볼 수 있어요. 어떤 내용이 있는지 감을 잡는 데 도움이 되죠.

In [4]:
# df.head()는 데이터프레임(우리가 만든 표)의 위에서부터 5개 행을 보여줘요.
df.head()

Unnamed: 0,Id,L0_S0_F0,L0_S0_F2,L0_S0_F4,L0_S0_F6,L0_S0_F8,L0_S0_F10,L0_S0_F12,L0_S0_F14,L0_S0_F16,...,L3_S50_F4245,L3_S50_F4247,L3_S50_F4249,L3_S50_F4251,L3_S50_F4253,L3_S51_F4256,L3_S51_F4258,L3_S51_F4260,L3_S51_F4262,Response
0,4,0.03,-0.034,-0.197,-0.179,0.118,0.116,-0.015,-0.032,0.02,...,,,,,,,,,,0
1,6,,,,,,,,,,...,,,,,,,,,,0
2,7,0.088,0.086,0.003,-0.052,0.161,0.025,-0.015,-0.072,-0.225,...,,,,,,,,,,0
3,9,-0.036,-0.064,0.294,0.33,0.074,0.161,0.022,0.128,-0.026,...,,,,,,,,,,0
4,11,-0.055,-0.086,0.294,0.33,0.118,0.025,0.03,0.168,-0.169,...,,,,,,,,,,0


### 🔍 3-2. 데이터의 전체 크기 파악하기

`df.shape`는 우리 데이터가 몇 개의 행(부품 수)과 몇 개의 열(특성 수)로 이루어져 있는지 알려줘요.

In [5]:
# df.shape는 (행의 개수, 열의 개수)를 보여줘요.
df.shape

(10000, 970)

### 🔍 3-3. 가장 중요한 단서, 'Response' 열 확인하기

수많은 열(특성) 중에서 `Response`라는 열이 가장 중요해요. 이 열이 바로 부품의 불량 여부를 알려주는 정답지거든요.

*   `Response`가 `0`이면: 정상 부품 ✅
*   `Response`가 `1`이면: 불량 부품 ❌

`value_counts()`를 사용해서 정상 부품과 불량 부품이 각각 몇 개나 있는지 세어볼게요.

In [6]:
# 'Response' 열에 있는 값(0 또는 1)들이 각각 몇 개인지 세어줘요.
df['Response'].value_counts()

Response
0    9947
1      53
Name: count, dtype: int64

결과를 보면, 10,000개의 부품 중에 불량품(1)은 아주 적다는 걸 알 수 있어요. 
이처럼 데이터가 한쪽으로 크게 쏠려있는 것을 **'불균형 데이터'**라고 불러요. 나중에 모델을 만들 때 고려해야 할 중요한 특징이에요.

### 🔍 3-4. 혹시 빈칸은 없을까? (결측치 확인)

데이터에 정보가 비어있는 칸(결측치)이 있는지 확인하는 건 매우 중요해요. 빈칸이 너무 많으면 분석이 어려울 수 있거든요.

`isnull().sum()`을 사용하면 각 열마다 비어있는 칸이 몇 개인지 알려줘요. 열이 너무 많으니, 빈칸이 많은 상위 10개 열만 뽑아볼게요.

In [7]:
# df.isnull()는 각 칸이 비어있는지(True) 아닌지(False) 알려줘요.
# .sum()은 각 열에 대해 True의 개수, 즉 빈칸의 개수를 세어줘요.
missing_values = df.isnull().sum()

# 빈칸이 하나라도 있는 열만 골라서, 개수가 많은 순서대로 정렬해요.
missing_values = missing_values[missing_values > 0].sort_values(ascending=False)

# 빈칸이 많은 상위 10개 열을 출력해요.
print("결측치가 많은 상위 10개 열:")
print(missing_values.head(10))

결측치가 많은 상위 10개 열:
L1_S25_F2181    9995
L1_S25_F2184    9995
L1_S25_F2193    9995
L1_S25_F2190    9995
L1_S25_F2202    9995
L1_S25_F2187    9995
L1_S25_F2199    9995
L1_S25_F2196    9995
L1_S25_F2540    9982
L1_S25_F2530    9982
dtype: int64


## 4단계: 단서와 정답의 관계 파헤치기

이제 진짜 탐정처럼, 어떤 특성(단서)이 불량품(정답)과 관련이 있는지 간단하게 살펴볼게요.

예를 들어, 'L3_S38_F3952'라는 특성의 평균값이 정상품일 때와 불량품일 때 어떻게 다른지 비교해볼까요?
`groupby('Response')`는 'Response' 값(0 또는 1)에 따라 데이터를 두 그룹으로 묶어주는 역할을 해요.

In [8]:
# 'Response' 값(0:정상, 1:불량)에 따라 그룹을 나눠요.
# 그리고 'L3_S38_F3952' 열의 평균값을 각 그룹별로 계산해요.
df.groupby('Response')['L3_S38_F3952'].mean()

Response
0    0.000044
1    0.000000
Name: L3_S38_F3952, dtype: float64

결과를 보면, 불량품(1)일 때의 평균값이 정상품(0)일 때보다 약간 더 높은 것을 볼 수 있어요.
이런 식으로 여러 특성들을 비교해보면, 어떤 특성이 불량품을 예측하는 데 중요한 단서가 될지 힌트를 얻을 수 있답니다!

## 마무리

축하합니다! 여러분은 방금 데이터 분석의 첫걸음을 내디뎠어요.

오늘은 데이터를 불러와서 살펴보고, 가장 기본적인 방법으로 데이터의 특징을 파악해봤어요.

**오늘 배운 것:**
1. `pandas`로 CSV 파일 읽기
2. `head()`, `shape`로 데이터 훑어보기
3. `value_counts()`로 정답 데이터 확인하기
4. `isnull().sum()`으로 빈칸(결측치) 찾기
5. `groupby()`로 그룹별 특징 비교하기

여기서 더 나아가면, 이런 특징들을 사용해서 컴퓨터가 스스로 불량품을 예측하는 '머신러닝 모델'을 만들 수도 있답니다. 정말 신나지 않나요?

데이터 분석의 세계는 넓고 재미있어요. 계속해서 탐험을 멈추지 마세요! 🎉