# 02. Pandas 데이터 전처리 - 실습 문제

## 실습 안내
- 총 10개 문제
- 각 문제는 실제 스마트팩토리 데이터 정제 시나리오
- 힌트를 참고하여 직접 코드 작성
- 결과를 확인하며 학습

## 데이터 로드

In [None]:
import pandas as pd
import numpy as np

# 데이터 불러오기
production_df = pd.read_csv('../data/05_production.csv', encoding='utf-8-sig')
quality_df = pd.read_csv('../data/07_quality_inspection.csv', encoding='utf-8-sig', na_values=['\\N', 'NULL', ''])
sensor_df = pd.read_csv('../data/08_sensor_data.csv', encoding='utf-8-sig')
operation_df = pd.read_csv('../data/06_equipment_operation.csv', encoding='utf-8-sig')

print("데이터 로드 완료!")
print(f"생산: {len(production_df):,}건")
print(f"품질: {len(quality_df):,}건")
print(f"센서: {len(sensor_df):,}건")
print(f"설비운영: {len(operation_df):,}건")

---
## 문제 1: 결측치 비율 분석

**시나리오**: 품질검사 데이터의 각 컬럼별 결측치 비율을 파악하여 데이터 품질을 평가하세요.

**요구사항**:
1. 각 컬럼의 결측치 개수와 비율(%) 계산
2. 결측치가 있는 컬럼만 출력
3. 결측치 비율이 높은 순서로 정렬

**힌트**: `isna()`, `sum()`, 비율 계산, `sort_values()`

In [None]:
# 여기에 코드 작성


---
## 문제 2: 센서 데이터 결측치 보간

**시나리오**: 센서 데이터에 결측치가 발생했습니다. 시계열 특성을 고려하여 적절히 처리하세요.

**요구사항**:
1. INJ-001 설비의 2024-01-01 00:00:00 ~ 10:00:00 데이터 필터링
2. temperature 컬럼의 5개 값을 임의로 NaN으로 변경 (인덱스 5, 15, 25, 35, 45)
3. 선형 보간법(interpolate)으로 결측치 채우기
4. 보간 전후 비교 출력

**힌트**: 데이터 복사본 만들기, `loc`, `interpolate(method='linear')`

In [None]:
# 여기에 코드 작성


---
## 문제 3: 중복 작업지시서 찾기

**시나리오**: 생산 데이터에서 같은 작업지시서 번호(work_order_no)로 중복 기록된 건을 찾으세요.

**요구사항**:
1. work_order_no 기준으로 중복 확인
2. 중복된 데이터만 추출하여 work_order_no로 정렬
3. 중복 건수 및 상위 10개 출력

**힌트**: `duplicated(subset=[], keep=False)`, `sort_values()`

In [None]:
# 여기에 코드 작성


---
## 문제 4: 날짜/시간 변환 및 추출

**시나리오**: 설비운영 데이터의 시간 정보를 분석 가능한 형태로 변환하세요.

**요구사항**:
1. start_time, end_time을 datetime 타입으로 변환
2. 다음 컬럼 생성:
   - operation_date: 날짜만 추출
   - start_hour: 시작 시간(시)
   - duration_minutes: 운영 시간(분)
3. 처음 10개 행 출력

**힌트**: `pd.to_datetime()`, `dt.date`, `dt.hour`, 시간 차이 계산

In [None]:
# 여기에 코드 작성


---
## 문제 5: 생산 효율 지표 계산

**시나리오**: 생산 데이터에서 주요 효율 지표를 계산하여 새 컬럼으로 추가하세요.

**요구사항**:
다음 컬럼 생성:
1. `defect_rate`: 불량률 (불량수 / 실제생산량 * 100, 소수점 2자리)
2. `achievement_rate`: 목표달성률 (실제생산량 / 목표생산량 * 100, 소수점 2자리)
3. `good_rate`: 양품률 (양품수 / 실제생산량 * 100, 소수점 2자리)
4. 통계 요약 출력 (describe)

**힌트**: 나눗셈 연산, `round()`, `describe()`

In [None]:
# 여기에 코드 작성


---
## 문제 6: 품질 등급 분류 (조건부 컬럼)

**시나리오**: 불량률에 따라 생산 품질을 4등급으로 분류하세요.

**요구사항**:
1. `quality_grade` 컬럼 생성 (불량률 기준):
   - 3% 미만: 'S등급'
   - 3~5% 미만: 'A등급'
   - 5~10% 미만: 'B등급'
   - 10% 이상: 'C등급'
2. 등급별 분포 출력
3. 각 등급의 평균 불량률 계산

**힌트**: `np.select()`, 조건 리스트와 선택 리스트, `value_counts()`, `groupby()`

In [None]:
# 여기에 코드 작성


---
## 문제 7: 시간대 분류

**시나리오**: 생산 시작 시간을 기준으로 시간대를 분류하여 시간대별 생산 패턴을 분석하세요.

**요구사항**:
1. start_time을 datetime으로 변환
2. `time_shift` 컬럼 생성 (시작 시간 기준):
   - 06:00~14:00: '주간'
   - 14:00~22:00: '야간'
   - 22:00~06:00: '심야'
3. 시간대별 생산 건수 및 평균 불량률 계산

**힌트**: `dt.hour`, `np.select()` 또는 사용자 정의 함수 + `apply()`

In [None]:
# 여기에 코드 작성


---
## 문제 8: 생산량 구간 분류

**시나리오**: 실제 생산량을 구간별로 나누어 생산 규모를 분류하세요.

**요구사항**:
1. `pd.cut()`을 사용하여 `production_scale` 컬럼 생성:
   - 0~50: '소량'
   - 50~100: '중량'
   - 100~150: '대량'
   - 150 이상: '초대량'
2. 구간별 생산 건수 출력
3. 각 구간의 평균 불량률 계산

**힌트**: `pd.cut()`, bins, labels

In [None]:
# 여기에 코드 작성


---
## 문제 9: 설비 가동률 계산

**시나리오**: 설비운영 데이터에서 설비별 가동률을 계산하세요.

**요구사항**:
1. start_time, end_time을 datetime으로 변환
2. `operation_hours` 컬럼 생성 (운영 시간을 시간 단위로 변환)
3. operation_status가 'RUNNING'인 경우만 필터링
4. 설비별 총 가동시간 계산 및 정렬
5. 상위 5개 설비 출력

**힌트**: datetime 변환, 시간 차이 계산, `total_seconds()`, 필터링, `groupby().sum()`

In [None]:
# 여기에 코드 작성


---
## 문제 10: 종합 데이터 전처리 파이프라인

**시나리오**: 품질검사 데이터를 분석 가능한 형태로 완전히 전처리하세요.

**요구사항**:
1. 결측치 처리:
   - defect_code의 NaN을 'NONE'으로 변경
   - notes의 NaN을 빈 문자열로 변경
2. 날짜/시간 변환:
   - inspection_time을 datetime으로 변환
   - inspection_date, inspection_hour 컬럼 생성
3. 새 컬럼 생성:
   - `is_defect`: 불량 여부 (FAIL=1, PASS=0)
   - `measure_status`: 측정값 상태 분류
     * BUMPER-A 기준: 295~305 '정상', 290~295 또는 305~310 '주의', 나머지 '이상'
4. 최종 데이터 형태 확인 (shape, info, head)

**힌트**: 순차적으로 처리, 사용자 정의 함수, `apply()`

In [None]:
# 여기에 코드 작성


---
## 수고하셨습니다!

### 학습 체크리스트
- [ ] 결측치 확인 및 처리 방법 이해
- [ ] 중복 데이터 찾기 및 제거
- [ ] 데이터 타입 변환 (특히 날짜/시간)
- [ ] 날짜/시간 요소 추출 및 연산
- [ ] 계산 컬럼 생성
- [ ] 조건부 컬럼 생성 (np.where, np.select)
- [ ] 범주형 변수 생성 (cut, qcut)
- [ ] 종합 데이터 전처리 파이프라인 구성

