# 03. Pandas 집계 분석 - 실습 문제

## 실습 안내
- 총 10개 문제
- 설비별, 제품별, 시간대별 집계 분석
- groupby, pivot_table, crosstab 활용
- 실제 제조 현장의 분석 시나리오

## 데이터 로드 및 전처리

In [None]:
import pandas as pd
import numpy as np

# 데이터 불러오기
production_df = pd.read_csv('../data/05_production.csv', encoding='utf-8-sig')
quality_df = pd.read_csv('../data/07_quality_inspection.csv', encoding='utf-8-sig', na_values=['\\N'])
equipment_df = pd.read_csv('../data/01_equipment.csv', encoding='utf-8-sig')
operation_df = pd.read_csv('../data/06_equipment_operation.csv', encoding='utf-8-sig')

# 기본 전처리
production_df['production_date'] = pd.to_datetime(production_df['production_date'])
production_df['defect_rate'] = (production_df['defect_quantity'] / production_df['actual_quantity'] * 100).round(2)
quality_df['inspection_time'] = pd.to_datetime(quality_df['inspection_time'])

print("데이터 로드 완료!")
print(f"생산: {len(production_df):,}건")
print(f"품질: {len(quality_df):,}건")
print(f"설비: {len(equipment_df):,}건")
print(f"설비운영: {len(operation_df):,}건")

---
## 문제 1: 설비별 생산 통계

**시나리오**: 각 설비의 생산 성과를 종합적으로 분석하세요.

**요구사항**:
1. 설비별로 다음 지표 계산:
   - 생산 건수 (count)
   - 총 생산량 (actual_quantity의 sum)
   - 평균 생산량 (actual_quantity의 mean)
   - 총 불량수 (defect_quantity의 sum)
   - 평균 불량률 (defect_rate의 mean)
2. 총 생산량 기준 내림차순 정렬
3. 소수점 2자리로 반올림



In [None]:
# 여기에 코드 작성


---
## 문제 2: 제품별 품질 분석

**시나리오**: 제품별 품질 수준을 파악하여 문제가 있는 제품을 찾으세요.

**요구사항**:
1. 제품별로 다음 지표 계산:
   - 생산 건수
   - 총 생산량
   - 평균 불량률
   - 최대 불량률
   - 최소 불량률
2. 평균 불량률이 높은 순서로 정렬



In [None]:
# 여기에 코드 작성


---
## 문제 3: 교대조별 생산 효율 비교

**시나리오**: 주간조와 야간조의 생산 효율을 비교 분석하세요.

**요구사항**:
1. 교대조(shift)별로 다음 지표 계산:
   - 생산 건수
   - 평균 생산량
   - 평균 불량률
   - 평균 사이클 타임
   - 목표 달성률 평균 (actual_quantity / target_quantity * 100)
2. 결과 해석: 어느 교대조가 더 효율적인가?



In [None]:
# 여기에 코드 작성


---
## 문제 4: 설비 + 제품 복합 분석

**시나리오**: 각 설비가 어떤 제품을 얼마나 생산하는지 분석하세요.

**요구사항**:
1. 설비 + 제품별로 다음 집계:
   - 생산 건수
   - 총 생산량
   - 평균 불량률
2. 멀티인덱스 결과에서 특정 설비(예: INJ-001)의 제품별 데이터만 추출



In [None]:
# 여기에 코드 작성


---
## 문제 5: 피벗 테이블 - 설비 x 제품 생산량 매트릭스

**시나리오**: 설비와 제품의 조합별 생산량을 한눈에 보는 표를 만드세요.

**요구사항**:
1. 피벗 테이블 생성:
   - 행: equipment_id
   - 열: product_code
   - 값: actual_quantity의 합계
   - 결측치는 0으로 채우기
2. 행/열 총계 추가 (margins=True)



In [None]:
# 여기에 코드 작성


---
## 문제 6: 피벗 테이블 - 설비 x 교대조 평균 불량률

**시나리오**: 설비별로 교대조에 따라 불량률이 어떻게 다른지 파악하세요.

**요구사항**:
1. 피벗 테이블 생성:
   - 행: equipment_id
   - 열: shift
   - 값: defect_rate의 평균
2. 소수점 2자리 반올림
3. 주간과 야간의 불량률 차이가 큰 설비 찾기



In [None]:
# 여기에 코드 작성


---
## 문제 7: 불량 유형 분석 (crosstab)

**시나리오**: 제품별로 어떤 불량 유형이 많이 발생하는지 분석하세요.

**요구사항**:
1. 품질검사 데이터에서 불량(result='FAIL')만 필터링
2. 제품(product_code) x 불량코드(defect_code) 교차표 생성
3. 총계 포함
4. 각 제품의 주요 불량 유형 파악

**힌트**: 필터링 후 `pd.crosstab()`, margins=True

In [None]:
# 여기에 코드 작성


---
## 문제 8: 월별 생산 추이 분석

**시나리오**: 월별 생산량과 품질 추이를 분석하여 트렌드를 파악하세요.

**요구사항**:
1. production_date에서 년-월 추출 (dt.to_period('M'))
2. 월별로 다음 집계:
   - 생산 건수
   - 총 생산량
   - 평균 생산량
   - 평균 불량률
3. 시간 순서로 정렬
4. 처음 12개월 데이터 출력



In [None]:
# 여기에 코드 작성


---
## 문제 9: Transform을 이용한 설비별 표준화

**시나리오**: 각 설비의 생산량을 설비별 평균과 비교하여 성과를 평가하세요.

**요구사항**:
1. 설비별 평균 생산량을 계산하여 새 컬럼으로 추가 (transform)
2. 설비별 표준편차를 계산하여 새 컬럼으로 추가
3. 각 생산 건의 표준화 점수(Z-score) 계산:
   - Z-score = (실제값 - 평균) / 표준편차
4. Z-score가 2 이상인 생산 건 찾기 (매우 높은 생산량)



In [None]:
# 여기에 코드 작성


---
## 문제 10: 종합 설비 성능 대시보드

**시나리오**: 설비별 성능을 종합적으로 평가하는 대시보드 데이터를 만드세요.

**요구사항**:
1. 설비별로 다음 지표 모두 계산:
   - 생산 건수
   - 총 생산량
   - 평균 생산량
   - 생산량 표준편차
   - 평균 불량률
   - 평균 사이클 타임
   - 평균 목표 달성률
2. 성능 점수 계산 (사용자 정의):
   - 성능점수 = (평균생산량 / 평균사이클타임) * (100 - 평균불량률)
3. 성능 점수 기준 순위 매기기
4. 성능 점수 상위 5개 설비 출력



In [None]:
# 여기에 코드 작성


---
## 수고하셨습니다!

### 학습 체크리스트
- [ ] groupby로 단일/다중 그룹화
- [ ] agg로 여러 집계 함수 동시 적용
- [ ] 명확한 컬럼명으로 집계 결과 생성
- [ ] pivot_table로 행/열 구조 변환
- [ ] crosstab으로 교차표 생성
- [ ] value_counts로 빈도 계산
- [ ] transform으로 그룹별 계산 결과 추가
- [ ] 복합 지표 계산 및 성능 평가

