# 프로젝트

### 주요 내용

1. 예제 데이터 불러오기
2. 결측값 처리, 형식 변환, 파생 변수 생성 등 전처리
3. 데이터 집계 및 시각화

<br>

### 목표 
1. 학습한 내용을 바탕으로 직접 데이터를 처리하고 분석할 수 있다.
2. 비즈니스 데이터를 활용한 문제 해결 절차를 경험한다.



<br>


## 프로젝트 수행 가이드

+ ipynb 파일이름을 `프로젝트_본인이름`으로 변경
+ 아래의 문제를 해결하기 위한 Python 코드를 작성
+ 별도로 안내된 방법에 따라 결과물 제출


<br>
<hr>
<br>

## 0. 라이브러리, 데이터 불러오기

프로젝트 수행을 위해 라이브러리와 2개 예제 데이터를 불러옵니다. 



In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

### 0.1. 생산 데이터 

2021년 한 해 동안 `A`, `B`, `C` 세 개 공장에서 각 라인별로 생산한 생산량과 불량품 개수를 정리한 데이터입니다.

**변수 설명**
+ date: 날짜
+ factory: 공장 구분
+ line: 라인 구분
+ capacity: 설계 생산량 
+ production: 실제 생산량
+ defective: 실제 생산량 중 불량품 개수

In [None]:
# 생산 데이터 불러오기
df_prod = pd.read_csv('production.csv')
df_prod

### 0.2. 날씨 데이터
2021년 날씨 데이터입니다.

**변수 설명**
+ date: 날짜
+ temp_high: 최고 기온
+ temp_low: 최저 기온
+ hum: 상대습도
+ rain: 강수량

In [None]:
df_weather = pd.read_csv('weather.csv')
df_weather

<br>
<hr>
<br>

## 1. 프로젝트 수행

아래의 10개 문제를 해결하기 위한 명령어를 작성


### 01. 결측값 처리

1. df_prod에서 결측값이 존재하는 변수를 확인
2. 해당 결측값을 `line`별로 결측이 아닌 직전 정상값으로 대체(`groupby()`와 `fillna(method='ffill)` 활용)

> 2.에서 전체 데이터를 활용할 경우 `line`이 제거되므로, 해당 변수만 선택해서 결측값 대체


### 02. 변수 추가 및 관측치 부분 선택, 시각화

1. df_prod에서 변수 `production`와 `defective`를 활용하여 불량률(`defective`/`production`) 변수 `rate` 생성
2. df_prod에서 `rate`기준 상위 20개 관측치(행) 선택
3. df_prod에서 `rate`가 0.005 이상인 관측치(행) 선택
4. `rate`의 히스토그램 생성


### 03. 집계값 계산
1. df_prod에서 `line`별 `rate`의 평균 계산
2. df_prod에서 `line`별 `production`의 합계를 계산(Series 형식으로 계산)
3. df_prod에서 `line`별 `defective`의 합계를 계산(Series 형식으로 계산)
4. 3.를 2.로 나눠 불량률 계산(1.의 `rate` 평균과 다른 것을 확인)

>전체 생산량 중 전체 불량 건의 비율이 실제 불량률이고, `rate`의 평균과 다름


### 04. 변수 형식 변환 및 날짜 파생 변수 생성, 활용
1. df_prod에서 `date`를 날짜시간 형식으로 변환
2. df_prod에서 `date`를 활용하여 월을 의미하는 `month`변수 생성
3. df_prod에서 `month`와 `factory`를 그룹변수로 활용하여 두 변수 조합별  `production`합계를 피벗테이블로 계산


### 05. 외부 데이터 결합

1. df_weather에서 `date`를 날짜시간 형식으로 변환
2. df_prod와 df_weather를 `date`를 기준으로 결합(inner join)하고 **df_prod2**로 저장

### 06. 수치형 변수의 구간화
1. df_prod2에서 `temp_high`를 10개 등구간으로 구간화하고 `temp_high_grp`로 저장
2. df_prod2에서 `temp_high_grp`별 불량률 계산(`production` 합계와 `defective` 합계 활용)

### 07. 수치형 변수의 구간화(2)
1. df_prod2에서 `hum`을 10개 등구간으로 구간화하고 `hum_grp`로 저장
2. df_prod2에서 `temp_high_grp`와 `hum_grp`로 `rate`의 평균을 계산한 피벗테이블 생성

### 08. 관측치 부분 선택 및 집계
1. df_prod2에서 `temp_high`가 30 이상이고 `hum`이 70 이상인 관측치만 선택하고 **df_prod3**으로 저장
2. df_prod3에서 전체 불량률 계산(`defective` 합계를 `production` 합계로 나눠 계산)


### 09. 변수 제거 및 이름 변경
1. df_prod2에서 `rain` 제거
2. df_prod2에서 `hum`의 이름을 `humidity`로 변경
> *변수를 제거하고, 변수 이름을 변경하여 원본 데이터를 업데이트*


### 10. 집계값 계산 및 시각화
배우지 않은 내용이 포함되어 있으므로 Google 검색 등을 활용

1. df_prod2에서 `line`을 **category**형식으로 변환

2. df_prod2에서 `factory`, `line`, 그리고 문제 **04** 에서 생성한 `month`를 그룹변수로 활용.  
   세 그룹 변수 수준조합별 `production`의 합계, `defective`의 합계를 계산하고 **df_agg**로 저장  
   (세 그룹 변수를 한번에 `groupby()`에 넣고 집계값 계산)

3. df_agg에서 계산된 `production`의 합계, `defective`의 합계를 활용하여 불량률을 의미하는 변수 `rate` 추가

4. 3.의 df_agg와 라이브러리 seaborn을 활용하여 월별 불량률 추이를 선그래프(lineplot)로 표현하기  
   (가로(x)축에는 `month`, 세로(y)축에는 `rate`를 넣고 `line`별로 색을 다르게 구분)

#### End of script