# Washing Machine
- 세탁기에서 생성된 Log Data 분석

---

In [None]:
# Visual Python: Data Analysis > Import
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

# 1. 데이터 탐색

### 1.1 CSV 파일 읽어오기

In [None]:
# Visual Python: Data Analysis > File
df = pd.read_csv('./data/washing_machine.csv')
df

### 1.2 데이터 살펴보기

In [None]:
# Visual Python: Data Analysis > Data Info
df.info()

In [None]:
# Visual Python: Data Analysis > Data Info
df.describe()

In [None]:
# Visual Python: Data Analysis > Data Info
df.head()

### 1.3 임의 데이터 생성

> 분석을 위한 임의 변수들을 기존 데이터 프레임에 추가해보자.
>
> 1. 세제량 : 1 ~ 5 임의 생성
> 2. 세탁기 소음 : 40 ~ 70 임의 생성

In [None]:
Detergent  = np.random.randint(1, 6, size=len(df))
NoiseLevel = np.random.randint(40, 71, size=len(df))

In [None]:
# Visual Python: Data Analysis > Frame
df['Detergent'] = Detergent
df['NoiseLevel'] = NoiseLevel
df

### 1.4 컬럼 삭제

In [None]:
# Visual Python: Data Analysis > Frame
df.drop(['category_code','model_name','regist_country'], axis=1, inplace=True)
df

### 1.5 Grouping

- **로그 발생 유형 확인**

In [None]:
# Visual Python: Data Analysis > Data Info
df['event_type'].value_counts()

### 1.6 일시중지('WM_PAUSE') Log가 가장 많은 기계의 device_id 찾기

In [None]:
# Visual Python: Data Analysis > Subset
df.loc[(df['event_type'] == 'WM_PAUSE'), :]

> **Q. 일시중지(WM_PAUSE)인 device_id를 Grouping 해서 개수를 세어보자**

In [None]:
# Visual Python: Data Analysis > Instance
df.loc[(df['event_type'] == 'WM_PAUSE'), 'device_id'].value_counts()

> **Q. 어느 기계(device_id)에 가장 많은 에러('WM_ERROR') Log가 기록되어 있을까?**

In [None]:
# Visual Python: Data Analysis > Instance
df.loc[(df['event_type'] == 'WM_ERROR'), 'device_id'].value_counts()

### 1.8 Log가 많이 생성된 시간대

#### 데이터 타입 변경: String --> Datetime

In [None]:
# Visual Python: Data Analysis > Frame
df['create_dt_utc'] = pd.to_datetime(df['create_dt_utc'])
df

#### 4시간 단위로 Grouping

In [None]:
# Visual Python: Data Analysis > Groupby
freq = df.groupby(pd.Grouper(key='create_dt_utc', freq='4H')).size()
freq

In [None]:
# Visual Python: Library > Pandas Plot
freq.plot(kind='barh', figsize=(15,12))
plt.show()

#### local time으로 변경

In [None]:
from datetime import timedelta
local_time= timedelta(hours=9)

In [None]:
# Visual Python: Data Analysis > Frame
df['create_dt_kst'] = df['create_dt_utc'] + local_time
df

#### 4시간 단위로 Grouping

In [None]:
# Visual Python: Data Analysis > Groupby
freq_kst = df.groupby(pd.Grouper(key='create_dt_kst', freq='4H')).size()
freq_kst

In [None]:
# Visual Python: Library > Pandas Plot
freq_kst.plot(kind='barh', figsize=(15,12))
plt.show()

---

In [None]:
# End of file