In [1]:
import pandas as pd
import numpy as np
import datetime

#
hangul_weekday = ['월', '화', '수', '목', '금', '토', '일']

# read_csv()에서 encoding를 지정하지 않으면 'utf-8'로 간주한다. 즉, default=='utf-8'
# csv 파일내에 'null' 문자열이 존재함 --> na_values 지정을 해결함.
df = pd.read_csv('sk_train_data.csv'
                 ,encoding='euc-kr'
                  ,na_values=['null']
                 ,dtype={'collect_date':str, '급기풍량':np.float64,   '환수유량': np.float64,   '환기온도':np.float64}
                )



In [2]:
print(df[:10])


      collect_date    급기풍량   환수유량   환기온도
0  2017-11-01 0:00  16.802  0.477  18.87
1  2017-11-01 0:15  19.102  0.493  18.64
2  2017-11-01 0:30  16.802  0.477  18.58
3  2017-11-01 0:45  16.802  0.493  18.49
4  2017-11-01 1:00  19.102  0.460  18.41
5  2017-11-01 1:15  19.102  0.427  18.36
6  2017-11-01 1:30  16.802  0.493  18.29
7  2017-11-01 1:45  16.802  0.477  18.25
8  2017-11-01 2:00  17.953  0.427  18.22
9  2017-11-01 2:15  16.802  0.443  18.18


In [3]:
print(df[:10].급기풍량)

0    16.802
1    19.102
2    16.802
3    16.802
4    19.102
5    19.102
6    16.802
7    16.802
8    17.953
9    16.802
Name: 급기풍량, dtype: float64


In [4]:
# 'sk_train_data.csv'파일의  첫번째 컬럼 이름이 'collect_date'로 되어 있다
# 날짜 시간으로 부터 요일을 구하자

# 일단 '2017-11-01 0:00' 문자열로부터 요일을 구하는 함수를 정의(define)한다.
# def xxxx()는 함수를 정의하는 것. 함수가 실행되는 것은 아님.
def get_dayofweek(datestr):
  # 파일내의 시간정보 포맷: 2017-11-01 0:00
  dinfo = datetime.datetime.strptime(datestr, '%Y-%m-%d %H:%M')
  # dinfo.weekday() 가 요일.  5==토요일,6==일요일,
  # 아래의 print는 디버깅용. 실행할때는 comment out 하는 것이 좋음.
  #print(datestr, '-->', dinfo.weekday())
  return dinfo.weekday()

In [6]:
# 요일의 한글이름  
def get_dayofweek2(datestr):
  dinfo = datetime.datetime.strptime(datestr, '%Y-%m-%d %H:%M')
  return hangul_weekday[dinfo.weekday()]

In [7]:
# 컬럼이 주어지면 그 컬럼의 min,max,std 출력
def print_info_column(col):
  #print(type(col))
  print('# 컬럼', col.name)
  print('\tMAX:', col.max(), end=' ')
  print('MIN:', col.min(), end=' ')
  print('AVG:', col.mean(), end=' ')
  print('STD:', col.std(), end='\n')

In [8]:
  
## 요일 컬럼을 새로 만든다
df.fillna(0)
df['DAYWEEK'] = df.collect_date.map(get_dayofweek)
df['요일'] = df.collect_date.map(get_dayofweek2)


In [9]:
print(df[:10]['요일'])

0    수
1    수
2    수
3    수
4    수
5    수
6    수
7    수
8    수
9    수
Name: 요일, dtype: object


In [10]:
### 요일별로 해보자
for wday in hangul_weekday:
  print('\n## 요일:', wday)
  # 특정 요일별
  df_per_wday = df[ (df.요일 == wday) ]
  print_info_column(df_per_wday.급기풍량)
  print_info_column(df_per_wday.환수유량)

print_info_column(df_per_wday.환기온도)


## 요일: 월
# 컬럼 급기풍량
	MAX: 26610.826 MIN: 14.499 AVG: 2930.0336176870646 STD: 6435.060207530104
# 컬럼 환수유량
	MAX: 346.693 MIN: 0.0 AVG: 123.81410204081628 STD: 132.2187443317372

## 요일: 화
# 컬럼 급기풍량
	MAX: 25236.76 MIN: 13.35 AVG: 3140.563477864573 STD: 6985.292395099606
# 컬럼 환수유량
	MAX: 385.298 MIN: 0.0 AVG: 153.15609765625007 STD: 139.0982488819151

## 요일: 수
# 컬럼 급기풍량
	MAX: 26662.611 MIN: 12.198 AVG: 3176.536291860456 STD: 6906.594729701823
# 컬럼 환수유량
	MAX: 377.28 MIN: 0.0 AVG: 143.70628455284566 STD: 137.24306898202119

## 요일: 목
# 컬럼 급기풍량
	MAX: 30951.672 MIN: 11.047 AVG: 3455.2507488425795 STD: 7605.360303917516
# 컬럼 환수유량
	MAX: 398.483 MIN: 0.0 AVG: 143.11547685185175 STD: 141.43085335923237

## 요일: 금
# 컬럼 급기풍량
	MAX: 31117.389 MIN: 9.896 AVG: 3244.827334106719 STD: 7223.890090950139
# 컬럼 환수유량
	MAX: 348.276 MIN: 0.0 AVG: 129.46048319814594 STD: 137.3237674621951

## 요일: 토
# 컬럼 급기풍량
	MAX: 24947.906 MIN: 14.499 AVG: 421.6071657010417 STD: 2859.387756859467
# 컬럼 환수유량
	MAX: 392.933 MIN: 0.0 AVG

In [11]:
import matplotlib.pyplot as plt
## 요일별 라인을 그리기 위해.
def draw_lines(xypairs, title):
  fig, ax = plt.subplots()
  
  for X, Y, label in xypairs:
    ax.plot(X, Y, label=label)
  ax.set_xlabel('X')
  ax.set_ylabel('Y')
  ax.set_title(title)
  plt.legend()
  plt.show()
  

### 요일별로 라인 차트 그려보자


fig, ax = plt.subplots()
for i, wday in enumerate(hangul_weekday):
  df_per_wday = df[ (df.요일 == wday) & (df.collect_date >= '2017-12-01') ]
  ax.plot(df_per_wday.급기풍량.values, label=i)
  
plt.legend()
plt.show()


<matplotlib.figure.Figure at 0x7f610467d6a0>