In [1]:
import pandas as pd
import numpy as np


# read_csv()에서 encoding를 지정하지 않으면 'utf-8'로 간주한다. 즉, default=='utf-8'
# csv 파일내에 'null' 문자열이 존재함 --> na_values 지정을 해결함.
df = pd.read_csv('1.date_data.csv'
                 , encoding ='euc-kr'
                 , na_values=['null']
                 ,dtype={'collect_date':str, 
                         '급기풍량':np.float64,   
                         '환수유량': np.float64,   
                         '환기온도':np.float64}
                )



In [2]:
df.head()

Unnamed: 0,collect_date,급기풍량,환수유량,환기온도
0,2017-11-01 0:00,16.802,0.477,18.87
1,2017-11-01 0:15,19.102,0.493,18.64
2,2017-11-01 0:30,16.802,0.477,18.58
3,2017-11-01 0:45,16.802,0.493,18.49
4,2017-11-01 1:00,19.102,0.46,18.41


In [3]:
df.describe()

Unnamed: 0,급기풍량,환수유량,환기온도
count,5765.0,5768.0,5769.0
mean,2551.70899,106.88625,16.838487
std,6498.661862,133.393844,7.007271
min,9.896,0.0,3.04
25%,22.556,0.127,10.38
50%,26.008,0.627,17.1
75%,31.762,265.331,23.98
max,31117.389,398.483,27.01


### Date 연산, 처리
#### strptime() - 문자열을 파싱해서 date타입으로 변환
#### strftime() - date타입을 문자열로 변환

In [11]:
import datetime

d = datetime.datetime.strptime('2019-01-23 19:30', '%Y-%m-%d %H:%M')
print(d)
print(d.weekday()) # 0==월요일, 5==토요일,6==일요일

2019-01-23 19:30:00
2


In [12]:
print(d.strftime("%H시 %M분 %S초"))


19시 30분 00초


In [14]:
onehour = datetime.timedelta(hours=1)
print(d+onehour)


2019-01-23 20:30:00


In [None]:
oneday = datetime.timedelta(days=1)
print(d+oneday)

In [17]:
for i in range(7):
    print(d + datetime.timedelta(days=i))

2019-01-23 19:30:00
2019-01-24 19:30:00
2019-01-25 19:30:00
2019-01-26 19:30:00
2019-01-27 19:30:00
2019-01-28 19:30:00
2019-01-29 19:30:00


###  요일 처리, 요일 이름을 한글로

In [44]:
# 'csv'파일의  첫번째 컬럼 이름이 'collect_date'로 되어 있다
# 날짜 시간으로 부터 요일을 구하자

# 일단 '2017-11-01 0:00' 문자열로부터 요일을 구하는 함수를 정의(define)한다.
# def xxxx()는 함수를 정의하는 것. 함수가 실행되는 것은 아님.
def get_dayofweek_int(datestr):
  # 파일내의 시간정보 포맷: 2017-11-01 0:00
  dinfo = datetime.datetime.strptime(datestr, '%Y-%m-%d %H:%M')
  # dinfo.weekday() 가 요일.  5==토요일,6==일요일,
  # 아래의 print는 디버깅용. 실행할때는 comment out 하는 것이 좋음.
  #print(datestr, '-->', dinfo.weekday())
  return dinfo.weekday()

In [45]:
# 요일의 한글이름  
def get_dayofweek_hangul(datestr):
  hangul_weekday = ['월', '화', '수', '목', '금', '토', '일'] 
  dinfo = datetime.datetime.strptime(datestr, '%Y-%m-%d %H:%M')
  return hangul_weekday[dinfo.weekday()]

In [46]:
# 컬럼이 주어지면 그 컬럼의 min,max,std 출력
def print_info_column(col):
  #print(type(col))
  print('# 컬럼', col.name, end='\t')
  print('MAX: %.1f' % col.max(), end=' ')
  print('MIN: %.1f' % col.min(), end=' ')
  print('AVG: %.1f' % col.mean(), end=' ')
  print('STD: %.1f' % col.std(), end='\n')

### map() 활용 - 칼럼값에 대한 연산 수행
#### 요일 컬럼을 새로 만든다


In [56]:
  
df.fillna(0) # excel 에서 null 필드는 0로 채워라
df['DAYWEEK'] = df.collect_date.map(get_dayofweek_int) #DAYWEEK 필드의 값을 복사해서 파싱해라
df['요일'] = df.collect_date.map(get_dayofweek_int)


In [52]:
df.head(10)

Unnamed: 0,collect_date,급기풍량,환수유량,환기온도,DAYWEEK,요일
0,2017-11-01 0:00,16.802,0.477,18.87,2,2
1,2017-11-01 0:15,19.102,0.493,18.64,2,2
2,2017-11-01 0:30,16.802,0.477,18.58,2,2
3,2017-11-01 0:45,16.802,0.493,18.49,2,2
4,2017-11-01 1:00,19.102,0.46,18.41,2,2
5,2017-11-01 1:15,19.102,0.427,18.36,2,2
6,2017-11-01 1:30,16.802,0.493,18.29,2,2
7,2017-11-01 1:45,16.802,0.477,18.25,2,2
8,2017-11-01 2:00,17.953,0.427,18.22,2,2
9,2017-11-01 2:15,16.802,0.443,18.18,2,2


In [54]:
### 일요일만 출력해보자
df[df.요일 == '일'].head()

TypeError: invalid type comparison

In [38]:
df[df[''] == '일'].head()

TypeError: invalid type comparison

In [43]:
### 요일별로 해보자
for wday in hangul_weekday:
  print('\n## 요일:', wday)
  # 특정 요일별
  df_per_wday = df[ (df.요일 == wday) ]
  print_info_column(df_per_wday.급기풍량)
  print_info_column(df_per_wday.환수유량)

print_info_column(df_per_wday.환기온도)

IndentationError: unindent does not match any outer indentation level (<tokenize>, line 4)

In [None]:
import matplotlib.pyplot as plt
## 요일별 라인을 그리기 위해.
def draw_lines(xypairs, title):
  fig, ax = plt.subplots()
  
  for X, Y, label in xypairs:
    ax.plot(X, Y, label=label)
  ax.set_xlabel('X')
  ax.set_ylabel('Y')
  ax.set_title(title)
  plt.legend()
  plt.show()
  

### 요일별로 라인 차트 그려보자


fig, ax = plt.subplots()
for i, wday in enumerate(hangul_weekday):
  df_per_wday = df[ (df.요일 == wday) & (df.collect_date >= '2017-12-01') ]
  ax.plot(df_per_wday.급기풍량.values, label=i)
  
plt.legend()
plt.show()
