# 날짜를 이용하여 데이터 조회하기
* 특정 요일에 해당하는 데이터 조회하기

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('data/temperatures.csv')
df.head() #날짜별 온도데이터가 담아져 있는 것을 확인할 수 있음

Unnamed: 0,Date,Temp
0,1981-01-01,20.7
1,1981-01-02,17.9
2,1981-01-03,18.8
3,1981-01-04,14.6
4,1981-01-05,15.8


In [3]:
# 문자열을 Datetime으로 변환하기

df['Date'] = pd.to_datetime(df['Date'], format='%Y-%m-%d') #이 값을 Date컬럼에 업데이트하도록 함
#해당 문자열에 대한 데이터셋을 datetime의 자료형으로 변환하도록 한다.

In [5]:
# 월요일인 데이터 조회

#df[df['Date'].dt.dayofweek == 0] 
df.query('Date.dt.dayofweek == 0') #위 코드와 동일결과를 확인할 수 있음. - 선호하는 코드로 사용하면 됨
#월요일은 0부터 인덱스가 카운팅됨

Unnamed: 0,Date,Temp
4,1981-01-05,15.8
11,1981-01-12,13.3
18,1981-01-19,17.7
25,1981-01-26,18.7
32,1981-02-02,18.8
...,...,...
3621,1990-12-03,16.2
3628,1990-12-10,11.0
3635,1990-12-17,13.9
3642,1990-12-24,10.0


In [9]:
# 월, 수, 금에 해당하는 데이터 조회

dayofweek = [0, 2, 4] #검색하고자하는 해당 인덱스의 값을 리스트에 담아주도록 함
#df[df['Date'].dt.dayofweek.isin(dayofweek)] #지정을 해준 리스트값을 입력으로 넣어주도록 함
# or
df.query('Date.dt.dayofweek in @dayofweek')

Unnamed: 0,Date,Temp
1,1981-01-02,17.9
4,1981-01-05,15.8
6,1981-01-07,15.8
8,1981-01-09,21.8
11,1981-01-12,13.3
...,...,...
3639,1990-12-21,13.1
3642,1990-12-24,10.0
3644,1990-12-26,14.6
3646,1990-12-28,13.6


### - 특정 날짜에 해당하는 데이터 조회하기

In [11]:
# 특정 날짜
target_date = '1981-01-02'
#df[df['Date'] == target_date] 
#인덱스를 통한 해당 선택되어지는 항목을 비교연산자를 이용해서 셋팅해준다면 조건에 
#만족하는 데이터만이 true값을 반환하여 결과를 리턴해주게 될 것임
# or
df.query('Date == @target_date') #쿼리 함수에서 날짜에 대한 문자열 형태로 데이터를 비교할 때는 @를 앞에 붙여줘야함.

Unnamed: 0,Date,Temp
1,1981-01-02,17.9


### - 특정 연도에 해당하는 데이터 조회하기

In [15]:
target_year = 1990 # 1990년
#df[df['Date'].dt.year == target_year]
# or
df.query('Date.dt.year == @target_year') #특정연도에 해당하는 데이터만을 피드백받을 수 있음

Unnamed: 0,Date,Temp
3285,1990-01-01,14.8
3286,1990-01-02,13.3
3287,1990-01-03,15.6
3288,1990-01-04,14.5
3289,1990-01-05,14.3
...,...,...
3645,1990-12-27,14.0
3646,1990-12-28,13.6
3647,1990-12-29,13.5
3648,1990-12-30,15.7


In [18]:
# 특정 월에 해당하는 데이터 조회
target_month = 9
#df[df['Date'].dt.month == target_month]
# or
df.query('Date.dt.month == @target_month')

Unnamed: 0,Date,Temp
243,1981-09-01,8.0
244,1981-09-02,10.3
245,1981-09-03,9.8
246,1981-09-04,9.6
247,1981-09-05,8.5
...,...,...
3553,1990-09-26,9.8
3554,1990-09-27,4.6
3555,1990-09-28,11.1
3556,1990-09-29,8.7


In [20]:
# 특정 일에 해당하는 데이터 조회
target_day = 12
#df[df['Date'].dt.day == target_day]
# or
df.query('Date.dt.day == @target_day')

Unnamed: 0,Date,Temp
11,1981-01-12,13.3
42,1981-02-12,13.9
70,1981-03-12,14.7
101,1981-04-12,11.5
131,1981-05-12,10.6
...,...,...
3508,1990-08-12,8.5
3539,1990-09-12,12.6
3569,1990-10-12,10.3
3600,1990-11-12,12.6


### - 특정 날짜 범위에 해당하는 데이터 조회하기

In [23]:
# 1981년 1월 1일부터 1981년 1월 4일까지 데이터 조회 
#df[(df['Date'] >= '1981-01-01') & (df['Date'] <= '1981-01-04')] #동시만족이기 때문에 논리연산자 &를 활용
# of
df.query('"1981-01-01" <= Date <= "1981-01-04"') 
#쿼리문안에 조건을 걸어줄 때 따옴표로 전달을 해주면 됨. 주의) 날짜에 대한 문자열은 큰따옴표로 구별지어서 표현을 해줘야 함
#논리연산자와 함께 이용했었던 조건을 ***판다스에서만*** 수학에서 살펴봤었던 위와 같은 쿼리문을 지원해준다.

Unnamed: 0,Date,Temp
0,1981-01-01,20.7
1,1981-01-02,17.9
2,1981-01-03,18.8
3,1981-01-04,14.6


In [26]:
# 1987년부터 1989년까지의 데이터 조회

#df[(df['Date'].dt.year >= 1987) & (df['Date'].dt.year <= 1989)]
# or
df.query('1987 <= Date.dt.year <= 1989')

Unnamed: 0,Date,Temp
2190,1987-01-01,12.3
2191,1987-01-02,13.8
2192,1987-01-03,15.3
2193,1987-01-04,15.6
2194,1987-01-05,16.2
...,...,...
3280,1989-12-27,13.3
3281,1989-12-28,11.7
3282,1989-12-29,10.4
3283,1989-12-30,14.4


### - 그룹화하기

In [27]:
# 연도별로 그룹화하기 
#그룹화 이유:컬럼항목에 대한 데이터셋에 공통이 되어지는 항목을 그룹화하여 대표가 되는 값으로 그 의미를 추출하는 것임
df['Year'] = df['Date'].dt.year #새로운 컬럼항목을 추가함 -> Year
df.groupby('Year')['Temp'].aggregate(['max', 'min', 'mean']).reset_index() 
#aggregate: 수치형데이터의 통계학적 의미를 가지는 집계 값을 리턴해주는 기능 (유의미한 정보 출력!!)
#연도별로 출력으로 지정했던 집계값들을 출력해주는 것을 확인할 수 있다.

Unnamed: 0,Year,max,min,mean
0,1981,25.0,2.1,11.51726
1,1982,26.3,0.0,10.783562
2,1983,22.5,0.0,11.187397
3,1984,24.3,0.1,10.591781
4,1985,22.4,0.3,11.137534
5,1986,21.4,0.8,10.803288
6,1987,24.1,1.5,10.853151
7,1988,23.9,2.8,11.972055
8,1989,22.0,0.5,11.261918
9,1990,22.1,2.1,11.669589


In [28]:
# 요일별로 그룹화하기

num_to_day = { #key값은 인덱스로 지정함.
    0: '월요일',
    1: '화요일',
    2: '수요일',
    3: '목요일',
    4: '금요일',
    5: '토요일',
    6: '일요일'
}

df['Day'] = [num_to_day[i] for i in df['Date'].dt.dayofweek] # 요일 컬럼(0~6의 값이 담겨져 있음)
df.groupby('Day')['Temp'].aggregate(['max', 'min', 'mean']).reset_index() 
#요일별 온도의 데이터를 그룹핑함 -> 최댓값, 최솟값, 평균값을 추가 출력하도록 함(인덱스를 추가해서 컬럼으로 출력하고자 함)

Unnamed: 0,Day,max,min,mean
0,금요일,23.9,0.7,11.161877
1,목요일,25.0,0.9,11.19272
2,수요일,25.2,0.3,11.33762
3,월요일,26.3,0.7,11.156238
4,일요일,24.8,0.0,11.028544
5,토요일,23.4,0.0,11.114587
6,화요일,22.5,0.2,11.252975
