# 시애틀 강수량 데이터 분석
- 데이터 로딩
- 필요하지 않은 컬럼 삭제 (STATION, STATION_NAME)
- DATE를 날짜 형식으로 수정 : 기존 DATE 컬럼의 타입 int -> str로 변경 후 날짜 형식으로 변경
- 날짜 컬럼을 인덱스로 변경
- 강수량('PRCP')이 많은 날 상위 10일 출력
- 1월 강수량만 출력
- 1년동안 강수량이 40미만으로 내린 날이 몇일인가?
- 1월에 내린 강수량의 합과 평균 강수량
- 2월에 내린 강수량의 합과 평균 강수량

In [37]:
import numpy as np
import pandas as pd

In [56]:
data = pd.read_csv('Seattle2014.csv')

# 필요하지 않은 컬럼 삭제 (STATION, STATION_NAME)
data.drop(['STATION','STATION_NAME'], axis=1, inplace=True)   # inplace 속성 지정해 true 넣을 경우, 처리 결과 반환 x

#DATE를 날짜 형식으로 수정 : 기존 DATE 컬럼의 타입 int -> str로 변경 후 날짜 형식으로 변경
# data['DATE'] = pd.to_datetime(data['DATE'].astype(str))
data['DATE'] = pd.to_datetime(data['DATE'], format='%Y%m%d')
print(data.head())

        DATE  PRCP  SNWD  SNOW  TMAX  TMIN  AWND  WDF2  WDF5  WSF2  WSF5  \
0 2014-01-01     0     0     0    72    33    12   340   310    36    40   
1 2014-01-02    41     0     0   106    61    32   190   200    94   116   
2 2014-01-03    15     0     0    89    28    26    30    50    63    72   
3 2014-01-04     0     0     0    78     6    27    40    40    45    58   
4 2014-01-05     0     0     0    83    -5    37    10    10    67    76   

   WT01  WT05  WT02  WT03  
0 -9999 -9999 -9999 -9999  
1 -9999 -9999 -9999 -9999  
2     1 -9999 -9999 -9999  
3     1 -9999 -9999 -9999  
4 -9999 -9999 -9999 -9999  


In [57]:
# 날짜 컬럼을 인덱스로 변경
data.set_index('DATE', inplace=True)
print(data.head())

            PRCP  SNWD  SNOW  TMAX  TMIN  AWND  WDF2  WDF5  WSF2  WSF5  WT01  \
DATE                                                                           
2014-01-01     0     0     0    72    33    12   340   310    36    40 -9999   
2014-01-02    41     0     0   106    61    32   190   200    94   116 -9999   
2014-01-03    15     0     0    89    28    26    30    50    63    72     1   
2014-01-04     0     0     0    78     6    27    40    40    45    58     1   
2014-01-05     0     0     0    83    -5    37    10    10    67    76 -9999   

            WT05  WT02  WT03  
DATE                          
2014-01-01 -9999 -9999 -9999  
2014-01-02 -9999 -9999 -9999  
2014-01-03 -9999 -9999 -9999  
2014-01-04 -9999 -9999 -9999  
2014-01-05 -9999 -9999 -9999  


In [51]:
# 강수량('PRCP')이 많은 날 상위 10일 출력
print(data.sort_values('PRCP', ascending=False))
print(data.head(10))

            PRCP  SNWD  SNOW  TMAX  TMIN  AWND  WDF2  WDF5  WSF2  WSF5  WT01  \
DATE                                                                           
2014-03-05   467     0     0   156   106    39   190   200   112   157     1   
2014-11-28   343     0     0   128    33    58    10    10   103   143     1   
2014-05-03   333     0     0   150    89    34   210   200    98   130     1   
2014-03-08   323     0     0   128    67    27   200   210    76   103     1   
2014-10-22   320     0     0   156   117    50   200   130    81   125     1   
2014-03-16   277     0     0   106    44    38   230   240    76   103     1   
2014-02-16   264     0     0    94    39    79   230   220   130   183     1   
2014-10-30   254     0     0   156   111    32   100   110    72    94     1   
2014-03-28   221     0     0   117    72    39   240   210    89   107     1   
2014-08-13   216     0     0   233   150    27   200   200    63    63     1   

            WT05  WT02  WT03  
DATE    

In [54]:
# 1월 강수량만 출력
print(data['PRCP'][data.index.month ==1])

DATE
2014-01-29    216
2014-01-11    213
2014-01-07    122
2014-01-08     97
2014-01-28     89
2014-01-09     58
2014-01-10     43
2014-01-02     41
2014-01-31     23
2014-01-03     15
2014-01-12     15
2014-01-22      5
2014-01-06      3
2014-01-01      0
2014-01-25      0
2014-01-16      0
2014-01-26      0
2014-01-04      0
2014-01-05      0
2014-01-13      0
2014-01-14      0
2014-01-15      0
2014-01-17      0
2014-01-18      0
2014-01-19      0
2014-01-20      0
2014-01-21      0
2014-01-23      0
2014-01-24      0
2014-01-27      0
2014-01-30      0
Name: PRCP, dtype: int64


In [58]:
# 1년동안 강수량이 40미만으로 내린 날이 몇일인가?
print(np.sum(data['PRCP'] < 40))

277


In [61]:
print(len(data[data['PRCP'] < 40]))

277


In [65]:
# 1월에 내린 강수량의 합과 평균 강수량
print(data['PRCP'][data.index.month ==1].agg(['sum','mean']).apply(lambda x : np.round(x,2)))

sum     940.00
mean     30.32
Name: PRCP, dtype: float64


In [63]:
# 2월에 내린 강수량의 합과 평균 강수량
print(data['PRCP'][data.index.month ==2].agg(['sum','mean']))

sum     1552.000000
mean      55.428571
Name: PRCP, dtype: float64
