# 시애틀 강수량 데이터 분석
- 데이터 로딩
- 필요하지 않은 컬럼 삭제 (STATION, STATION_NAME) 
- DATE를 날짜 형식으로 수정 : 기존 DATE 컬럼의 타입 int -> str로 변경 후 날짜 형식으로 변경 
- 날짜 컬럼을 인덱스로 변경
- 강수량('PRCP')이 많은 날 상위 10일 출력 
- 1월 강수량만 출력
- 1년동안 강수량이 40미만으로 내린 날이 몇일인가?
- 1월에 내린 강수량의 합과 평균 강수량
- 2월에 내린 강수량의 합과 평균 강수량

In [31]:
import numpy as np
import pandas as pd

In [32]:
#데이터 로딩
df = pd.read_csv('Seattle2014.csv')
print(df.shape)
print(df.head())
print(df.info())

(365, 17)
             STATION                                STATION_NAME      DATE  \
0  GHCND:USW00024233  SEATTLE TACOMA INTERNATIONAL AIRPORT WA US  20140101   
1  GHCND:USW00024233  SEATTLE TACOMA INTERNATIONAL AIRPORT WA US  20140102   
2  GHCND:USW00024233  SEATTLE TACOMA INTERNATIONAL AIRPORT WA US  20140103   
3  GHCND:USW00024233  SEATTLE TACOMA INTERNATIONAL AIRPORT WA US  20140104   
4  GHCND:USW00024233  SEATTLE TACOMA INTERNATIONAL AIRPORT WA US  20140105   

   PRCP  SNWD  SNOW  TMAX  TMIN  AWND  WDF2  WDF5  WSF2  WSF5  WT01  WT05  \
0     0     0     0    72    33    12   340   310    36    40 -9999 -9999   
1    41     0     0   106    61    32   190   200    94   116 -9999 -9999   
2    15     0     0    89    28    26    30    50    63    72     1 -9999   
3     0     0     0    78     6    27    40    40    45    58     1 -9999   
4     0     0     0    83    -5    37    10    10    67    76 -9999 -9999   

   WT02  WT03  
0 -9999 -9999  
1 -9999 -9999  
2 -9999 -9

In [33]:
# 필요하지 않은 컬럼 삭제 (STATION, STATION_NAME)
df.drop(['STATION','STATION_NAME'], axis = 1, inplace = True)
print(df.head())

       DATE  PRCP  SNWD  SNOW  TMAX  TMIN  AWND  WDF2  WDF5  WSF2  WSF5  WT01  \
0  20140101     0     0     0    72    33    12   340   310    36    40 -9999   
1  20140102    41     0     0   106    61    32   190   200    94   116 -9999   
2  20140103    15     0     0    89    28    26    30    50    63    72     1   
3  20140104     0     0     0    78     6    27    40    40    45    58     1   
4  20140105     0     0     0    83    -5    37    10    10    67    76 -9999   

   WT05  WT02  WT03  
0 -9999 -9999 -9999  
1 -9999 -9999 -9999  
2 -9999 -9999 -9999  
3 -9999 -9999 -9999  
4 -9999 -9999 -9999  


In [34]:
# DATE를 날짜 형식으로 수정 : 기존 DATE 컬럼의 타입 int -> str로 변경 후 날짜 형식으로 변경 
# df2 = df.copy()
df['DATE'] = pd.to_datetime(df['DATE'].astype('str'))
df['DATE'] = pd.to_datetime(df['DATE'], format = '%Y%m%d')
print(df.head())


        DATE  PRCP  SNWD  SNOW  TMAX  TMIN  AWND  WDF2  WDF5  WSF2  WSF5  \
0 2014-01-01     0     0     0    72    33    12   340   310    36    40   
1 2014-01-02    41     0     0   106    61    32   190   200    94   116   
2 2014-01-03    15     0     0    89    28    26    30    50    63    72   
3 2014-01-04     0     0     0    78     6    27    40    40    45    58   
4 2014-01-05     0     0     0    83    -5    37    10    10    67    76   

   WT01  WT05  WT02  WT03  
0 -9999 -9999 -9999 -9999  
1 -9999 -9999 -9999 -9999  
2     1 -9999 -9999 -9999  
3     1 -9999 -9999 -9999  
4 -9999 -9999 -9999 -9999  


In [35]:
# 날짜 컬럼을 인덱스로 변경
df.set_index('DATE', inplace=True)
print(df)

            PRCP  SNWD  SNOW  TMAX  TMIN  AWND  WDF2  WDF5  WSF2  WSF5  WT01  \
DATE                                                                           
2014-01-01     0     0     0    72    33    12   340   310    36    40 -9999   
2014-01-02    41     0     0   106    61    32   190   200    94   116 -9999   
2014-01-03    15     0     0    89    28    26    30    50    63    72     1   
2014-01-04     0     0     0    78     6    27    40    40    45    58     1   
2014-01-05     0     0     0    83    -5    37    10    10    67    76 -9999   
...          ...   ...   ...   ...   ...   ...   ...   ...   ...   ...   ...   
2014-12-27    33     0     0    94    44    49   210   210   112   161     1   
2014-12-28    41     0     0    67    28    18    50    30    58    72     1   
2014-12-29     0     0     0    61     6    43   350   350    76   103     1   
2014-12-30     0     0     0    33   -21    36    90    70    63    76 -9999   
2014-12-31     0     0     0    33   -27

In [36]:
# 강수량('PRCP')이 많은 날 상위 10일 출력 
print(df.sort_values('PRCP', ascending=False)[['PRCP']].head(10))

            PRCP
DATE            
2014-03-05   467
2014-11-28   343
2014-05-03   333
2014-03-08   323
2014-10-22   320
2014-03-16   277
2014-02-16   264
2014-10-30   254
2014-03-28   221
2014-08-13   216


In [37]:
# 1월 강수량만 출력
print(df.index.month)
print(df['PRCP'][df.index.month ==1 ])

Index([ 1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
       ...
       12, 12, 12, 12, 12, 12, 12, 12, 12, 12],
      dtype='int32', name='DATE', length=365)
DATE
2014-01-01      0
2014-01-02     41
2014-01-03     15
2014-01-04      0
2014-01-05      0
2014-01-06      3
2014-01-07    122
2014-01-08     97
2014-01-09     58
2014-01-10     43
2014-01-11    213
2014-01-12     15
2014-01-13      0
2014-01-14      0
2014-01-15      0
2014-01-16      0
2014-01-17      0
2014-01-18      0
2014-01-19      0
2014-01-20      0
2014-01-21      0
2014-01-22      5
2014-01-23      0
2014-01-24      0
2014-01-25      0
2014-01-26      0
2014-01-27      0
2014-01-28     89
2014-01-29    216
2014-01-30      0
2014-01-31     23
Name: PRCP, dtype: int64


In [38]:
# 1년동안 강수량이 40미만으로 내린 날이 몇일인가?
print(np.sum(df['PRCP']<40))

277


In [40]:
print(len(df[df['PRCP']<40]))

277


In [46]:
# 1월에 내린 강수량의 합과 평균 강수량
print(df['PRCP'][df.index.month == 1].agg(['sum','mean']).apply(lambda x:np.round(x,2)))

sum     940.00
mean     30.32
Name: PRCP, dtype: float64
