# 시애틀 강수량 데이터 분석
- 데이터 로딩
- 필요하지 않은 컬럼 삭제 (STATION, STATION_NAME)
- DATE를 날짜 형식으로 수정 : 기존 DATE 컬럼의 타입 int -> str로 변경 후 날짜 형식으로 변경
- 날짜 컬럼을 인덱스로 변경
- 강수량('PRCP')이 많은 날 상위 10일 출력
- 1월 강수량만 출력
- 1년동안 강수량이 40미만으로 내린 날이 몇일인가?
- 1월에 내린 강수량의 합과 평균 강수량
- 2월에 내린 강수량의 합과 평균 강수량

## 데이터 로딩, 모양 및 정보 확인

In [70]:
import pandas as pd
import numpy as np

df = pd.read_csv('Seattle2014.csv')
df.head()
df.tail()
df.info()
df.sample()
df.shape

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 17 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   STATION       365 non-null    object
 1   STATION_NAME  365 non-null    object
 2   DATE          365 non-null    int64 
 3   PRCP          365 non-null    int64 
 4   SNWD          365 non-null    int64 
 5   SNOW          365 non-null    int64 
 6   TMAX          365 non-null    int64 
 7   TMIN          365 non-null    int64 
 8   AWND          365 non-null    int64 
 9   WDF2          365 non-null    int64 
 10  WDF5          365 non-null    int64 
 11  WSF2          365 non-null    int64 
 12  WSF5          365 non-null    int64 
 13  WT01          365 non-null    int64 
 14  WT05          365 non-null    int64 
 15  WT02          365 non-null    int64 
 16  WT03          365 non-null    int64 
dtypes: int64(15), object(2)
memory usage: 48.6+ KB


(365, 17)

In [58]:
np.sum(df.isna())   # 각 컬럼별 결측치값 확인

STATION         0
STATION_NAME    0
DATE            0
PRCP            0
SNWD            0
SNOW            0
TMAX            0
TMIN            0
AWND            0
WDF2            0
WDF5            0
WSF2            0
WSF5            0
WT01            0
WT05            0
WT02            0
WT03            0
dtype: int64

## 필요하지 않은 컬럼 삭제

In [71]:
df = df.drop('STATION', axis=1)
df = df.drop('STATION_NAME', axis=1)
# df.drop(['STATION', 'STATION_NAME'], axis=1, inplace=True)

df.head()

Unnamed: 0,DATE,PRCP,SNWD,SNOW,TMAX,TMIN,AWND,WDF2,WDF5,WSF2,WSF5,WT01,WT05,WT02,WT03
0,20140101,0,0,0,72,33,12,340,310,36,40,-9999,-9999,-9999,-9999
1,20140102,41,0,0,106,61,32,190,200,94,116,-9999,-9999,-9999,-9999
2,20140103,15,0,0,89,28,26,30,50,63,72,1,-9999,-9999,-9999
3,20140104,0,0,0,78,6,27,40,40,45,58,1,-9999,-9999,-9999
4,20140105,0,0,0,83,-5,37,10,10,67,76,-9999,-9999,-9999,-9999


## DATE를 날짜 형식으로 수정 : 기존 DATE 컬럼의 타입 int -> str로 변경 후 날짜 형식으로 변경

In [73]:
df['DATE'] = df['DATE'].astype('str')  # str로 변경
df.dtypes

df['DATE'] = pd.to_datetime(df['DATE'])#, format='%Y%m%d')   # 날짜 형식으로 변경
df.head()

Unnamed: 0,DATE,PRCP,SNWD,SNOW,TMAX,TMIN,AWND,WDF2,WDF5,WSF2,WSF5,WT01,WT05,WT02,WT03
0,2014-01-01,0,0,0,72,33,12,340,310,36,40,-9999,-9999,-9999,-9999
1,2014-01-02,41,0,0,106,61,32,190,200,94,116,-9999,-9999,-9999,-9999
2,2014-01-03,15,0,0,89,28,26,30,50,63,72,1,-9999,-9999,-9999
3,2014-01-04,0,0,0,78,6,27,40,40,45,58,1,-9999,-9999,-9999
4,2014-01-05,0,0,0,83,-5,37,10,10,67,76,-9999,-9999,-9999,-9999


## 날짜 컬럼을 인덱스로 변경

In [74]:
df.set_index('DATE', inplace=True)  # 컬럼을 인덱스로 변경
df.head()

Unnamed: 0_level_0,PRCP,SNWD,SNOW,TMAX,TMIN,AWND,WDF2,WDF5,WSF2,WSF5,WT01,WT05,WT02,WT03
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
2014-01-01,0,0,0,72,33,12,340,310,36,40,-9999,-9999,-9999,-9999
2014-01-02,41,0,0,106,61,32,190,200,94,116,-9999,-9999,-9999,-9999
2014-01-03,15,0,0,89,28,26,30,50,63,72,1,-9999,-9999,-9999
2014-01-04,0,0,0,78,6,27,40,40,45,58,1,-9999,-9999,-9999
2014-01-05,0,0,0,83,-5,37,10,10,67,76,-9999,-9999,-9999,-9999


##  강수량('PRCP')이 많은 날 상위 10일 출력

In [75]:
# answer
df.sort_values(by='PRCP', ascending=False)[['PRCP']].head(10)
# 강수량 기준으로 내림차순 정렬후, 강수량 컬럼을 상위 10개만 데이터프레임으로 읽어오기

Unnamed: 0_level_0,PRCP
DATE,Unnamed: 1_level_1
2014-03-05,467
2014-11-28,343
2014-05-03,333
2014-03-08,323
2014-10-22,320
2014-03-16,277
2014-02-16,264
2014-10-30,254
2014-03-28,221
2014-08-13,216


In [49]:
df.sort_values('PRCP', ascending=False, inplace=True)
df.head()

print(df[['PRCP']][:10])

            PRCP
DATE            
2014-03-05   467
2014-11-28   343
2014-05-03   333
2014-03-08   323
2014-10-22   320
2014-03-16   277
2014-02-16   264
2014-10-30   254
2014-03-28   221
2014-08-13   216


## 1월 강수량만 출력

In [None]:
# answer
df['PRCP'][df.index.month == 1]

In [41]:
df[df.index.month == 1]['PRCP']

DATE
2014-01-01      0
2014-01-02     41
2014-01-03     15
2014-01-04      0
2014-01-05      0
2014-01-06      3
2014-01-07    122
2014-01-08     97
2014-01-09     58
2014-01-10     43
2014-01-11    213
2014-01-12     15
2014-01-13      0
2014-01-14      0
2014-01-15      0
2014-01-16      0
2014-01-17      0
2014-01-18      0
2014-01-19      0
2014-01-20      0
2014-01-21      0
2014-01-22      5
2014-01-23      0
2014-01-24      0
2014-01-25      0
2014-01-26      0
2014-01-27      0
2014-01-28     89
2014-01-29    216
2014-01-30      0
2014-01-31     23
Name: PRCP, dtype: int64

## 1년동안 강수량이 40미만으로 내린 날이 몇일인가?

In [65]:
np.sum(df['PRCP'] < 40)

277

In [66]:
df[df['PRCP'] < 40]['PRCP'].count()  # null값 포함x

277

In [67]:
df[df['PRCP'] < 40].shape[0]  # shape -> 튜플값(행,열), 그 중에서 행값(총레코드수)을 읽어오기

277

In [54]:
# value_counts: 명목형 데이터에서만 사용 
len(df[df['PRCP'] < 40])

277

## 1월에 내린 강수량의 합과 평균 강수량

In [69]:
df[df.index.month == 1]['PRCP'].agg(['sum', 'mean']).apply(lambda x : np.round(x,2))
# 합과 평균을 agg로 한번에 가져오기
# apply로 평균값출력 형식 지정(소수점 둘째자리까지)

sum     940.00
mean     30.32
Name: PRCP, dtype: float64

In [47]:
hap = df[df.index.month == 1]['PRCP'].sum()
avg = df[df.index.month == 1]['PRCP'].mean()
print(f'강수량의 합: {hap}, 평균 강수량: {avg:.2f}')

강수량의 합: 940, 평균 강수량: 30.32


## 2월에 내린 강수량의 합과 평균

In [48]:
hap2 = df[df.index.month == 2]['PRCP'].sum()
avg2 = df[df.index.month == 2]['PRCP'].mean()
print(f'강수량의 합: {hap2}, 평균 강수량: {avg2:.2f}')

강수량의 합: 1552, 평균 강수량: 55.43
