# 대기환경 데이터 전처리
- numpy와 pandas를 활용해 충청북도의 대기환경 데이터를 가공
- 데이터 출처: 에어코리아

In [1]:
import pandas as pd
import numpy as np

'air_19_1.csv' 파일을 데이터프레임으로 읽어주세요. encoding은 'CP949'입니다.

In [30]:
air = pd.read_csv("air_19_1.csv",encoding="CP949")

결측값을 확인해주세요

In [31]:
air.isnull().sum()

지역          0
망           0
측정소코드       0
측정소명        0
측정일시        0
SO2      3399
CO       3427
O3       2640
NO2      2743
PM10     2787
PM25     3368
주소          0
dtype: int64

모든 결측값을 0으로 바꿔주세요.

In [32]:
air = air.fillna(0)

In [33]:
air.isnull().sum()

지역       0
망        0
측정소코드    0
측정소명     0
측정일시     0
SO2      0
CO       0
O3       0
NO2      0
PM10     0
PM25     0
주소       0
dtype: int64

SO2, CO, O3, NO2, PM10, PM25 컬럼의 이름을 아황산가스, 일산화탄소, 오존, 이산화질소, 미세먼지, 초미세먼지로 바꿔주세요

In [34]:
air.rename({"SO2":"아황산가스",
           "CO":"일산화탄소",
           "O3":"오존",
          "NO2":"이산화질소",
          "PM10":"미세먼지",
          "PM25":"초미세먼지"},axis=1,inplace=True)

측정일시 컬럼에서 연도, 월, 일을 추출해 연도, 월, 일 컬럼을 새로 생성해주세요. (힌트: map 사용)

In [35]:
air['연도'] = air.측정일시.astype('str').map(lambda x:x[:4])
air['월'] = air.측정일시.astype('str').map(lambda x:x[4:6])
air['일'] = air.측정일시.astype('str').map(lambda x:x[6:8])

air에서 '측정소명', '측정일시','주소' 컬럼을 삭제해주세요.

In [36]:
air.drop(["측정소명","측정일시","주소"],axis=1,inplace=True)

In [37]:
air.head()

Unnamed: 0,지역,망,측정소코드,아황산가스,일산화탄소,오존,이산화질소,미세먼지,초미세먼지,연도,월,일
0,충북 괴산군,교외대기,633361,0.0001,0.4,0.017,0.0048,49.0,0.0,2019,1,29
1,충북 괴산군,교외대기,633361,0.0001,0.4,0.017,0.0051,46.0,0.0,2019,1,29
2,충북 괴산군,교외대기,633361,0.0002,0.5,0.018,0.0051,63.0,0.0,2019,1,29
3,충북 괴산군,교외대기,633361,0.0002,0.4,0.016,0.0058,47.0,0.0,2019,1,29
4,충북 괴산군,교외대기,633361,0.0002,0.5,0.017,0.0053,58.0,0.0,2019,1,29


air 데이터를 측정소코드, 연도, 월, 일을 기준으로 오름차순 정렬해주세요.

In [38]:
air.sort_values(by=["측정소코드","연도","월","일"],inplace=True)

정렬을 하면서 인덱스가 뒤섞였습니다. 데이터의 인덱스를 0부터 15133까지 숫자로 초기화해주세요.

In [39]:
air = air.reset_index()

groupby를 이용해 지역별 미세먼지 평균을 구하고, 구한 데이터프레임을 dust 변수에 할당하세요. 

In [44]:
air.head()

Unnamed: 0,index,지역,망,측정소코드,아황산가스,일산화탄소,오존,이산화질소,미세먼지,초미세먼지,연도,월,일
0,4803,충북 청주시,도시대기,533112,0.004,0.3,0.024,0.012,35.0,28.0,2019,1,1
1,8009,충북 청주시,도시대기,533112,0.005,0.5,0.023,0.012,41.0,35.0,2019,1,1
2,8015,충북 청주시,도시대기,533112,0.005,0.4,0.02,0.013,42.0,34.0,2019,1,1
3,8016,충북 청주시,도시대기,533112,0.005,0.5,0.021,0.012,48.0,31.0,2019,1,1
4,8035,충북 청주시,도시대기,533112,0.005,0.4,0.018,0.013,34.0,25.0,2019,1,1


In [45]:
dust = air.groupby(["지역"]).agg({"미세먼지":"mean"})

In [46]:
dust

Unnamed: 0_level_0,미세먼지
지역,Unnamed: 1_level_1
충북 괴산군,29.293011
충북 단양군,63.723118
충북 보은군,70.123656
충북 영동군,63.575269
충북 옥천군,63.645161
충북 음성군,54.445892
충북 제천시,69.53629
충북 증평군,68.663978
충북 진천군,68.592742
충북 청주시,55.50168


dust의 인덱스는 '지역'입니다. 인덱스를 컬럼으로 빼주세요.

In [47]:
dust.reset_index()

Unnamed: 0,지역,미세먼지
0,충북 괴산군,29.293011
1,충북 단양군,63.723118
2,충북 보은군,70.123656
3,충북 영동군,63.575269
4,충북 옥천군,63.645161
5,충북 음성군,54.445892
6,충북 제천시,69.53629
7,충북 증평군,68.663978
8,충북 진천군,68.592742
9,충북 청주시,55.50168


dust에서, 충북 전체의 미세먼지 평균 초과의 지역만 추출해 dust2에 할당해주세요.

In [53]:
dust2 = dust[dust["미세먼지"]>dust.미세먼지.mean()]

groupby를 이용해 지역별 오존 평균을 구하고, 구한 데이터프레임을 ozon 변수에 할당하세요.

In [56]:
ozon = air.groupby(["지역"]).agg({"오존":"mean"})

dust2와 ozon을 병합하되, 두 데이터에 모두 있는 지역만 병합해주세요. 

In [59]:
merged = pd.merge(dust2, ozon, left_index=True, right_on='지역', how='inner')

병합한 데이터를 한글이 깨지지 않게 csv로 저장해주세요. 

In [60]:
merged.to_csv('지역별 미세먼지,오존.csv', index=False,encoding='utf-8')

인덱스는 일(day), 컬럼은 지역이고 값은 미세먼지의 평균인 피벗 테이블을 생성해주세요.

In [70]:
piv = pd.pivot_table(air, index='일', columns='지역', values= '미세먼지', aggfunc='mean')

지역 컬럼을 기준으로 오름차순(가나다 순)으로 정렬해주세요.
(힌트: 정렬 기준은 piv.columns.tolist().sort() 사용 )

In [71]:
piv.columns.tolist().sort()
piv

지역,충북 괴산군,충북 단양군,충북 보은군,충북 영동군,충북 옥천군,충북 음성군,충북 제천시,충북 증평군,충북 진천군,충북 청주시,충북 충주시
일,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,19.770833,52.25,42.5,43.75,42.458333,47.666667,54.291667,42.291667,36.916667,36.109375,53.854167
2,11.25,41.5,38.25,39.916667,34.708333,38.208333,52.708333,32.583333,33.375,28.625,46.979167
3,14.9375,52.791667,47.125,39.541667,42.083333,52.791667,57.041667,49.708333,47.541667,40.057292,53.3125
4,25.791667,62.875,63.541667,47.25,55.583333,63.458333,71.875,70.916667,64.625,54.90625,89.4375
5,31.4375,71.0,76.666667,60.75,62.083333,85.791667,82.75,63.5,69.041667,50.098958,71.458333
6,24.25,50.541667,57.833333,45.208333,50.625,56.666667,65.375,56.083333,52.416667,45.890625,61.791667
7,30.583333,67.916667,76.958333,61.0,69.125,71.0,71.833333,68.5,62.0,55.817708,73.229167
8,26.375,66.541667,69.458333,51.583333,52.166667,66.333333,66.375,60.791667,56.833333,52.270833,81.041667
9,24.625,50.75,52.375,50.125,51.291667,54.541667,58.458333,53.25,57.833333,46.604167,62.458333
10,18.8125,54.5,52.791667,49.916667,52.791667,69.541667,58.791667,61.208333,57.375,50.640625,65.395833


일별 미세먼지 평균을 피벳 테이블의 새로운 컬럼으로 추가해주세요.

In [72]:
piv["daily_mean"] = np.mean(piv,axis=1)

In [73]:
piv

지역,충북 괴산군,충북 단양군,충북 보은군,충북 영동군,충북 옥천군,충북 음성군,충북 제천시,충북 증평군,충북 진천군,충북 청주시,충북 충주시,daily_mean
일,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,19.770833,52.25,42.5,43.75,42.458333,47.666667,54.291667,42.291667,36.916667,36.109375,53.854167,42.896307
2,11.25,41.5,38.25,39.916667,34.708333,38.208333,52.708333,32.583333,33.375,28.625,46.979167,36.191288
3,14.9375,52.791667,47.125,39.541667,42.083333,52.791667,57.041667,49.708333,47.541667,40.057292,53.3125,45.175663
4,25.791667,62.875,63.541667,47.25,55.583333,63.458333,71.875,70.916667,64.625,54.90625,89.4375,60.932765
5,31.4375,71.0,76.666667,60.75,62.083333,85.791667,82.75,63.5,69.041667,50.098958,71.458333,65.870739
6,24.25,50.541667,57.833333,45.208333,50.625,56.666667,65.375,56.083333,52.416667,45.890625,61.791667,51.516572
7,30.583333,67.916667,76.958333,61.0,69.125,71.0,71.833333,68.5,62.0,55.817708,73.229167,64.360322
8,26.375,66.541667,69.458333,51.583333,52.166667,66.333333,66.375,60.791667,56.833333,52.270833,81.041667,59.070076
9,24.625,50.75,52.375,50.125,51.291667,54.541667,58.458333,53.25,57.833333,46.604167,62.458333,51.119318
10,18.8125,54.5,52.791667,49.916667,52.791667,69.541667,58.791667,61.208333,57.375,50.640625,65.395833,53.796875


지역별 미세먼지 평균을 피벗 테이블의 마지막 행으로 추가해주세요

In [None]:
piv.loc['']np.mean(piv,axis=0)

수고하셨습니다!