# 실전 미니 프로젝트 : 실전 데이터를 활용한 전처리 실습
> 서울시 각 자치구의 미세먼지(PM10) 평균 농도를 분석하여 공기질이 좋은 지역과 나쁜 지역을 파악

In [5]:
# 실전 미니 프로젝트 1 : 데이터 불러오기 및 결측치 확인
# 공공 데이터포털 : https://www.data.go.kr/
# 정부, 지자체, 공공기관 등이 보유한 공공 데이터를 국민과 기업에 개방하여 자유롭게 활용할 수 있도록 하는 플랫폼
# 기존에는 사용하기 어려운 데이터셋이었다면, 최근에는 데이터에 해당하는 기관에 따로 가입하거나 승인을 받아야하는(기간이 걸리는) 과정이 필요한 것이 많다.

import pandas as pd

# 데이터 불러오기
df = pd.read_csv('/content/sample_data/finedust_2022.csv',encoding='cp949') # cp949 : 한글이 포함되어 있는 경우 해당 인코딩이 필요함

# 날짜 타입으로 변환
df['date'] = pd.to_datetime(df['일시'])
print(df)
print()

# 결측치 확인
# print(df.isna().sum())
print(df[df.isna().any(axis=1)])  # 확인해보니 해당 일시, 해당 지역의 미세먼지 데이터 혹은 초미세먼지 데이터가 없는 행이 6023개

                      일시   구분  미세먼지(PM10)  초미세먼지(PM2.5)                date
0       2022-12-31 23:00   평균        59.0          46.0 2022-12-31 23:00:00
1       2022-12-31 23:00  강남구        57.0          44.0 2022-12-31 23:00:00
2       2022-12-31 23:00  강동구        68.0          55.0 2022-12-31 23:00:00
3       2022-12-31 23:00  강북구        59.0          42.0 2022-12-31 23:00:00
4       2022-12-31 23:00  강서구        62.0          40.0 2022-12-31 23:00:00
...                  ...  ...         ...           ...                 ...
227755   2022-01-01 0:00  용산구        22.0          11.0 2022-01-01 00:00:00
227756   2022-01-01 0:00  은평구        19.0           9.0 2022-01-01 00:00:00
227757   2022-01-01 0:00  종로구        20.0           9.0 2022-01-01 00:00:00
227758   2022-01-01 0:00   중구        20.0          11.0 2022-01-01 00:00:00
227759   2022-01-01 0:00  중랑구        21.0           7.0 2022-01-01 00:00:00

[227760 rows x 5 columns]

                      일시   구분  미세먼지(PM10)  초미세먼지(PM2.5)     

In [None]:
# 실전 미니 프로젝트 2 : 결측치 제거 및 데이터 변환

# 결측치 제거
df=df.dropna()
# print(df.isna().sum())

# pm10이 숫자인지 확인
df['pm10'] = pd.to_numeric(df['미세먼지(PM10)'],errors='coerce')
# to_numeric : 문자열을 숫자형(int | float)으로 바꿔주는 메소드, errors='coerece'는 숫자로 변환 불가능할 시 결측치로 대체

# to_numeric() 메소드에서 발생했을 결측치 확인
print(df.isna().sum())  # 안 생겻네~ 다 숫자로 잘 바뀐듯

일시              0
구분              0
미세먼지(PM10)      0
초미세먼지(PM2.5)    0
date            0
pm10            0
dtype: int64


In [None]:
# 실전 미니 프로젝트 3 : 지역별 미세먼지 평균값을 계산 후 정렬 > 미세먼지 농도 개선을 위한 정책 수립

#구별로 평균 PM10 계산
avg_pm10 = df.groupby('구분')['pm10'].mean().sort_values()  # ascending=False 을 이용해서 내림차순으로도 정렬가능
print(avg_pm10.head())
print()
print(avg_pm10.tail())

구분
도봉구     29.708934
중구      29.871402
마포구     30.054286
서대문구    30.832491
금천구     31.079226
Name: pm10, dtype: float64

구분
동대문구    34.234600
성동구     34.543604
구로구     34.832957
동작구     35.027651
강서구     36.642931
Name: pm10, dtype: float64


In [None]:
# 실전 미니 프로젝트 4 : 데이터를 보니 구분에 평균이라는 값도 있네 뭐가 있는지 보고 활용할 수 있는지 확인하자
# print(df['구분'].unique())  # '구분' 값에 '평균' 말고는 전부 지역구임

# '구분'=='평균' 인 데이터 확인해보기
df_avg = df[df['구분']=='평균']
# print(df_avg)

# 열이 너무 많다 > 미세먼지만 봐보자 > 초미세먼지 열 제거
df_avg = df_avg.drop('초미세먼지(PM2.5)',axis=1)
# print(df_avg)
# 그래도 열이 너무 많다 > '일시'랑 date 열이 겹치니까 하나 날리자
# print(df_avg.dtypes)
dv_avg = df_avg.drop('일시',axis=1)
# print(df_avg.columns)
print(df_avg)

Index(['일시', '구분', '미세먼지(PM10)', 'date', 'pm10'], dtype='object')
                      일시  구분  미세먼지(PM10)                date  pm10
0       2022-12-31 23:00  평균        59.0 2022-12-31 23:00:00  59.0
26      2022-12-31 22:00  평균        58.0 2022-12-31 22:00:00  58.0
52      2022-12-31 21:00  평균        56.0 2022-12-31 21:00:00  56.0
78      2022-12-31 20:00  평균        56.0 2022-12-31 20:00:00  56.0
104     2022-12-31 19:00  평균        55.0 2022-12-31 19:00:00  55.0
...                  ...  ..         ...                 ...   ...
227630   2022-01-01 4:00  평균        20.0 2022-01-01 04:00:00  20.0
227656   2022-01-01 3:00  평균        20.0 2022-01-01 03:00:00  20.0
227682   2022-01-01 2:00  평균        21.0 2022-01-01 02:00:00  21.0
227708   2022-01-01 1:00  평균        22.0 2022-01-01 01:00:00  22.0
227734   2022-01-01 0:00  평균        20.0 2022-01-01 00:00:00  20.0

[8760 rows x 5 columns]
