In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [None]:
airdf = pd.read_csv('../input/air-pollution-in-seoul/AirPollutionSeoul/Measurement_summary.csv')
airdf.head()

In [None]:
date_time = airdf['Measurement date'].str.split(' ', n=1, expand=True)
airdf = airdf.drop(['Measurement date'], axis=1)
date_time.head()

In [None]:
airdf['date'] = date_time[0]
date_time[1] = date_time[1].str.split(':', n=1, expand=True)
airdf['time'] = date_time[1]
airdf['time'] = airdf['time'].astype('int')
airdf.head()

In [None]:
# groupby date
airdf_date = airdf.groupby(['date'], as_index=False).agg({'SO2':'mean', 'NO2':'mean', 'O3':'mean', 'CO':'mean', 'PM10':'mean', 'PM2.5':'mean'})
airdf_date.head()

### TIME CORRELATION 

In [None]:
airdf_time = airdf.groupby(['time'], as_index=False).agg({'SO2':'mean', 'NO2':'mean', 'O3':'mean', 'CO':'mean', 'PM10':'mean', 'PM2.5':'mean'})
airdf_time

In [None]:
airdf_time.plot(x='time', y= ['PM10','PM2.5'])

## 결과 분석

In [None]:
f, ax = plt.subplots(figsize=(11, 9))
cmap = sns.diverging_palette(220, 10, as_cmap=True)
sns.heatmap(airdf_date.corr(), cmap=cmap, annot=True, vmax=1, center=0, square=True, linewidths=.5, cbar_kws={'shrink': .5})
plt.plot()

In [None]:

airdf_date.plot(x='date', y= ['PM10','PM2.5'])
plt.plot()

In [None]:
f, ax = plt.subplots(4, 2, figsize=(20,15))
sns.scatterplot(x='NO2', y= 'PM10', data=airdf_date, ax=ax[0,0])
sns.scatterplot(x='NO2', y= 'PM2.5', data=airdf_date, ax=ax[0,1])
sns.scatterplot(x='CO', y= 'PM10', data=airdf_date, ax=ax[1,0])
sns.scatterplot(x='CO', y= 'PM2.5', data=airdf_date, ax=ax[1,1])
sns.scatterplot(x='SO2', y= 'PM10', data=airdf_date, ax=ax[2,0])
sns.scatterplot(x='SO2', y= 'PM2.5', data=airdf_date, ax=ax[2,1])
sns.scatterplot(x='O3', y= 'PM10', data=airdf_date, ax=ax[3,0])
sns.scatterplot(x='O3', y= 'PM2.5', data=airdf_date, ax=ax[3,1])
plt.plot()
# 상관계수가 높은 NO2, CO의 경우 농도에 따라 대기오염이 상승하는 경향을 보여준다.

### 대기오염은 CO, NO2에 영향을 받는 것을 알 수 있었고 특히 CO는 대기오염에 많은 영향을 끼치며 높은 상관관계를 보이는 것을 알 수 있었다.

### TIME CORRELATION

In [None]:
f, ax = plt.subplots(figsize=(11, 9))
cmap = sns.diverging_palette(220, 10, as_cmap=True)
sns.heatmap(airdf_time.corr(), cmap=cmap, annot=True, vmax=1, center=0, square=True, linewidths=.5, cbar_kws={'shrink': .5})
plt.plot()

In [None]:
airdf_time.corr()

In [None]:
airdf_time.plot(x='time', y= ['PM10','PM2.5'])
plt.plot()
# 시간에 따라 PM10, PM2.5가 상승하는 경향을 볼 수 있다.

In [None]:
airdf_time.plot(x='time', y= 'O3')
plt.plot()
# 15시경을 중심으로 O3의 농도가 짙어지는 경향을 볼 수 있다.

In [None]:
# 시간에 따라 대기오염이 상승하는 상관관계를 확인할 수 있었다.
# 그러나 시간에 따라 오존이 변하는 것은 대기오염에 영향을 줄 것이라고 생각했으나 직접적인 영향은 확인할 수 없었다.

sns.scatterplot(x='O3', y= 'PM10', data=airdf_time)
sns.scatterplot(x='O3', y= 'PM2.5', data=airdf_time)
plt.plot()
# O3의 농도에 따른 대기오염의 영향은 미미한 것으로 판단된다.

In [None]:
f, ax = plt.subplots(1, 3, figsize=(15,5))
sns.scatterplot(x='O3', y= 'SO2', data=airdf_time, ax=ax[0])
sns.scatterplot(x='O3', y= 'NO2', data=airdf_time, ax=ax[1])
sns.scatterplot(x='O3', y= 'CO', data=airdf_time, ax=ax[2])
plt.plot()

### 그러나 O3는 SO2, NO2, CO와 높은 상관관계를 보이며 경향성을 보여주는 것으로 판단된다.
### 즉 O3는 대기오염에 직접적인 영향을 주는 것처럼 보이진 않지만 SO2, NO2, CO에 영향을 주어 간접적으로 대기오염에 영향을 미치는 것으로 판단된다.
### 결론적으로, 대기오염은 시간의 흐름에 따른 상관관계를 갖는다. 시간은 O3의 농도와 상관성이 높으며 O3는 직접적으로 대기오염에 관여하기보다는 SO2, NO2, CO와의 화학작용을 통해 간접적으로  대기오염에 영향을 준다고 보여진다.