In [None]:
import pandas as pd
import numpy as np

### 2021.1은 2021년 10월이고 2021.01은 2021년 1월
##PM2.5
df_pm25 = pd.read_csv('PM2.5.csv')

# 열 이름 변경
df_pm25.rename(columns={'구분(2)': 'City', '구분(1)': 'District'}, inplace=True)

# 총계, 소계, 도평균 삭제
df_pm25 = df_pm25[~df_pm25['City'].isin(['소계', '도평균'])]
df_pm25.reset_index(drop=True, inplace=True)

# 변환할 날짜 열 리스트( district와 city를 제외한 모든 월 선택 )
date_columns = [col for col in df_pm25.columns if col not in ['District', 'City']]

# 날짜 열을 행별로 변환하여 "date" 열 생성 / pm25에 값 저장
df_pm25 = pd.melt(df_pm25, id_vars=['District', 'City'], value_vars=date_columns, var_name='date', value_name='pm25')

print(df_pm25)

      District     City     date pm25
0        서울특별시    서울특별시  2015.01   25
1        부산광역시    부산광역시  2015.01   27
2        대구광역시    대구광역시  2015.01   33
3        인천광역시    인천광역시  2015.01   31
4        광주광역시    광주광역시  2015.01   27
...        ...      ...      ...  ...
15385     경상남도       의령  2022.11   22
15386     경상남도       창녕  2022.11   21
15387     경상남도       합천  2022.11   21
15388  제주특별자치도  제주특별자치도  2022.11   20
15389  제주특별자치도      서귀포  2022.11   14

[15390 rows x 4 columns]


In [None]:
##PM10
df_pm10 = pd.read_csv('PM10.csv')

# 열 이름 변경
df_pm10.rename(columns={'구분(1)': 'District', '구분(2)': 'City'}, inplace=True)

# 총계, 소계, 도평균 삭제
df_pm10 = df_pm10[~df_pm10['City'].isin(['소계', '도평균'])]
df_pm10.reset_index(drop=True, inplace=True)

# 변환할 날짜 열 리스트
date_columns_pm10 = [col for col in df_pm10.columns if col not in ['district', 'city']]

# 날짜 열을 행별로 변환하여 "date" 열 생성 / pm10에 값 저장
df_pm10 = pd.melt(df_pm10, id_vars=['District', 'City'], value_vars=date_columns_pm10, var_name='date', value_name='pm10')

# 기존 데이터프레임과 새로운 데이터프레임을 합치기
df_merged = pd.merge(df_pm25, df_pm10, on=['District', 'City', 'date'], how='outer')

print(df_merged)

      District     City     date pm25 pm10
0        서울특별시    서울특별시  2015.01   25   49
1        부산광역시    부산광역시  2015.01   27   47
2        대구광역시    대구광역시  2015.01   33   54
3        인천광역시    인천광역시  2015.01   31   53
4        광주광역시    광주광역시  2015.01   27   43
...        ...      ...      ...  ...  ...
15385     경상남도       의령  2022.11   22   31
15386     경상남도       창녕  2022.11   21   33
15387     경상남도       합천  2022.11   21   29
15388  제주특별자치도  제주특별자치도  2022.11   20   34
15389  제주특별자치도      서귀포  2022.11   14   27

[15390 rows x 5 columns]


In [None]:
##SO2
df_so2 = pd.read_csv('SO2.csv')

# 열 이름 변경
df_so2.rename(columns={'구분(1)': 'District', '구분(2)': 'City'}, inplace=True)

# 총계, 소계, 도평균 삭제
df_so2 = df_so2[~df_so2['City'].isin(['소계', '도평균'])]
df_so2.reset_index(drop=True, inplace=True)

# 변환할 날짜 열 리스트
date_columns_so2 = [col for col in df_so2.columns if col not in ['District', 'City']]

# 날짜 열을 행별로 변환하여 "date" 열 생성 / so2에 값저장
df_so2 = pd.melt(df_so2, id_vars=['District', 'City'], value_vars=date_columns_so2, var_name='date', value_name='so2')

# 기존 데이터프레임과 새로운 데이터프레임을 합치기
df_merged = pd.merge(df_merged, df_so2, on=['District', 'City', 'date'], how='outer')

print(df_merged)

      District   City     date pm25 pm10    so2
0        서울특별시  서울특별시  2015.01   25   49  0.007
1        부산광역시  부산광역시  2015.01   27   47  0.007
2        대구광역시  대구광역시  2015.01   33   54  0.005
3        인천광역시  인천광역시  2015.01   31   53  0.007
4        광주광역시  광주광역시  2015.01   27   43  0.004
...        ...    ...      ...  ...  ...    ...
15480     충청북도     청원  2022.07  NaN  NaN      -
15481     충청북도     청원  2022.08  NaN  NaN      -
15482     충청북도     청원  2022.09  NaN  NaN      -
15483     충청북도     청원   2022.1  NaN  NaN      -
15484     충청북도     청원  2022.11  NaN  NaN      -

[15485 rows x 6 columns]


In [None]:
##O3
df_o3 = pd.read_csv('O3.csv')

# 열 이름 변경
df_o3.rename(columns={'구분(1)': 'District', '구분(2)': 'City'}, inplace=True)

# 총계, 소계, 도평균 삭제
df_o3 = df_o3[~df_o3['City'].isin(['소계', '도평균'])]
df_o3.reset_index(drop=True, inplace=True)

# 변환할 날짜 열 리스트
date_columns_o3 = [col for col in df_o3.columns if col not in ['District', 'City']]

# 날짜 열을 행별로 변환하여 "date" 열 생성 / o3에 값 저장
df_o3 = pd.melt(df_o3, id_vars=['District', 'City'], value_vars=date_columns_o3, var_name='date', value_name='o3')

# 기존 데이터프레임과 새로운 데이터프레임을 합치기
df_merged = pd.merge(df_merged, df_o3, on=['District', 'City', 'date'], how='outer')

print(df_merged)

      District   City     date pm25 pm10    so2     o3
0        서울특별시  서울특별시  2015.01   25   49  0.007  0.011
1        부산광역시  부산광역시  2015.01   27   47  0.007   0.02
2        대구광역시  대구광역시  2015.01   33   54  0.005  0.013
3        인천광역시  인천광역시  2015.01   31   53  0.007  0.015
4        광주광역시  광주광역시  2015.01   27   43  0.004  0.017
...        ...    ...      ...  ...  ...    ...    ...
15480     충청북도     청원  2022.07  NaN  NaN      -    NaN
15481     충청북도     청원  2022.08  NaN  NaN      -    NaN
15482     충청북도     청원  2022.09  NaN  NaN      -    NaN
15483     충청북도     청원   2022.1  NaN  NaN      -    NaN
15484     충청북도     청원  2022.11  NaN  NaN      -    NaN

[15485 rows x 7 columns]


In [None]:
##NO2
df_no2 = pd.read_csv('NO2.csv')

# 열 이름 변경
df_no2.rename(columns={'구분(1)': 'District', '구분(2)': 'City'}, inplace=True)

# 총계, 소계, 도평균 삭제
df_no2 = df_no2[~df_no2['City'].isin(['소계', '도평균'])]
df_no2.reset_index(drop=True, inplace=True)

# 변환할 날짜 열 리스트
date_columns_no2 = [col for col in df_no2.columns if col not in ['District', 'City']]

# 날짜 열을 행별로 변환하여 "date" 열 생성 / no2에 값 저장
df_no2 = pd.melt(df_no2, id_vars=['District', 'City'], value_vars=date_columns_no2, var_name='date', value_name='no2')

# 기존 데이터프레임과 새로운 데이터프레임을 합치기
df_merged = pd.merge(df_merged, df_no2, on=['District', 'City', 'date'], how='outer')

print(df_merged)

      District   City     date pm25 pm10    so2     o3    no2
0        서울특별시  서울특별시  2015.01   25   49  0.007  0.011  0.037
1        부산광역시  부산광역시  2015.01   27   47  0.007   0.02  0.022
2        대구광역시  대구광역시  2015.01   33   54  0.005  0.013  0.031
3        인천광역시  인천광역시  2015.01   31   53  0.007  0.015   0.03
4        광주광역시  광주광역시  2015.01   27   43  0.004  0.017  0.024
...        ...    ...      ...  ...  ...    ...    ...    ...
15480     충청북도     청원  2022.07  NaN  NaN      -    NaN    NaN
15481     충청북도     청원  2022.08  NaN  NaN      -    NaN    NaN
15482     충청북도     청원  2022.09  NaN  NaN      -    NaN    NaN
15483     충청북도     청원   2022.1  NaN  NaN      -    NaN    NaN
15484     충청북도     청원  2022.11  NaN  NaN      -    NaN    NaN

[15485 rows x 8 columns]


In [None]:
##CO
df_co = pd.read_csv('CO.csv')

# 열 이름 변경
df_co.rename(columns={'구분(1)': 'District', '구분(2)': 'City'}, inplace=True)

# 총계, 소계, 도평균 삭제
df_co = df_co[~df_co['City'].isin(['소계', '도평균'])]
df_co.reset_index(drop=True, inplace=True)

# 변환할 날짜 열 리스트
date_columns_co = [col for col in df_co.columns if col not in ['District', 'City']]

# 날짜 열을 행별로 변환하여 "date" 열 생성 / co에 값 저장
df_co = pd.melt(df_co, id_vars=['District', 'City'], value_vars=date_columns_co, var_name='date', value_name='co')

# 기존 데이터프레임과 새로운 데이터프레임을 합치기
df_merged = pd.merge(df_merged, df_co, on=['District', 'City', 'date'], how='outer')

print(df_merged)

      District   City     date pm25 pm10    so2     o3    no2   co
0        서울특별시  서울특별시  2015.01   25   49  0.007  0.011  0.037  0.7
1        부산광역시  부산광역시  2015.01   27   47  0.007   0.02  0.022  0.4
2        대구광역시  대구광역시  2015.01   33   54  0.005  0.013  0.031  0.5
3        인천광역시  인천광역시  2015.01   31   53  0.007  0.015   0.03  0.8
4        광주광역시  광주광역시  2015.01   27   43  0.004  0.017  0.024  0.6
...        ...    ...      ...  ...  ...    ...    ...    ...  ...
15480     충청북도     청원  2022.07  NaN  NaN      -    NaN    NaN  NaN
15481     충청북도     청원  2022.08  NaN  NaN      -    NaN    NaN  NaN
15482     충청북도     청원  2022.09  NaN  NaN      -    NaN    NaN  NaN
15483     충청북도     청원   2022.1  NaN  NaN      -    NaN    NaN  NaN
15484     충청북도     청원  2022.11  NaN  NaN      -    NaN    NaN  NaN

[15485 rows x 9 columns]


In [None]:
# 이전 data랑 똑같이 만들자면.....
df_merged['Country'] = 'South Korea'
print(df_merged)

#정렬
df_merged = df_merged.sort_values(['District', 'City'], ignore_index=True)


df_merged.to_csv('pollution_data.csv')

           Country District   City     date pm25 pm10    so2     o3    no2  \
0      South Korea    서울특별시  서울특별시  2015.01   25   49  0.007  0.011  0.037   
1      South Korea    부산광역시  부산광역시  2015.01   27   47  0.007   0.02  0.022   
2      South Korea    대구광역시  대구광역시  2015.01   33   54  0.005  0.013  0.031   
3      South Korea    인천광역시  인천광역시  2015.01   31   53  0.007  0.015   0.03   
4      South Korea    광주광역시  광주광역시  2015.01   27   43  0.004  0.017  0.024   
...            ...      ...    ...      ...  ...  ...    ...    ...    ...   
15480  South Korea     충청북도     청원  2022.07  NaN  NaN      -    NaN    NaN   
15481  South Korea     충청북도     청원  2022.08  NaN  NaN      -    NaN    NaN   
15482  South Korea     충청북도     청원  2022.09  NaN  NaN      -    NaN    NaN   
15483  South Korea     충청북도     청원   2022.1  NaN  NaN      -    NaN    NaN   
15484  South Korea     충청북도     청원  2022.11  NaN  NaN      -    NaN    NaN   

        co  
0      0.7  
1      0.4  
2      0.5  
3      0.8 