# 데이터 변환 Data Transformation

데이터 분석이 쉬운 형태로 변환

+ 타이디 데이터 Tidy Data

    - data sets that are arranged such that each variable is a column and each observation (or case) is a row.

<h3> 원본 데이터 </h3>  <!-- /data 파일에 저장 -->

+ 일반폐기물재활용률_시도_시_군_구(10-19).csv

+ 주민_1인당_생활폐기물배출량_시도_시_군(10-19).csv

+ 폐기물 재활용실적 및 업체현황(2010-2019).csv

<h3> 정제 후 데이터 </h3>   <!-- 변환 후 data/refined/에 csv 형식으로 저장 -->

+ 일반폐기물재활용률(10-19).csv

+ 주민_1인당_생활폐기물배출량(10-19).csv

+ 폐기물 재활용실적 및 업체현황(10-19).csv

### 사용 라이브러리

In [2]:
import pandas as pd
import numpy as np

### <b>1. 일반폐기물재활용률_시도_시_군_구(10-19)</b>

In [14]:
df = pd.read_csv('./files/data/일반폐기물재활용률_시도_시_군_구(10-19).csv', encoding='CP949')
df.head(3)

Unnamed: 0,행정구역별(1),행정구역별(2),2010,2010.1,2010.2,2011,2011.1,2011.2,2012,2012.1,...,2016.2,2017,2017.1,2017.2,2018,2018.1,2018.2,2019,2019.1,2019.2
0,행정구역별(1),행정구역별(2),일반폐기물재활용률<br>(A÷B×100) (%),총재활용량<br>(A) (톤/일),생활폐기물 총발생량<br>(B) (톤/일),일반폐기물재활용률<br>(A÷B×100) (%),총재활용량<br>(A) (톤/일),생활폐기물 총발생량<br>(B) (톤/일),일반폐기물재활용률<br>(A÷B×100) (%),총재활용량<br>(A) (톤/일),...,생활폐기물 총발생량<br>(B) (톤/일),일반폐기물재활용률<br>(A÷B×100) (%),총재활용량<br>(A) (톤/일),생활폐기물 총발생량<br>(B) (톤/일),일반폐기물재활용률<br>(A÷B×100) (%),총재활용량<br>(A) (톤/일),생활폐기물 총발생량<br>(B) (톤/일),일반폐기물재활용률<br>(A÷B×100) (%),총재활용량<br>(A) (톤/일),생활폐기물 총발생량<br>(B) (톤/일)
1,전국,소계,60.5,29752.9,49159.0,59.1,28938.9,48934.4,59.1,28951.0,...,53771.9,61.6,32931.4,53489.5,62.0,34747.1,56035.4,59.7,34613.3,57961.4
2,서울특별시,소계,65.8,6592.7,10020.4,63.5,5993.2,9440.1,65.3,6004.5,...,9608.0,67.1,6180.2,9217.3,68.0,6456.9,9492.9,66.4,6535.4,9847.4


In [3]:
# 연도만 따로 떼서 저장

df_year = df.columns[2::3]

print(df_year)

Index(['2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018',
       '2019'],
      dtype='object')


In [15]:
# 첫 줄(연도) 제외하고 데이터 다시 불러오기

df = pd.read_csv('./files/data/일반폐기물재활용률_시도_시_군_구(10-19).csv', encoding='CP949', header=1)

df.head(3)

Unnamed: 0,행정구역별(1),행정구역별(2),일반폐기물재활용률<br>(A÷B×100) (%),총재활용량<br>(A) (톤/일),생활폐기물 총발생량<br>(B) (톤/일),일반폐기물재활용률<br>(A÷B×100) (%).1,총재활용량<br>(A) (톤/일).1,생활폐기물 총발생량<br>(B) (톤/일).1,일반폐기물재활용률<br>(A÷B×100) (%).2,총재활용량<br>(A) (톤/일).2,...,생활폐기물 총발생량<br>(B) (톤/일).6,일반폐기물재활용률<br>(A÷B×100) (%).7,총재활용량<br>(A) (톤/일).7,생활폐기물 총발생량<br>(B) (톤/일).7,일반폐기물재활용률<br>(A÷B×100) (%).8,총재활용량<br>(A) (톤/일).8,생활폐기물 총발생량<br>(B) (톤/일).8,일반폐기물재활용률<br>(A÷B×100) (%).9,총재활용량<br>(A) (톤/일).9,생활폐기물 총발생량<br>(B) (톤/일).9
0,전국,소계,60.5,29752.9,49159.0,59.1,28938.9,48934.4,59.1,28951.0,...,53771.9,61.6,32931.4,53489.5,62.0,34747.1,56035.4,59.7,34613.3,57961.4
1,서울특별시,소계,65.8,6592.7,10020.4,63.5,5993.2,9440.1,65.3,6004.5,...,9608.0,67.1,6180.2,9217.3,68.0,6456.9,9492.9,66.4,6535.4,9847.4
2,서울특별시,종로구,65.6,288.0,439.0,63.5,261.1,411.0,69.6,268.9,...,406.0,60.7,227.7,375.1,64.7,234.7,362.7,64.6,219.6,339.9


In [16]:
# 2010년 데이터부터 tidy 데이터로 변경

# melt
df_0 = pd.melt(df, id_vars=('행정구역별(1)', '행정구역별(2)'), value_vars=('일반폐기물재활용률<br>(A÷B×100) (%)', '총재활용량<br>(A) (톤/일)', '생활폐기물 총발생량<br>(B) (톤/일)'))

# variable 값 통일
df_0['variable'].replace({'일반폐기물재활용률<br>(A÷B×100) (%)':'일반폐기물재활용률',
                          '총재활용량<br>(A) (톤/일)':'총재활용량', 
                          '생활폐기물 총발생량<br>(B) (톤/일)':'생활폐기물총발생량'},
                          inplace=True)

# 연도 컬럼 추가 및 설정
df_0['year']=df_year[0]

df_0.head()

Unnamed: 0,행정구역별(1),행정구역별(2),variable,value,year
0,전국,소계,일반폐기물재활용률,60.5,2010
1,서울특별시,소계,일반폐기물재활용률,65.8,2010
2,서울특별시,종로구,일반폐기물재활용률,65.6,2010
3,서울특별시,중구,일반폐기물재활용률,54.5,2010
4,서울특별시,용산구,일반폐기물재활용률,88.8,2010


In [17]:
# 2010년 이후 데이터 자동화

for i in range(1, len(df_year)):
    
    # melt
    globals()['df_'+str(i)] = pd.melt(df, id_vars=('행정구역별(1)', '행정구역별(2)'), value_vars=('일반폐기물재활용률<br>(A÷B×100) (%).{}'.format(i), '총재활용량<br>(A) (톤/일).{}'.format(i), '생활폐기물 총발생량<br>(B) (톤/일).{}'.format(i)))
    
    # variable 값 통일
    globals()['df_'+str(i)]['variable'].replace({'일반폐기물재활용률<br>(A÷B×100) (%).{}'.format(i): '일반폐기물재활용률',
                                                 '총재활용량<br>(A) (톤/일).{}'.format(i):'총재활용량', 
                                                 '생활폐기물 총발생량<br>(B) (톤/일).{}'.format(i):'생활폐기물총발생량'},
                                                 inplace=True)
    
    # 연도 컬럼 추가 및 설정
    globals()['df_'+str(i)]['year']=df_year[i]

df_9.head()

Unnamed: 0,행정구역별(1),행정구역별(2),variable,value,year
0,전국,소계,일반폐기물재활용률,59.7,2019
1,서울특별시,소계,일반폐기물재활용률,66.4,2019
2,서울특별시,종로구,일반폐기물재활용률,64.6,2019
3,서울특별시,중구,일반폐기물재활용률,54.2,2019
4,서울특별시,용산구,일반폐기물재활용률,65.1,2019


In [18]:
# concatenate
df_concat = pd.concat([df_0, df_1, df_2, df_3, df_4, df_5, df_6, df_7, df_8, df_9], axis=0)

# 인덱스 재설정
df = df_concat.reset_index(drop=True)

df.head()

Unnamed: 0,행정구역별(1),행정구역별(2),variable,value,year
0,전국,소계,일반폐기물재활용률,60.5,2010
1,서울특별시,소계,일반폐기물재활용률,65.8,2010
2,서울특별시,종로구,일반폐기물재활용률,65.6,2010
3,서울특별시,중구,일반폐기물재활용률,54.5,2010
4,서울특별시,용산구,일반폐기물재활용률,88.8,2010


In [19]:
# variable 변수의 값들을 컬럼으로 치환

condition = df['variable']=='일반폐기물재활용률'
df_temp_1 = df[condition].rename(columns={'value':'일반폐기물재활용률'}).drop(columns=['variable'])

condition = df['variable']=='총재활용량'
df_temp_2 = df[condition].rename(columns={'value':'총재활용량'}).drop(columns=['variable'])

condition = df['variable']=='생활폐기물총발생량'
df_temp_3 = df[condition].rename(columns={'value':'생활폐기물총발생량'}).drop(columns=['variable'])

df_join = pd.merge(df_temp_1, df_temp_2)
df_join = pd.merge(df_join, df_temp_3)


# 컬럼 순서 정렬 

df = df_join[['행정구역별(1)', '행정구역별(2)', 'year', '일반폐기물재활용률', '총재활용량', '생활폐기물총발생량']]

df.head()

Unnamed: 0,행정구역별(1),행정구역별(2),year,일반폐기물재활용률,총재활용량,생활폐기물총발생량
0,전국,소계,2010,60.5,29752.9,49159.0
1,서울특별시,소계,2010,65.8,6592.7,10020.4
2,서울특별시,종로구,2010,65.6,288.0,439.0
3,서울특별시,중구,2010,54.5,288.4,529.2
4,서울특별시,용산구,2010,88.8,180.8,203.7


In [20]:
# 소계, 총계등 통계값 제거하여 데이터 교란(이상치) 방지

condition = (df['행정구역별(1)']=='전국')|(df['행정구역별(2)']=='소계') # 전국 총계 및 시도별 소계 ROW

df = df.drop(index=df[condition].index) # 해당 index의 ROW 제거

df.head()

Unnamed: 0,행정구역별(1),행정구역별(2),year,일반폐기물재활용률,총재활용량,생활폐기물총발생량
2,서울특별시,종로구,2010,65.6,288.0,439.0
3,서울특별시,중구,2010,54.5,288.4,529.2
4,서울특별시,용산구,2010,88.8,180.8,203.7
5,서울특별시,성동구,2010,62.8,177.2,282.0
6,서울특별시,광진구,2010,73.6,288.6,392.3


In [21]:
# tidy data csv 파일로 저장

df.to_csv('./data/files/refined_data/일반폐기물재활용률(10-19).csv', index=False)


# 저장 확인

pd.read_csv('./data/refined_data/일반폐기물재활용률(10-19).csv')

Unnamed: 0,행정구역별(1),행정구역별(2),year,일반폐기물재활용률,총재활용량,생활폐기물총발생량
0,서울특별시,종로구,2010,65.6,288.0,439.0
1,서울특별시,중구,2010,54.5,288.4,529.2
2,서울특별시,용산구,2010,88.8,180.8,203.7
3,서울특별시,성동구,2010,62.8,177.2,282.0
4,서울특별시,광진구,2010,73.6,288.6,392.3
...,...,...,...,...,...,...
2335,경상남도,함양군,2019,31.5,16.8,53.3
2336,경상남도,거창군,2019,55.3,53.8,97.3
2337,경상남도,합천군,2019,51.8,29.0,56.0
2338,제주특별자치도,제주시,2019,59.6,512.5,860.3


### <b>2. 주민_1인당_생활폐기물배출량_시도_시_군(10-19)</b>

In [4]:
df = pd.read_csv('./files/data/주민_1인당_생활폐기물배출량_시도_시_군(10-19).csv', encoding='CP949')

df.head(3)

Unnamed: 0,행정구역별,2010,2010.1,2010.2,2011,2011.1,2011.2,2012,2012.1,2012.2,...,2016.2,2017,2017.1,2017.2,2018,2018.1,2018.2,2019,2019.1,2019.2
0,행정구역별,주민1인당 생활폐기물배출량<br>(A÷B) (kg/일),생활폐기물발생량<br>(A) (톤/일),주민등록인구<br>(B) (명),주민1인당 생활폐기물배출량<br>(A÷B) (kg/일),생활폐기물발생량<br>(A) (톤/일),주민등록인구<br>(B) (명),주민1인당 생활폐기물배출량<br>(A÷B) (kg/일),생활폐기물발생량<br>(A) (톤/일),주민등록인구<br>(B) (명),...,주민등록인구<br>(B) (명),주민1인당 생활폐기물배출량<br>(A÷B) (kg/일),생활폐기물발생량<br>(A) (톤/일),주민등록인구<br>(B) (명),주민1인당 생활폐기물배출량<br>(A÷B) (kg/일),생활폐기물발생량<br>(A) (톤/일),주민등록인구<br>(B) (명),주민1인당 생활폐기물배출량<br>(A÷B) (kg/일),생활폐기물발생량<br>(A) (톤/일),주민등록인구<br>(B) (명)
1,전국,1.0,49159.0,50515666,1.0,48934.4,50734284,1.0,48989.8,50948272,...,51696216,1.0,53489.5,51778544,1.1,56035.4,51826059,1.1,57961.4,51849861
2,서울특별시,1.0,10020.4,10312545,0.9,9440.1,10249679,0.9,9189.3,10195318,...,9930616,0.9,9217.3,9857426,1.0,9492.9,9765623,1.0,9847.4,9729107


In [5]:
# 연도만 따로 떼서 저장

df_year = df.columns[1::3]

print(df_year)

Index(['2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018',
       '2019'],
      dtype='object')


In [6]:
# 첫 줄(연도) 제외하고 데이터 다시 불러오기

df = pd.read_csv('./files/data/주민_1인당_생활폐기물배출량_시도_시_군(10-19).csv', encoding='CP949', header=1)
df.head(3)

Unnamed: 0,행정구역별,주민1인당 생활폐기물배출량<br>(A÷B) (kg/일),생활폐기물발생량<br>(A) (톤/일),주민등록인구<br>(B) (명),주민1인당 생활폐기물배출량<br>(A÷B) (kg/일).1,생활폐기물발생량<br>(A) (톤/일).1,주민등록인구<br>(B) (명).1,주민1인당 생활폐기물배출량<br>(A÷B) (kg/일).2,생활폐기물발생량<br>(A) (톤/일).2,주민등록인구<br>(B) (명).2,...,주민등록인구<br>(B) (명).6,주민1인당 생활폐기물배출량<br>(A÷B) (kg/일).7,생활폐기물발생량<br>(A) (톤/일).7,주민등록인구<br>(B) (명).7,주민1인당 생활폐기물배출량<br>(A÷B) (kg/일).8,생활폐기물발생량<br>(A) (톤/일).8,주민등록인구<br>(B) (명).8,주민1인당 생활폐기물배출량<br>(A÷B) (kg/일).9,생활폐기물발생량<br>(A) (톤/일).9,주민등록인구<br>(B) (명).9
0,전국,1.0,49159.0,50515666,1.0,48934.4,50734284,1.0,48989.8,50948272,...,51696216,1.0,53489.5,51778544,1.1,56035.4,51826059,1.1,57961.4,51849861
1,서울특별시,1.0,10020.4,10312545,0.9,9440.1,10249679,0.9,9189.3,10195318,...,9930616,0.9,9217.3,9857426,1.0,9492.9,9765623,1.0,9847.4,9729107
2,종로구,2.6,439.0,170578,2.4,411.0,168382,2.3,386.6,165207,...,152737,2.4,375.1,154770,2.4,362.7,153065,2.2,339.9,151290


In [7]:
# 2010년 데이터부터 tidy 데이터로 변경

# melt
df_0 = pd.melt(df, id_vars=('행정구역별'), value_vars=('주민1인당 생활폐기물배출량<br>(A÷B) (kg/일)', '생활폐기물발생량<br>(A) (톤/일)', '주민등록인구<br>(B) (명)'))

# variable 값 통일
df_0['variable'].replace({'주민1인당 생활폐기물배출량<br>(A÷B) (kg/일)':'주민1인당 생활폐기물배출량',
                          '생활폐기물발생량<br>(A) (톤/일)':'생활폐기물발생량', 
                          '주민등록인구<br>(B) (명)':'주민등록인구'},
                          inplace=True)

# 연도 컬럼 추가 및 설정
df_0['year']=df_year[0]

df_0.head()

Unnamed: 0,행정구역별,variable,value,year
0,전국,주민1인당 생활폐기물배출량,1.0,2010
1,서울특별시,주민1인당 생활폐기물배출량,1.0,2010
2,종로구,주민1인당 생활폐기물배출량,2.6,2010
3,중구,주민1인당 생활폐기물배출량,4.0,2010
4,용산구,주민1인당 생활폐기물배출량,0.8,2010


In [8]:
# 2010년 이후 데이터 자동화

for i in range(1, len(df_year)):
    
    # melt
    globals()['df_'+str(i)] = pd.melt(df, id_vars=('행정구역별'), value_vars=('주민1인당 생활폐기물배출량<br>(A÷B) (kg/일).{}'.format(i), '생활폐기물발생량<br>(A) (톤/일).{}'.format(i), '주민등록인구<br>(B) (명).{}'.format(i)))
    
    # variable 값 통일
    globals()['df_'+str(i)]['variable'].replace({'주민1인당 생활폐기물배출량<br>(A÷B) (kg/일).{}'.format(i): '주민1인당 생활폐기물배출량',
                                                 '생활폐기물발생량<br>(A) (톤/일).{}'.format(i):'생활폐기물발생량', 
                                                 '주민등록인구<br>(B) (명).{}'.format(i):'주민등록인구'},
                                                 inplace=True)
    
    # 연도 컬럼 추가 및 설정
    globals()['df_'+str(i)]['year']=df_year[i]

df_9.head()

Unnamed: 0,행정구역별,variable,value,year
0,전국,주민1인당 생활폐기물배출량,1.1,2019
1,서울특별시,주민1인당 생활폐기물배출량,1.0,2019
2,종로구,주민1인당 생활폐기물배출량,2.2,2019
3,중구,주민1인당 생활폐기물배출량,3.3,2019
4,용산구,주민1인당 생활폐기물배출량,1.3,2019


In [9]:
# concatenate
df_concat = pd.concat([df_0, df_1, df_2, df_3, df_4, df_5, df_6, df_7, df_8, df_9], axis=0)

# 인덱스 재설정
df = df_concat.reset_index(drop=True)

df

Unnamed: 0,행정구역별,variable,value,year
0,전국,주민1인당 생활폐기물배출량,1.0,2010
1,서울특별시,주민1인당 생활폐기물배출량,1.0,2010
2,종로구,주민1인당 생활폐기물배출량,2.6,2010
3,중구,주민1인당 생활폐기물배출량,4.0,2010
4,용산구,주민1인당 생활폐기물배출량,0.8,2010
...,...,...,...,...
7555,거창군,주민등록인구,62179,2019
7556,합천군,주민등록인구,45204,2019
7557,제주특별자치도,주민등록인구,670989,2019
7558,제주시,주민등록인구,489405,2019


In [10]:
# variable 변수의 값들을 컬럼으로 치환

condition = df['variable']=='주민1인당 생활폐기물배출량'
df_temp_1 = df[condition].rename(columns={'value':'주민1인당 생활폐기물배출량'}).drop(columns=['variable'])

condition = df['variable']=='생활폐기물발생량'
df_temp_2 = df[condition].rename(columns={'value':'생활폐기물발생량'}).drop(columns=['variable'])

condition = df['variable']=='주민등록인구'
df_temp_3 = df[condition].rename(columns={'value':'주민등록인구'}).drop(columns=['variable'])

In [11]:
df_join = pd.merge(df_temp_1, df_temp_2)
df_join = pd.merge(df_join, df_temp_3)
df = df_join[['행정구역별', 'year', '주민1인당 생활폐기물배출량', '생활폐기물발생량', '주민등록인구']]

df.head()

Unnamed: 0,행정구역별,year,주민1인당 생활폐기물배출량,생활폐기물발생량,주민등록인구
0,전국,2010,1.0,49159.0,50515666
1,서울특별시,2010,1.0,10020.4,10312545
2,종로구,2010,2.6,439.0,170578
3,중구,2010,4.0,529.2,132822
4,중구,2010,4.0,529.2,49442


In [13]:
# 소계, 총계등 통계값 제거하여 데이터 교란(이상치) 방지

condition = (df['행정구역별']=='전국') # 전국 총계 ROW

df = df.drop(index=df[condition].index) # 해당 index의 ROW 제거

df.head()

Unnamed: 0,행정구역별,year,주민1인당 생활폐기물배출량,생활폐기물발생량,주민등록인구
1,서울특별시,2010,1.0,10020.4,10312545
2,종로구,2010,2.6,439.0,170578
3,중구,2010,4.0,529.2,132822
4,중구,2010,4.0,529.2,49442
5,중구,2010,4.0,529.2,77857


In [16]:
# tidy data csv 파일로 저장
df.to_csv('./files/data/refined_data/주민_1인당_생활폐기물배출량(10-19).csv', index=False)

pd.read_csv('./files/data/refined_data/주민_1인당_생활폐기물배출량(10-19).csv')

# 행정구역별에 시도와 시군구가 섞여있는 것 다른 데이터와 일치시켜야 함.

Unnamed: 0,행정구역별,year,주민1인당 생활폐기물배출량,생활폐기물발생량,주민등록인구
0,서울특별시,2010,1.0,10020.4,10312545
1,종로구,2010,2.6,439.0,170578
2,중구,2010,4.0,529.2,132822
3,중구,2010,4.0,529.2,49442
4,중구,2010,4.0,529.2,77857
...,...,...,...,...,...
9825,거창군,2019,1.6,97.3,62179
9826,합천군,2019,1.2,56.0,45204
9827,제주특별자치도,2019,1.8,1233.5,670989
9828,제주시,2019,1.8,860.3,489405


### <b>3. 폐기물 재활용실적 및 업체현황(2010-2019)</b>

In [21]:
df = pd.read_csv('./files/data/폐기물 재활용실적 및 업체현황(2010-2019).csv', encoding='CP949')

In [22]:
# 소계, 총계등 통계값 제거하여 데이터 교란(이상치) 방지

condition = (df['폐기물']=='계')|(df['폐기물']=='총계')|(df['지역']=='총계')|(df['폐기물 소분류']=='소계')|(df['분류']=='총계')

df = df.drop(index=df[condition].index)
df = df.drop(columns=['폐기물'])

df = df.reset_index(drop=True)

In [24]:
# tidy data csv 파일로 저장
df.to_csv('./files/data/refined_data/폐기물 재활용실적 및 업체현황(10-19).csv', index=False)

pd.read_csv('./files/data/refined_data/폐기물 재활용실적 및 업체현황(10-19).csv')

Unnamed: 0,지역,연도,폐기물 소분류,분류,가동업체수,재활용 폐기물량,판매량,판매총액
0,강원,2019,유기성오니류,허가업체,68,436844,36906,326490
1,강원,2019,무기성오니류,허가업체,31,1009937,361541,26030991
2,강원,2019,폐합성고분자화합물,허가업체,90,852900,170449,23801203
3,강원,2019,광재류,허가업체,6,104067,75769,0
4,강원,2019,분진류,허가업체,7,35391,0,0
...,...,...,...,...,...,...,...,...
12411,제주특별자치도,2010,폐지류,신고업체,4,5991,3065,319714340
12412,제주특별자치도,2010,고철 및 금속캔류,신고업체,4,4611,3123,374004300
12413,제주특별자치도,2010,폐합성수지,신고업체,1,127,127,0
12414,제주특별자치도,2010,유리병,신고업체,1,33,33,0
