In [2]:
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'NanumGothicCoding'
plt.rcParams['axes.unicode_minus'] = False

### 파일명 안내

#### 원본파일이름 → 변경파일이름

해양부유쓰레기 분류별 상세(2011_2018.10.).csv
→ classify.csv

해양쓰레기.csv
→ trash.csv

해양환경공단_수질평가지수_오염의심해역_20171231.csv
-> wqi.csv

해양환경공단_오염퇴적물정화사업 현황_20181231.csv
-> sediment.csv

해양환경공단_해양폐기물정화사업 현황_20181231.csv
-> oceanwaste.csv

#### 코드
classify = pd.read_csv('../data/team/해양부유쓰레기 분류별 상세(2011_2018.10.).csv',
                   engine='python', encoding='ANSI')
classify.to_csv('../data/team/classify.csv', index=False, encoding='utf-8')

trash = pd.read_csv('../data/team/해양쓰레기.csv',
                   engine='python', encoding='ANSI')
trash.to_csv('../data/team/trash.csv', index=False, encoding='utf-8')

wqi = pd.read_csv('../data/team/해양환경공단_수질평가지수_오염의심해역_20171231.csv',
                   engine='python', encoding='ANSI')
wqi.to_csv('../data/team/wqi.csv', index=False, encoding='utf-8')

sediment = pd.read_csv('../data/team/해양환경공단_오염퇴적물정화사업 현황_20181231.csv',
                   engine='python', encoding='ANSI')
sediment.to_csv('../data/team/sediment.csv', index=False, encoding='utf-8')

oceanwaste = pd.read_csv('../data/team/해양환경공단_해양폐기물정화사업 현황_20181231.csv',
                   engine='python', encoding='ANSI')
oceanwaste.to_csv('../data/team/oceanwaste.csv', index=False, encoding='utf-8')

#### classify.csv 전처리

In [3]:
classify = pd.read_csv('../data/team/classify.csv',
                   engine='python', encoding='utf-8')
display(classify.shape)
display(classify.head())

(16608, 10)

Unnamed: 0,작업일,선박위치,지사명,선박명,작업시간,수거량,원목수거량,원목수거본수,폐타이어수거량,폐타이어수거본수
0,20110101,역무선4잔교,인천지사,인천938호,2시간30분,500.0,0,0,0,0
1,20110102,제1부두,제주지사,제주935호,0시간40분,200.0,0,0,0,0
2,20110103,역무선4잔교,인천지사,인천938호,2시간30분,1150.0,0,0,50,1
3,20110103,제1부두,제주지사,제주935호,2시간20분,400.0,0,0,0,0
4,20110103,인천 내항 5부두,인천지사,인천936호,2시간40분,1500.0,0,0,100,2


In [4]:
# ??시(지역) 두글자 뽑기
import re

# 앞 두글자 뽑기 함수
def preprocessing_text(text):
    text = re.search(r'^\w{2}', text)
    text = text.group()
    return text

In [6]:
# 함수 이용해서 지역 컬럼 추가
classify['지역'] = classify['지사명'].apply(preprocessing_text)
display(classify)

Unnamed: 0,작업일,선박위치,지사명,선박명,작업시간,수거량,원목수거량,원목수거본수,폐타이어수거량,폐타이어수거본수,지역
0,20110101,역무선4잔교,인천지사,인천938호,2시간30분,500.0,0,0,0,0,인천
1,20110102,제1부두,제주지사,제주935호,0시간40분,200.0,0,0,0,0,제주
2,20110103,역무선4잔교,인천지사,인천938호,2시간30분,1150.0,0,0,50,1,인천
3,20110103,제1부두,제주지사,제주935호,2시간20분,400.0,0,0,0,0,제주
4,20110103,인천 내항 5부두,인천지사,인천936호,2시간40분,1500.0,0,0,100,2,인천
...,...,...,...,...,...,...,...,...,...,...,...
16603,20181031,서항 정계지,마산지사,푸르미1호(신),2시간0분,9000.0,0,0,0,0,마산
16604,20181031,낙포부두,여수지사,여청호,1시간30분,2100.0,0,0,0,0,여수
16605,20181031,국동항,여수지사,전남939호,1시간40분,100.0,0,0,0,0,여수
16606,20181031,인천 역무선 잔교,인천지사,청항2호,2시간0분,100.0,0,0,0,0,인천


In [7]:
classify['지역'].value_counts()

인천    3335
부산    3215
여수    1752
마산    1599
제주    1225
동해    1006
목포     936
포항     895
군산     821
울산     771
평택     693
대산     360
Name: 지역, dtype: int64

#### trash.csv 전처리

In [8]:
trash = pd.read_csv('../data/team/trash.csv',
                   engine='python', encoding='utf-8')
display(trash.shape)
display(trash.head())

(42, 9)

Unnamed: 0,지역,2017,Unnamed: 2,2018,Unnamed: 4,2019,Unnamed: 6,2020,Unnamed: 8
0,,개수(EA),무게(㎏),개수(EA),무게(㎏),개수(EA),무게(㎏),개수(EA),무게(㎏)
1,강화여차리갯벌,5927,522.6,2004,357.6,1485,81.6,12,6
2,안산말부흥,227,26.2,75,2.2,57,1.7,,
3,태안백리포,372,194.1,126,140.2,135,103.4,,
4,보령석대도,257,177.4,297,813.4,179,196.8,,


In [11]:
# 컬럼 연도 수정, 1행 drop, index 0부터 재부여
trash.columns = ["지역", "2017개수(EA)", "2017무게(㎏)", "2018개수(EA)", "2018무게(㎏)", 
                 "2019개수(EA)", "2019무게(㎏)", "2020개수(EA)", "2020무게(㎏)"]
trash.drop([0], inplace=True)
trash.index = range(0, 41)
display(trash.shape)
display(trash.head())

(41, 9)

Unnamed: 0,지역,2017개수(EA),2017무게(㎏),2018개수(EA),2018무게(㎏),2019개수(EA),2019무게(㎏),2020개수(EA),2020무게(㎏)
0,강화여차리갯벌,5927,522.6,2004,357.6,1485,81.6,12.0,6.0
1,안산말부흥,227,26.2,75,2.2,57,1.7,,
2,태안백리포,372,194.1,126,140.2,135,103.4,,
3,보령석대도,257,177.4,297,813.4,179,196.8,,
4,부안변산,434,222.0,165,346.1,153,215.6,,


In [12]:
# 함수 이용해서 지역(시군) 컬럼 추가
trash['지역(시군)'] = trash['지역'].apply(preprocessing_text)
display(trash)

Unnamed: 0,지역,2017개수(EA),2017무게(㎏),2018개수(EA),2018무게(㎏),2019개수(EA),2019무게(㎏),2020개수(EA),2020무게(㎏),지역(시군)
0,강화여차리갯벌,5927,522.6,2004,357.6,1485,81.6,12.0,6.0,강화
1,안산말부흥,227,26.2,75,2.2,57,1.7,,,안산
2,태안백리포,372,194.1,126,140.2,135,103.4,,,태안
3,보령석대도,257,177.4,297,813.4,179,196.8,,,보령
4,부안변산,434,222.0,165,346.1,153,215.6,,,부안
5,신안임자도,715,240.9,340,149.6,532,104.0,,,신안
6,진도하조도,643,314.1,157,23.8,109,26.5,,,진도
7,해남묵동리,487,111.0,62,11.9,313,36.0,,,해남
8,고흥신흥,3277,415.2,704,188.8,186,28.1,,,고흥
9,순천반월,1006,32.6,1488,54.1,382,11.8,,,순천


In [13]:
# 마지막 행(합계) 삭제
trash.drop([40], inplace=True)
trash.tail()

Unnamed: 0,지역,2017개수(EA),2017무게(㎏),2018개수(EA),2018무게(㎏),2019개수(EA),2019무게(㎏),2020개수(EA),2020무게(㎏),지역(시군)
35,울주진하해변,1518,147.9,2939,113.3,1039,54.6,,,울주
36,동해노봉해변,735,40.0,159,2.7,368,7.8,,,동해
37,영덕고래불해변,4495,147.0,516,25.7,722,8.6,,,영덕
38,포항구룡포 대보해변,4583,223.5,2103,53.1,4494,213.6,,,포항
39,제주사계리해안,365,86.4,71,3.4,25,11.4,,,제주


In [14]:
trash['지역(시군)'].value_counts()

인천    3
해남    3
제주    2
고흥    2
포항    2
태안    2
신안    2
완도    1
마산    1
고창    1
서천    1
속초    1
울진    1
강화    1
통영    1
순천    1
강릉    1
사천    1
울산    1
영덕    1
영광    1
진도    1
부산    1
부안    1
남해    1
동해    1
여수    1
안산    1
거제    1
울주    1
보령    1
Name: 지역(시군), dtype: int64

#### wqi.csv 전처리

In [15]:
wqi = pd.read_csv('../data/team/wqi.csv',
                   engine='python', encoding='utf-8')
display(wqi.shape)
display(wqi.head())

(797, 4)

Unnamed: 0,년,정점,번호,등급
0,2000,울산연안,1,2
1,2000,울산연안,2,2
2,2000,울산연안,3,3
3,2000,울산연안,4,5
4,2000,온산연안,1,4


In [16]:
# 앞 두글자 뽑기 함수 & 공백있으면 제거
def preprocessing_text2(text):
    text = re.search(r'^\w[ ]?\w', text)
    text = text.group()
    text = re.sub(r'[ ]', '', text)
    return text

In [17]:
# 함수 이용해서 지역 컬럼 추가
wqi['지역'] = wqi['정점'].apply(preprocessing_text2)
display(wqi)

Unnamed: 0,년,정점,번호,등급,지역
0,2000,울산연안,1,2,울산
1,2000,울산연안,2,2,울산
2,2000,울산연안,3,3,울산
3,2000,울산연안,4,5,울산
4,2000,온산연안,1,4,온산
...,...,...,...,...,...
792,2017,광 양 만,8,1,광양
793,2017,광 양 만,9,2,광양
794,2017,광 양 만,10,2,광양
795,2017,광 양 만,11,2,광양


In [18]:
wqi['지역'].value_counts() # 낙동 → 낙동강

광양    161
부산    155
울산    121
마산    110
온산     84
낙동     64
행암     42
진해     36
신항     24
Name: 지역, dtype: int64

#### sediment.csv 전처리

In [19]:
sediment = pd.read_csv('../data/team/sediment.csv',
                   engine='python', encoding='utf-8')
display(sediment.shape)
display(sediment.head())

(25, 7)

Unnamed: 0,년도,사업명(위치),수거물량 계획(m3),수거물량 실적(m3),정화면적 계획(m2),정화면적 실적(m2),사업기간
0,2018,포항 동빈내항,30950,37724,25277,25277,18.3.30 ~ 18.12.14
1,2018,울산 장생포항,53113,66786,50604,50604,18.3.30 ~ 18.12.4
2,2017,여수 구항,6627,10710,8447,8447,17.5.8 ~ 17.12.3
3,2017,포항 동빈내항,27283,33369,25440,25440,17.3.14 ~ 17.12.8
4,2017,부산 다대포항,12269,19339,39052,39052,17.4.17 ~ 17.8.31


In [20]:
# 함수 이용해서 지역(시군) 컬럼 추가
sediment['지역'] = sediment['사업명(위치)'].apply(preprocessing_text)
display(sediment)

Unnamed: 0,년도,사업명(위치),수거물량 계획(m3),수거물량 실적(m3),정화면적 계획(m2),정화면적 실적(m2),사업기간,지역
0,2018,포항 동빈내항,30950,37724,25277,25277,18.3.30 ~ 18.12.14,포항
1,2018,울산 장생포항,53113,66786,50604,50604,18.3.30 ~ 18.12.4,울산
2,2017,여수 구항,6627,10710,8447,8447,17.5.8 ~ 17.12.3,여수
3,2017,포항 동빈내항,27283,33369,25440,25440,17.3.14 ~ 17.12.8,포항
4,2017,부산 다대포항,12269,19339,39052,39052,17.4.17 ~ 17.8.31,부산
5,2017,울산 장생포항,39946,54161,43473,43473,17.3.14 ~ 17.12.8,울산
6,2017,진해 행암만,60812,58245,66012,66012,17.3.14 ~ 17.11.23,진해
7,2016,진해 행암만(추경),92224,139210,171104,171104,16.10.7 ~ 17.8.2,진해
8,2016,부산 다대포항,80012,104710,188018,188018,16.3.2 ~ 17.2.26,부산
9,2016,울산 장생포항,44250,59012,74076,74076,16.3.2 ~ 16.11.26,울산


In [21]:
sediment['지역'].value_counts()

부산    11
울산     6
진해     4
여수     2
포항     2
Name: 지역, dtype: int64

In [22]:
# oceanwaste.csv 전처리
oceanwaste = pd.read_csv('../data/team/oceanwaste.csv',
                   engine='python', encoding='utf-8')
display(oceanwaste.shape)
display(oceanwaste.head())

(195, 7)

Unnamed: 0,년도,사업명(위치),수거물량 계획(톤),수거물량 실적(톤),정화면적 계획(ha),정화면적 실적(ha),사업기간
0,2018,보령시 보령항,65.59,65.59,3212,3212,6.25~9.22
1,2018,사천시 삼천포항,69.29,69.29,23,23,3.16~5.14
2,2018,포항시 포항항,67.75,67.75,2325,2325,6.19~8.17
3,2018,창원시 마산항,51.72,51.72,400,400,6.29~8.27
4,2018,창원시 진해항,61.6,61.6,500,500,3.16~7.15


In [23]:
# 함수 이용해서 지역(시군) 컬럼 추가
oceanwaste['지역'] = oceanwaste['사업명(위치)'].apply(preprocessing_text)
display(oceanwaste)

Unnamed: 0,년도,사업명(위치),수거물량 계획(톤),수거물량 실적(톤),정화면적 계획(ha),정화면적 실적(ha),사업기간,지역
0,2018,보령시 보령항,65.59,65.59,3212,3212,6.25~9.22,보령
1,2018,사천시 삼천포항,69.29,69.29,23,23,3.16~5.14,사천
2,2018,포항시 포항항,67.75,67.75,2325,2325,6.19~8.17,포항
3,2018,창원시 마산항,51.72,51.72,400,400,6.29~8.27,창원
4,2018,창원시 진해항,61.60,61.60,500,500,3.16~7.15,창원
...,...,...,...,...,...,...,...,...
190,2009,부산 광안리,174.22,174.22,1004,1004,11.13~12.28,부산
191,2009,태안 안흥항,144.00,207.89,70,70,11.13~12.28,태안
192,2009,평택당진항,40.00,113.89,20,20,11.16~12.15,평택
193,2009,부산 형제도,87.00,87.37,7000,7000,6.1~8.26,부산


In [24]:
oceanwaste['지역'].value_counts() # 지역명 아닌 것 일부 포함(먼바 → 먼바다 해양쓰레기 수거지원 등)

제주    12
신안    11
부산    10
통영     9
여수     9
군산     7
경남     7
인천     7
목포     7
창원     6
거제     6
포항     5
전남     5
보령     5
연안     5
울산     4
고흥     4
태안     4
평택     4
고성     4
사천     3
전북     3
연평     3
강릉     3
완도     3
독도     3
충남     3
서천     3
속초     3
구룡     2
경북     2
장흥     2
해경     2
삼척     2
서산     2
진해     2
삼천     2
해군     2
성산     1
해안     1
순천     1
안산     1
해수     1
영덕     1
하동     1
재해     1
궁평     1
먼바     1
부안     1
대흑     1
경주     1
대천     1
영암     1
영종     1
보성     1
옹진     1
홍성     1
Name: 지역, dtype: int64