## 공공데이터 실습: 국가별 수산물 수출입 현황 (2021년)

### 실습 데이터셋 설명

- 2021년 1월부터 12월까지 전세계 165여 개 국가와 수산물 수출입 데이터
- 변수(열)에 대한 간단 설명
  - ymonth: 거래년월
  - nation: 거래국가
  - itemNm: 거래품목(수산물)
  - imxprt: 수출/수입 구분
  - weight: 거래중량(kg)
  - dollar: 거래금액(달러)

In [1]:
# 관련 라이브러리 호출
import os, chardet
import numpy as np
import pandas as pd

In [2]:
# 인터넷에 공유 중인 csv 파일 주소를 문자열로 생성
fileName = 'https://bit.ly/Seafood_Trade_2021yr'

In [3]:
# csv 파일을 읽고 데이터프레임 sf 생성(인코딩 방식: UTF-8)
sf = pd.read_csv(filepath_or_buffer = fileName)

In [4]:
# sf의 정보 확인


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31865 entries, 0 to 31864
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ymonth  31865 non-null  int64  
 1   nation  31865 non-null  object 
 2   itemNm  31865 non-null  object 
 3   imxprt  31865 non-null  object 
 4   weight  31865 non-null  float64
 5   dollar  31865 non-null  int64  
dtypes: float64(1), int64(2), object(3)
memory usage: 1.5+ MB


In [5]:
# sf의 처음 5행 출력


Unnamed: 0,ymonth,nation,itemNm,imxprt,weight,dollar
0,202101,가나,고등어,수출,107300.0,121443
1,202101,가나,기타,수입,10.0,2808
2,202101,가나,다랑어,수입,47446.8,241880
3,202101,가나,전갱이,수출,108000.0,106400
4,202101,가봉,어류,수입,1.615,26


In [6]:
# ymonth의 자료형을 문자열로 변환


In [7]:
# sf의 기술통계량 확인: describe() 함수 사용


Unnamed: 0,weight,dollar
count,31865.0,31865.0
mean,225574.1,282516.0
std,4805245.0,1388474.0
min,0.0,0.0
25%,50.0,838.0
50%,734.0,8251.0
75%,14694.0,78132.0
max,307198000.0,40737080.0


In [8]:
# dollar를 1000으로 나눈 결과를 dollar에 재할당


In [9]:
# nation의 빈도수(거래건수) 계산: value_counts() 함수 사용


미국        3351
중국        2905
일본        2614
베트남       1948
카나다       1371
          ... 
그루지야         1
우간다          1
세인트루시아       1
룩셈부르그        1
통가           1
Name: nation, Length: 165, dtype: int64

### 국가별 수출입금액을 합산하고 무역수지 흑자 상위 국가 확인

In [10]:
# sf로 아래 내용을 실행하고 데이터프레임 elong 생성
# nation, imxprt로 그룹을 설정하고 dollar 합계 계산: groupby(), sum() 함수 사용
# 시리즈로 반환되는 결과에 행이름 초기화하여 데이터프레임으로 변환: reset_index() 함수 사용
# 단, 기존 행이름을 열(컬럼)에 추가해야 함!!!


In [11]:
# elong의 처음 5행 출력


Unnamed: 0,nation,imxprt,dollar
0,가나,수입,1847.987
1,가나,수출,8088.674
2,가봉,수입,0.026
3,가이아나,수입,17.29
4,가이아나,수출,0.036


In [12]:
# elong으로 아래 내용을 실행하고 데이터프레임 widen 생성
# elong은 Long type이며, Wide type으로 변환: pivot() 함수 사용
# index에 nation, columns에 imxprt, values에 dollar 지정


In [13]:
# widen의 처음 5행 출력


imxprt,수입,수출
nation,Unnamed: 1_level_1,Unnamed: 2_level_1
가나,1847.987,8088.674
가봉,0.026,
가이아나,17.29,0.036
감비아,2065.081,
과테말라,,131.373


In [14]:
# widen의 결측값(NaN)을 0으로 대체하고 widen에 재할당


In [15]:
# widen으로 아래 내용을 실행하고 widen에 재할당
# 행이름을 초기화하여 인덱스인 nation을 열(컬럼)에 추가


In [16]:
# widen의 처음 5행 출력


imxprt,nation,수입,수출
0,가나,1847.987,8088.674
1,가봉,0.026,0.0
2,가이아나,17.29,0.036
3,감비아,2065.081,0.0
4,과테말라,0.0,131.373


In [17]:
# widen의 columns.name에 빈 문자열 할당


In [18]:
# widen의 열이름 순서를 nation, 수출, 수입 순으로 변경하고 widen에 재할당


In [19]:
# widen의 처음 5행 출력


Unnamed: 0,nation,수출,수입
0,가나,8088.674,1847.987
1,가봉,0.0,0.026
2,가이아나,0.036,17.29
3,감비아,0.0,2065.081
4,과테말라,131.373,0.0


In [20]:
# widen의 수출에서 수입을 차감한 무역수지 열 생성


In [21]:
# widen의 무역수지 기준으로 내림차순 정렬하고 widen에 재할당


In [22]:
# widen의 처음 5행 출력


Unnamed: 0,nation,수출,수입,무역수지
117,일본,635499.67,170243.592,465256.078
52,미국,395386.47,250113.606,145272.864
157,프랑스,66501.818,34315.325,32186.493
114,이탈리아,52961.214,25683.273,27277.941
26,독일,27186.712,1263.392,25923.32


In [23]:
# widen의 마지막 5행 출력


Unnamed: 0,nation,수출,수입,무역수지
152,페루,2710.209,165384.173,-162673.964
119,중국,726529.129,1300449.248,-573920.119
18,노르웨이,1884.646,575973.581,-574088.935
61,베트남,177741.726,808388.014,-630646.288
30,러시아,54078.994,1219825.619,-1165746.625


### 무역수지 흑자 1위 국가의 수출입 수산물 목록 확인

In [24]:
# sf의 nation이 '일본'인 행만 선택하고 데이터프레임 japan 생성


In [25]:
# japan으로 아래 내용을 실행하고 japan에 재할당
# itemNm, imxprt로 그룹을 설정하고 dollar 합계 계산: groupby(), sum() 함수 사용
# 시리즈로 반환되는 결과에 행이름 초기화하여 데이터프레임으로 변환: reset_index() 함수 사용
# 단, 기존 행이름을 열(컬럼)에 추가해야 함!!!


In [26]:
# japan의 처음 5행 출력


Unnamed: 0,itemNm,imxprt,dollar
0,가공하지 않은 것,수입,0.35
1,가공하지 않은 것,수출,0.041
2,가공한 것,수입,6.018
3,가공한 것,수출,1.059
4,가다랑어,수입,4.409


In [27]:
# japan으로 아래 내용을 실행하고 japan에 재할당
# japan은 Long type이며, Wide type으로 변환: pivot() 함수 사용
# index에 itemNm, columns에 imxprt, values에 dollar 지정


In [28]:
# japan의 처음 5행 출력


imxprt,수입,수출
itemNm,Unnamed: 1_level_1,Unnamed: 2_level_1
가공하지 않은 것,0.35,0.041
가공한 것,6.018,1.059
가다랑어,4.409,2580.066
가리비과,39305.985,13.476
가오리,4622.53,


In [29]:
# japan의 결측값(NaN)을 0으로 대체하고 japan에 재할당


In [30]:
# japan으로 아래 내용을 실행하고 japan에 재할당
# 행이름을 초기화하여 인덱스인 nation을 열(컬럼)에 추가


In [31]:
# japan의 처음 5행 출력
japan.head()

imxprt,itemNm,수입,수출
0,가공하지 않은 것,0.35,0.041
1,가공한 것,6.018,1.059
2,가다랑어,4.409,2580.066
3,가리비과,39305.985,13.476
4,가오리,4622.53,0.0


In [32]:
# japan의 columns.name에 빈 문자열 할당


In [33]:
# japan의 열이름 순서를 itemNm, 수출, 수입 순으로 변경하고 japan에 재할당


In [34]:
# japan의 처음 5행 출력


Unnamed: 0,itemNm,수출,수입
0,가공하지 않은 것,0.041,0.35
1,가공한 것,1.059,6.018
2,가다랑어,2580.066,4.409
3,가리비과,13.476,39305.985
4,가오리,0.0,4622.53


In [35]:
# japan의 수출에서 수입을 차감한 무역수지 열 생성


In [36]:
# japan의 무역수지 기준으로 내림차순 정렬하고 japan에 재할당


In [37]:
# japan의 처음 5행 출력


Unnamed: 0,itemNm,수출,수입,무역수지
42,다랑어,128950.909,1275.676,127675.233
26,김,114139.67,436.75,113702.92
124,전복,42698.612,36.525,42662.087
77,붕장어,31125.801,0.0,31125.801
33,냉동한 것,22728.785,501.435,22227.35


In [38]:
# japan의 마지막 5행 출력


Unnamed: 0,itemNm,수출,수입,무역수지
59,명태,100.207,6158.574,-6058.367
117,우렁쉥이,0.0,7345.288,-7345.288
66,방어,3505.671,36058.005,-32552.334
50,돔,21.139,36402.686,-36381.547
3,가리비과,13.476,39305.985,-39292.509


## End of Document