In [1]:
import numpy as np
import pandas as pd
import csv
import os
import glob
import datetime

- 데이터 전처리에 필요한 **Python package 목록(numpy, pandas, csv, os, glob, datetime)**
- Python이 설치되어 있는 환경에 **pip install package** 필요(cmd or anaconda)
<br>
***

In [2]:
sorted(os.listdir('../data/'))

['EAST-1_200607_profile_chemical_rosette.csv',
 'EAST-1_201108_profile_chemical_rosette.csv',
 'EAST-1_201203_profile_chemical_rosette.csv',
 'EAST-1_201210_profile_chemical_rosette.csv',
 'EAST-1_201303_profile_chemical_rosette.csv',
 'EAST-1_201404_profile_chemical_rosette.csv',
 'EAST-1_201404_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_1998_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_1999_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_2000_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_2001_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_2002_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_2003_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_2004_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_2005_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_2006_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_2007_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_2008_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_2009_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_2010_profile_chemical_unknown.csv',
 '폐기물 배출해역 조사_2011_pr

- **os.listdir method**로 지정한 디렉토리 내 모든 파일과 리스트를 리턴
- **sorted** 함수로 파일을 오름차순으로 정렬
  - 사업연도별로 raw data를 정리하기 위해 사용
  - sorted 함수는 숫자, 영어, 한글순으로 파일 이름을 자동 정렬
  - listdir의 괄호안 경로는 JOISS에서 다운로드 한 csv 파일이 있는 경로로 설정
  - '../data/' 경로는 code가 있는 파일의 상위폴더와 data 파일이 속한 상위폴더가 서로 같음을 의미
  - code 파일의 경로 -> C:\Users\admin\Documents\jupyter notebook\code
  - data 파일의 경로 -> C:\Users\admin\Documents\jupyter notebook\data
<br>
---

In [3]:
file_list = glob.glob("../data/*.csv")

list_of_dataframes = []
for filename in file_list:
    list_of_dataframes.append(pd.read_csv(filename, encoding = 'euc-kr', skiprows = 26))
    
merged_df = pd.concat(list_of_dataframes, join = 'outer')

In [4]:
merged_df

Unnamed: 0,project_name,station,yyyy-mm-dd hh:mm:ss,Longitude [degrees_east],Latitude [degrees_south],bot.depth[m],수심(m),염분,sal_qc,수온[℃],...,폴리염화바이페닐-101[μg/kg],pcb101_qc,폴리염화바이페닐-118[μg/kg],pcb118_qc,폴리염화바이페닐-138[μg/kg],pcb138_qc,폴리염화바이페닐-153[μg/kg],pcb153_qc,폴리염화바이페닐-180[μg/kg],pcb180_qc
0,2006년 7월 관할해역 집중조사,B1,2006-07-13 00:00:00,129.494167,37.248167,0,0.00,,,,...,,,,,,,,,,
1,2006년 7월 관할해역 집중조사,B1,2006-07-13 00:37:00,129.494167,37.248167,0,100.35,34.00,1.0,2.2800,...,,,,,,,,,,
2,2006년 7월 관할해역 집중조사,B1,2006-07-13 00:38:00,129.494167,37.248167,0,49.39,34.02,1.0,4.6000,...,,,,,,,,,,
3,2006년 7월 관할해역 집중조사,B1,2006-07-13 00:38:00,129.494167,37.248167,0,74.26,34.01,1.0,2.7600,...,,,,,,,,,,
4,2006년 7월 관할해역 집중조사,B1,2006-07-13 00:39:00,129.494167,37.248167,0,29.79,33.95,1.0,7.6500,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
107,폐기물 배출해역 조사,서해병-B,2012-08-21 6:47,124.391667,35.335000,0,50.00,,1.0,8.5600,...,,,,,,,,,,
108,폐기물 배출해역 조사,서해병-A,2012-02-28 14:02,124.391667,36.330000,0,0.00,,1.0,6.3296,...,,,,,,,,,,
109,폐기물 배출해역 조사,서해병-A,2012-02-28 14:02,124.391667,36.330000,0,50.00,,1.0,6.2977,...,,,,,,,,,,
110,폐기물 배출해역 조사,서해병-A,2012-08-21 15:05,124.391667,36.330000,0,0.00,,1.0,28.1800,...,,,,,,,,,,


- **glob.glob** 모듈을 이용하여 경로 내 특정확장자(csv 형식)를 가진 파일을 모두 불러옴
- **pd.read_csv를 통해** csv 파일을 data frame 형식으로 불러옴
  - for문을 통해 경로 내 모든 csv 파일을 data frame 형태로 불러옴
  - encoding을 통해 데이터 내 언어가 깨지지 않도록 하며, 'euc-kr' 혹은 'utf-8'로 불러와야 한글이 깨지지 않음
  - skiprows를 통해 열 삭제 가능하며, JOISS dataset은 1~26열까지 사용자 설명 열이므로 삭제 필요
---
- **list.append** 함수를 통해 for문에서 불러온 data frame을 list 형태로 저장
  - list.append를 지정하지 않으면 for문에서 작업이 끝난 마지막 1개의 data frame만 저장됨
  - for문 앞에 빈 리스트(list_of_dataframes = [])를 설정, for문을 진행하며 리스트 안에 저장되도록 함
- **pd.concat을** 이용해 여러 파일을 하나의 합집합 형태의 data frame으로 만듦
  - pandas는 concat 기능을 통해 여러 data frame을 합칠 수 있음
  - join = 'outer'를 통해 합집합 형태로 합치기 가능
  - 총 22개의 dataset이 합집합 형태로 만들어진 data frame은 **5580 rows x 139 columns** 형태를 갖고 있음
<br>
---

In [5]:
merged_df['yyyy-mm-dd hh:mm:ss'] = pd.to_datetime(merged_df['yyyy-mm-dd hh:mm:ss'], format='%Y-%m-%d %H:%M:%S', errors='raise')

In [6]:
merged_df['mon/day/yr'] = merged_df['yyyy-mm-dd hh:mm:ss'].dt.strftime('%m-%d-%Y')

In [7]:
merged_df['hh:mm'] = merged_df['yyyy-mm-dd hh:mm:ss'].dt.strftime('%H:%M')

- **datetime** 모듈을 이용해 날짜 및 시간의 형식을 변경
- **yyyy-mm-dd hh:mm:ss** 형식을 각 **mm-dd-yy**와 **hh:mm** 형식으로 바꾸는 것이 목표
  - pd.to_datetime 함수를 이용해 object 타입을 datetime64로 변환
  - strftime method를 이용해 datetime64를 필요한 날짜 형식으로 변환
  - 마지막 139 columns 뒤에 'mon/day/yr'와 'hh:mm' column이 생성됨
<br>
---

In [8]:
merged_df['염분'] = merged_df['염분'].fillna(0)
merged_df['염분[psu]'] = merged_df['염분[psu]'].fillna(0)
merged_df['염분[‰]'] = merged_df['염분[‰]'].fillna(0)

In [9]:
merged_df['Salinity [PSU]'] = (merged_df['염분']+ merged_df['염분[psu]'] + merged_df['염분[‰]'])
merged_df['Salinity [PSU]'] = merged_df['Salinity [PSU]'].replace(0, np.NaN)

- 서로 다른 사업을 합치다보니 **'염분'이란 항목이 여러 개가 존재**
- **'염분', '염분[psu]', '염분[‰]'은** 서로 data 형태가 일치하지 않아 단순히 sum을 할 수 없는 상태
  - 결측값이 서로 다른 rows에 존재
  - 결측값과 데이터가 서로 같은 곳에 존재하면 단순히 + 연산자로 합치기 가능
- **df.fillna(0)를** 통해 먼저 결측값을 '0'으로 변환
- 하나의 column으로 + 연산자를 통해 합친 후 **df.replace를 통해** 다시 0값을 결측값(NaN)으로 변경
<br>
---

In [10]:
merged_df.rename(columns = {"project_name":"Cruise", "station":"Station", "Latitude [degrees_south]":"Latitude [degrees_north]", "bot.depth[m]":"Bot. Depth [m]", "수심(m)":"Depth [m]", "수온[℃]":"Temperature [℃]", 
                            "potential density-1000[kg/m3]":"Sigma-t [kg/m3]", "용존산소[ml/L]":"DO[μmol/kg]", "용존산소[mg/L]":"DO[mg/l]", "클로로필-a[mg/m3]":"Chl.a[mg/m3]", "클로로필-a[μg/L]":"Chl.a[μg/L]", 
                            "알칼리도[μmol/kg]":"Alk[μmol/kg]", "수소이온농도[무단위]":"pH", "인산염인[μmol/kg]":"PO4-[μmol/kg]", "인산염인[mg/L]":"PO4-[mg/L]", "암모니아성 질소[μmol/kg]":"NH4+[μmol/kg]",
                            "암모니아성 질소[mg/L]":"NH4+[mg/L]", "아질산성질소[mg/L]":"NO2-[μmol/kg]", "아질산성 질소 + 질산성 질소[μmol/kg]":"NO2-+NO3-[μmol/kg]", "질산성질소[mg/L]":"NO3-[μmol/kg]", 
                            "이산화규소[μmol/kg]":"SiO4-[μmol/kg]", "총질소[wt.%]":"TN", "총인[mg/L]":"TP", "ISUSnitrate[μg/L]":"ISUS nitrate[μmol/kg]", "입자성 유기탄소[μg/L]":"POC",
                            "용존 유기탄소[μM]":"DOC", "용존 무기 탄소[μmol/kg]":"DIC", "총유기탄소[mg/L]":"TOC", "입자성 유기질소[μg/L]":"PON", "유색 용존 유기물_C1[QSU]":"CDOM_C1[QSU]",
                            "유색 용존 유기물_C2[QSU]":"CDOM_C2[QSU]", "유색 용존 유기물_C3[QSU]":"CDOM_C3[QSU]", "유색 용존 유기물_C4[QSU]":"CDOM_C4[QSU]", "부유물질 농도[mg/L]":"SS[mg/L]",
                            "화학적산소요구량[mg/L]":"COD[mg/L]", "투명도[m]":"Transparency[m]",   "구리[μg/kg]":"Cu[μg/kg]", "납[μg/kg]":"Pb[μg/kg]", "아연[μg/kg]":"Zn[μg/kg]",
                            "카드뮴[μg/kg]":"Cd[μg/kg]", "6가크롬[μg/kg]":"Cr6+[μg/kg]", "비소[μg/kg]":"As[μg/kg]"},inplace = True)

- **df.rename(columns = {"key":"value"}, inplace = True)**
  - rename 함수를 통해 기존의 column명을 원하는 name으로 변경
<br>
---

In [11]:
merged_df['Depth [m]'] = merged_df['Depth [m]'].replace(-999.99,50)
merged_df['Depth [m]'] = merged_df['Depth [m]'].replace(-9.99,0)

- **df['A']=df['A'].replace()**
  - A라는 column에 속한 data를 바꿀 때 사용
<br>
---

In [12]:
merged_df = merged_df[['Cruise', 'Station', 'mon/day/yr', 'hh:mm', 'Longitude [degrees_east]', 'Latitude [degrees_north]', 'Depth [m]', 'Temperature [℃]', 
         'wtrtmp_qc', 'Salinity [PSU]', 'sal_qc', 'Sigma-t [kg/m3]', 'potden_qc', 'DO[μmol/kg]', 'DO[mg/l]', 'disoxy_qc', 'Chl.a[mg/m3]', 'Chl.a[μg/L]','chla_qc', 
         'Alk[μmol/kg]', 'alkal_qc', 'pH', 'hydioncon_qc', 'PO4-[μmol/kg]', 'PO4-[mg/L]', 'po4p_qc', 'NH4+[μmol/kg]', 'NH4+[mg/L]', 'amn_qc', 'NO2-[μmol/kg]', 
         'nitnit_qc', 'NO2-+NO3-[μmol/kg]', 'no2andno3_qc', 'NO3-[μmol/kg]', 'natnit_qc', 'SiO4-[μmol/kg]', 'sio2_qc', 'TN', 'tn_qc', 'TP', 'totp_qc', 
         'ISUS nitrate[μmol/kg]', 'isusn_qc', 'POC', 'parorgc_qc', 'DOC', 'disorgc_qc', 'DIC', 'dic_qc', 'TOC', 'totorgc_qc', 'PON', 'parorgn_qc',
         'CDOM_C1[QSU]', 'cdom_c1_qc', 'CDOM_C2[QSU]', 'cdom_c2_qc', 'CDOM_C3[QSU]', 'cdom_c3_qc', 'CDOM_C4[QSU]', 'cdom_c4_qc', 'SS[mg/L]', 'sussed_qc',
         'COD[mg/L]', 'cheoxydem_qc', 'Transparency[m]', 'tr_qc', 'Cu[μg/kg]', 'cu_qc', 'Pb[μg/kg]', 'pb_qc', 'Zn[μg/kg]', 'zn_qc', 'Cd[μg/kg]',
         'cd_qc', 'Cr6+[μg/kg]', 'hexchum_qc', 'As[μg/kg]', 'as_qc']]

In [13]:
merged_df = merged_df.dropna(subset = ['Depth [m]', 'Temperature [℃]', 'Salinity [PSU]'], how = 'any', axis = 0)

In [14]:
df = merged_df.fillna('NaN')

- **rename이 완료된 column과 기존의 column** 중 원하는 column만 새로운 data frame으로 만듦
- **df.dropna** 함수를 이용해 결측값 제거
  - subset에 column명을 할당하여 **'특정 column에 결측값이 있을 경우'만** 해당 열을 제거
- **fillna**
  - 결측값을 그대로 냅둘 경우 최종 데이터엔 아무런 표기가 없음
  - fillna('NaN')을 이용해 최종 데이터에 NaN으로 표기되도록 함
<br>
---

In [15]:
df = df[df['Salinity [PSU]'] != 55.62]
df = df[df['Salinity [PSU]'] != 37.79]
df = df[df['Salinity [PSU]'] != 37.3]
df = df[df['Salinity [PSU]'] != 35.481]

In [16]:
df = df[df['pH'] != 9.88]
df = df[df['pH'] != 9.8]
df = df[df['pH'] != 9.72]
df = df[df['pH'] != 9.7]
df = df[df['pH'] != 9.6]
df = df[df['pH'] != 9.5]
df = df[df['pH'] != 9.25]
df = df[df['pH'] != 9.22]
df = df[df['pH'] != 9.1]
df = df[df['pH'] != 9.01]
df = df[df['pH'] != 6.165]
df = df[df['pH'] != 0.58]

- **df=df[df['A'] != 값]**
  - A column에서 특정값을 갖는 data 열을 삭제 
  - Salinity 항목과 pH 항목의 qc flag가 4인 data를 삭제
<br>
---

In [17]:
df = pd.DataFrame(df)

In [18]:
df.to_csv("../data/JOISS_data_preprocessing.csv", encoding = 'euc-kr')

- 전처리가 끝난 파일을 내보내기 전 **pd.DataFrame으로** 작업한 data를 data frame 형태로 저장
- **df.to_csv()**
  - 완성된 data frame을 csv 파일로 내보내기 위한 code
  - read_csv와 마찬가지로 괄호 안에 경로, encoding을 지정