# ExcelReaders.jl

* Source : https://github.com/davidanthoff/ExcelReaders.jl
* 엑셀 파일 읽어들이는 툴.  파이썬 xlrd 베이스.  (비슷한 기능을 하는 Taro.jl은 자바 Tika/POI 베이스)
* 시스템에 자바가 설치되어 있지 않으므로, 파이썬 베이스인 ExcelReaders.jl을 설치하기로 함.

In [1]:
# 패키지 설치
Pkg.add("ExcelReaders")

INFO: Cloning cache of DataArrays from https://github.com/JuliaStats/DataArrays.jl.git
INFO: Cloning cache of DataFrames from https://github.com/JuliaStats/DataFrames.jl.git
INFO: Cloning cache of Dates from https://github.com/quinnj/Dates.jl.git
INFO: Cloning cache of ExcelReaders from https://github.com/davidanthoff/ExcelReaders.jl.git
INFO: Cloning cache of GZip from https://github.com/JuliaIO/GZip.jl.git
INFO: Cloning cache of SortingAlgorithms from https://github.com/JuliaLang/SortingAlgorithms.jl.git
INFO: Installing DataArrays v0.3.8
INFO: Installing DataFrames v0.8.3
INFO: Installing Dates v0.4.4
INFO: Installing ExcelReaders v0.6.0
INFO: Installing GZip v0.2.20
INFO: Installing SortingAlgorithms v0.1.0
INFO: Building Rmath
INFO: Building PyCall
INFO: PyCall is using /home/dong/anaconda3/bin/python (Python 3.5.2) at /home/dong/anaconda3/bin/python, libpython = /home/dong/anaconda3/lib/libpython3.5m
INFO: Package database updated
INFO: METADATA is out-of-date — you may not have 

In [2]:
Pkg.update()

INFO: Updating METADATA...
INFO: Updating cache of DataFrames...
INFO: Updating cache of DataFrames...
INFO: Computing changes...
INFO: Upgrading StatsBase: v0.9.0 => v0.10.0
INFO: Removing Rmath v0.1.3
INFO: Removing StatsFuns v0.3.1


# Dataframes.jl

* 파이썬 Pandas 기반.  표(데이블)를 다루는 가장 일반적인 툴.
* Source : https://github.com/JuliaStats/DataFrames.jl
* Doc : 
  * http://juliastats.github.io/DataFrames.jl/latest/index.html
  * https://dataframesjl.readthedocs.io/en/latest/
  * https://en.wikibooks.org/wiki/Introducing_Julia/DataFrames#Finding_values_in_DataFrames
  * http://sinhrks.hatenablog.com/entry/2015/12/23/003321

In [3]:
# 패키지 설치
Pkg.add("DataFrames")

INFO: Nothing to be done


In [8]:
# 패키지가 설치되어 있는지 확인
Pkg.installed("DataFrames")

v"0.8.3"

### 예제 함수 모음
* https://github.com/YongHee-Kim/noProgrammer.jl/blob/master/noProgrammer.jl

### Bash 커널로 현재 디렉토리의 파일 확인

In [1]:
ls

20160929_BOM.ipynb  BOM01.ipynb  _trcws_pc_total_asm.xls


### Julia 커널로 돌아온 후, 작업 준비

In [1]:
using ExcelReaders
using DataFrames

### 엑셀 파일 읽기

In [2]:
# 지정 파일의 Sheet1 시트의 내용 전부 다 읽어들이기
data = readxlsheet("_trcws_pc_total_asm.xls", "Sheet1")

150×5 DataArrays.DataArray{Any,2}:
 "2015년 12월 25일 금요일 오전 12:27:43"          …  NA        
 NA                                          NA        
 "Bill of Material: _TRCWS_PC_TOTAL_ASM"     NA        
 "Quantity"                                  "Revision"
 "1"                                         "33"      
 "1"                                      …  "9"       
 "1"                                         "7"       
 "1"                                         "8"       
 "1"                                         "8"       
 "1"                                         "5"       
 "1"                                      …  "5"       
 "1"                                         "3"       
 NA                                          NA        
 ⋮                                        ⋱            
 "1"                                         NA        
 "3"                                         NA        
 "16"                                     …  NA        
 "1"         

### 엑셀 파일을 읽어서 DataFrames 구조체로 바로 넣기

In [13]:
df = readxlsheet(DataFrame, "_trcws_pc_total_asm.xls", "Sheet1")

LoadError: LoadError: There can't be empty cells in the header row.
while loading In[13], in expression starting on line 1

#### 에러가 났으므로 헤더를 생략하는 옵션을 줘서 다시 읽어보자.

In [14]:
df = readxlsheet(DataFrame, "_trcws_pc_total_asm.xls", "Sheet1", header=false)

Unnamed: 0,x1,x2,x3,x4,x5
1,2015년 12월 25일 금요일 오전 12:27:43,,,,
2,,,,,
3,Bill of Material: _TRCWS_PC_TOTAL_ASM,,,,
4,Quantity,Part Number,Type,Nomenclature,Revision
5,1,_TRCWS_PC_TOTAL_SKEL,Part,_TRCWS_PC_TOTAL_SKEL,33
6,1,TRCWS_PC_ITX_ASM,Assembly,TRCWS_PC_ITX_ASM,9
7,1,TRCWS_PC_CASE_LEFT_ASM,Assembly,TRCWS_PC_CASE_LEFT_ASM,7
8,1,TRCWS_PC_CASE_RIGHT_ASM,Assembly,TRCWS_PC_CASE_RIGHT_ASM,8
9,1,TRCWS_PC_CASE_REAR,Part,TRCWS_PC_CASE_REAR,8
10,1,TRCWS_PC_CASE_TOP_ASM,Assembly,TRCWS_PC_CASE_TOP_ASM,5


## 읽어들이기 성공!

### 1행,2행은 쓸데 없으므로 삭제하자.

In [16]:
df = deleterows!(df, 1:2)

Unnamed: 0,x1,x2,x3,x4,x5
1,Bill of Material: _TRCWS_PC_TOTAL_ASM,,,,
2,Quantity,Part Number,Type,Nomenclature,Revision
3,1,_TRCWS_PC_TOTAL_SKEL,Part,_TRCWS_PC_TOTAL_SKEL,33
4,1,TRCWS_PC_ITX_ASM,Assembly,TRCWS_PC_ITX_ASM,9
5,1,TRCWS_PC_CASE_LEFT_ASM,Assembly,TRCWS_PC_CASE_LEFT_ASM,7
6,1,TRCWS_PC_CASE_RIGHT_ASM,Assembly,TRCWS_PC_CASE_RIGHT_ASM,8
7,1,TRCWS_PC_CASE_REAR,Part,TRCWS_PC_CASE_REAR,8
8,1,TRCWS_PC_CASE_TOP_ASM,Assembly,TRCWS_PC_CASE_TOP_ASM,5
9,1,TRCWS_PC_CASE_BOT_ASM,Assembly,TRCWS_PC_CASE_BOT_ASM,5
10,1,TRCWS_PC_CASE_FRONT_ASM,Assembly,TRCWS_PC_CASE_FRONT_ASM,3


### 테이블의 속성들을 파악하자.

In [17]:
# 데이타 타입 파악
typeof(df)

DataFrames.DataFrame

In [19]:
# 각 컬럼들(열)의 이름 파악
names(df)

5-element Array{Symbol,1}:
 :x1
 :x2
 :x3
 :x4
 :x5

In [20]:
# 테이블 사이즈 파악 (행,열)
size(df)

(148,5)

In [21]:
# 열의 길이 파악
length(df)

5

In [22]:
# 최초 6행까지만 빨리 보여주기
head(df)

Unnamed: 0,x1,x2,x3,x4,x5
1,Bill of Material: _TRCWS_PC_TOTAL_ASM,,,,
2,Quantity,Part Number,Type,Nomenclature,Revision
3,1,_TRCWS_PC_TOTAL_SKEL,Part,_TRCWS_PC_TOTAL_SKEL,33
4,1,TRCWS_PC_ITX_ASM,Assembly,TRCWS_PC_ITX_ASM,9
5,1,TRCWS_PC_CASE_LEFT_ASM,Assembly,TRCWS_PC_CASE_LEFT_ASM,7
6,1,TRCWS_PC_CASE_RIGHT_ASM,Assembly,TRCWS_PC_CASE_RIGHT_ASM,8


In [23]:
# 마지막 6행만 빨리 보여주기
tail(df)

Unnamed: 0,x1,x2,x3,x4,x5
1,2,TRCWS_PC_SEAL_B,,,
2,1,TRCWS_PC_CASE_BOT,,,
3,1,TRCWS_PC_CASE_FRONT,,,
4,1,FILTER_60X60X6_5,,,
5,1,TRCWS_PC_HOOD,,,
6,1,TRCWS_PC_PANEL,,,


In [24]:
# 각 컬럼(열)의 데이타 속성 확인
showcols(df)

148×5 DataFrames.DataFrame
│ Col # │ Name │ Eltype │ Missing │
├───────┼──────┼────────┼─────────┤
│ 1     │ x1   │ String │ 14      │
│ 2     │ x2   │ String │ 30      │
│ 3     │ x3   │ String │ 72      │
│ 4     │ x4   │ String │ 72      │
│ 5     │ x5   │ String │ 72      │

In [43]:
# 3열만 따서 확인
df[:,3]

148-element DataArrays.DataArray{String,1}:
 NA        
 "Type"    
 "Part"    
 "Assembly"
 "Assembly"
 "Assembly"
 "Part"    
 "Assembly"
 "Assembly"
 "Assembly"
 NA        
 NA        
 "Type"    
 ⋮         
 NA        
 NA        
 NA        
 NA        
 NA        
 NA        
 NA        
 NA        
 NA        
 NA        
 NA        
 NA        

In [42]:
# 2행만 따서 확인
df[2,:]

Unnamed: 0,x1,x2,x3,x4,x5
1,Quantity,Part Number,Type,Nomenclature,Revision


### 뒤에 붙어있는 PartList가 시작하는 지점을 찾는다.

* PartList 시작 지점의 구문 형식은 다음과 같다.


In [None]:

Recapitulation of: _TRCWS_PC_TOTAL_ASM
Different parts: 41
Total parts: 182

* 위에서, `_TRCWS_PC_TOTAL_ASM`, `41`, `182`는 가변적이다.

In [44]:
# 특정 구문을 찾는 함수
function findstringarray(ary, s)
   res = Any[]
   for e in ary
    contains(e, s) ? push!(res, true) : push!(res, false)
   end
   return res
end

findstringarray (generic function with 1 method)

In [8]:
iris[iris[:Species] .== "Quantity", :]

LoadError: LoadError: UndefVarError: iris not defined
while loading In[8], in expression starting on line 1