# 4 DataFrames.jl

데이터는 대부분 테이블 형식으로 전달됩니다. 테이블 형식이라고 하는 것은 데이터가 행(row)과 열(column)로 구성되어 있는 테이블이라는 뜻입니다. 
열은 보통 같은 데이터 타입이고 행은 다른 데이터 타입을 가지고 있습니다. 행은, 실질적으로, 관찰 값을 의미하며,열은 변수를 의미합니다. 예를 들어 우리가 티비 쇼 테이블을 가지고 있다고 해봅시다. 이 테이블에는 그 티비 쇼가 만들어진 국ㄱ가와 우리의 평점이 있다고 합시다. 테이블 1처럼 말이죠.

제목 | 국가 | 평점
--- | --- | ---
왕좌의 게임 | 미국 | 8.2
크라운 | 영국 | 7.3
프렌즈 | 미국 | 7.8
... | ... | ...

여기서 점들의 의미는 이 표가 아주 긴 표일 수 있으며 우리는 그중 일부만 보여줬다는 의미입니다.데이터를 분석하는 동안, 우리는 종종 데이터에 대한 재미 있는 질문들이 떠오릅니다. *데이터 쿼리*라고도 불리우죠. 큰 테이블들이 주어졌을 때, 컴퓨터는 이런 질문들에 아주 빨리 답할 수 있습니다. 당신이 손으로 하는 것보다 말이죠. 몇몇 쿼리에 대한 예를 들어보자면,

- 어떤 티비 쇼가 가장 높은 평점을 가지고 있나요?
- 어떤 티비 쇼들이 마국에서 만들어 졌나요?
- 어떤 티비 쇼들이 같은 국가에서 만들어 졌나요?

하지만, 한명의 연구자로, 진짜 과학은 종종 여러 테이블이나 데이터 소스와 함께 시작하곤 합니다. 예를들어 우리가 다른 사람의 티비 쇼 평점 자료를 가지고 있다고 해봅시다.

제목 | 평점
--- | ---
왕좌의 게임 | 7
프렌즈 | 6.4
... | ...

이제 우리가 스스로에게 할 수 있는 질문은

- 왕좌의 게임의 평균 평점은 얼마인가요?
- 누가 프렌즈에 가장 높은 평점을 주었나요?
- 어떤 티비 쇼가 다른 사람이 아닌 당신이 평점을 매긴 쇼인가요?

남은 쳅터에서, 줄리아를 통해 우리는 어떻게 이런 질문에 쉽게 답할 수 있는지를 보여줄 것입니다. 그러기 위해서 우리는 먼저 왜 `DataFrames.jl`이라고 하는 줄리아 패키지가 필요한지 보여주고자 합니다. 다음 섹션에서 우리는 어떻게 이 패키지를 사용하는 보여주고 궁극적으로 우리가 어떻게 빨리 데이터 처리(data transformations)를 할 수 있는지 보여주고자 합니다. 

테이블 3과 같은 성적표를 봅시다.

이름 | 나이 | 2020 등급
--- | --- | ---
밥 | 17 | 5.0
샐리 | 18 | 1.0
엘리스 | 20 | 8.5
행크 | 19 | 4.0

여기서 이름 컬럼은 `string`타입이고, 나이는 `integer`, 등급은 `float`타입입니다.

지금까지 이 책은 줄리아 기초만 다루었습니다. 이런 기초는 많은 것들을 훌륭히 할 수 있지만, 테이블은 아닙니다. 우리가 무엇이 더 필요한지 보여주기 위해서 테이블 데이터를 배열에 저장해 봅시다.

In [1]:
using Pkg
Pkg.activate(".")
Pkg.status()

[32m[1m  Activating[22m[39m environment at `~/NotebooksforDataScience/docs/julia/data_science/Project.toml`


[32m[1m      Status[22m[39m `~/NotebooksforDataScience/docs/julia/data_science/Project.toml`
 [90m [336ed68f] [39mCSV v0.10.2
 [90m [324d7699] [39mCategoricalArrays v0.10.2
 [90m [a93c6f00] [39mDataFrames v1.3.2
 [90m [fdbf4ff8] [39mXLSX v0.7.9


In [2]:
function grades_array()
    name = ["Bob", "Sally", "Alice", "Hank"]
    age = [17, 18, 20, 19]
    grade_2020 = [5.0, 1.0, 8.5, 4.0]
    (; name, age, grade_2020)
end

grades_array (generic function with 1 method)

이제, 데이터는 소위 컬럼 메이저 형태로 저장되어 있습니다. 이는 우리가 행을 원할 때 불편합니다.

In [3]:
function second_row()
    name, age, grade_2020 = grades_array()
    i = 2
    row = (name[i], age[i], grade_2020[i])
end
second_row()

("Sally", 18, 1.0)

또는 엘리스의 등급을 원한다면, 우선 어떤 행에 엘리스가 있는지 알아내야 합니다.

In [4]:
function row_alice()
    names = grades_array().name
    i = findfirst(names .== "Alice")
end
row_alice()

3

그리고 나서야 우리는 원하는 값을 얻을 수 있습니다.

In [5]:
function value_alice()
    grades = grades_array().grade_2020
    i = row_alice()
    grades[i]
end
value_alice()

8.5

`DataFrames.jl`은 이런 문제를 쉽게 해결 할 수 있습니다. `using`을 사용해서 `DataFrames.jl`을 불러올 수 있습니다.

In [6]:
using DataFrames

`DataFrames.jl`을 사용해, 우리는 테이블 데이터를 보관할 `DataFrame`을 정의할 수 있습니다.

In [7]:
names = ["Sally", "Bob", "Alice", "Hank"]
grades = [1, 5, 8.5, 4]
df = DataFrame(; name=names, grade_2020=grades)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


우리 데이터를 테이블 형태로 가지고 있는 `df`라는 변수를 반환해 줍니다.

> **노트**: 이 방식은 작동합니다만, 한가지 바로 바꿔야 할 부분이 있습니다. 이 예제에서 우리는 변수 `name`, `grade_2020`그리고 `df`를 전역에서 선언했습니다. 이 것은 이 변수들은 어디서든지 접근할 수 있고 바꿀 수 있다는 뜻입니다. 우리가 이런 식으로 책을 계속 써내려간다면, 우리는 수백개의 변수를 가지게 될 것이고, 우리가 변수 `name`에 저장한 데이터는 `DataFrame`을 통해서만 접근 가능해야 합니다!
변수 `name`과 `grade_2020`은 오래 보관하려고 만든 변수가 아닙니다! 
우리가 `grade_2020`내용을 여러번 이 책에서 바꾼다고 생각해 봅시다. 주어진 책이 PDF라고 했을 때 그 변수의 최종 내용이 무엇인지 알아내는 것은 거의 불가능 합니다. 
우리는 이 문제를 함수를 통해 쉽게 해결 할 수 있습니다.

같은 것을 함수 속에서 해봅시다.

In [8]:
function grades_2020()
    name = ["Sally", "Bob", "Alice", "Hank"]
    grade_2020 = [1, 5, 8.5, 4]
    DataFrame(; name, grade_2020)
end
grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


`name`과 `grade_2020`은 함수값이 반환 되고 나서 사라집니다. 그들은 함수 안에서만 있습니다. 두가지 또 다른 장점이 있는데, 첫번째로는 `name`과 `grade_2020`이 어디에 있는지 독자에게 명확해 진다는 점입니다. 두번째로는 `grades_2020()`이 이 책에 어떤 포인트에서도 어떤 값을 반환할 지 쉽게 알 수 있다는 점입니다. 예를 들어 우리가 변수 `df`에 데이터를 집어 넣을 수 있습니다.

In [9]:
df = grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


`df`의 내용을 바꿔봅시다.

In [10]:
df = DataFrame(name=["Malice"], grade_2020 = ["10"])

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,String
1,Malice,10


그리고 원래 데이터를 다시 확보하는 것은 문제없이 가능합니다.

In [11]:
df = grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


물론, 이 함수가 다시 정의되지 않는다는 가정이 있습니다. 우리는 이 책에서 그렇게 하지 않을 것을 약속합니다. 왜냐하면 이는 아주 나쁜 아이디어이기 때문입니다. 함수를 "바꾸기" 보다는 우리는 새로운 함ㅅ를 만들 것이고 명확한 이름을 부여할 것입니다.

그러면 `DataFrames` 생성자로 돌아갑시다. 여러분들이 보셨다 시피, 데이터 프레임을 만들기 위해 간단하기 벡터들을 `DataFrame` 생성자에 인자로 전달하면 됩니다. **벡터가 같은 길이를 가지고 있는 한** 여러분은 어떤 줄리아 벡더라도 사용할 수 있습니다. 중복, 유니코드 심볼과 다른 종류의 숫자들도 괜찮습니다.

In [12]:
DataFrame(σ = ["a", "a", "a"], δ=[π, π/2, π/3])

Unnamed: 0_level_0,σ,δ
Unnamed: 0_level_1,String,Float64
1,a,3.14159
2,a,1.5708
3,a,1.0472


보통, 당신의 코드에서, 당신은 하나 이상의 `DataFrame` 함수들을 포함하고 있는 함수를 만들고자 할 것입니다. 예를 들어 우리는 하나 하하나 이상의 `names`의 등급을 갖는 함수를 만들 수 있습니다.

In [13]:
function grades_2020(names::Vector{Int})
    df = grades_2020()
    df[names, :]
end
grades_2020([3, 4])

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5
2,Hank,4.0


이렇게 함수롤 기본 프로그램의 기능과 패키지를 감싸는 것은 아주 일반적입니다. 기본적으로 줄리아와 `DataFrames.jl`을 벽돌을 공그해주는 것이라고 생각할 수 있습니다. 그들은 아주 **일반적인** 벽돌을 공급해서 당신의 아주 **구체적인** 사례에 필요한 것들을 만들 수 있게 해줍니다. 벽돌을 사용해서 당신은 데이터 분석 스크립트를 만들 수 있고, 로봇을 컨트롤 한다거나, 당신이 만들고 싶은 것을 만들 수 있습니다.

지금까지의 예제들은 상당히 진부했습니다. 왜냐하면 우리는 인덱스를 사용해야 했기 때문입니다. 다음 섹션 부터, 우리는 어떻게 데이터를 불러오고 저장할 수 있는지 볼 것이며 `DataFrames.jl`이 제공하는 많은 강력한 벽돌을 보여주고자 합니다.

## 4.1 파일 저장과 불러오기

줄리아 프로그램 안에서만 데이터를 가질 수 있고 불러오거나 저장할 수 없다면 아주 제한적으로만 사용할 수 있을 것입니다. 그러므로 우리는 어떻게 파일을 저장하고 디스크로부터 읽어올 수 있는지 언급하고자 합니다. 우리는 테이블 형식의 데이터를 보관하는 가장 일반적인 형식인 CSV(섹션 [4.1.1]())와 엑셀(섹션 [4.1.2]()) 파일 포맷에 집중하고자 합니다.

### 4.1.1 CSV

Comma-Separated Values(CSV) 파일은 테이블을 저장하기에 아주 효과적인 방법입니다. CSV파일은 다른 데이터 저장 파일보다 두가지 나은 점이 있습니다. 첫 번째는 컴마로 나눠서 값을 분리한다는 이름이 바로 이것이 무엇을 하는지 정확히 보여준다는 점입니다. 이 두문자는 파일 확장자로도 사용됩니다. 그렇기 때문에 파일을 저장할 때 "myfile.csv"와 같이 ".csv" 확장자를 써야 합니다. CSV파일이 어떻게 생겼는지 보여주기 위해, 우리는 `CSV.jl`패키지를 인스톨 할 수 있습니다.

```julia
julia> ]

pkg> add CSV
```

그리고 다음과 같이 패키지를 불러옵니다.

In [14]:
using CSV

우리는 이전 데이터를 사용할 수 있습니다.

In [15]:
grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


그리고 이 데이터를 파일로 만들고 다시 불러올 수 있습니다.

In [16]:
function write_grades_csv()
    path = "grades.csv"
    CSV.write(path, grades_2020())
end

write_grades_csv (generic function with 1 method)

In [17]:
path = write_grades_csv()
read(path, String)

"name,grade_2020\nSally,1.0\nBob,5.0\nAlice,8.5\nHank,4.0\n"

여기서 우리는 두번째 CSV파일 형식의 장점을 볼 수 있습니다. 간단한 텍스트 에디터를 사용해서 데이터를 읽을 수 있습니다. 이 점은 많은 다른 대안적인 데이터 형식과 다른 점입니다. 다른 데이터 형식은 보통 엑셀과 같이 특정 소프트웨어가 필요하기 때문입니다.

이것은 놀랍게 작동합니다. 하지만 만약 우리 데이터가 **컴마`,`를 데이터로 포함한다면** 어떻게 될까요? 만약 우리가 그냥 컴마를 사용해서 데이터를 작성한다면, 다시 테이블 형식으로 되돌리기가 아주 어려울 것입니다.
다행히도 `CSV.jl`은 이런 문제를 자동으로 해결해 줍니다. 다음과 같이 컴마`,`가 있는 데이터를 생각해 봅시다.

In [18]:
function grades_with_commas()
    df = grades_2020()
    df[3, :name] = "Alice,"
    df
end

grades_with_commas()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,"Alice,",8.5
4,Hank,4.0


이것을 파일로 쓰면 우리는 아래와 같은 결과를 얻습니다.

In [19]:
function write_comma_csv()
    path = "grades-commas.csv"
    CSV.write(path, grades_with_commas())
end
path = write_comma_csv()
read(path, String)

"name,grade_2020\nSally,1.0\nBob,5.0\n\"Alice,\",8.5\nHank,4.0\n"

`CSV.jl`은 컴마`,`를 포함한 값에는 쌍따옴표`"`를 추가합니다. 이 문제를 해결할 또 다른 방법은 데이터를 탭 분할 값(Tab-Separated Values, TSV)파일 형식으로 작성하는 것입니다. 이것은 데이터는 탭을 포함하고 있지 않다는 가정에 기반하고 있으며 대부분의 경우에는 맞아 떨어집니다.

TSV파일 또한 기본적인 텍스트 에디터에서 읽을 수 있으며 ".tsv"라는 확장자를 사용합니다.

In [20]:
function write_comma_tsv()
    path = "grades-comma.tsv"
    CSV.write(path, grades_with_commas(); delim='\t')
end
read(write_comma_tsv(), String)

"name\tgrade_2020\nSally\t1.0\nBob\t5.0\nAlice,\t8.5\nHank\t4.0\n"

CSV나 TSV와 같은 텍스트 파일 포맷 중에서 세미콜론";" 이나 공백 " ," 또는 "$\pi$"와 같이 특별한 것도 있습니다.

In [21]:
function write_space_separated()
    path = "grades-space-separated.csv"
    CSV.write(path, grades_2020(); delim=' ')
end
read(write_space_separated(), String)

"name grade_2020\nSally 1.0\nBob 5.0\nAlice 8.5\nHank 4.0\n"

규약에 따라, ";"와 같이 특별한 분할자를 ".csv"확장자에 사용하는 것이 최선입니다.

`CSV.jl`을 사용해서 CSV파일을 읽는 것도 비슷한 방식으로 할 수 있습니다. `CSV.read`를 사용할 수 있으며 원하는 아웃풋 포맷을  지정할 수 있습니다. 우리는 `DataFrame`으로 명시합니다.

In [22]:
path = write_grades_csv()
CSV.read(path, DataFrame)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String7,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


편리하게도, `CSV.jl`은 자동으로 컬럼의 타입을 추론해줍니다.

In [23]:
path = write_grades_csv()
df = CSV.read(path, DataFrame)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String7,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


이것은 훨씬 복잡한 데이터에도 작동합니다.

In [24]:
my_data = """
    a,b,c,d,e
    Kim,2018-02-03,3,4.0,2018-02-03T10:00
    """
path = "my_data.csv"
write(path, my_data)
df = CSV.read(path, DataFrame)

Unnamed: 0_level_0,a,b,c,d,e
Unnamed: 0_level_1,String3,Date,Int64,Float64,DateTime
1,Kim,2018-02-03,3,4.0,2018-02-03T10:00:00


이런 CSV 기초는 더 많은 사례를 커버해야 합니다. 더 많은 정보를 원하시면, `CSV.jl` [문서]()를 보시면 됩니다. 특히 `CSV.File` [생성자 문서]()보세요.

### 4.1.2. 엑셀

엑셀 파일을 읽어오는 복수의 줄리아 패키지가 있습니다. 이 책에서 우리는 `XLSX.jl`만 다룹니다. 왜냐하면 줄리아 생태계에서 엑셀 데이터를 다루는 가장 활발하게 유지보수가 되고 있는 패키지 이기 때문입니다. 두번째 이익은 `XLSX.jl`은 순수하게 줄리아로만 작성되어 있어서, 우리가 내부에서 어떻게 돌아가는지 조사하고 이해하기 쉽기 때문입니다.

`XLSX.jl`를 다음과 같이 불러옵니다.

In [25]:
using XLSX:
    eachtablerow,
    readxlsx,
    writetable

파일을 쓰기 위해서, 우리는 데이터와 컬럼 이름을 위한 작은 헬퍼 함수를 정의합니다.

In [26]:
function write_xlsx(name, df::DataFrame)
    path = "$name.xlsx"
    data = collect(eachcol(df))
    cols = DataFrames.names(df)
    writetable(path, data, cols)
end

write_xlsx (generic function with 1 method)

이제 우리는 쉽게 grades를 엑셀 파일로 작성 할 수 있습니다.

In [27]:
function write_grades_xlsx()
    path = "grades"
    write_xlsx(path, grades_2020())
    "$path.xlsx"
end

write_grades_xlsx (generic function with 1 method)

이것을 다시 읽을 때, 우리는 `XLSX.jl`가 데이터를 `XLSXFile` 타입으로 하고 우리가 원하는 `sheet`를 `Dict`처럼 접근할 수 있습니다.

In [28]:
path = write_grades_xlsx()
xf = readxlsx(path)

LoadError: AssertionError: grades.xlsx already exists.

In [29]:
xf = readxlsx(path)
sheet = xf["Sheet1"]
eachtablerow(sheet) |> DataFrame

LoadError: my_data.csv is not a valid XLSX file.

우리는 `XlSX.jl`의 기초만 다뤘을 뿐입니다. 더 강력하고 유용한 것들이 있습니다. 더 많은 정보와 옵션을 보려면 `XlSX.jl`[문서]()를 찾아보세요.

## 4.2. 인덱싱과 요약

그러면 다시 `grades_2020()`예제로 돌아가 봅시다.

In [30]:
grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


`name`의 **벡터**를 얻으려면, 우리는 `DataFrame`을 `.`으로 접근할 수 있습니다 우리가 섹션 [3]()에서의 `struct`처럼 말이죠.

In [31]:
function names_grades1()
    df = grades_2020()
    df.name
end
names_grades1()

4-element Vector{String}:
 "Sally"
 "Bob"
 "Alice"
 "Hank"

아니면 우리는 `DataFrame`을 `Array`처럼 이넫ㄱ싱 할 수 있습니다. 심볼과 특별한 문자들을 통해서요. **두번째 인덱싱은 컬럼 인덱싱**입니다.

In [32]:
function names_grades2()
    df = grades_2020()
    df[!, :name]
end
names_grades2()

4-element Vector{String}:
 "Sally"
 "Bob"
 "Alice"
 "Hank"

`df.name`은 `df[!, :name]`과 완전히 같습니다. 직접 확인할 수 있습니다.

```julia
julia>>> df = DataFrame(id=[1]);
julia>>> @edit df.name
```

두 경우 모두 `:name` 컬럼을 반환합니다. `df[:, :name]` 도 `:name`을 복사합니다 대부분의 경우, `df[!, :name]`은 최적입니다. 이 방식이 가장 유연하고 진행 될 때 변환하기 때문입니다.

어떤 **행**이든지, 예를 들어 두번째 행은 우리는 **첫 번째 인덱스를 열 인덱스**로 사용합니다.

In [33]:
df = grades_2020()
df[2, :]

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
2,Bob,5.0


아니면 우리가 원하는 어떤 `i` 행을 반환하는 함수를 만들 수 있습니다.

In [34]:
function grade_2020(i::Int)
    df = grades_2020()
    df[i, :]
end
grade_2020(2)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
2,Bob,5.0


우리는 `names`의 두 행만을 **슬라이싱**을 통해 구할 수 있습니다.(또 `Array`랑 비슷합니다.)

In [35]:
grades_indexing(df) = df[1:2, :name]
grades_indexing(grades_2020())

2-element Vector{String}:
 "Sally"
 "Bob"

우리가 모든 테이블에서 이름이 유일하다고 가정한다면, 우리는 그들의 이름을 통해 사람의 grade을 얻는 함수를 쓸 수 있습니다. 그러기 위해서 우리는 테이블을 줄리아의 기초 자료구조(섹션 [3.3.]()을 보세요)이자 맵핑을 만들 수 있는 `Dict`로 변환합니다.

In [36]:
function grade_2020(name::String)
    df = grades_2020()
    dic = Dict(zip(df.name, df.grade_2020))
    dic[name]
end
grade_2020("Bob")

5.0

`zip`이 `df.name`과 `df.grade_2020`을 지퍼처럼 순환하기 때문에 가능합니다.

In [37]:
df = grades_2020()
collect(zip(df.name, df.grade_2020))

4-element Vector{Tuple{String, Float64}}:
 ("Sally", 1.0)
 ("Bob", 5.0)
 ("Alice", 8.5)
 ("Hank", 4.0)

하지만, `DataFrame`을 `Dict`으로 변환하는 것은 요소들에 중복이 없을 때만 유용합니다. 일반적인 경우는 아니며, 그래서 우리는 어떻게`DataFrame`을 `filter` 할 수 있는지 배워야 합니다.

## 4.3 필터와 부분집합

`DataFrame`에서 행을 제거할 수 있는 두가지 방법이 있습니다.
한가지는 `filter`(섹션 [4.3.1]())를 이용한 방법과 `subset`(섹션 [4.3.2]())을 이용한 방법이 있습니다.
`filter`는 `DataFrames.jl`에 초기부터 추가된 기능으로 좀 더 강력하고 줄리아 베이스 문법에 좀 더 일관됩니다. 그래서 우리는 `filter`부터 이야기 하고자 합니다. `subset`은 좀 더 나중에 추가된 기능으로 종종 좀 더 편리합니다. 

### 4.3.1 Filter

이 시점 부터 우리는 `DataFrames.jl`의 좀 더 강력한 기능을 다루기 시작합니다. 그러기 위해서 우리는 `select`와 `filter`와 같은 몇몇 함수들을 배울 필요가 있습니다. 하지만 걱정하지 마세요. **`DataFrames.jl`의 전반적인 설계 목적은 사용자가 배워야 하는 함수의 수를 최소화 하는 것**을 안다면 조금 안심할 수 있을 것입니다.

이전과 동일하게, `grades_2020`부터 시작합니다.

In [38]:
grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


`filter(source => f::Function, df)`를 사용해서 우리는 행을 필터링 할 수 있습니다.
이 함수는 줄리아 `Base`모듈의 `filter(f::Function, V::Vector)`와 아주 닮아 있습니다. 왜냐하면 `DataFrames.jl`은 **멀티플 디스패치**(섹션 [2.3.3]()을 봐주세요)를 사용해서 `filter`에 `DataFrame`을 인자로 받는 새로운 메소드를 정의했습니다. 

처음에는 필터링을 위해 함수 `f`를 정의하는 것이 사용하기 어려울 수 있습니다 참고 견디세요. 그런 노력은 그 빛을 발할 겁니다. 왜냐하면 **이것은 데이터를 필터링 하는 아주 강력한 방법이기 때문입니다.** 간단한 예시를 들면, 우리는 `equals_alice`라는 함수를 만들어 인풋이 "Alice"인지 확인할 수 있습니다.

In [39]:
equals_alice(name::String) = name == "Alice"
equals_alice("Bob")

false

In [40]:
equals_alice("Alice")

true

위아 같은 함수를 가지고 있으면, 우리는 함수 `f`를 사용해서 `name`이 "Alice"인 행을 필터링 해낼 수 있습니다.

In [41]:
filter(:name=> equals_alice, grades_2020())

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


In [42]:
filter(equals_alice, ["Alice", "Bob", "Dave"])

1-element Vector{String}:
 "Alice"

**익명 함수**(섹션 [3.2.4.4]()를 봐주세요)를 사용해 조금 덜 장황하게 만들 수 있습니다.

In [43]:
filter(n -> n == "Alice", ["Alice", "Bob", "Dave"])

1-element Vector{String}:
 "Alice"

우리는 `grades_2020`에도 사용할 수 있습니다.

In [44]:
filter(:name => n -> n == "Alice", grades_2020())

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


요약하자면, 이 함수 호출은 "`:name` 열에 있는 각 요소에 대해, `n`이라고 각 요소를 하자면, `n`이 Alice와 같은지 확인"이라고 해석할 수 있습니다. 어떤 사람들에게는, 이것은 여전히 너무 장황할 것입니다. 
다행히도, 줄리아는 `==`에 대한 *부분 함수 적용* 합니다.
그 상세는 중요하지 않고 다른 삼수처럼 사용할 수 있다는 것만 아시면 됩니다.

In [45]:
filter(:name => ==("Alice"), grades_2020())

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


Alice가 아닌 모든 행을 얻기 위해서는, `==`(등호)를 `!=`(다름)으로 교체하기만 하면 됩니다.

In [46]:
filter(:name => !=("Alice"), grades_2020())

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Hank,4.0


이제 **왜 함수가 강력한지** 보여주기 위해, 우리는 조금 더 보잡한 필터를 사용해 봅시다. 이 필터에서는, A나 B로 시작하는 사람의 이름**과** 6 등급 이상 받은 사람을 찾아봅시다.

In [47]:
function complex_filter(name, grade)::Bool
    interesting_name = startswith(name, 'A') || startswith(name, 'B')
    interesting_grade = 6 < grade
    interesting_name && interesting_grade
end

complex_filter (generic function with 1 method)

In [48]:
filter([:name, :grade_2020] => complex_filter, grades_2020())

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


### 4.3.2 Subset

`subset`함수는 결측값(missing value, 섹션 [4.5]()를 보세요)을 쉽게 다루기 위해 도입되었습니다. `filter`와는 다르게 `subset`은 행이나 단일 값이 아닌 완전한 열에서 작동합니다.당신이 이전에 정의된 함수를 사용하고 싶다면, 우리는 이것을 `ByRow`로 감싸야 합니다.

In [49]:
subset(grades_2020(), :name => ByRow(equals_alice))

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


한가지 언급하고자 하는 것은 `DataFrame`은 이제 첫번째 인자`subset(df, args...)`입니다. 반대로 `filter`는 두번째 인자`filter(f, df)`입니다 이 이유는 줄리아는 필터를 `filter(f, V::Vector)`로 정의했고 `DataFrames.jl`은 줄리아 함수와 일관성을 유지해 `DataFrames`의 타입을 멀티플 디스패치로 확대 했습니다.

> **노트** : 대부분의 `DataFrames.jl`의 함수는, `subset`을 포함해서, **`DataFrame`을 첫번째 인자로 받는 일관된 함수 형식을**가지고 있습니다.

`filter`와 동일하게 우리는 익명 함수를 사용할 수 있습니다.

In [50]:
subset(grades_2020(), :name => ByRow(name -> name == "Alice"))

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


또는 부분 함수(partial function application)인 ``==`을 쓸 수 있습니다.

In [51]:
subset(grades_2020(), :name => ByRow(==("Alice")))

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


궁극적으로, `subset`의 진짜 위력을 봅시다. 먼저 우리는 몇몇 결측이 있는 데이터 셋을 만듭니다.

In [52]:
function salaries()
    names = ["John", "Hank", "Karen", "Zed"]
    salary = [1_900, 2_800, 2_800, missing]
    DataFrame(; names, salary)
end
salaries()

Unnamed: 0_level_0,names,salary
Unnamed: 0_level_1,String,Int64?
1,John,1900
2,Hank,2800
3,Karen,2800
4,Zed,missing


이 데이터는 그럴 듯한 상황에 대한 것입니다. 당신은 당신의 동료들의 봉급을 알 싶지만, 아직 Zed의 월급을 알지 못하는 것이죠. 우리가 이런 것을 하라고 권유하고 싶지는 않지만, 이것은 재미있는 예제입니다. 우리는 누가 2000 보다 더 많이 벌었는지 알고 싶다고 해봅시다. `missing` 값을 처리하지 않고 `filter`를 사용하면 실패할 것입니다.

In [53]:
filter(:salary => >(2_000), salaries())

LoadError: TypeError: non-boolean (Missing) used in boolean context

`subset`또한 실패할 것입니다, 하지만 이것은 우리에게 쉬운 솔루션을 알려줄 것입니다.

In [54]:
subset(salaries(), :salary => ByRow(>(2_000)))

LoadError: ArgumentError: missing was returned in condition number 1 but only true or false are allowed; pass skipmissing=true to skip missing values

그래서 우리는 그저 키워드 인자`skipmissing=true`를 넘기면 됩니다.

In [55]:
subset(salaries(), :salary => ByRow(>(2_000)); skipmissing=true)

Unnamed: 0_level_0,names,salary
Unnamed: 0_level_1,String,Int64?
1,Hank,2800
2,Karen,2800


## 4.4 Select

**`filter`가 행을 지운다면, `select`는 열을 제거합니다.** 하지만, 우리가 이 섹션에서 이야기 하듯이 `select`는 단순히 열을 지우는 것보다 훨씬 유연합니다. 우선 다수의 열을 가진 데이터 셋을 만들어 봅시다

In [56]:
function responses()
    id = [1,2]
    q1 = [28, 61]
    q2 = [:us, :fr]
    q3 = ["F", "B"]
    q4 = ["B", "C"]
    q5 = ["A", "E"]
    DataFrame(; id, q1, q2, q3, q4, q5)
end
responses()

Unnamed: 0_level_0,id,q1,q2,q3,q4,q5
Unnamed: 0_level_1,Int64,Int64,Symbol,String,String,String
1,1,28,us,F,B,A
2,2,61,fr,B,C,E


여기서, 데이터는 5개의 질문에 대한 답을 나타내고 있습니다.(`q1`, `q2`, ..., `q5`) 우리는 이 데이터 셋에서 부터 몇 열을 "선택"함으로 시작하고자 합니다. 언제나 처럼, 우리는 심볼을 컬럼을 나타낼 때 사용합니다.

In [57]:
select(responses(), :id, :q1)

Unnamed: 0_level_0,id,q1
Unnamed: 0_level_1,Int64,Int64
1,1,28
2,2,61


우리는 또한 문자열을 사용할 수 있습니다.

In [58]:
select(responses(), "id", "q1", "q2")

Unnamed: 0_level_0,id,q1,q2
Unnamed: 0_level_1,Int64,Int64,Symbol
1,1,28,us
2,2,61,fr


하나나 몇몇 열을 *제외*하고 선택하고 싶을 때 `Not`을 사용하면 됩니다.

In [59]:
select(responses(), Not(:q5))

Unnamed: 0_level_0,id,q1,q2,q3,q4
Unnamed: 0_level_1,Int64,Int64,Symbol,String,String
1,1,28,us,F,B
2,2,61,fr,B,C


여러 열일 경우

In [60]:
select(responses(), Not([:q4, :q5]))

Unnamed: 0_level_0,id,q1,q2,q3
Unnamed: 0_level_1,Int64,Int64,Symbol,String
1,1,28,us,F
2,2,61,fr,B


In [61]:
select(responses(), Not(["q4", "q5"]))

Unnamed: 0_level_0,id,q1,q2,q3
Unnamed: 0_level_1,Int64,Int64,Symbol,String
1,1,28,us,F
2,2,61,fr,B


이것은 또한 우리가 원하는 열과 그렇지 않은 열을 섞어서 사용하는 것도 가능합니다.

In [62]:
select(responses(), :q5, Not(:q5))

Unnamed: 0_level_0,q5,id,q1,q2,q3,q4
Unnamed: 0_level_1,String,Int64,Int64,Symbol,String,String
1,A,1,28,us,F,B
2,E,2,61,fr,B,C


한 가지 언급해야 할 것은 `q5`는 `select`로 반환되는 `DataFrame`의 첫번째 열이라는 점입니다. 이를 달성하기 위한 좀더 지혜로운 방법이 있습니다. `:`을 사용해서요. 콜론`:`은 "우리가 아직 포함시키지 않은 모든 열"이란 의미로 해석될 수 있습니다. 예를 들어

In [63]:
select(responses(), :q5, :)

Unnamed: 0_level_0,q5,id,q1,q2,q3,q4
Unnamed: 0_level_1,String,Int64,Int64,Symbol,String,String
1,A,1,28,us,F,B
2,E,2,61,fr,B,C


또는 `q5`를 두번째 위치로 넣을 수 있습니다.

In [64]:
select(responses(), 1, :q5, :)

Unnamed: 0_level_0,id,q5,q1,q2,q3,q4
Unnamed: 0_level_1,Int64,String,Int64,Symbol,String,String
1,1,A,28,us,F,B
2,2,E,61,fr,B,C


> **노트**: 컬럼을 선택하는데 몇가지 방법이 있음을 알 수 있습니다. 이런 것들은 [컬럼 선택자]()라고 알려져 있습니다.

우리는 
- `Symbol`: `select(df, :col)`
- `String`: `select(df, "col")`
- `Integer`: `select(df, 1)`

또한 `select`를 통해 `source=>target`이라는 페어를 사용해서 열 이름을 바꾸는 것도 가능합니다.

In [65]:
select(responses(), 1 => "participant", :q1=>"age", :q2=>"nationality") 

Unnamed: 0_level_0,participant,age,nationality
Unnamed: 0_level_1,Int64,Int64,Symbol
1,1,28,us
2,2,61,fr


추가적으로, `...` splat 연산자를 사용해서(섹션 [3.3.11]()을 참조하세요), 다음과 같이 쓸 수도 있습니다.

In [66]:
renames = (1 => "participant", :q1 => "age", :q2 => "nationality")
select(responses(), renames...)

Unnamed: 0_level_0,participant,age,nationality
Unnamed: 0_level_1,Int64,Int64,Symbol
1,1,28,us
2,2,61,fr


## 4.5 타입과 결측치

섹션 [4.1]()에서 논의한 것처럼, `CSV.jl`은 당신의 데이터가 어떤 타입인지 최선을 다해 추론합니다. 하지만, 항상 완벽하진 않습니다. 이 섹션에서 우리는 왜 적합한 타입이 중요한지 알려주고 잘못된 데이터 타입을 고칠 것입니다. 타입에 대해서 좀더 명확히 하기 위해, 예쁘게 산출된 테이블이 아니라 텍스트 결과를 보여줄 것입니다. 이 섹션에서, 우리는 다음과 같은 데이터 셋으로 작업을 할 것입니다.

In [67]:
function wrong_types()
    id = 1:4
    date = ["28-01-2018", "03-04-2019", "01-08-2018", "22-11-2020"]
    age = ["adolescent", "adult", "infant", "adult"]
    DataFrame(; id, date, age)
end
wrong_types()

Unnamed: 0_level_0,id,date,age
Unnamed: 0_level_1,Int64,String,String
1,1,28-01-2018,adolescent
2,2,03-04-2019,adult
3,3,01-08-2018,infant
4,4,22-11-2020,adult


일자 컬럼이 잘못된 타입이기 때문에, 정렬이 잘 되지 않습니다.

In [68]:
sort(wrong_types(), :date)

Unnamed: 0_level_0,id,date,age
Unnamed: 0_level_1,Int64,String,String
1,3,01-08-2018,infant
2,2,03-04-2019,adult
3,4,22-11-2020,adult
4,1,28-01-2018,adolescent


정렬을 고치기 위해, 우리는 줄리아의 표준 라이브러리인 `Date`모듈을 사용할 것입니다.(섹션 [3.5.1]()에서 소개했습니다.)

In [69]:
using Dates

In [70]:
function fix_date_column(df::DataFrame)
    strings2dates(dates::Vector) = Date.(dates, dateformat"dd-mm-yyyy")
    dates = strings2dates(df[!, :date])
    df[!, :date] = dates
    df
end
fix_date_column(wrong_types())

Unnamed: 0_level_0,id,date,age
Unnamed: 0_level_1,Int64,Date,String
1,1,2018-01-28,adolescent
2,2,2019-04-03,adult
3,3,2018-08-01,infant
4,4,2020-11-22,adult


In [71]:
df = fix_date_column(wrong_types())
sort(df, :date)

Unnamed: 0_level_0,id,date,age
Unnamed: 0_level_1,Int64,Date,String
1,1,2018-01-28,adolescent
2,3,2018-08-01,infant
3,2,2019-04-03,adult
4,4,2020-11-22,adult


age컬럼에서도 비슷한 문제가 있습니다.

In [72]:
sort(wrong_types(), :age)

Unnamed: 0_level_0,id,date,age
Unnamed: 0_level_1,Int64,String,String
1,1,28-01-2018,adolescent
2,2,03-04-2019,adult
3,4,22-11-2020,adult
4,3,01-08-2018,infant


정렬이 잘못되어 있습니다. infant(유아)는 어른(adults)와 청소년(adolescents)보다 어립니다. 이 문제를 해결하기 위해서는, 그리고 어떤 카테고리 데이터를 정렬하기 위해, `CategoricalArrays.jl`를 사용합니다.

In [73]:
using CategoricalArrays

`CategoricalArrays.jl` 패키지를 통해, 우리는 카테고리 변수에 순서를 나타내는 레벨을 붙일 수 있습니다.

In [74]:
function fix_age_column(df)
    levels = ["infant", "adolescent", "adult"]
    ages = categorical(df[!, :age], ordered=true)
    levels!(ages, levels)
    df[!, :age] = ages
    df
end
fix_age_column(wrong_types())

Unnamed: 0_level_0,id,date,age
Unnamed: 0_level_1,Int64,String,Cat…
1,1,28-01-2018,adolescent
2,2,03-04-2019,adult
3,3,01-08-2018,infant
4,4,22-11-2020,adult


> **노트**: `ordered=true`라는 인자를 전달하고 있습니다. 이것은 `CategoricalArrays.jl`의 `categorical`함수에게 우리 카테고리 데이터가 정렬 되어 있다고 알려주는 것입니다. 이것 없이는 어떤 종류의 대소 관계를 비교하는 것은 불가능합니다.

이제 우리는 데이터를 age에 따라 바르게 정렬할 수 있습니다.

In [75]:
df = fix_age_column(wrong_types())
sort(df, :age)

Unnamed: 0_level_0,id,date,age
Unnamed: 0_level_1,Int64,String,Cat…
1,3,01-08-2018,infant
2,1,28-01-2018,adolescent
3,2,03-04-2019,adult
4,4,22-11-2020,adult


우리가 편의용 함수를 만들었기 때문에, 우리는 함수를 불러서 데이터를 고칠 수 있게 되었습니다.

In [76]:
function correct_types()
    df = wrong_types()
    df = fix_date_column(df)
    df = fix_age_column(df)
end
correct_types()

Unnamed: 0_level_0,id,date,age
Unnamed: 0_level_1,Int64,Date,Cat…
1,1,2018-01-28,adolescent
2,2,2019-04-03,adult
3,3,2018-08-01,infant
4,4,2020-11-22,adult


우리가 나이 데이터의 서순(`ordered=true`)이 있게 했기 때문에, 우리는 나이의 카테고리를 비교할 수 있게 되었습니다.

In [77]:
df = correct_types()
a = df[1, :age]
b = df[2, :age]
a < b

true

이는 문자열 타입인 경우에는 false를 반환합니다.

In [78]:
"infant" < "adult"

false

## 4.6 Join

이 쳅터를 시작하라 때, 여러 테이블과 여러 테이블에 관련된 질문들을 했습니다. 그러나 우리는 아직 테이블을 합치는 것에 대해서는 이야기하지 않았습니다. 이 섹션에서 할 것입니다. `DataFrames.jl`에서, 여러 테이블을 합치는 것은 *joins*을 통해서 할 수 있습니다. 조인은 아주 강력합니다. 하지만 머리에 익숙해지는데 시간이 걸릴 겁니다. 마음 속에서 조인을 잘 아는 것은 필요하지 않습니다. 왜냐하면 `DataFrames.jl`의 [문서]()가 알려줄 것입니다. 하지만, Joins이 있음을 아는 것은 필수적입니다. `DataFrame`의 행을 따라 순환을 하면서 이 것을 다른 데이터와 비교한다면 당신은 아마도 아래의 joins들 중 하나가 필요할 것입니다. 

섹션 [4]()에서, 우리는 2020년 성적을 `grades_2020`을 통해 소개했습니다.

In [79]:
grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


이제 `grades_2020`을 2021년과 비교해 봅시다.

In [80]:
function grades_2021()
    name = ["Bob 2", "Sally", "Hank"]
    grade_2021 = [9.5, 9.5, 6.0]
    return DataFrame(;name, grade_2021)
end

grades_2021 (generic function with 1 method)

In [81]:
grades_2021()

Unnamed: 0_level_0,name,grade_2021
Unnamed: 0_level_1,String,Float64
1,Bob 2,9.5
2,Sally,9.5
3,Hank,6.0


이를 위해서 우리는 joins을 사용할 것입니다. `DataFrames.jl`리스트에는 7 종류의 join이 있습니다. 이는 좀 버거워 보이지만, 기다리세요. 왜냐하면 그들은 모두 유용하고 우리가 소개해 줄 것이니까요.

### 4.6.1 innerjoin

이 처음 것은 `innerjoin`입니다. 우리가 두 데이터셋 `A`와 `B`를 가지고 있다고 해봅시다. A의 컬럼은 `A_1, A_2, ..., A_n`이고 B의 컬럼은 `B_1, B_2, ..., B_m`이고 이중 하나의 컬럼에는 같은 이름이 있다고 해봅시다. `A_1`과 `B_1`은 모두 `:id`라고 합시다. 그리고 `:id`에 대한 innerjoin은 `A_1`의 모든 요소를 `B_1`의 모든 요소와 비교합니다. 그리고 그 요소가 **같으면** `A_2, ..., A_n`과 `B_2, ..., B_m`의 모든 항목을 `:id`열 뒤에 붙입니다.

좋습니다. 이 설명을 이해 못했다고 해도 걱정하지 마세요. 그 grades 데이터셋은 다음과 같습니다.

In [82]:
innerjoin(grades_2020(), grades_2021(); on=:name)

Unnamed: 0_level_0,name,grade_2020,grade_2021
Unnamed: 0_level_1,String,Float64,Float64
1,Sally,1.0,9.5
2,Hank,4.0,6.0


"Sally"와 "Hank"만 양쪽 데이터 셋에 모두 있습니다. 그래서 inner join이라는 표현이 적절합니다. 수학에서 교집합의 정의는 "B에 있으면서 A에도 있거나, A에도 있거나 B에도 있는 모든 요소"입니다.

### 4.6.2 outerjoin

어쩌면 당신은 이제 "아하? inner가 있으면 outer도 있겠네?"라고 생각할 겁니다. 맞습니다. 당신의 예상대로 입니다.

`outerjoin`은 `innerjoin`보다 덜 엄격해서 어느쪽에라도 이름이 있으면 그 행을 가져옵니다.

In [83]:
outerjoin(grades_2020(), grades_2021(); on=:name)

Unnamed: 0_level_0,name,grade_2020,grade_2021
Unnamed: 0_level_1,String,Float64?,Float64?
1,Sally,1.0,9.5
2,Hank,4.0,6.0
3,Bob,5.0,missing
4,Alice,8.5,missing
5,Bob 2,missing,9.5


그래서 이 방식은 원본데이터에 결측값이 없음에도 `missing`데이터를 생성할 수 있습니다.

### 4.6.3 crossjoin

만약에 `crossjoin`을 사용한다면 우리는 더 많은 `missing`데이터를 얻게 됩니다. 
이것은 **행의 데카르트 곱**을 줍니다. 이는 기본적으로 행의 곱으로, 모든 행이 다른 행과의 조합을 만듭니다.

In [84]:
crossjoin(grades_2020(), grades_2021(); on=:id)

LoadError: MethodError: no method matching crossjoin(::DataFrame, ::DataFrame; on=:id)
[0mClosest candidates are:
[0m  crossjoin(::AbstractDataFrame, ::AbstractDataFrame; makeunique) at /root/.julia/packages/DataFrames/MA4YO/src/join/composer.jl:1319[91m got unsupported keyword argument "on"[39m
[0m  crossjoin(::AbstractDataFrame, ::AbstractDataFrame, [91m::AbstractDataFrame...[39m; makeunique) at /root/.julia/packages/DataFrames/MA4YO/src/join/composer.jl:1330[91m got unsupported keyword argument "on"[39m

이런! `crossjoin`이 행의 요소를 어카운트로 잡지 않기 때문에, 우리는 `on` 인자를 지정할 필요가 없습니다.

In [85]:
crossjoin(grades_2020(), grades_2021())

LoadError: ArgumentError: Duplicate variable names: :name. Pass makeunique=true to make them unique using a suffix automatically.

또다시 이런! 이는 `DataFrames`과 `join`에서 아주 흔한 에러입니다. 2020과 2021 성적은 중복된 `:name`이라고 하는 컬럼명이 있습니다. 이전 처럼 `DataFrames.jl`의 산출물은 간단한 제안을 하고 있습니다. 우리는 `makeunique=true`를 넘겨서 이 문제를 풀 수 있습니다.

In [86]:
crossjoin(grades_2020(), grades_2021(); makeunique=true)

Unnamed: 0_level_0,name,grade_2020,name_1,grade_2021
Unnamed: 0_level_1,String,Float64,String,Float64
1,Sally,1.0,Bob 2,9.5
2,Sally,1.0,Sally,9.5
3,Sally,1.0,Hank,6.0
4,Bob,5.0,Bob 2,9.5
5,Bob,5.0,Sally,9.5
6,Bob,5.0,Hank,6.0
7,Alice,8.5,Bob 2,9.5
8,Alice,8.5,Sally,9.5
9,Alice,8.5,Hank,6.0
10,Hank,4.0,Bob 2,9.5


이제 우리는 모든 grades 2020과 grades 2021데이터셋의 모든 사람에 대한 각 데이터를 가지고 있습니다. "누가 가장 높은 등급인가요?"와 같은 직접적인 질의를 위해 데카르트 곱은 그다지 유용하지 않습니다. 하지만 "통계적"질의에 대해서는 그럴 수 있습니다.

### 4.6.4 leftjoin과 rightjoin

**과학적 데이터 프로젝트를 위해 좀더 유용한 것은 `leftjoin`과 `rightjoin`입니다.** left join은 왼쪽에 있는 `DataFrame`의 모든 요소를 반환합니다.

In [87]:
leftjoin(grades_2020(), grades_2021();  on=:name)

Unnamed: 0_level_0,name,grade_2020,grade_2021
Unnamed: 0_level_1,String,Float64,Float64?
1,Sally,1.0,9.5
2,Hank,4.0,6.0
3,Bob,5.0,missing
4,Alice,8.5,missing


여기서 "Bob"과 "Alice"의 2021년 성적은 `missing` 으로 되어 있습니다. 그래서 `missing`요소가 있는 것입니다. right join은 같은 것을 반대로 합니다.

In [88]:
rightjoin(grades_2020(), grades_2021(); on=:name)

Unnamed: 0_level_0,name,grade_2020,grade_2021
Unnamed: 0_level_1,String,Float64?,Float64
1,Sally,1.0,9.5
2,Hank,4.0,6.0
3,Bob 2,missing,9.5


이제 2020 성적에 missing이 있습니다.

한가지 언급하고 넘어가고자 하는데요. `leftjoin(A, B) != rightjoin(B, A)`라는 점입니다. 왜냐하면 컬럼의 순서가 다르기 때문입니다. 예를 들어 앞선 예제는 아래와 같습니다.

In [89]:
leftjoin(grades_2021(), grades_2020(); on=:name)

Unnamed: 0_level_0,name,grade_2021,grade_2020
Unnamed: 0_level_1,String,Float64,Float64?
1,Sally,9.5,1.0
2,Hank,6.0,4.0
3,Bob 2,9.5,missing


### 4.6.2 semijoin과 antijoin

마지막으로 우리는 `semijoin`과 `antijoin`이 있습니다.

semi join은 inner join보다 좀 더 엄격합니다. 이것은 **왼쪽에 있는 `DataFrame` 요소 중 양쪽 모두에 있는 요소만 반환 합니다.** 이것은 마치 leftjoin과 inner join의 조합과 같습니다.

In [90]:
semijoin(grades_2020(), grades_2021(); on=:name)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Hank,4.0


semi join의 반대는 anti join입니다. 이것은 **왼쪽에 있는 요소 중 오른쪽 `DataFrame`에 없는 요소만 반환 합니다.**

In [91]:
antijoin(grades_2020(), grades_2021(); on=:name)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Bob,5.0
2,Alice,8.5


## 4.7 변수 변환

섹션 [4.3.1]()에서 우리는 `filter`가 하나나 그 이상의 열을 받아서 "filter" 함수를 적용해 걸러내는 것을 보았스비다. 기억을 되집는 것으로 `source => f::Function` 의 예제로 `filter(:name => name -> name == "Alice", df)`가 있습니다.

섹션 [4.4]()에서 우리는 `select`가 하나나 그 이상의 컬럼을 선택할 수 있고 하나나 그 이상의 컬럼에 넣을 수 있었습니다. ` source => target`. 또 기억을 되살리기 위해서 예를 들어보겠습니다. `select(df, :name=> :people_names)`.

이 섹션에서 우리는 어떻게 변수를 **변환**하고 어떻게 **데이터를 처리**할지 보고자 합니다. `DataFrames.jl`에서는 `source => transformation => target` 문법을 따릅니다.

전과 같이 우리는 `grades_2020`데이터 셋을 이용합니다.

In [92]:
function grades_2020()
    name = ["Sally", "Bob", "Alice", "Hank"]
    grade_2020 = [1, 5, 8.5, 4]
    DataFrame(; name, grade_2020)
end
grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


우리가 `grades_2020`의 모든 등급을 1씩 올리고 싶다고 가정해 봅시다. 먼저 우리는 데이터 벡터를 인자로 받아 이 모든 요소를 1씩 증가시키는 함수를 만들 수 있습니다. 그리고 우리는 `DataFrames.jl`의`transform`함수를 사용합니다. 다른 모든 `DataFrames.jl`의 기본 함수 처럼 `DataFrame`을 첫 인자로 받습니다.

In [93]:
plus_one(grades) = grades .+ 1
transform(grades_2020(), :grade_2020 => plus_one)

Unnamed: 0_level_0,name,grade_2020,grade_2020_plus_one
Unnamed: 0_level_1,String,Float64,Float64
1,Sally,1.0,2.0
2,Bob,5.0,6.0
3,Alice,8.5,9.5
4,Hank,4.0,5.0


여기 `plus_one` 함수는 `:grade_2020` 전체 열을 받았습니다. 그렇기 때문에 우린 "점" `.`을 `+` 연산자 앞에 붙여 분산시켰습니다. 브로드캐스팅을 돌아보려면 섹션 [3.3.1]()을 참고해주세요.

우리가 위에서 이야기 한 것처럼 `DataFraes.jl`의 작은 언어는 언제나 `source => transformation => target`입니다. 그래서 우린ㄴ `target` 열의 이름을 유지하고 싶으면 우리는 할 수 있스니다.

In [94]:
transform(grades_2020(), :grade_2020 => plus_one => :grade_2020)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,2.0
2,Bob,6.0
3,Alice,9.5
4,Hank,5.0


우리는 또한 `ranamecols=false` 키워드 인자를 사용할 수도 있습니다.

In [95]:
transform(grades_2020(), :grade_2020 => plus_one; renamecols=false)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,2.0
2,Bob,6.0
3,Alice,9.5
4,Hank,5.0


같은 변환은 `select`를 사용해서 할 수 있습니다.

In [96]:
select(grades_2020(), :, :grade_2020 => plus_one => :grade_2020)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,2.0
2,Bob,6.0
3,Alice,9.5
4,Hank,5.0


`:`의 의미는 섹션[4.4]()에서 말했듯이 "모든 열을 선택하세요"입니다. 다른 방법으로, 줄리아 보드캐스팅과 컬럼 `grade_2020`을 `df.grade_2020`을 토해 접근해서 할 수도 있습니다.

In [97]:
df = grades_2020()
df.grade_2020 = plus_one.(df.grade_2020)
df

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,2.0
2,Bob,6.0
3,Alice,9.5
4,Hank,5.0


비록 마지막 예제가 줄리아 네이티브 연산을 사용하기에 더 쉽습니다만, **우리는 `DataFrames.jl`에서 제공하는 함수를 사용하기를 강력하게 권고합니다. 대부분의 경우 이 방식이 좀더 가능하고 쉽게 일 할 수 있기 때문입니다.**

### 4.7.1 멀티플 변환

두  컬럼을 한번에 변환 하는 것을 보여주기 위해 우리는 섹션 [4.6]()에서 본것처럼 left join을 사용합니다.

In [98]:
leftjoined = leftjoin(grades_2020(), grades_2021(); on=:name)

Unnamed: 0_level_0,name,grade_2020,grade_2021
Unnamed: 0_level_1,String,Float64,Float64?
1,Sally,1.0,9.5
2,Hank,4.0,6.0
3,Bob,5.0,missing
4,Alice,8.5,missing


이것과 함께 우리는 등급이 5.5를 넘는지를 기준으로 승인이 가능한지 추가해 보고자 합니다.

In [99]:
pass(A, B) = [5.5 < a || 5.5 < b for (a, b) in zip(A, B)]
transform(leftjoined, [:grade_2020, :grade_2021] => pass; renamecols=false)

Unnamed: 0_level_0,name,grade_2020,grade_2021,grade_2020_grade_2021
Unnamed: 0_level_1,String,Float64,Float64?,Bool?
1,Sally,1.0,9.5,1
2,Hank,4.0,6.0,1
3,Bob,5.0,missing,missing
4,Alice,8.5,missing,1


우리는 결과를 정리하고 로직을 함수에 넣어서 승인된 학생 리스트를 얻을 수 있다.

In [100]:
function only_pass()
    leftjoined = leftjoin(grades_2020(), grades_2021(); on=:name)
    pass(A, B) = [5.5 < a || 5.5 < b for (a, b) in zip(A, B)]
    leftjoined = transform(leftjoined, [:grade_2020, :grade_2021] => pass => :pass)
    passed = subset(leftjoined, :pass; skipmissing=true)
    return passed.name
end
only_pass()

3-element Vector{String}:
 "Sally"
 "Hank"
 "Alice"

## 4.8 Groupby와 Combine

R 프로그래밍 언어에서, [Wickham]()([2011]())은 데이터 변환에 있어 분해-적용-결합이라고도 하는 전략을 유행 시켰습니다. 이 전략은 데이터 셋을 특정한 그룹으로 **분해**하고, 각 그룹 별로 하나나 그 이상의 함수를 **적용**하고 그 결과들을 **결합**시키는 것입니다. `DataFrames.jl`은 분해-적용-결합을 완전히 적용했습니다. 우리는 이전에 다룬 학생들 성적 예제를 사용할 것입니다. 우리는 각 학생들의 평균 성적을 알고 싶다고 가정해보죠. 

In [101]:
function all_grades()
    df1 = grades_2020()
    df1 = select(df1, :name, :grade_2020 => :grade)
    df2 = grades_2021()
    df2 = select(df2, :name, :grade_2021 => :grade)
    rename_bob2(data_col) = replace.(data_col, "Bob 2" => "Bob")
    df2 = transform(df2, :name => rename_bob2 => :name)
    return vcat(df1, df2)
end
all_grades()

Unnamed: 0_level_0,name,grade
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0
5,Bob,9.5
6,Sally,9.5
7,Hank,6.0


전략은 데이터 셋을 각 학생별로 **분해**한 다음, 각 학생별로 평균 함수를 **적용**하고 결과를 **결합**시키는 것입니다.

분해를 `groupby`라고 하고 우리는 두번째 인자로 우리가 나누고자 하는 컬럼 ID를 전달합니다.

In [102]:
groupby(all_grades(), :name)

Unnamed: 0_level_0,name,grade
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Sally,9.5

Unnamed: 0_level_0,name,grade
Unnamed: 0_level_1,String,Float64
1,Hank,4.0
2,Hank,6.0


우리는 줄리아 표준 라이브러리인 `statistics`모듈에서 `mean` 함수를 적용합니다.

In [103]:
using Statistics

In [104]:
gdf = groupby(all_grades(), :name)
combine(gdf, :grade => mean)

Unnamed: 0_level_0,name,grade_mean
Unnamed: 0_level_1,String,Float64
1,Sally,5.25
2,Bob,7.25
3,Alice,8.5
4,Hank,5.0


`groupby`와 `combine`없이 이 작업을 한다고 상상해보세요. 우리는 데이터를 순환하면서 각 그룹으로 나누어야 하고, 각 나눠진 그룹에 함수를 적용해야 하고 그리고 마지막으로 각 그룹을 순환하면서 결과를 모아 최종 결과를 만들어야 합니다.
그러므로 분해-적용-결합 테크닉은 알아두기에 훌륭한 것입니다.

### 4.8.1 멀티플 소스 컬럼
만약에 우리가 데이터 셋의 여러 컬럼에 함수를 적용하고 싶다면 어떻게 해야 할까요?

In [105]:
group = [:A, :A, :B, :B]
X = 1:4
Y = 5:8
df = DataFrame(; group, X, Y)

Unnamed: 0_level_0,group,X,Y
Unnamed: 0_level_1,Symbol,Int64,Int64
1,A,1,5
2,A,2,6
3,B,3,7
4,B,4,8


이것은 비슷한 방식으로 해결할 수 있습니다.

In [106]:
gdf = groupby(df, :group)
combine(gdf, [:X, :Y] .=> mean; renamecols=false)

Unnamed: 0_level_0,group,X,Y
Unnamed: 0_level_1,Symbol,Float64,Float64
1,A,1.5,5.5
2,B,3.5,7.5


한가지 집고 넘어가고자 하는 것은 우리가 닷`.` 연산자를 오른쪽 화살표 `=>`앞에 사용했다는 것입니다. 이는 `mean`함수가 `[:X, :Y]`라고 하는 여러 컬럼에 적용되는 것을 나타내기 위함입니다.

In [107]:
# X + Y를 만들려면? df의 가로 합을 만드는 함수를 쓰면 된다.

In [108]:
df.X + df.Y

4-element Vector{Int64}:
  6
  8
 10
 12

In [109]:
select(df, [:X, :Y] => (x, y) -> (x .+ y))

Unnamed: 0_level_0,X_Y_function
Unnamed: 0_level_1,Int64
1,6
2,8
3,10
4,12


## 4.9 퍼포먼스

지금까지, 우리는 우리 `DataFrames.jl`코드를 빠르게 만드는 것에 대해서는 생각하지 않았습니다. 줄리아의 다른 것과 같이, `DataFrames.jl`은 진짜 빨라질 수 있습니다. 이 섹션에서 우리는 몇몇 퍼포먼스 팁과 트릭을 공유하고자 합니다.

### 4.9.1 In-place operations

섹션 [3.3.2]()에서 설명한 것처럼, 느낌표`!`로 끝나는 함수는 하나 이상의 인자를 수정하는 함수를 표현합니다.
고성능 줄리아 코드 맥락에서는, `!`가 있는 **함수**는 우리가 인자로 전달한 객체들을 그자리에서(in-place)에서 수정하는 것을 *의미*합니다.

지금까지 본 거의 모든 `DataFrames.jl`함수는 "`!` 쌍둥이"가 있습니다. 예를 들어, `filter`는 *in-place* `filter!`, `select`는 `select!`, `subset`은 `subset!` 등 이어집니다. 한가지 언급할 부분은 이 함수들은 새로운 `DataFrame`을 **반환하지 않습니다**. 대신 그들은 그들이 작업한 `DataFrame`을 **업데이트**합니다. 추가적으로 `DataFrames.jl`(버전 1.3 이후) `leftjoin`함수의 in-place인 `leftjoin!`을 지원합니다. 이 함수는 왼쪽 `DataFrame`을 오른쪽에 있는 `DataFrame`으로 부터 행을 가져와 결합해 업데이트 합니다.
왼쪽에 있는 테이블의 각 행은 최소한 오른쪽에 있는 최소 한 행과는 매치가 되어야 한다는 경고가 있습니다.

당신이 최고의 속도와 성능을 원한다면 당신은 `!` 함수를 기본 `DataFrames.jl`함수 대신 사용해야 합니다.

그럼 섹션 [4.4]() 시작에서 있었던 `selct`함수 예제로 돌아가 봅시다. 여기에 응답 `DataFrame`이 있습니다:

In [112]:
responses()

Unnamed: 0_level_0,id,q1,q2,q3,q4,q5
Unnamed: 0_level_1,Int64,Int64,Symbol,String,String,String
1,1,28,us,F,B,A
2,2,61,fr,B,C,E


이제 `select`함수를 이용한 선택을 해봅시다.

In [114]:
select(responses(), :id, :q1)

Unnamed: 0_level_0,id,q1
Unnamed: 0_level_1,Int64,Int64
1,1,28
2,2,61


이제 in-place 함수입니다.

In [115]:
select!(responses(), :id, :q1)

Unnamed: 0_level_0,id,q1
Unnamed: 0_level_1,Int64,Int64
1,1,28
2,2,61


`@allocated` 메크로는 얼마나 많은 메모리가 사용되었는지 알려줍니다. 다른 말로 하자면, **얼마나 많은 새로운 정보를 컴퓨터가 코드를 실행하면서 메모리로 저장했는지를 말합니다.** 그럼 어떻게 작동하는지 봅시다.

In [117]:
df = responses()
@allocated select(df, :id, :q1)

7840

In [119]:
df = responses()
@allocated select!(df, :id, :q1)

7232

우리가 보듯이 `select!`은 `select`보다 더 적게 할당 됩니다. 그래서 더 적은 양의 메모리를 사용하면서 더 빠를 것입니다.

### 4.9.2 복사 vs. 복사하지 않은 컬럼

**데이터 프레임 컬럼에 접근하는 두가지 방법**이 있습니다. 그들은 어떻게 접근하는지에 따라 다른데 하나는 컬럼을 복사하지 않고 "뷰"를 만드는 방법이고 다른 하나는 완전히 새로운 컬럼을 복사해서 만드는 방법입니다.

첫번째 방법은 일반적인 닷'.' 연산자를 사용해서 접근합니다. `df.col`과 같은 방식으로 말이죠. 이런 방식의 접근은 컬럼 `col`을 **복사를 하지 않습니다.** 대신 `df.col`은 메모리를 할당하지 않고 원래 컬럼에 대한 링크를 통해 "뷰"를 생성합니다. 추가적으로 `df.col` 문법은 `df[!, :col]`과 동일합니다. `!`은 행 선택자 입니다.

두번째 방법은 `DataFrame` 컬럼을 `df[:, :col]`과 같이 접근합니다. 콜론`:`은 행 선택자 입니다. 이 방식은 컬럼 `col`을 **복사**하기 때문에 원하지 않는 할당을 할 수 있습니다.

이전에 말했뜻이 두 가지 방법의 컬럼 접근을 responses `DataFrame`에 해봅시다.

In [121]:
df = responses()
@allocated col = df[:, :id]

358630

In [124]:
df = responses()
@allocated col = df[!, :id]

0

우리가 컬럼을 복사하지 않고 접근한다면 할당을 하지 않기에 우리 코드는 빨라집니다. 그렇기 때문에 복사할 필요가 없다면, 언제나 `DataFrame`의 컬럼을 접근할 때는 `df.col`이나 `df[!, :col]`을 `df[:, :col]` 대신 사용해 주세요.

### 4.9.3 CSV.read 대 CSV.File

`CSV.read`의 헬프 설명을 본다면, `CSV.File`이라고 하는 거의 동일한 편리한 함수가 있음을 볼 수 있습니다. `CSV.read` 와 `CSV.File`은 모두 CSV 파일을 읽습니다만, 그들은 다른 기본 행동을 가지고 있습니다. **기본적으로`CSV.read`는 복사본을 만들지 않습니다.** 들어오는 데이터에 대해서요. 대신에 `CSV.read`는 모든 데이터를 두번째 인자로("씽크"로 알려진) 넘깁니다.

그래서 다음과 같습니다.

In [126]:
df = CSV.read("grades.csv", DataFrame)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String7,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


이 코드는 `grades.csv`에서 들어오는 데이터를 `DataFrame`에 집어 넣고, `DataFrame`타입을 반환해 `df`라는 변수에 저장합니다.

`CSV.File`의 경우에는, **기본 행동이 반대입니다. 이것은 CSV파일의 모든 열에 대해서 복사본을 만듭니다.** 또한, 문법이 약간 다릅니다. 우리는 `CSV.File`이 반환하는 것은 `DataFrame` 생성자 함수에 감싸야 합니다.

In [127]:
df = DataFrame(CSV.File("grades.csv"))

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String7,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


아니면 파이프 연산자를 이용해야 합니다.

In [128]:
df = CSV.File("grades.csv") |> DataFrame

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String7,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


이미 업급했던 것처럼 `CSV.File`은 CSV파일의 모든 컬럼의 복사본을 만듭니다. 궁극ㄱ적으로는 당신이 최고의 성능을 원한다면, 당신은 `CSV.read`를 `CSV.File` 대신에 사용해야 합니다. 그래서 우리가 섹션 [4.1.1]()에서`CSV.read`만 커버한 이유입니다.

### 4.9.4 CSV.jl 복수의 파일 처리

이제 우리의 관심을 `CSVjl`로 돌립시다. 구체적으로, 우리가 복수의 CSV파일을 읽어 하나의 `DataFrame`을 만드는 경우를 생각해 봅시다. 
`CSV.jl` 버전 0.9 부터 우리는 파일 이름을 나타내는 스트링 벡터를 사용할 수 있게 되었습니다. 이전에는 우리는 복수의 파일을 읽고 수직적으로 결과를 통합해서 하나의 `DataFrame`을 만들어야 했습니다. 예를 들면, 아래 코드는 복수의 CSV파일을 읽고 `vcat`을 사용해서 수직적으로 합쳐 `reduce`함수를 사용해 `DataFrame`하나를 만드는 것입니다.

In [130]:
files = filter(endswith(".csv"), readdir())
df = reduce(vcat, CSV.read(file, DataFrame) for file in files)

LoadError: ArgumentError: column(s) a, b, c, d and e are missing from argument(s) 1, and column(s) name and grade_2020 are missing from argument(s) 2

한가지 추가적인 것은 `reduce`는 병렬화 되지 않습니다. 왜냐하면 `vcat`이 `files`벡터의 순서를 지켜야 하기 때문입니다.

이러한 기능이 `CSV.jl`에서 우리는 간단하게 `files`벡터를 `CSV.read`의 인자로 넘겨주면 됩니다.

In [135]:
files = filter(endswith(".csv"), ["grades.csv" "my_data.csv"])
df = CSV.read(files, DataFrame)

LoadError: MethodError: [0mCannot `convert` an object of type [92mSentinelArrays.ChainedVector{Union{Missing, String7}, SentinelArrays.SentinelVector{String7, String7, Missing, Vector{String7}}}[39m[0m to an object of type [91mString[39m
[0mClosest candidates are:
[0m  convert(::Type{S}, [91m::CategoricalValue[39m) where S<:Union{AbstractChar, AbstractString, Number} at /root/.julia/packages/CategoricalArrays/eAV2V/src/value.jl:92
[0m  convert(::Type{String}, [91m::String[39m) at essentials.jl:210
[0m  convert(::Type{String}, [91m::FilePathsBase.AbstractPath[39m) at /root/.julia/packages/FilePathsBase/qgXdE/src/path.jl:117
[0m  ...

`CSV.jl`은 한 파일을 가용가능한 각 쓰레드에 지정해 각 스레드 결과를 `DataFrame`으로 통합합니다. 그래서 우리는 `reduce`옵션에서는 얻을 수 없었던 **멀티쓰레딩의 추가적인 이득**을 얻을 수 있습니다. 

### 4.9.5 CategoricalArrays.jl 압축

만약 댕신이 많은 카테고리 변수를 다룬다면, 예를 들면 다른 질적 데이터를 나타내는 문자 데이터로 이루어진 많은 컬럼들이 있다면, 당신은 `CategoricalArrays.jl`을 사용한 압축으로 이득을 볼 수 있을 것입니다.

기본적으로 **`CategoricalArrays.jl`은 32비트 unsigned 정수형 `UInt32`을 사용해서 카테고리를 표현합니다.**

In [137]:
typeof(categorical(["A", "B", "C"]))

CategoricalVector{String, UInt32, String, CategoricalValue{String, UInt32}, Union{}} (alias for CategoricalArray{String, 1, UInt32, String, CategoricalValue{String, UInt32}, Union{}})

이뜻은 `CategoricalArrays.jl`은 $2^{32}$개의(약 430억개) 다른 카테고리를 표현할 수 있다는 뜻입니다. 당신은 아마도 이정도의 용량을 정규 데이터에서 사요하는 일은 절데 없을 것입니다.
그래서 `categorical`은 `true`나 `false`를 `compress` 인자로 받습니다. 카테고리 데이터가 압축되었는지 묻는 것입니다.
만약 당신이 `compress=true`라고 넘기면, ** `CategoricalArrays.jl`은 카테고리 데이터를 가능한 작은 `Uint`형식으로 표현하려고 압축할 것입니다.** 예를 들어, 이전 `categorical` 벡터는 8비트의 unsigned 정수형 `UInt8`(줄리아에서 사용가능한 가장 작은 정수형이기 때문에)로 표현될 것입니다.

In [138]:
typeof(categorical(["A", "B", "C"]; compress=true))

CategoricalVector{String, UInt8, String, CategoricalValue{String, UInt8}, Union{}} (alias for CategoricalArray{String, 1, UInt8, String, CategoricalValue{String, UInt8}, Union{}})

이것들은 무슨 의미일까요? 당신이 아주 큰 벡터를 가지고 있다고 해봅시다. 예를 들어, 백만개의 엔트리가 있는 벡터라고 해봅시다 하지만,  A, B, C와 D인 오직 4개의 카테고리로 구성되어 있다고 하죠. 만약에 당신이 카테고리 벡터를 압축하지 않는다면, 이 엔트리는 `UInt32`에 저장 될 것이니다. 다른 한편, 당신이 압축한다면, 백만개의 엔트리가 `UInt8`에 저장 될 것입니다. `Base.summarysize` 함수를 사용해서 객체의 바이트 사이즈를 볼 수 있습니다. 그러면, 백반개의 카테고리 벡터를 압축하지 않으면 얼마나 많은 메모리가 필요한 지 알아봅시다.

In [139]:
using Random

In [140]:
one_mi_vec = rand(["A", "B", "C", "D"], 1_000_000)
Base.summarysize(categorical(one_mi_vec))

4000612

4백만 바이트, 대략적으로 3.8MB입니다. 오해하지 마세요. 이것은 스트링보다는 나은 사이즈입니다.

In [141]:
Base.summarysize(one_mi_vec)

8000076

우리는 50%나 원본 데이터 사이즈를 `CategoricalArrays.jl`의 `UInt32`를 사용해서 줄였습니다. 
그러면 압축을 돌ㅇ해 어떻게 되는지 보도록 하겠습니다.

In [142]:
Base.summarysize(categorical(one_mi_vec; compress=true))

1000564

우리는 원본 사이즈의 25%(4분의 1)로 정보 손실 없이 압축할 수 있었습니다. 우리가 압축한 카테고리 벡터 1백만 바이트로 약 1.0MB입니다.

그래서 가능하다면, 성능에 관심이 있다면, 카테고리 데이터를 다룰 때 `compress=true`를 사용할 것은 고려해보세요.