# 4 DataFrames.jl

데이터는 대부분 테이블 형식으로 전달됩니다. 테이블 형식이라고 하는 것은 데이터가 행(row)과 열(column)로 구성되어 있는 테이블이라는 뜻입니다. 
열은 보통 같은 데이터 타입이고 행은 다른 데이터 타입을 가지고 있습니다. 행은, 실질적으로, 관찰 값을 의미하며,열은 변수를 의미합니다. 예를 들어 우리가 티비 쇼 테이블을 가지고 있다고 해봅시다. 이 테이블에는 그 티비 쇼가 만들어진 국ㄱ가와 우리의 평점이 있다고 합시다. 테이블 1처럼 말이죠.

제목 | 국가 | 평점
--- | --- | ---
왕좌의 게임 | 미국 | 8.2
크라운 | 영국 | 7.3
프렌즈 | 미국 | 7.8
... | ... | ...

여기서 점들의 의미는 이 표가 아주 긴 표일 수 있으며 우리는 그중 일부만 보여줬다는 의미입니다.데이터를 분석하는 동안, 우리는 종종 데이터에 대한 재미 있는 질문들이 떠오릅니다. *데이터 쿼리*라고도 불리우죠. 큰 테이블들이 주어졌을 때, 컴퓨터는 이런 질문들에 아주 빨리 답할 수 있습니다. 당신이 손으로 하는 것보다 말이죠. 몇몇 쿼리에 대한 예를 들어보자면,

- 어떤 티비 쇼가 가장 높은 평점을 가지고 있나요?
- 어떤 티비 쇼들이 마국에서 만들어 졌나요?
- 어떤 티비 쇼들이 같은 국가에서 만들어 졌나요?

하지만, 한명의 연구자로, 진짜 과학은 종종 여러 테이블이나 데이터 소스와 함께 시작하곤 합니다. 예를들어 우리가 다른 사람의 티비 쇼 평점 자료를 가지고 있다고 해봅시다.

제목 | 평점
--- | ---
왕좌의 게임 | 7
프렌즈 | 6.4
... | ...

이제 우리가 스스로에게 할 수 있는 질문은

- 왕좌의 게임의 평균 평점은 얼마인가요?
- 누가 프렌즈에 가장 높은 평점을 주었나요?
- 어떤 티비 쇼가 다른 사람이 아닌 당신이 평점을 매긴 쇼인가요?

남은 쳅터에서, 줄리아를 통해 우리는 어떻게 이런 질문에 쉽게 답할 수 있는지를 보여줄 것입니다. 그러기 위해서 우리는 먼저 왜 `DataFrames.jl`이라고 하는 줄리아 패키지가 필요한지 보여주고자 합니다. 다음 섹션에서 우리는 어떻게 이 패키지를 사용하는 보여주고 궁극적으로 우리가 어떻게 빨리 데이터 처리(data transformations)를 할 수 있는지 보여주고자 합니다. 

테이블 3과 같은 성적표를 봅시다.

이름 | 나이 | 2020 등급
--- | --- | ---
밥 | 17 | 5.0
샐리 | 18 | 1.0
엘리스 | 20 | 8.5
행크 | 19 | 4.0

여기서 이름 컬럼은 `string`타입이고, 나이는 `integer`, 등급은 `float`타입입니다.

지금까지 이 책은 줄리아 기초만 다루었습니다. 이런 기초는 많은 것들을 훌륭히 할 수 있지만, 테이블은 아닙니다. 우리가 무엇이 더 필요한지 보여주기 위해서 테이블 데이터를 배열에 저장해 봅시다.

In [59]:
function grades_array()
    name = ["Bob", "Sally", "Alice", "Hank"]
    age = [17, 18, 20, 19]
    grade_2020 = [5.0, 1.0, 8.5, 4.0]
    (; name, age, grade_2020)
end

grades_array (generic function with 1 method)

이제, 데이터는 소위 컬럼 메이저 형태로 저장되어 있습니다. 이는 우리가 행을 원할 때 불편합니다.

In [60]:
function second_row()
    name, age, grade_2020 = grades_array()
    i = 2
    row = (name[i], age[i], grade_2020[i])
end
second_row()

("Sally", 18, 1.0)

또는 엘리스의 등급을 원한다면, 우선 어떤 행에 엘리스가 있는지 알아내야 합니다.

In [61]:
function row_alice()
    names = grades_array().name
    i = findfirst(names .== "Alice")
end
row_alice()

3

그리고 나서야 우리는 원하는 값을 얻을 수 있습니다.

In [62]:
function value_alice()
    grades = grades_array().grade_2020
    i = row_alice()
    grades[i]
end
value_alice()

8.5

`DataFrames.jl`은 이런 문제를 쉽게 해결 할 수 있습니다. `using`을 사용해서 `DataFrames.jl`을 불러올 수 있습니다.

In [63]:
using DataFrames

`DataFrames.jl`을 사용해, 우리는 테이블 데이터를 보관할 `DataFrame`을 정의할 수 있습니다.

In [64]:
names = ["Sally", "Bob", "Alice", "Hank"]
grades = [1, 5, 8.5, 4]
df = DataFrame(; name=names, grade_2020=grades)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


우리 데이터를 테이블 형태로 가지고 있는 `df`라는 변수를 반환해 줍니다.

> **노트**: 이 방식은 작동합니다만, 한가지 바로 바꿔야 할 부분이 있습니다. 이 예제에서 우리는 변수 `name`, `grade_2020`그리고 `df`를 전역에서 선언했습니다. 이 것은 이 변수들은 어디서든지 접근할 수 있고 바꿀 수 있다는 뜻입니다. 우리가 이런 식으로 책을 계속 써내려간다면, 우리는 수백개의 변수를 가지게 될 것이고, 우리가 변수 `name`에 저장한 데이터는 `DataFrame`을 통해서만 접근 가능해야 합니다!
변수 `name`과 `grade_2020`은 오래 보관하려고 만든 변수가 아닙니다! 
우리가 `grade_2020`내용을 여러번 이 책에서 바꾼다고 생각해 봅시다. 주어진 책이 PDF라고 했을 때 그 변수의 최종 내용이 무엇인지 알아내는 것은 거의 불가능 합니다. 
우리는 이 문제를 함수를 통해 쉽게 해결 할 수 있습니다.

같은 것을 함수 속에서 해봅시다.

In [65]:
function grades_2020()
    name = ["Sally", "Bob", "Alice", "Hank"]
    grade_2020 = [1, 5, 8.5, 4]
    DataFrame(; name, grade_2020)
end
grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


`name`과 `grade_2020`은 함수값이 반환 되고 나서 사라집니다. 그들은 함수 안에서만 있습니다. 두가지 또 다른 장점이 있는데, 첫번째로는 `name`과 `grade_2020`이 어디에 있는지 독자에게 명확해 진다는 점입니다. 두번째로는 `grades_2020()`이 이 책에 어떤 포인트에서도 어떤 값을 반환할 지 쉽게 알 수 있다는 점입니다. 예를 들어 우리가 변수 `df`에 데이터를 집어 넣을 수 있습니다.

In [66]:
df = grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


`df`의 내용을 바꿔봅시다.

In [67]:
df = DataFrame(name=["Malice"], grade_2020 = ["10"])

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,String
1,Malice,10


그리고 원래 데이터를 다시 확보하는 것은 문제없이 가능합니다.

In [68]:
df = grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


물론, 이 함수가 다시 정의되지 않는다는 가정이 있습니다. 우리는 이 책에서 그렇게 하지 않을 것을 약속합니다. 왜냐하면 이는 아주 나쁜 아이디어이기 때문입니다. 함수를 "바꾸기" 보다는 우리는 새로운 함ㅅ를 만들 것이고 명확한 이름을 부여할 것입니다.

그러면 `DataFrames` 생성자로 돌아갑시다. 여러분들이 보셨다 시피, 데이터 프레임을 만들기 위해 간단하기 벡터들을 `DataFrame` 생성자에 인자로 전달하면 됩니다. **벡터가 같은 길이를 가지고 있는 한** 여러분은 어떤 줄리아 벡더라도 사용할 수 있습니다. 중복, 유니코드 심볼과 다른 종류의 숫자들도 괜찮습니다.

In [69]:
DataFrame(σ = ["a", "a", "a"], δ=[π, π/2, π/3])

Unnamed: 0_level_0,σ,δ
Unnamed: 0_level_1,String,Float64
1,a,3.14159
2,a,1.5708
3,a,1.0472


보통, 당신의 코드에서, 당신은 하나 이상의 `DataFrame` 함수들을 포함하고 있는 함수를 만들고자 할 것입니다. 예를 들어 우리는 하나 하하나 이상의 `names`의 등급을 갖는 함수를 만들 수 있습니다.

In [70]:
function grades_2020(names::Vector{Int})
    df = grades_2020()
    df[names, :]
end
grades_2020([3, 4])

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5
2,Hank,4.0


이렇게 함수롤 기본 프로그램의 기능과 패키지를 감싸는 것은 아주 일반적입니다. 기본적으로 줄리아와 `DataFrames.jl`을 벽돌을 공그해주는 것이라고 생각할 수 있습니다. 그들은 아주 **일반적인** 벽돌을 공급해서 당신의 아주 **구체적인** 사례에 필요한 것들을 만들 수 있게 해줍니다. 벽돌을 사용해서 당신은 데이터 분석 스크립트를 만들 수 있고, 로봇을 컨트롤 한다거나, 당신이 만들고 싶은 것을 만들 수 있습니다.

지금까지의 예제들은 상당히 진부했습니다. 왜냐하면 우리는 인덱스를 사용해야 했기 때문입니다. 다음 섹션 부터, 우리는 어떻게 데이터를 불러오고 저장할 수 있는지 볼 것이며 `DataFrames.jl`이 제공하는 많은 강력한 벽돌을 보여주고자 합니다.

## 4.1 파일 저장과 불러오기

줄리아 프로그램 안에서만 데이터를 가질 수 있고 불러오거나 저장할 수 없다면 아주 제한적으로만 사용할 수 있을 것입니다. 그러므로 우리는 어떻게 파일을 저장하고 디스크로부터 읽어올 수 있는지 언급하고자 합니다. 우리는 테이블 형식의 데이터를 보관하는 가장 일반적인 형식인 CSV(섹션 [4.1.1]())와 엑셀(섹션 [4.1.2]()) 파일 포맷에 집중하고자 합니다.

### 4.1.1 CSV

Comma-Separated Values(CSV) 파일은 테이블을 저장하기에 아주 효과적인 방법입니다. CSV파일은 다른 데이터 저장 파일보다 두가지 나은 점이 있습니다. 첫 번째는 컴마로 나눠서 값을 분리한다는 이름이 바로 이것이 무엇을 하는지 정확히 보여준다는 점입니다. 이 두문자는 파일 확장자로도 사용됩니다. 그렇기 때문에 파일을 저장할 때 "myfile.csv"와 같이 ".csv" 확장자를 써야 합니다. CSV파일이 어떻게 생겼는지 보여주기 위해, 우리는 `CSV.jl`패키지를 인스톨 할 수 있습니다.

```julia
julia> ]

pkg> add CSV
```

그리고 다음과 같이 패키지를 불러옵니다.

In [71]:
using CSV

우리는 이전 데이터를 사용할 수 있습니다.

In [72]:
grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


그리고 이 데이터를 파일로 만들고 다시 불러올 수 있습니다.

In [73]:
function write_grades_csv()
    path = "grades.csv"
    CSV.write(path, grades_2020())
end

write_grades_csv (generic function with 1 method)

In [74]:
path = write_grades_csv()
read(path, String)

"name,grade_2020\nSally,1.0\nBob,5.0\nAlice,8.5\nHank,4.0\n"

여기서 우리는 두번째 CSV파일 형식의 장점을 볼 수 있습니다. 간단한 텍스트 에디터를 사용해서 데이터를 읽을 수 있습니다. 이 점은 많은 다른 대안적인 데이터 형식과 다른 점입니다. 다른 데이터 형식은 보통 엑셀과 같이 특정 소프트웨어가 필요하기 때문입니다.

이것은 놀랍게 작동합니다. 하지만 만약 우리 데이터가 **컴마`,`를 데이터로 포함한다면** 어떻게 될까요? 만약 우리가 그냥 컴마를 사용해서 데이터를 작성한다면, 다시 테이블 형식으로 되돌리기가 아주 어려울 것입니다.
다행히도 `CSV.jl`은 이런 문제를 자동으로 해결해 줍니다. 다음과 같이 컴마`,`가 있는 데이터를 생각해 봅시다.

In [75]:
function grades_with_commas()
    df = grades_2020()
    df[3, :name] = "Alice,"
    df
end

grades_with_commas()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,"Alice,",8.5
4,Hank,4.0


이것을 파일로 쓰면 우리는 아래와 같은 결과를 얻습니다.

In [76]:
function write_comma_csv()
    path = "grades-commas.csv"
    CSV.write(path, grades_with_commas())
end
path = write_comma_csv()
read(path, String)

"name,grade_2020\nSally,1.0\nBob,5.0\n\"Alice,\",8.5\nHank,4.0\n"

`CSV.jl`은 컴마`,`를 포함한 값에는 쌍따옴표`"`를 추가합니다. 이 문제를 해결할 또 다른 방법은 데이터를 탭 분할 값(Tab-Separated Values, TSV)파일 형식으로 작성하는 것입니다. 이것은 데이터는 탭을 포함하고 있지 않다는 가정에 기반하고 있으며 대부분의 경우에는 맞아 떨어집니다.

TSV파일 또한 기본적인 텍스트 에디터에서 읽을 수 있으며 ".tsv"라는 확장자를 사용합니다.

In [77]:
function write_comma_tsv()
    path = "grades-comma.tsv"
    CSV.write(path, grades_with_commas(); delim='\t')
end
read(write_comma_tsv(), String)

"name\tgrade_2020\nSally\t1.0\nBob\t5.0\nAlice,\t8.5\nHank\t4.0\n"

CSV나 TSV와 같은 텍스트 파일 포맷 중에서 세미콜론";" 이나 공백 " ," 또는 "$\pi$"와 같이 특별한 것도 있습니다.

In [78]:
function write_space_separated()
    path = "grades-space-separated.csv"
    CSV.write(path, grades_2020(); delim=' ')
end
read(write_space_separated(), String)

"name grade_2020\nSally 1.0\nBob 5.0\nAlice 8.5\nHank 4.0\n"

규약에 따라, ";"와 같이 특별한 분할자를 ".csv"확장자에 사용하는 것이 최선입니다.

`CSV.jl`을 사용해서 CSV파일을 읽는 것도 비슷한 방식으로 할 수 있습니다. `CSV.read`를 사용할 수 있으며 원하는 아웃풋 포맷을  지정할 수 있습니다. 우리는 `DataFrame`으로 명시합니다.

In [79]:
path = write_grades_csv()
CSV.read(path, DataFrame)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String7,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


편리하게도, `CSV.jl`은 자동으로 컬럼의 타입을 추론해줍니다.

In [80]:
path = write_grades_csv()
df = CSV.read(path, DataFrame)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String7,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


이것은 훨씬 복잡한 데이터에도 작동합니다.

In [81]:
my_data = """
    a,b,c,d,e
    Kim,2018-02-03,3,4.0,2018-02-03T10:00
    """
path = "my_data.csv"
write(path, my_data)
df = CSV.read(path, DataFrame)

Unnamed: 0_level_0,a,b,c,d,e
Unnamed: 0_level_1,String3,Date…,Int64,Float64,DateTim…
1,Kim,2018-02-03,3,4.0,2018-02-03T10:00:00


이런 CSV 기초는 더 많은 사례를 커버해야 합니다. 더 많은 정보를 원하시면, `CSV.jl` [문서]()를 보시면 됩니다. 특히 `CSV.File` [생성자 문서]()보세요.

### 4.1.2. 엑셀

엑셀 파일을 읽어오는 복수의 줄리아 패키지가 있습니다. 이 책에서 우리는 `XLSX.jl`만 다룹니다. 왜냐하면 줄리아 생태계에서 엑셀 데이터를 다루는 가장 활발하게 유지보수가 되고 있는 패키지 이기 때문입니다. 두번째 이익은 `XLSX.jl`은 순수하게 줄리아로만 작성되어 있어서, 우리가 내부에서 어떻게 돌아가는지 조사하고 이해하기 쉽기 때문입니다.

`XLSX.jl`를 다음과 같이 불러옵니다.

In [82]:
using Pkg
Pkg.add("XLSX")

[32m[1m   Resolving[22m[39m package versions...
[32m[1m  No Changes[22m[39m to `~/NotebooksforDataScience/docs/julia/Project.toml`
[32m[1m  No Changes[22m[39m to `~/NotebooksforDataScience/docs/julia/Manifest.toml`


In [83]:
using XLSX:
    eachtablerow,
    readxlsx,
    writetable

파일을 쓰기 위해서, 우리는 데이터와 컬럼 이름을 위한 작은 헬퍼 함수를 정의합니다.

In [84]:
function write_xlsx(name, df::DataFrame)
    path = "$name.xlsx"
    data = collect(eachcol(df))
    cols = DataFrames.names(df)
    writetable(path, data, cols)
end

write_xlsx (generic function with 1 method)

이제 우리는 쉽게 grades를 엑셀 파일로 작성 할 수 있습니다.

In [85]:
function write_grades_xlsx()
    path = "grades"
    write_xlsx(path, grades_2020())
    "$path.xlsx"
end

write_grades_xlsx (generic function with 1 method)

이것을 다시 읽을 때, 우리는 `XLSX.jl`가 데이터를 `XLSXFile` 타입으로 하고 우리가 원하는 `sheet`를 `Dict`처럼 접근할 수 있습니다.

In [86]:
path = write_grades_xlsx()
xf = readxlsx(path)

LoadError: AssertionError: grades.xlsx already exists.

In [87]:
xf = readxlsx(write_grades_xlsx())
sheet = xf["Sheet1"]
eachtablerow(sheet) |> DataFrame

LoadError: AssertionError: grades.xlsx already exists.

우리는 `XlSX.jl`의 기초만 다뤘을 뿐입니다. 더 강력하고 유용한 것들이 있습니다. 더 많은 정보와 옵션을 보려면 `XlSX.jl`[문서]()를 찾아보세요.

## 4.2. 인덱싱과 요약

그러면 다시 `grades_2020()`예제로 돌아가 봅시다.

In [88]:
grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


`name`의 **벡터**를 얻으려면, 우리는 `DataFrame`을 `.`으로 접근할 수 있습니다 우리가 섹션 [3]()에서의 `struct`처럼 말이죠.

In [89]:
function names_grades1()
    df = grades_2020()
    df.name
end
names_grades1()

4-element Vector{String}:
 "Sally"
 "Bob"
 "Alice"
 "Hank"

아니면 우리는 `DataFrame`을 `Array`처럼 이넫ㄱ싱 할 수 있습니다. 심볼과 특별한 문자들을 통해서요. **두번째 인덱싱은 컬럼 인덱싱**입니다.

In [90]:
function names_grades2()
    df = grades_2020()
    df[!, :name]
end
names_grades2()

4-element Vector{String}:
 "Sally"
 "Bob"
 "Alice"
 "Hank"

`df.name`은 `df[!, :name]`과 완전히 같습니다. 직접 확인할 수 있습니다.

```julia
julia>>> df = DataFrame(id=[1]);
julia>>> @edit df.name
```

두 경우 모두 `:name` 컬럼을 반환합니다. `df[:, :name]` 도 `:name`을 복사합니다 대부분의 경우, `df[!, :name]`은 최적입니다. 이 방식이 가장 유연하고 진행 될 때 변환하기 때문입니다.

어떤 **행**이든지, 예를 들어 두번째 행은 우리는 **첫 번째 인덱스를 열 인덱스**로 사용합니다.

In [91]:
df = grades_2020()
df[2, :]

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
2,Bob,5.0


아니면 우리가 원하는 어떤 `i` 행을 반환하는 함수를 만들 수 있습니다.

In [92]:
function grade_2020(i::Int)
    df = grades_2020()
    df[i, :]
end
grade_2020(2)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
2,Bob,5.0


우리는 `names`의 두 행만을 **슬라이싱**을 통해 구할 수 있습니다.(또 `Array`랑 비슷합니다.)

In [93]:
grades_indexing(df) = df[1:2, :name]
grades_indexing(grades_2020())

2-element Vector{String}:
 "Sally"
 "Bob"

우리가 모든 테이블에서 이름이 유일하다고 가정한다면, 우리는 그들의 이름을 통해 사람의 grade을 얻는 함수를 쓸 수 있습니다. 그러기 위해서 우리는 테이블을 줄리아의 기초 자료구조(섹션 [3.3.]()을 보세요)이자 맵핑을 만들 수 있는 `Dict`로 변환합니다.

In [94]:
function grade_2020(name::String)
    df = grades_2020()
    dic = Dict(zip(df.name, df.grade_2020))
    dic[name]
end
grade_2020("Bob")

5.0

`zip`이 `df.name`과 `df.grade_2020`을 지퍼처럼 순환하기 때문에 가능합니다.

In [95]:
df = grades_2020()
collect(zip(df.name, df.grade_2020))

4-element Vector{Tuple{String, Float64}}:
 ("Sally", 1.0)
 ("Bob", 5.0)
 ("Alice", 8.5)
 ("Hank", 4.0)

하지만, `DataFrame`을 `Dict`으로 변환하는 것은 요소들에 중복이 없을 때만 유용합니다. 일반적인 경우는 아니며, 그래서 우리는 어떻게`DataFrame`을 `filter` 할 수 있는지 배워야 합니다.

## 4.3 필터와 부분집합

`DataFrame`에서 행을 제거할 수 있는 두가지 방법이 있습니다.
한가지는 `filter`(섹션 [4.3.1]())를 이용한 방법과 `subset`(섹션 [4.3.2]())을 이용한 방법이 있습니다.
`filter`는 `DataFrames.jl`에 초기부터 추가된 기능으로 좀 더 강력하고 줄리아 베이스 문법에 좀 더 일관됩니다. 그래서 우리는 `filter`부터 이야기 하고자 합니다. `subset`은 좀 더 나중에 추가된 기능으로 종종 좀 더 편리합니다. 

### 4.3.1 Filter

이 시점 부터 우리는 `DataFrames.jl`의 좀 더 강력한 기능을 다루기 시작합니다. 그러기 위해서 우리는 `select`와 `filter`와 같은 몇몇 함수들을 배울 필요가 있습니다. 하지만 걱정하지 마세요. **`DataFrames.jl`의 전반적인 설계 목적은 사용자가 배워야 하는 함수의 수를 최소화 하는 것**을 안다면 조금 안심할 수 있을 것입니다.

이전과 동일하게, `grades_2020`부터 시작합니다.

In [96]:
grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


`filter(source => f::Function, df)`를 사용해서 우리는 행을 필터링 할 수 있습니다.
이 함수는 줄리아 `Base`모듈의 `filter(f::Function, V::Vector)`와 아주 닮아 있습니다. 왜냐하면 `DataFrames.jl`은 **멀티플 디스패치**(섹션 [2.3.3]()을 봐주세요)를 사용해서 `filter`에 `DataFrame`을 인자로 받는 새로운 메소드를 정의했습니다. 

처음에는 필터링을 위해 함수 `f`를 정의하는 것이 사용하기 어려울 수 있습니다 참고 견디세요. 그런 노력은 그 빛을 발할 겁니다. 왜냐하면 **이것은 데이터를 필터링 하는 아주 강력한 방법이기 때문입니다.** 간단한 예시를 들면, 우리는 `equals_alice`라는 함수를 만들어 인풋이 "Alice"인지 확인할 수 있습니다.

In [97]:
equals_alice(name::String) = name == "Alice"
equals_alice("Bob")

false

In [98]:
equals_alice("Alice")

true

위아 같은 함수를 가지고 있으면, 우리는 함수 `f`를 사용해서 `name`이 "Alice"인 행을 필터링 해낼 수 있습니다.

In [99]:
filter(:name=> equals_alice, grades_2020())

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


In [100]:
filter(equals_alice, ["Alice", "Bob", "Dave"])

1-element Vector{String}:
 "Alice"

**익명 함수**(섹션 [3.2.4.4]()를 봐주세요)를 사용해 조금 덜 장황하게 만들 수 있습니다.

In [101]:
filter(n -> n == "Alice", ["Alice", "Bob", "Dave"])

1-element Vector{String}:
 "Alice"

우리는 `grades_2020`에도 사용할 수 있습니다.

In [102]:
filter(:name => n -> n == "Alice", grades_2020())

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


요약하자면, 이 함수 호출은 "`:name` 열에 있는 각 요소에 대해, `n`이라고 각 요소를 하자면, `n`이 Alice와 같은지 확인"이라고 해석할 수 있습니다. 어떤 사람들에게는, 이것은 여전히 너무 장황할 것입니다. 
다행히도, 줄리아는 `==`에 대한 *부분 함수 적용* 합니다.
그 상세는 중요하지 않고 다른 삼수처럼 사용할 수 있다는 것만 아시면 됩니다.

In [103]:
filter(:name => ==("Alice"), grades_2020())

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


Alice가 아닌 모든 행을 얻기 위해서는, `==`(등호)를 `!=`(다름)으로 교체하기만 하면 됩니다.

In [104]:
filter(:name => !=("Alice"), grades_2020())

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Hank,4.0


이제 **왜 함수가 강력한지** 보여주기 위해, 우리는 조금 더 보잡한 필터를 사용해 봅시다. 이 필터에서는, A나 B로 시작하는 사람의 이름**과** 6 등급 이상 받은 사람을 찾아봅시다.

In [105]:
function complex_filter(name, grade)::Bool
    interesting_name = startswith(name, 'A') || startswith(name, 'B')
    interesting_grade = 6 < grade
    interesting_name && interesting_grade
end

complex_filter (generic function with 1 method)

In [106]:
filter([:name, :grade_2020] => complex_filter, grades_2020())

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


### 4.3.2 Subset

`subset`함수는 결측값(missing value, 섹션 [4.5]()를 보세요)을 쉽게 다루기 위해 도입되었습니다. `filter`와는 다르게 `subset`은 행이나 단일 값이 아닌 완전한 열에서 작동합니다.당신이 이전에 정의된 함수를 사용하고 싶다면, 우리는 이것을 `ByRow`로 감싸야 합니다.

In [107]:
subset(grades_2020(), :name => ByRow(equals_alice))

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


한가지 언급하고자 하는 것은 `DataFrame`은 이제 첫번째 인자`subset(df, args...)`입니다. 반대로 `filter`는 두번째 인자`filter(f, df)`입니다 이 이유는 줄리아는 필터를 `filter(f, V::Vector)`로 정의했고 `DataFrames.jl`은 줄리아 함수와 일관성을 유지해 `DataFrames`의 타입을 멀티플 디스패치로 확대 했습니다.

> **노트** : 대부분의 `DataFrames.jl`의 함수는, `subset`을 포함해서, **`DataFrame`을 첫번째 인자로 받는 일관된 함수 형식을**가지고 있습니다.

`filter`와 동일하게 우리는 익명 함수를 사용할 수 있습니다.

In [108]:
subset(grades_2020(), :name => ByRow(name -> name == "Alice"))

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


또는 부분 함수(partial function application)인 ``==`을 쓸 수 있습니다.

In [109]:
subset(grades_2020(), :name => ByRow(==("Alice")))

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Alice,8.5


궁극적으로, `subset`의 진짜 위력을 봅시다. 먼저 우리는 몇몇 결측이 있는 데이터 셋을 만듭니다.

In [110]:
function salaries()
    names = ["John", "Hank", "Karen", "Zed"]
    salary = [1_900, 2_800, 2_800, missing]
    DataFrame(; names, salary)
end
salaries()

Unnamed: 0_level_0,names,salary
Unnamed: 0_level_1,String,Int64?
1,John,1900
2,Hank,2800
3,Karen,2800
4,Zed,missing


이 데이터는 그럴 듯한 상황에 대한 것입니다. 당신은 당신의 동료들의 봉급을 알 싶지만, 아직 Zed의 월급을 알지 못하는 것이죠. 우리가 이런 것을 하라고 권유하고 싶지는 않지만, 이것은 재미있는 예제입니다. 우리는 누가 2000 보다 더 많이 벌었는지 알고 싶다고 해봅시다. `missing` 값을 처리하지 않고 `filter`를 사용하면 실패할 것입니다.

In [111]:
filter(:salary => >(2_000), salaries())

LoadError: TypeError: non-boolean (Missing) used in boolean context

`subset`또한 실패할 것입니다, 하지만 이것은 울리에게 쉬운 솔루션을 알려줄 것입니다.

In [112]:
subset(salaries(), :salary => ByRow(>(2_000)))

LoadError: ArgumentError: missing was returned in condition number 1 but only true or false are allowed; pass skipmissing=true to skip missing values

그래서 우리는 그저 키워드 인자`skipmissing=true`를 넘기면 됩니다.

In [113]:
subset(salaries(), :salary => ByRow(>(2_000)); skipmissing=true)

Unnamed: 0_level_0,names,salary
Unnamed: 0_level_1,String,Int64?
1,Hank,2800
2,Karen,2800


## 4.4 Select

**`filter`가 행을 지운다면, `select`는 열을 제거합니다.** 하지만, 우리가 이 섹션에서 이야기 하듯이 `select`는 단순히 열을 지우는 것보다 훨씬 유연합니다. 우선 다수의 열을 가진 데이터 셋을 만들어 봅시다

In [115]:
function responses()
    id = [1,2]
    q1 = [28, 61]
    q2 = [:us, :fr]
    q3 = ["F", "B"]
    q4 = ["B", "C"]
    q5 = ["A", "E"]
    DataFrame(; id, q1, q2, q3, q4, q5)
end
responses()

Unnamed: 0_level_0,id,q1,q2,q3,q4,q5
Unnamed: 0_level_1,Int64,Int64,Symbol,String,String,String
1,1,28,us,F,B,A
2,2,61,fr,B,C,E


여기서, 데이터는 5개의 질문에 대한 답을 나타내고 있습니다.(`q1`, `q2`, ..., `q5`) 우리는 이 데이터 셋에서 부터 몇 열을 "선택"함으로 시작하고자 합니다. 언제나 처럼, 우리는 심볼을 컬럼을 나타낼 때 사용합니다.

In [116]:
select(responses(), :id, :q1)

Unnamed: 0_level_0,id,q1
Unnamed: 0_level_1,Int64,Int64
1,1,28
2,2,61


우리는 또한 문자열을 사용할 수 있습니다.

In [117]:
select(responses(), "id", "q1", "q2")

Unnamed: 0_level_0,id,q1,q2
Unnamed: 0_level_1,Int64,Int64,Symbol
1,1,28,us
2,2,61,fr


하나나 몇몇 열을 *제외*하고 선택하고 싶을 때 `Not`을 사용하면 됩니다.

In [118]:
select(responses(), Not(:q5))

Unnamed: 0_level_0,id,q1,q2,q3,q4
Unnamed: 0_level_1,Int64,Int64,Symbol,String,String
1,1,28,us,F,B
2,2,61,fr,B,C


여러 열일 경우

In [119]:
select(responses(), Not([:q4, :q5]))

Unnamed: 0_level_0,id,q1,q2,q3
Unnamed: 0_level_1,Int64,Int64,Symbol,String
1,1,28,us,F
2,2,61,fr,B


In [120]:
select(responses(), Not(["q4", "q5"]))

Unnamed: 0_level_0,id,q1,q2,q3
Unnamed: 0_level_1,Int64,Int64,Symbol,String
1,1,28,us,F
2,2,61,fr,B


이것은 또한 우리가 원하는 열과 그렇지 않은 열을 섞어서 사용하는 것도 가능합니다.

In [121]:
select(responses(), :q5, Not(:q5))

Unnamed: 0_level_0,q5,id,q1,q2,q3,q4
Unnamed: 0_level_1,String,Int64,Int64,Symbol,String,String
1,A,1,28,us,F,B
2,E,2,61,fr,B,C


한 가지 언급해야 할 것은 `q5`는 `select`로 반환되는 `DataFrame`의 첫번째 열이라는 점입니다. 이를 달성하기 위한 좀더 지혜로운 방법이 있습니다. `:`을 사용해서요. 콜론`:`은 "우리가 아직 포함시키지 않은 모든 열"이란 의미로 해석될 수 있습니다. 예를 들어

In [122]:
select(responses(), :q5, :)

Unnamed: 0_level_0,q5,id,q1,q2,q3,q4
Unnamed: 0_level_1,String,Int64,Int64,Symbol,String,String
1,A,1,28,us,F,B
2,E,2,61,fr,B,C


또는 `q5`를 두번째 위치로 넣을 수 있습니다.

In [123]:
select(responses(), 1, :q5, :)

Unnamed: 0_level_0,id,q5,q1,q2,q3,q4
Unnamed: 0_level_1,Int64,String,Int64,Symbol,String,String
1,1,A,28,us,F,B
2,2,E,61,fr,B,C


> **노트**: 컬럼을 선택하는데 몇가지 방법이 있음을 알 수 있습니다. 이런 것들은 [컬럼 선택자]()라고 알려져 있습니다.

우리는 
- `Symbol`: `select(df, :col)`
- `String`: `select(df, "col")`
- `Integer`: `select(df, 1)`

또한 `select`를 통해 `source=>target`이라는 페어를 사용해서 열 이름을 바꾸는 것도 가능합니다.

In [124]:
select(responses(), 1 => "participant", :q1=>"age", :q2=>"nationality") 

Unnamed: 0_level_0,participant,age,nationality
Unnamed: 0_level_1,Int64,Int64,Symbol
1,1,28,us
2,2,61,fr


추가적으로, `...` splat 연산자를 사용해서(섹션 [3.3.11]()을 참조하세요), 다음과 같이 쓸 수도 있습니다.

In [125]:
renames = (1 => "participant", :q1 => "age", :q2 => "nationality")
select(responses(), renames...)

Unnamed: 0_level_0,participant,age,nationality
Unnamed: 0_level_1,Int64,Int64,Symbol
1,1,28,us
2,2,61,fr
