# 4 DataFrames.jl

데이터는 대부분 테이블 형식으로 전달됩니다. 테이블 형식이라고 하는 것은 데이터가 행(row)과 열(column)로 구성되어 있는 테이블이라는 뜻입니다. 
열은 보통 같은 데이터 타입이고 행은 다른 데이터 타입을 가지고 있습니다. 행은, 실질적으로, 관찰 값을 의미하며,열은 변수를 의미합니다. 예를 들어 우리가 티비 쇼 테이블을 가지고 있다고 해봅시다. 이 테이블에는 그 티비 쇼가 만들어진 국ㄱ가와 우리의 평점이 있다고 합시다. 테이블 1처럼 말이죠.

제목 | 국가 | 평점
--- | --- | ---
왕좌의 게임 | 미국 | 8.2
크라운 | 영국 | 7.3
프렌즈 | 미국 | 7.8
... | ... | ...

여기서 점들의 의미는 이 표가 아주 긴 표일 수 있으며 우리는 그중 일부만 보여줬다는 의미입니다.데이터를 분석하는 동안, 우리는 종종 데이터에 대한 재미 있는 질문들이 떠오릅니다. *데이터 쿼리*라고도 불리우죠. 큰 테이블들이 주어졌을 때, 컴퓨터는 이런 질문들에 아주 빨리 답할 수 있습니다. 당신이 손으로 하는 것보다 말이죠. 몇몇 쿼리에 대한 예를 들어보자면,

- 어떤 티비 쇼가 가장 높은 평점을 가지고 있나요?
- 어떤 티비 쇼들이 마국에서 만들어 졌나요?
- 어떤 티비 쇼들이 같은 국가에서 만들어 졌나요?

하지만, 한명의 연구자로, 진짜 과학은 종종 여러 테이블이나 데이터 소스와 함께 시작하곤 합니다. 예를들어 우리가 다른 사람의 티비 쇼 평점 자료를 가지고 있다고 해봅시다.

제목 | 평점
--- | ---
왕좌의 게임 | 7
프렌즈 | 6.4
... | ...

이제 우리가 스스로에게 할 수 있는 질문은

- 왕좌의 게임의 평균 평점은 얼마인가요?
- 누가 프렌즈에 가장 높은 평점을 주었나요?
- 어떤 티비 쇼가 다른 사람이 아닌 당신이 평점을 매긴 쇼인가요?

남은 쳅터에서, 줄리아를 통해 우리는 어떻게 이런 질문에 쉽게 답할 수 있는지를 보여줄 것입니다. 그러기 위해서 우리는 먼저 왜 `DataFrames.jl`이라고 하는 줄리아 패키지가 필요한지 보여주고자 합니다. 다음 섹션에서 우리는 어떻게 이 패키지를 사용하는 보여주고 궁극적으로 우리가 어떻게 빨리 데이터 처리(data transformations)를 할 수 있는지 보여주고자 합니다. 

테이블 3과 같은 성적표를 봅시다.

이름 | 나이 | 2020 등급
--- | --- | ---
밥 | 17 | 5.0
샐리 | 18 | 1.0
엘리스 | 20 | 8.5
행크 | 19 | 4.0

여기서 이름 컬럼은 `string`타입이고, 나이는 `integer`, 등급은 `float`타입입니다.

지금까지 이 책은 줄리아 기초만 다루었습니다. 이런 기초는 많은 것들을 훌륭히 할 수 있지만, 테이블은 아닙니다. 우리가 무엇이 더 필요한지 보여주기 위해서 테이블 데이터를 배열에 저장해 봅시다.

In [1]:
function grades_array()
    name = ["Bob", "Sally", "Alice", "Hank"]
    age = [17, 18, 20, 19]
    grade_2020 = [5.0, 1.0, 8.5, 4.0]
    (; name, age, grade_2020)
end

grades_array (generic function with 1 method)

이제, 데이터는 소위 컬럼 메이저 형태로 저장되어 있습니다. 이는 우리가 행을 원할 때 불편합니다.

In [2]:
function second_row()
    name, age, grade_2020 = grades_array()
    i = 2
    row = (name[i], age[i], grade_2020[i])
end
second_row()

("Sally", 18, 1.0)

또는 엘리스의 등급을 원한다면, 우선 어떤 행에 엘리스가 있는지 알아내야 합니다.

In [3]:
function row_alice()
    names = grades_array().name
    i = findfirst(names .== "Alice")
end
row_alice()

3

그리고 나서야 우리는 원하는 값을 얻을 수 있습니다.

In [4]:
function value_alice()
    grades = grades_array().grade_2020
    i = row_alice()
    grades[i]
end
value_alice()

8.5

`DataFrames.jl`은 이런 문제를 쉽게 해결 할 수 있습니다. `using`을 사용해서 `DataFrames.jl`을 불러올 수 있습니다.

In [6]:
using DataFrames