<a href="https://colab.research.google.com/github/SpecialAlex/TemporaryStation/blob/main/P03_02_05_DataFrames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# DataFrames
데이터 프레임(Data Frame)이란 정형 데이터를 2차원 테이블 형식으로 정돈한 자료구조로 정의할 수 있으며, 개념적으로는 행렬의 일반화이기도 하다.  
수학에서 다루는 행렬은 보통 모든 원소가 똑같은 집합에 속하는 것으로 보지만, 데이터 프레임은 대체로 얼마다 자료형이 달라도 되고 고유한 이름도 가진다.  
  
꼭 통계 처리 목적이 아니라도 어지간한 언어엔 데이터 프레임의 개념과 구현이 거의 확실히 존재한다. Matlab에서는 테이블(Table)이라 하고 Python에서는 판다스(Pandas)라는 패키지로 제공되며, 이들을 써본 적 있다면 Julia의 데이터 프레임 패키지 `DataFrames.jl`에도 어렵지 않게 적응할 수 있다.  
  
데이터 과학에서 대표적으로 예시로 사용되는 아이리스 데이터 세트를 `RDatasets.jl` 패키지를 통해 불러본다.  
데이터 프레임 패키지를 따로 부르지 않았음에도 데이터 프레임으로 불러진 것을 확인할 수 있다.

In [3]:
import Pkg
Pkg.add("RDatasets")
Pkg.add("DataFrames")

[32m[1m   Resolving[22m[39m package versions...
[32m[1m   Installed[22m[39m TZJData ─────────── v1.5.0+2025b
[32m[1m   Installed[22m[39m Mocking ─────────── v0.8.1
[32m[1m   Installed[22m[39m CategoricalArrays ─ v1.0.2
[32m[1m   Installed[22m[39m RData ───────────── v1.1.0
[32m[1m   Installed[22m[39m TimeZones ───────── v1.22.2
[32m[1m   Installed[22m[39m RDatasets ───────── v0.8.1
[32m[1m    Updating[22m[39m `~/.julia/environments/v1.11/Project.toml`
  [90m[ce6b1742] [39m[92m+ RDatasets v0.8.1[39m
[32m[1m    Updating[22m[39m `~/.julia/environments/v1.11/Manifest.toml`
  [90m[324d7699] [39m[92m+ CategoricalArrays v1.0.2[39m
  [90m[78c3b35d] [39m[92m+ Mocking v0.8.1[39m
  [90m[df47a6cb] [39m[92m+ RData v1.1.0[39m
  [90m[ce6b1742] [39m[92m+ RDatasets v0.8.1[39m
  [90m[dc5dba14] [39m[92m+ TZJData v1.5.0+2025b[39m
  [90m[f269a46b] [39m[92m+ TimeZones v1.22.2[39m
[92m[1mPrecompiling[22m[39m project...
   4757.6 ms[32m  ✓ 

In [4]:
using RDatasets

iris = dataset("datasets", "iris")

Row,SepalLength,SepalWidth,PetalLength,PetalWidth,Species
Unnamed: 0_level_1,Float64,Float64,Float64,Float64,Cat…
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,4.6,3.1,1.5,0.2,setosa
5,5.0,3.6,1.4,0.2,setosa
6,5.4,3.9,1.7,0.4,setosa
7,4.6,3.4,1.4,0.3,setosa
8,5.0,3.4,1.5,0.2,setosa
9,4.4,2.9,1.4,0.2,setosa
10,4.9,3.1,1.5,0.1,setosa


데이터 프레임은 통계학을 위시한 데이터 과학 전반에서 표준적으로 쓰이고, 특히 R프로그래밍 언어 혹은 SAS같은 통계 패키지에서는 가장 우선적으로 구현한다.  
R 입장에서 봤을 떄 스택, 큐, 집합, 딕셔너리 같은 건 있으면 좋고 없어도 그만인 잡기에 불과하다.  
데이터 분석이라고 하는 원래의 목적에서 가장 핵심이 되는 건 언제나 데이터 프레임이로, 그 어떤 자료구조보다 중요하다고 말해도 과언이 아니다.  
  
자료구조의 측면에서 봤을 때 데이터 프레임은 세로와 가로 크기가 있는 2차원 배열이므로 인덱스로 접근할 수도 있고, 각각의 열 이름을 프로퍼티로 가지고 있는 네임드 튜플처럼 다룰 수 있다.

In [5]:
size(iris)

(150, 5)

In [6]:
propertynames(iris)

5-element Vector{Symbol}:
 :SepalLength
 :SepalWidth
 :PetalLength
 :PetalWidth
 :Species

In [7]:
iris[1, 1]

5.1

In [8]:
iris.Species[1]

CategoricalArrays.CategoricalValue{String, UInt8} "setosa"

## 생성과 정렬
데이터 프레임은 Julia의 빌트인 자료구조도 아니고 표준 라이브러리도 아니지만, 앞서 언급했듯 이 분야에서 데이터 프레임이라는 개념 자체가 너무나 중요하기에 자세히 살표보겠다.  
Julia의 데이터 프레임은 `DataFrames.jl`이라는 패키지로 관리되고 있으며 `using DataFrames`를 통해 불러올 수 있다.  
  
데이터 프레임을 생성하는 방법은 아주 다양한데, 그중에서 가장 많이 사용하는 방법은 다음과 같이 세 가지 정도로 좁혀볼 수 있다.
1. 직접 데이터를 지정한다.
2. 길이가 같은 벡터들으 ㅣ네임드 튜플로 만든다.
3. 행렬에다가 이름의 벡터를 뭍여서 만든다.

첫쨰, '직접 데이터를 지정한다'는 말 그대로 `DataFrame` 생성자에 데이터를 입력하는 방법이다.  
기본적으로 큰 데이터를 다룰 때는 적합하지 않지만, 반대로 어떤 프로그램의 초깃값이 필요하거나 테스트 케이스를 만들 때 가장 자주 사용하게 될 방법이다.

In [9]:
df1 = DataFrame(letter = ['A', 'B', 'C'], number = [1, 2, 3])

Row,letter,number
Unnamed: 0_level_1,Char,Int64
1,A,1
2,B,2
3,C,3


둘쨰, '길이가 같은 백터들의 네임드 튜플로 만든다'는 이미 데이터가 벡터로 어떤 변수들에 나눠서 저장되어 있을 때 그 변수 이름 자체를 열 이름으로 갖는 데이터 프레임을 만드는 방법이다.  
프로그램 작동 중에는 테이블 형태로 자료를 정리하기 귀찮거나 곤란한데, 최종적으로는 테이블로 깔끔하게 정리되어야 할 때 유용하다.  
그중에서도 데이터가 계속해서 쌓이며 그 크기를 예측할 수 없을 때 특히 좋은 방법이다.  
네임드 튜플을 기존의 변수로 정의할 때 그랬든, `DataFrame(;, ...)`과 같이 소괄호의 가장 앞에 세미콜론을 두어서 할 수 있다.

In [10]:
charactor = ["admin", "eve"]

2-element Vector{String}:
 "admin"
 "eve"

In [11]:
page = [19, 77]

2-element Vector{Int64}:
 19
 77

In [12]:
df2 = DataFrame(; charactor, page)

Row,charactor,page
Unnamed: 0_level_1,String,Int64
1,admin,19
2,eve,77


셋째, '행렬에다가 이름의 벡터를 붙여서 만든다'는 데이터 프레임을 행렬의 일반화로 본다는 관점이 실제로 구현된 것이다.  
행렬 하나, 그리고 그 행렬의 열 수와 길이가 같은 문자열 벡터를 주면 그 문자열들이 데이터 프레임의 열 이름이 된다.  
열 이름이 딱히 중요하지 않다면 문자열 벡터 대신 `:auto` 심볼을 주어 `x1, x2, ...`와 같이 자동으로 이름을 정해줄 수 있다.  
보통 데이터로 받을 행렬이 무엇인지 명료하고, 그 행렬이 많은 행렬 연산을 거친 뒤 얻어지는 경우 사용하게 된다.  
굳이 처음부터 데이터 프레임을 쓰지 않고 행렬에서 뭔가 작업했다는 건 아마도 성능이 중요한 상황일 가능성이 크다.  
가변 배열 같은 걸 쓸 여유가 없을 정도로 계산량과 저장 용량이 커졌다면, 이 방법을 원하는 원치 않든 쓸 수밖에 없다.

In [13]:
_df3 = [1 0 9; 8 5 2]

2×3 Matrix{Int64}:
 1  0  9
 8  5  2

In [14]:
df3 = DataFrame(_df3, ["x", "y", "z"])

Row,x,y,z
Unnamed: 0_level_1,Int64,Int64,Int64
1,1,0,9
2,8,5,2


In [15]:
df3

Row,x,y,z
Unnamed: 0_level_1,Int64,Int64,Int64
1,1,0,9
2,8,5,2


세 번째 방법은 역으로, 데이터 프레임에서 행렬로의 변환도 가능하다. 행렬에 데이터 프레임 생성자를 취했던 것처럼 데이터 프레임에 행렬의 생성자 `Matrix`를 취하면 행렬이 된다.

In [17]:
Matrix(df3)

2×3 Matrix{Int64}:
 1  0  9
 8  5  2

추가로, 첫 번째 방법의 대표적인 응용은 빈 데이터 프레임을 만드는 것이다.  
직접 입력하는 데이터로 빈 배열을 주게 되면 열마다 해당 컬렉션의 자료형을 이더받은 채로 빈 데이터프레임이 생성된다.

In [19]:
ef = DataFrame(a = [], p = Int[], k = String[])

Row,a,p,k
Unnamed: 0_level_1,Any,Int64,String


생성된 데이터 프레임의 열 이름은 추후에 얼마든지 병경할 수 있다.  
`rename()`함수를 사용하면 데이터 프레임을 생성할 때와 마찬가지로 전체 열 이름을 배열로 주거나, `:after => :before`라는 페어를 주어서 `after`라는 개별 열의 이름만 `before`로 바꿀 수 있다.

In [20]:
df4 = DataFrame(x = [3, 1, 7, 1], y = [5, 9, 2, 1])

Row,x,y
Unnamed: 0_level_1,Int64,Int64
1,3,5
2,1,9
3,7,2
4,1,1


In [21]:
rename(df4, [:a, :b])

Row,a,b
Unnamed: 0_level_1,Int64,Int64
1,3,5
2,1,9
3,7,2
4,1,1


In [22]:
rename(df4, :y => :z)

Row,x,z
Unnamed: 0_level_1,Int64,Int64
1,3,5
2,1,9
3,7,2
4,1,1


행렬을 데이터 프레임으로 만들어서 특히 편한 부분은 우리가 가진 '데이터'가 진정한 의미에서 구조를 이루었다는 점이다.  
데이터 프레임을 한 행만 취할 영우 그 데이터는 그냥 `DataFrame`의 일부가 아닌 `DataFrameRow`라는 독립적인 타입을 가지게 된다.

In [23]:
df4[1, :]

Row,x,y
Unnamed: 0_level_1,Int64,Int64
1,3,5


데이터 프레임의 각 행에 나열된 데이터는 단순히 같은 행의 인덱스를 공유하는 것이 아니라 서로가 있음으로서 하나의 데이터 포인트(Data Point)가 된다는 점이 중요하다. 이렇게 구조화된 데이터를 다루게 되면 열의 인덱스를 헷갈린다든가 다른 행의 데이터를 섞어 쓰게 되는 식의 모든 실수를 원천 봉쇄할 수 있다.  
  
데이터 포인트가 하나로 움직인다는 개념은 데이터를 정렬해보면 더 이해하기 쉽다.  
`sort()`함수를 데이터 프레임에 사용할 땐 `sort(df, :col)`의 꼴로 주어진 데이터 프레임의 `df`의 `col`열을 오름차순으로 정렬한다.  
이때 주목해야 할 것은 해당 열만 정렬되는 것이 아니라, 그 열을 기준으로 다른 열의 데이터도 함꼐 움직인다는 점이다.

In [24]:
df4

Row,x,y
Unnamed: 0_level_1,Int64,Int64
1,3,5
2,1,9
3,7,2
4,1,1


In [25]:
sort(df4, :x)

Row,x,y
Unnamed: 0_level_1,Int64,Int64
1,1,9
2,1,1
3,3,5
4,7,2


In [26]:
sort(df4, :y)

Row,x,y
Unnamed: 0_level_1,Int64,Int64
1,1,1
2,7,2
3,3,5
4,1,9


데이터 프레임의 각 행의 순서가 유지된다는 점에서 데이터 프레임에 사용되는 `sort()`에는 안정 정렬(Stable Sort) 알고리즘을 사용할 것을 짐작할 수 있다.  
정렬 알고리즘의 안정성이란 배열에 중복된 원소가 있을 떄, 정렬 후에도 그 중복 원소들의 순서가 유지되는 성질을 말한다.  
이에 따라 데이터 프레임을 사용할 떄 정렬의 우선순위를 두고 싶다면, 가장 순위가 낮은 것부터 순위가 높아지는 방식으로 정렬을 반복 적용하게 된다.

## 추가와 삭제
새로운 데이터 행을 추가하는 방법에는 `push!`가 있다.  
함수의 이름에서 예상할 수 있듯 가장 마지막 행에 데이터가 주가된다.  
추가할 데이터는 각 열의 순사와 타입이 맞고 같은길이의 벡터로 주어져야 한다.

In [27]:
push!(df4, [0, -1])

Row,x,y
Unnamed: 0_level_1,Int64,Int64
1,3,5
2,1,9
3,7,2
4,1,1
5,0,-1


세로운 데이터 열을 추가하는 방법은 `df[!, :new] = :vector`의 형태로 쓰여서 직접 새 열을 할당하는 것이다.  
데이터 프레임 `df`의 행 길이와 같은 크기를 가지는 `vector`가 주어져서 `new`라는 마지막 열에 위치하게 된다.

In [28]:
df4[!, :z] = [missing, -1, 0, missing, 0]
df4

Row,x,y,z
Unnamed: 0_level_1,Int64,Int64,Int64?
1,3,5,missing
2,1,9,-1
3,7,2,0
4,1,1,missing
5,0,-1,0


반대로 특정 행을 삭제하는 방법은 무척 많지만, 특히 그중에서 결측치(Missing Value)를 제거하는 방법과 특정 열에서 중복을 제거하는 방법에 대해서 알아본다.  
이 두 가지는 작업은 거칠고 불친절한 데이터를 다룰 때 아주 빈번하게 수행하게 되며, 반드시 알아두는 게 좋다.  
첫째, 결측치는 `dropmissing()`함수를 통해 각 행에서 `missing`이 단 하나라도 있을 경우 해당행을 모두 배재할 수 있다.

In [30]:
dropmissing(df4)

Row,x,y,z
Unnamed: 0_level_1,Int64,Int64,Int64
1,1,9,-1
2,7,2,0
3,0,-1,0


둘쨰, 특정 열에서 중복이 된 원소를 없애기 위해서는 `unique()`함수를 사용한다.  
유니크 함수는 `unique(df, :col)`꼴로 쓰여서 주어진 데이터 프레임 `df`의 `col`열에서 중복된 원소를 하나씩만 남기고 제거하며, 그들 중에서는 가장 위에 있는 행이 남는다.

In [31]:
unique(df4, :z)

Row,x,y,z
Unnamed: 0_level_1,Int64,Int64,Int64?
1,3,5,missing
2,1,9,-1
3,7,2,0


특정한 열을 제거하는 것은 엄밀히 말해서 어떤 열을 제거한다기보단 특정 열만 보겠다는 것에 가깝다.  
열을 선택하는 셀렉트 함수는 `select(df, cols)`꼴로 데이터 프레임 `df`의 열 중 열 이름의 벡터 `cols`에 해당하는 열만을 남긴다.

In [32]:
select(df4, [:x, :z])

Row,x,z
Unnamed: 0_level_1,Int64,Int64?
1,3,missing
2,1,-1
3,7,0
4,1,missing
5,0,0


만일 열의 수가 너무 많아서 `cols`가 너무 길어질 것 같다면 인덱스에서 `Not()`함수를 사용해 특정 열만 제외한 나머지를 선택할 수 있다.

In [33]:
select(df4, Not(:x))

Row,y,z
Unnamed: 0_level_1,Int64,Int64?
1,5,missing
2,9,-1
3,2,0
4,1,missing
5,-1,0


## 병합과 분할
지금까지 데이어 프레임에 대해서 알아봤지만, 사실 행렬에서 못할 일들은 없었다.  
물론 훨씬 실수를 적게 하고 데이터를 다루는 과정이 아주 편해지기야 하겠지만 본질적으로 행렬을 다루는 일이나 데이터 프레임을 다루는 일이나 크게 다르지 않다.  
그런데 애초에 데이터 프레임은 큰 데이터 세트 하나만을 상정하고 쓰는 게 아니다.  
결국 마지막엔 하나의 데이터로 표현할 수 있을지라도, 실제 데이터 처리 과정에서는 몇천 개, 몇십만 개의 조각난 데이터를 다루는 일도 빈번하다.  
그렇게 하나의 큰 데이터를 쉽게 다룰 순 없기 떄문에 다시 잘게 나눠서 처리할 일도 당연히 많다.  
간단한 예로 전국적으로 많은 고득학교에서 어떤 기간 동안 청팀과 백팀으로 야구 경기를 하고, 그 결과 누가 이겼는지에 대한 데이터와 몇 번으로 이겼는지에 대한 데이터가 있다고 하자.  
안타깝게도 과거에는 이런 데이터가 필요할지 몰랐기 떄문에 체계화도니 통계 시스템을 구축할 생각을 못 했고, 현재는 선수들을 직접 찾아가는 식으로 데이터를 제한적으로 얻을 수밖에 없다고 상상해 본다.

In [34]:
winner = DataFrame(
      game_number = [2, 14, 35, 37, 49, 81]
    , win_team = ["청", "백", "백", "백", "백", "청"]
)

Row,game_number,win_team
Unnamed: 0_level_1,Int64,String
1,2,청
2,14,백
3,35,백
4,37,백
5,49,백
6,81,청


In [35]:
score = DataFrame(
      game_number = [3, 7, 14, 49, 81, 37]
    , score = [7, 3, 1, 5, 9, 12]
)

Row,game_number,score
Unnamed: 0_level_1,Int64,Int64
1,3,7
2,7,3
3,14,1
4,49,5
5,81,9
6,37,12


두 가지 데이터에 공통으로 포함도니 정보는 그 경기가 몇 번쨰 경기인지, 즉 경기 일정 등을 통해 어떤 두 경기가 같은지 다른지를 식별할 수 있는 고유번호가 있다고 한다.  
이럴 때 우리는 `outerjoin()`함수를 통해 두 데이터 프레임을 병합해 더 큰 데이터 세트를 구축할 수 있따.  
`outerjoin()`은 `outerjoin(A, B, on = :col)`꼴로 쓰여서 두 데이터 프레임 `A, B`가 공통으로 가지는 열 `col`을 기준으로 병합을 수행한다.

In [36]:
outerjoin(winner, score, on = :game_number)

Row,game_number,win_team,score
Unnamed: 0_level_1,Int64,String?,Int64?
1,14,백,1
2,49,백,5
3,81,청,9
4,37,백,12
5,2,청,missing
6,35,백,missing
7,3,missing,7
8,7,missing,3


한편 데이터 포인트를 다소 잃더라도 결측치가 없는 데이터를 원한다면 `innerjoin()`함수를 고려핼 볼 수 있다.

In [37]:
innerjoin(winner, score, on = :game_number)

Row,game_number,win_team,score
Unnamed: 0_level_1,Int64,String,Int64
1,14,백,1
2,49,백,5
3,81,청,9
4,37,백,12


이렇게 어떤 기준에 따라 데이터 프레임 사이의 병합을 수행하는 방법은 `innerjoin(), leftjoin(), rightjoin(), outerjoin(), semijoin(), antijoin(), crossjoin()`과 같이 다양하게 있다.  
이 중에 어떤 것이 필요할지는 그 데이터가 처한 상황에 따라 다르지만, 데이터 프레임으로는 데이터를 어떻게 다룰 수 있는지 그 사실을 아느냐 모르느냐가 중요하다.  
  
데이터를 분할할는 방법은 상대적으로 훨씬 간단하다. `groupby()`함수는 `groupby(df, :col)`꼬롤 쓰여서 데이터 프레임 `df`의 `col`을 통계학에서 말하는 계급(Class)로 나누어으로 나누어준다.

In [38]:
gdf = groupby(winner, :win_team)

Row,game_number,win_team
Unnamed: 0_level_1,Int64,String
1,2,청
2,81,청

Row,game_number,win_team
Unnamed: 0_level_1,Int64,String
1,14,백
2,35,백
3,37,백
4,49,백


정말 중요하고 유용한건 다음이다. 분할을 했으면 거기에 어떠한 처리가 분명히 들어갸게 될 것이고, `combine()`함수를 통해 그 과정을 놀랍도록 짧고 간결하게 정리할 수 있다.  
`combine()`함수는 그룹화된 데이터 프레임과 페어를 통해 정의된 프로세스를 수행한다.

In [40]:
combine(gdf, :win_team => length => :win_count)

Row,win_team,win_count
Unnamed: 0_level_1,String,Int64
1,청,2
2,백,4


페어가 `first, second`딱 둘만으로 주어질 필요는 없고, `second`를 계속해서 페어로 줄 수 있기 때문에 마치 작업의 사슬처럼 표현할 수 있다.  
`:win_team`별로 구분된 데이터 프레임의 길이를 `length()`함수로 계산했고, 승기 기록의 길이가 곧 몇 번을 이겼는지 의미하는 것이니 그 계산 결과 `:win_count`라는 이름으로 받아주었다.