Data를 효율적으로 다루기 위한 패키지인 Dataframes 를 사용해 봅니다.

In [1]:
# Dataframes 패키지를 설치합니다.
Pkg.add("Dataframes")
using DataArrays, DataFrames

INFO: Nothing to be done


In [2]:
# Dataframe 은 DataArray를 컬럼으로 가지는 테이블 형태의 데이터 셋입니다.
# DataArray 는 Julia의 기본 Array 와 비슷하지만, 
# Missing Value를 뜻하는 NA 타입을 가질 수 있습니다. 
da1 = DataArray([1, 1, 2, 3], [true, false, false, false])
println(typeof(da1))
println(da1)

# DataArray 생성을 위한 간편한 @data 매크로를 제공합니다.
da2 = @data([NA, 1, 2, 3])
println(typeof(da2))
println(da2)

df = DataFrame(A = da1, B = da2)
println(typeof(df))
println(df)

# rename() 를 통해 컬럼이름 변경이 가능합니다.
println(rename!(df, :B, :B1))
println(rename(df, :B1, :B2))

DataArrays.DataArray{Int64,1}
[NA,1,2,3]
DataArrays.DataArray{Int64,1}
[NA,1,2,3]
DataFrames.DataFrame
4×2 DataFrames.DataFrame
│ Row │ A  │ B  │
├─────┼────┼────┤
│ 1   │ NA │ NA │
│ 2   │ 1  │ 1  │
│ 3   │ 2  │ 2  │
│ 4   │ 3  │ 3  │
4×2 DataFrames.DataFrame
│ Row │ A  │ B1 │
├─────┼────┼────┤
│ 1   │ NA │ NA │
│ 2   │ 1  │ 1  │
│ 3   │ 2  │ 2  │
│ 4   │ 3  │ 3  │
4×2 DataFrames.DataFrame
│ Row │ A  │ B2 │
├─────┼────┼────┤
│ 1   │ NA │ NA │
│ 2   │ 1  │ 1  │
│ 3   │ 2  │ 2  │
│ 4   │ 3  │ 3  │


In [3]:
# 연습을 위해 사용할 R 언어에서 제공하는 클래식 데이터셋 패키지를 설치합니다.
Pkg.add("RDatasets")
using RDatasets

INFO: Nothing to be done


In [4]:
# DataFrame 타입은 테이블 형태이며 각 열은 DataArray 타입을 가집니다.
# 사용할 수 없는 값은 NA 로 표시합니다.
anscombe = dataset("datasets", "anscombe")

# head() 와 tail() 를 이용해서 데이터의 샘플을 확인할 수 있습니다.
print(head(anscombe))

6×8 DataFrames.DataFrame
│ Row │ X1 │ X2 │ X3 │ X4 │ Y1   │ Y2   │ Y3    │ Y4   │
├─────┼────┼────┼────┼────┼──────┼──────┼───────┼──────┤
│ 1   │ 10 │ 10 │ 10 │ 8  │ 8.04 │ 9.14 │ 7.46  │ 6.58 │
│ 2   │ 8  │ 8  │ 8  │ 8  │ 6.95 │ 8.14 │ 6.77  │ 5.76 │
│ 3   │ 13 │ 13 │ 13 │ 8  │ 7.58 │ 8.74 │ 12.74 │ 7.71 │
│ 4   │ 9  │ 9  │ 9  │ 8  │ 8.81 │ 8.77 │ 7.11  │ 8.84 │
│ 5   │ 11 │ 11 │ 11 │ 8  │ 8.33 │ 9.26 │ 7.81  │ 8.47 │
│ 6   │ 14 │ 14 │ 14 │ 8  │ 9.96 │ 8.1  │ 8.84  │ 7.04 │

In [5]:
print(tail(anscombe))

6×8 DataFrames.DataFrame
│ Row │ X1 │ X2 │ X3 │ X4 │ Y1    │ Y2   │ Y3   │ Y4   │
├─────┼────┼────┼────┼────┼───────┼──────┼──────┼──────┤
│ 1   │ 14 │ 14 │ 14 │ 8  │ 9.96  │ 8.1  │ 8.84 │ 7.04 │
│ 2   │ 6  │ 6  │ 6  │ 8  │ 7.24  │ 6.13 │ 6.08 │ 5.25 │
│ 3   │ 4  │ 4  │ 4  │ 19 │ 4.26  │ 3.1  │ 5.39 │ 12.5 │
│ 4   │ 12 │ 12 │ 12 │ 8  │ 10.84 │ 9.13 │ 8.15 │ 5.56 │
│ 5   │ 7  │ 7  │ 7  │ 8  │ 4.82  │ 7.26 │ 6.42 │ 7.91 │
│ 6   │ 5  │ 5  │ 5  │ 8  │ 5.68  │ 4.74 │ 5.73 │ 6.89 │

In [6]:
# showcols 함수로 각 컬럼의 정보와 Missing value 의 양을 알 수 있습니다.
print(showcols(anscombe))

11×8 DataFrames.DataFrame
│ Col # │ Name │ Eltype  │ Missing │
├───────┼──────┼─────────┼─────────┤
│ 1     │ X1   │ Int64   │ 0       │
│ 2     │ X2   │ Int64   │ 0       │
│ 3     │ X3   │ Int64   │ 0       │
│ 4     │ X4   │ Int64   │ 0       │
│ 5     │ Y1   │ Float64 │ 0       │
│ 6     │ Y2   │ Float64 │ 0       │
│ 7     │ Y3   │ Float64 │ 0       │
│ 8     │ Y4   │ Float64 │ 0       │nothing

In [7]:
# 데이터 프레임의 사이즈와 길이를 알 수 있습니다.
println("size: $(size(anscombe))")
println("length: $(length(anscombe))")

size: (11,8)
length: 8


In [8]:
# 데이터 프레임내에서 [:컬럼] 형태로 컬럼 선택이 가능합니다.
anscombe[:X1]

11-element DataArrays.DataArray{Int64,1}:
 10
  8
 13
  9
 11
 14
  6
  4
 12
  7
  5

In [9]:
# 데이터 프레임내에서 [인덱스] 형태로 컬럼 선택이 가능합니다.
anscombe[1]

11-element DataArrays.DataArray{Int64,1}:
 10
  8
 13
  9
 11
 14
  6
  4
 12
  7
  5

In [10]:
# 위 방식을 응용해서 데이터 프레임에 대하여 다양한 슬라이싱이 가능합니다.
print(anscombe[1:3, [:X1, :Y1]])

3×2 DataFrames.DataFrame
│ Row │ X1 │ Y1   │
├─────┼────┼──────┤
│ 1   │ 10 │ 8.04 │
│ 2   │ 8  │ 6.95 │
│ 3   │ 13 │ 7.58 │

In [11]:
print(anscombe[[1, 2, 3], [:X1, :Y1]])

3×2 DataFrames.DataFrame
│ Row │ X1 │ Y1   │
├─────┼────┼──────┤
│ 1   │ 10 │ 8.04 │
│ 2   │ 8  │ 6.95 │
│ 3   │ 13 │ 7.58 │

In [12]:
print(anscombe[:, [:X1, :Y1]]) 

11×2 DataFrames.DataFrame
│ Row │ X1 │ Y1    │
├─────┼────┼───────┤
│ 1   │ 10 │ 8.04  │
│ 2   │ 8  │ 6.95  │
│ 3   │ 13 │ 7.58  │
│ 4   │ 9  │ 8.81  │
│ 5   │ 11 │ 8.33  │
│ 6   │ 14 │ 9.96  │
│ 7   │ 6  │ 7.24  │
│ 8   │ 4  │ 4.26  │
│ 9   │ 12 │ 10.84 │
│ 10  │ 7  │ 4.82  │
│ 11  │ 5  │ 5.68  │

In [13]:
# 데이터 프레임 내에서 값을 통한 row 필터링이 가능합니다.
print(anscombe[(anscombe[:Y1] .> 5.0) & (anscombe[:Y1] .< 7.0), [:X1, :Y1]])

2×2 DataFrames.DataFrame
│ Row │ X1 │ Y1   │
├─────┼────┼──────┤
│ 1   │ 8  │ 6.95 │
│ 2   │ 5  │ 5.68 │

In [14]:
# 컬럼 단위로 적용할 수 있는 함수가 존재한다면 
# colwise() 를 통해 데이터 프레임 전체에 편리하게 적용 가능합니다.
println("sum of Y1, Y2: $(sum(anscombe[:Y1])) $(sum(anscombe[:Y2]))")
println("sum of Y1, Y2: $(colwise(sum, anscombe[[:Y1, :Y2]]))")

sum of Y1, Y2: 82.51000000000002 82.51
sum of Y1, Y2: Any[[82.51],[82.51]]


In [15]:
# eachrow(), eachcol() 를 통해 row, column 단위 iteration 이 가능합니다.
for row in eachrow(anscombe[1:3, [:X1, :Y1]])
    print(row)
    println("type: $(typeof(row))")
    println("row mean: $(mean(convert(Array, row)))")
end
println()
for col in eachcol(anscombe[1:3, [:X1, :Y1]])
    println(col)
    println("type: $(typeof(col))")
    println("col mean: $(mean(col[2]))")
end

DataFrameRow (row 1)
X1  10
Y1  8.04
type: DataFrames.DataFrameRow{DataFrames.DataFrame}
row mean: 9.02
DataFrameRow (row 2)
X1  8
Y1  6.95
type: DataFrames.DataFrameRow{DataFrames.DataFrame}
row mean: 7.475
DataFrameRow (row 3)
X1  13
Y1  7.58
type: DataFrames.DataFrameRow{DataFrames.DataFrame}
row mean: 10.29

(:X1,[10,8,13])
type: Tuple{Symbol,DataArrays.DataArray{Int64,1}}
col mean: 10.333333333333334
(:Y1,[8.04,6.95,7.58])
type: Tuple{Symbol,DataArrays.DataArray{Float64,1}}
col mean: 7.523333333333333


In [16]:
# describe() 를 통해 데이터 프레임의 기술적 통계를 확인할 수 있습니다.
describe(anscombe[[:X1, :Y1]])

X1
Min      4.0
1st Qu.  6.5
Median   9.0
Mean     9.0
3rd Qu.  11.5
Max      14.0
NAs      0
NA%      0.0%

Y1
Min      4.26
1st Qu.  6.3149999999999995
Median   7.58
Mean     7.500909090909093
3rd Qu.  8.57
Max      10.84
NAs      0
NA%      0.0%



In [17]:
# join() 를 통해 두 데이터 프레임을 통합 가능합니다.
# inner, left, right, outer, semi, anti, cross join을 지원합니다.
a = DataFrame(ID = [1, 2], Name = ["A", "B"])
b = DataFrame(ID = [1, 3], Job = ["Doctor", "Lawyer"])

println("inner join: $(join(a, b, on = :ID, kind = :inner))")
println("left join: $(join(a, b, on = :ID, kind = :left))")
println("right join: $(join(a, b, on = :ID, kind = :right))")
println("outer join: $(join(a, b, on = :ID, kind = :outer))")
println("semi join: $(join(a, b, on = :ID, kind = :semi))")
println("anti join: $(join(a, b, on = :ID, kind = :anti))")
println("cross join: $(join(a, b, kind = :cross))")

inner join: 1×3 DataFrames.DataFrame
│ Row │ ID │ Name │ Job      │
├─────┼────┼──────┼──────────┤
│ 1   │ 1  │ "A"  │ "Doctor" │
left join: 2×3 DataFrames.DataFrame
│ Row │ ID │ Name │ Job      │
├─────┼────┼──────┼──────────┤
│ 1   │ 1  │ "A"  │ "Doctor" │
│ 2   │ 2  │ "B"  │ NA       │
right join: 2×3 DataFrames.DataFrame
│ Row │ Name │ ID │ Job      │
├─────┼──────┼────┼──────────┤
│ 1   │ "A"  │ 1  │ "Doctor" │
│ 2   │ NA   │ 3  │ "Lawyer" │
outer join: 3×3 DataFrames.DataFrame
│ Row │ ID │ Name │ Job      │
├─────┼────┼──────┼──────────┤
│ 1   │ 1  │ "A"  │ "Doctor" │
│ 2   │ 2  │ "B"  │ NA       │
│ 3   │ 3  │ NA   │ "Lawyer" │
semi join: 1×2 DataFrames.DataFrame
│ Row │ ID │ Name │
├─────┼────┼──────┤
│ 1   │ 1  │ "A"  │
anti join: 1×2 DataFrames.DataFrame
│ Row │ ID │ Name │
├─────┼────┼──────┤
│ 1   │ 2  │ "B"  │
cross join: 4×4 DataFrames.DataFrame
│ Row │ ID │ Name │ ID_1 │ Job      │
├─────┼────┼──────┼──────┼──────────┤
│ 1   │ 1  │ "A"  │ 1    │ "Doctor" │
│ 2   │ 1  │ "

In [18]:
iris = dataset("datasets", "iris")
println(head(iris))

# by() 를 통해 지정 컬럼 값을 기반으로 그룹화해 함수 적용이 가능합니다.
println(by(iris, :Species, length))
println(by(iris, :Species, df -> sum(df[:PetalLength])))
println(by(iris, :Species, df -> DataFrame(N = size(df, 1))))

# do() 를 통해 그룹화 후 복잡한 함수 적용도 가능합니다.
mv = by(iris, :Species) do df
    DataFrame(M = mean(df[:PetalLength]), V = var(df[:PetalLength]))
end
println(mv)

# aggregate() 를 통해 그룹화 후 나머지 컬럼에 대해 여러 함수를 일괄 적용 가능합니다. 
println(aggregate(iris[[:Species, :PetalLength]], :Species, [sum, mean]))

# 그룹으로 분리된 sub dataframe 을 원한다면 groupby() 를 이용하면 됩니다.
for subdf in groupby(iris, :Species)
    println("group: $(subdf[1, :Species]), mean: $(mean(subdf[:PetalLength]))")
end

INFO: Recompiling stale cache file /Users/daehongseo/.julia/lib/v0.5/RData.ji for module RData.


6×5 DataFrames.DataFrame
│ Row │ SepalLength │ SepalWidth │ PetalLength │ PetalWidth │ Species  │
├─────┼─────────────┼────────────┼─────────────┼────────────┼──────────┤
│ 1   │ 5.1         │ 3.5        │ 1.4         │ 0.2        │ "setosa" │
│ 2   │ 4.9         │ 3.0        │ 1.4         │ 0.2        │ "setosa" │
│ 3   │ 4.7         │ 3.2        │ 1.3         │ 0.2        │ "setosa" │
│ 4   │ 4.6         │ 3.1        │ 1.5         │ 0.2        │ "setosa" │
│ 5   │ 5.0         │ 3.6        │ 1.4         │ 0.2        │ "setosa" │
│ 6   │ 5.4         │ 3.9        │ 1.7         │ 0.4        │ "setosa" │
3×2 DataFrames.DataFrame
│ Row │ Species      │ x1 │
├─────┼──────────────┼────┤
│ 1   │ "setosa"     │ 5  │
│ 2   │ "versicolor" │ 5  │
│ 3   │ "virginica"  │ 5  │
3×2 DataFrames.DataFrame
│ Row │ Species      │ x1    │
├─────┼──────────────┼───────┤
│ 1   │ "setosa"     │ 73.1  │
│ 2   │ "versicolor" │ 213.0 │
│ 3   │ "virginica"  │ 277.6 │
3×2 DataFrames.DataFrame
│ Row │ Species      

In [19]:
# sort!() 를 통해 데이터를 컬럼 단위로 정렬할 수 있습니다.
iris = dataset("datasets", "iris")
print(head(iris))
print(head(sort!(iris)))

6×5 DataFrames.DataFrame
│ Row │ SepalLength │ SepalWidth │ PetalLength │ PetalWidth │ Species  │
├─────┼─────────────┼────────────┼─────────────┼────────────┼──────────┤
│ 1   │ 5.1         │ 3.5        │ 1.4         │ 0.2        │ "setosa" │
│ 2   │ 4.9         │ 3.0        │ 1.4         │ 0.2        │ "setosa" │
│ 3   │ 4.7         │ 3.2        │ 1.3         │ 0.2        │ "setosa" │
│ 4   │ 4.6         │ 3.1        │ 1.5         │ 0.2        │ "setosa" │
│ 5   │ 5.0         │ 3.6        │ 1.4         │ 0.2        │ "setosa" │
│ 6   │ 5.4         │ 3.9        │ 1.7         │ 0.4        │ "setosa" │6×5 DataFrames.DataFrame
│ Row │ SepalLength │ SepalWidth │ PetalLength │ PetalWidth │ Species  │
├─────┼─────────────┼────────────┼─────────────┼────────────┼──────────┤
│ 1   │ 4.3         │ 3.0        │ 1.1         │ 0.1        │ "setosa" │
│ 2   │ 4.4         │ 2.9        │ 1.4         │ 0.2        │ "setosa" │
│ 3   │ 4.4         │ 3.0        │ 1.3         │ 0.2        │ "setosa" │
│ 

In [20]:
# reverse 옵션을 제공합니다.
print(head(sort!(iris, rev = true)))

6×5 DataFrames.DataFrame
│ Row │ SepalLength │ SepalWidth │ PetalLength │ PetalWidth │ Species     │
├─────┼─────────────┼────────────┼─────────────┼────────────┼─────────────┤
│ 1   │ 7.9         │ 3.8        │ 6.4         │ 2.0        │ "virginica" │
│ 2   │ 7.7         │ 3.8        │ 6.7         │ 2.2        │ "virginica" │
│ 3   │ 7.7         │ 3.0        │ 6.1         │ 2.3        │ "virginica" │
│ 4   │ 7.7         │ 2.8        │ 6.7         │ 2.0        │ "virginica" │
│ 5   │ 7.7         │ 2.6        │ 6.9         │ 2.3        │ "virginica" │
│ 6   │ 7.6         │ 3.0        │ 6.6         │ 2.1        │ "virginica" │

In [21]:
# 필요한 컬럼만 지정할 수 있습니다.
print(head(sort!(iris, cols = [:SepalWidth, :SepalLength])))

6×5 DataFrames.DataFrame
│ Row │ SepalLength │ SepalWidth │ PetalLength │ PetalWidth │ Species      │
├─────┼─────────────┼────────────┼─────────────┼────────────┼──────────────┤
│ 1   │ 5.0         │ 2.0        │ 3.5         │ 1.0        │ "versicolor" │
│ 2   │ 6.0         │ 2.2        │ 5.0         │ 1.5        │ "virginica"  │
│ 3   │ 6.0         │ 2.2        │ 4.0         │ 1.0        │ "versicolor" │
│ 4   │ 6.2         │ 2.2        │ 4.5         │ 1.5        │ "versicolor" │
│ 5   │ 4.5         │ 2.3        │ 1.3         │ 0.3        │ "setosa"     │
│ 6   │ 5.0         │ 2.3        │ 3.3         │ 1.0        │ "versicolor" │

In [22]:
# 컬럼에 필요한 order 함수를 지정할 수 있습니다.
print(head(sort!(iris, cols = [order(:Species, by = uppercase), order(:SepalLength, rev = true)])))

6×5 DataFrames.DataFrame
│ Row │ SepalLength │ SepalWidth │ PetalLength │ PetalWidth │ Species  │
├─────┼─────────────┼────────────┼─────────────┼────────────┼──────────┤
│ 1   │ 5.8         │ 4.0        │ 1.2         │ 0.2        │ "setosa" │
│ 2   │ 5.7         │ 3.8        │ 1.7         │ 0.3        │ "setosa" │
│ 3   │ 5.7         │ 4.4        │ 1.5         │ 0.4        │ "setosa" │
│ 4   │ 5.5         │ 3.5        │ 1.3         │ 0.2        │ "setosa" │
│ 5   │ 5.5         │ 4.2        │ 1.4         │ 0.2        │ "setosa" │
│ 6   │ 5.4         │ 3.4        │ 1.7         │ 0.2        │ "setosa" │

In [23]:
# CSV 형식의 파일 I/O를 제공합니다.
dfCars = readtable("./cars.csv")
print(head(dfCars))

6×9 DataFrames.DataFrame
│ Row │ mpg  │ cylinders │ engine │ horsepower │ weight │ acceleration │ year │
├─────┼──────┼───────────┼────────┼────────────┼────────┼──────────────┼──────┤
│ 1   │ 18.0 │ 8         │ 307.0  │ 130.0      │ 3504   │ 12.0         │ 70   │
│ 2   │ 15.0 │ 8         │ 350.0  │ 165.0      │ 3693   │ 11.5         │ 70   │
│ 3   │ 18.0 │ 8         │ 318.0  │ 150.0      │ 3436   │ 11.0         │ 70   │
│ 4   │ 16.0 │ 8         │ 304.0  │ 150.0      │ 3433   │ 12.0         │ 70   │
│ 5   │ 17.0 │ 8         │ 302.0  │ 140.0      │ 3449   │ 10.5         │ 70   │
│ 6   │ 15.0 │ 8         │ 429.0  │ 198.0      │ 4341   │ 10.0         │ 70   │

│ Row │ origin     │ name                        │
├─────┼────────────┼─────────────────────────────┤
│ 1   │ "American" │ "chevrolet chevelle malibu" │
│ 2   │ "American" │ "buick skylark 320"         │
│ 3   │ "American" │ "plymouth satellite"        │
│ 4   │ "American" │ "amc rebel sst"             │
│ 5   │ "American" │ "ford t