# Introduction to DataFrames
**[Bogumił Kamiński](http://bogumilkaminski.pl/about/), 2018년 5월 23일**

### 출처

* https://github.com/JuliaComputing/JuliaBoxTutorials/tree/master/introductory-tutorials/broader-topics-and-ecosystem/intro-to-julia-DataFrames

### 함께보기

* https://deepstat.tistory.com/69 (01. constructors)(in English)
* https://deepstat.tistory.com/70 (01. constructors)(한글)
* https://deepstat.tistory.com/71 (02. basicinfo)(in English)
* https://deepstat.tistory.com/72 (02. basicinfo)(한글)

In [1]:
using DataFrames # load package

## 데이터프레임에 대한 기본정보 얻기

`데이터프레임`인 객체 `x`를 통해서 어떻게 정보를 얻는지 배울거다.

In [2]:
x = DataFrame(A = [1, 2], B = [1.0, missing], C = ["a", "b"])

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64⍰,String
1,1,1.0,a
2,2,missing,b


`size` 함수를 통해서 `데이터프레임`의 행과 열의 수를 얻을 수 있다.

In [3]:
size(x), size(x, 1), size(x, 2)

((2, 3), 2, 3)

R처럼 `nrow`와 `ncol`을 통해서도 행과 열의 수를 얻을 수 있다. `length`는 열 수를 출력해준다.

In [4]:
nrow(x), ncol(x), length(x)

(2, 3, 3)

`describe`는 기본적인 통계량을 출력해준다.

In [5]:
describe(x)

Unnamed: 0_level_0,variable,mean,min,median,max,nunique,nmissing,eltype
Unnamed: 0_level_1,Symbol,Union…,Any,Union…,Any,Union…,Union…,DataType
1,A,1.5,1,1.5,2,,,Int64
2,B,1.0,1.0,1.0,1.0,,1.0,Float64
3,C,,a,,b,2.0,,String


`showcols`를 이용하면 열의 정보를 얻을 수 있다.

In [6]:
showcols(x)

│   caller = showcols(::DataFrame) at deprecated.jl:54
└ @ DataFrames ./deprecated.jl:54


Unnamed: 0_level_0,variable,eltype,nmissing,first,last
Unnamed: 0_level_1,Symbol,DataType,Union…,Any,Any
1,A,Int64,,1,2
2,B,Float64,1.0,1.0,missing
3,C,String,,a,b


`names`를 이용하면 모든 열 이름을 출력할 수 있다.

In [7]:
names(x)

3-element Array{Symbol,1}:
 :A
 :B
 :C

`eltypes`를 열(columns)의 타입(type)을 얻을 수 있다.

In [8]:
eltypes(x)

3-element Array{Type,1}:
 Int64                  
 Union{Missing, Float64}
 String                 

아래에서는 좀 큰 데이터프레임을 만든다.

In [9]:
y = DataFrame(rand(1:10, 1000, 10));

`head`를 이용하면 위에 있는 몇 개의 행만을 볼 수 있고,

In [10]:
head(y)

Unnamed: 0_level_0,x1,x2,x3,x4,x5,x6,x7,x8,x9,x10
Unnamed: 0_level_1,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64
1,9,9,9,5,1,9,6,1,5,5
2,8,2,1,10,9,2,1,3,3,7
3,4,9,10,3,8,2,1,6,3,10
4,7,5,5,6,5,8,6,8,6,7
5,1,10,7,6,3,9,2,9,1,8
6,7,6,8,3,7,6,3,5,6,3


`tail`을 이용하면 아래 몇 개의 행만을 볼 수 있다.

In [11]:
tail(y, 3)

Unnamed: 0_level_0,x1,x2,x3,x4,x5,x6,x7,x8,x9,x10
Unnamed: 0_level_1,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64
1,3,6,9,6,7,10,3,3,7,4
2,3,9,1,3,7,10,6,8,4,7
3,9,3,3,3,9,9,5,9,10,7


### 일부값 불러오기

`데이터프레임`에서 열 중 하나를 `벡터(Vector)`로 불러오는 세가지 방법이 아래에 제시된다.

In [12]:
x[1], x[:A], x[:, 1]

│   caller = top-level scope at In[12]:1
└ @ Core In[12]:1


([1, 2], [1, 2], [1, 2])

행 중 하나를 불러오려면, `인덱스(index)`를 이용한다.

In [13]:
x[1, :]

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64⍰,String
1,1,1.0,a


값 하나만 불러오려면 어레이array에서 불러오는 것처럼 불러오면 된다.

In [14]:
x[1, 1]

1

값의 일부를 하나의 값(scalar)으로 치환하는 것도 아래처럼 할 수 있다.

In [15]:
x[1:2, 1:2] = 1
x

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64⍰,String
1,1,1.0,a
2,1,1.0,b


행의 수와 동일한 길이의 벡터로 치환하는 것도,

In [16]:
x[1:2, 1:2] = [1,2]
x

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64⍰,String
1,1,1.0,a
2,2,2.0,b


크기가 같은 다른 데이터프레임으로 치환하는 것도 가능하다.

In [17]:
x[1:2, 1:2] = DataFrame([5 6; 7 8])
x

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64⍰,String
1,5,6.0,a
2,7,8.0,b
