### Julia 에서 R 언어에서 자주 사용되는 Dataset 로딩하기
데이터 분석을 배우는 과정에서 많은 경우 예를 위해 샘플 데이터 셋을 많이 이용합니다.
Julia 에서는 통계 언어인 R 에서 많이 사용되는 데이터 셋을 RDatasets 패키지를 이용하여 편하게 로딩하고 사용할 수 있습니다.

RDatasets 패키지는 DataFrames 패키지에 의존성이 있어 같이 설치합니다.
DataFrames 패키지는 Julia 에서 R 언어의 DataFrames 편리성을 사용할 수 있도록 만들어진 패키지입니다.

* Rdatasets: https://github.com/johnmyleswhite/RDatasets.jl
* DataFrames: https://github.com/JuliaStats/DataFrames.jl

In [None]:
Pkg.update()
Pkg.add("DataFrames")
Pkg.add("Rdatasets")

In [2]:
using RDatasets, DataFrames

RDatasets.packages() 함수는 통해 지원되는 데이터 셋을 리턴하며, head() 함수를 통해서 일부만 볼수 있습니다. 

In [3]:
packages = RDatasets.packages()
head(packages)

Unnamed: 0,Package,Title
1,COUNT,"Functions, data and code for count data."
2,Ecdat,Data sets for econometrics
3,HSAUR,A Handbook of Statistical Analyses Using R (1st Edition)
4,HistData,Data sets from the history of statistics and data visualization
5,ISLR,Data for An Introduction to Statistical Learning with Applications in R
6,KMsurv,"Data sets from Klein and Moeschberger (1997), Survival Analysis"


데이터 셋 패키지가 총 몇개이고, 어떤 패키지 이름들을 가지는지 살펴 봅니다.

In [4]:
println("nrow: ", nrow(packages))
println("package: ", packages[:, 1])

nrow: 33
package: UTF8String["COUNT","Ecdat","HSAUR","HistData","ISLR","KMsurv","MASS","SASmixed","Zelig","adehabitatLT","boot","car","cluster","datasets","gap","ggplot2","lattice","lme4","mgcv","mlmRev","nlreg","plm","plyr","pscl","psych","quantreg","reshape2","robustbase","rpart","sandwich","sem","survival","vcd"]


데이터 셋 패키지 중에 R dataset package 인 "datasets" 데이터셋을 가져오고, 그중 head() 함수를 통해 일부만 출력해 보겠습니다.

In [5]:
datasets = RDatasets.datasets("datasets")
head(datasets)

Unnamed: 0,Package,Dataset,Title,Rows,Columns
1,datasets,BOD,Biochemical Oxygen Demand,6,2
2,datasets,CO2,Carbon Dioxide Uptake in Grass Plants,84,5
3,datasets,Formaldehyde,Determination of Formaldehyde,6,2
4,datasets,HairEyeColor,Hair and Eye Color of Statistics Students,32,4
5,datasets,InsectSprays,Effectiveness of Insect Sprays,72,2
6,datasets,LifeCycleSavings,Intercountry Life-Cycle Savings Data,50,6


데이터 셋이 총 몇개의 데이터 셋을 가지고 어떤 이름을 가지는지 출력해봅니다.

In [6]:
println("nrow: ", nrow(datasets))
println("datasets: ", datasets[:, 2])

nrow: 50
datasets: UTF8String["BOD","CO2","Formaldehyde","HairEyeColor","InsectSprays","LifeCycleSavings","Loblolly","OrchardSprays","PlantGrowth","Puromycin","Theoph","Titanic","ToothGrowth","UCBAdmissions","USArrests","USJudgeRatings","USPersonalExpenditure","VADeaths","WorldPhones","airquality","anscombe","attenu","attitude","cars","chickwts","crimtab","esoph","euro","faithful","freeny","infert","iris","islands","longley","morley","mtcars","occupationalStatus","precip","pressure","quakes","randu","rivers","rock","sleep","stackloss","swiss","trees","volcano","warpbreaks","women"]


데이터 셋 중에 "iris" 데이터 셋을 가져와서 head() 함수를 통해 일부만 출력해 봅니다.

In [7]:
iris = dataset("datasets", "iris")
head(iris)

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Species
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,4.6,3.1,1.5,0.2,setosa
5,5.0,3.6,1.4,0.2,setosa
6,5.4,3.9,1.7,0.4,setosa


iris 데이터 셋(https://en.wikipedia.org/wiki/Iris_flower_data_set) 붓꽃의 4가지 속성에 따라 종을 분류해 놓은 데이터 셋으로 데이터 분석시 자주 예제로 쓰입니다.