# Data Science(JULIA)

# 4. DataFrames

* 데이터 프레임은 벡터들의 모임으로 이루어진 테이블 형태의 데이터 타입으로 

    - 행렬은 동일한 데이터 타입이 원소로 이루어져야 하는데 반해 데이터 프레임은 각 컬럼별로 데이터 타입이 달라도 된다. (예: 행렬 -> Int64로 통일, 데이터 프레임 -> A열: character, B열은 Float64, C열은 Int64 등 가능)
    
    - R에서는 내장되어 있는 데이터 타입(디폴트 타입)이며, 파이썬에서는 Pandas 패키지에서 지원을 하고 있고, 줄리아에서는 DataFrames.jl에서 지원하고 있다.
    
    > **(Julia DataFrames.jl 공식문서)** https://dataframes.juliadata.org/stable/

* 데이터프레임을 쓰지 않고 줄리아의 기본 문법만 이용할 경우

In [1]:
# Array 생성

function grades_array()
    name = ["Bob", "Sally", "Alice", "Hank"]
    age = [17, 18, 20, 19]
    grade_2020 = [5.0, 1.0, 8.5, 4.0]
    (; name, age, grade_2020)
end

grades_array (generic function with 1 method)

In [2]:
function second_row()
    name, age, grade_2020 = grades_array()
    i = 2
    row = (name[i], age[i], grade_2020[i])
end

second_row()

("Sally", 18, 1.0)

In [3]:
# 만약 앨리스의 학년을 추출하고 싶다면 아래의 함수를 생성
function row_alice()
    names = grades_array().name
    i = findfirst(names .== "Alice")
end
row_alice()

3

In [4]:
function value_alice()
    grades = grades_array().grade_2020
    i = row_alice()
    grades[i]
end
value_alice()

8.5

* 데이터 프레임을 이용하면 array보다 쉽게 데이터 핸들링이 가능함

In [5]:
# DataFrames 패키지 불러오기

using DataFrames

In [6]:
names = ["Sally", "Bob", "Alice", "Hank"]
grades = [1, 5, 8.5, 4]
df = DataFrame(name=names, grade_2020=grades)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


In [7]:
df

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


In [8]:
typeof(df)

DataFrame

In [9]:
# 앞서 정의한 array 생성 함수를 응용하여 데이터 프레임 생성 함수를 작성

function grades_2020()
    name = ["Sally", "Bob", "Alice", "Hank"]
    grade_2020 = [1, 5, 8.5, 4]
    DataFrame(; name, grade_2020)
end
grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


In [10]:
df1 = grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


In [11]:
typeof(df1)

DataFrame

In [12]:
df1[1, 1]

"Sally"

In [13]:
df1[1, end]

1.0

In [14]:
df1[end, end]

4.0

In [15]:
df1[1:3, 1:2]

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5


In [16]:
df2 = DataFrame(σ = ["a", "a", "a"], δ = [π, π/2, π/3])

Unnamed: 0_level_0,σ,δ
Unnamed: 0_level_1,String,Float64
1,a,3.14159
2,a,1.5708
3,a,1.0472


## Load and Save Files

### CSV

* CSV는 Comma-Seperated Values의 약자로 테이블을 담기에 효율적인 파일 형식이다.

* 이름에서도 알 수 있다시피 comma를 이용해 데이터(컬럼)를 분리한다.

In [17]:
using CSV

In [18]:
grades_2020()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


In [19]:
# 데이터 프레임을 CSV 파일로 내보내는 함수 작성

function write_grades_csv()
    path = "grades.csv"
    CSV.write(path, grades_2020())
end

write_grades_csv (generic function with 1 method)

In [20]:
path = write_grades_csv()

"grades.csv"

In [21]:
readdir()

28-element Vector{String}:
 ".RData"
 ".Rhistory"
 ".ipynb_checkpoints"
 "3D_plotting"
 "DS_1_Dates.ipynb"
 "DS_2_RandomNumber.ipynb"
 "DS_2_RandomNumber2.ipynb"
 "DS_3_Downloads.ipynb"
 "DS_4_DataFrames.ipynb"
 "DS_4_DataFrames2.ipynb"
 "DS_5_Makie.ipynb"
 "GLMakie_test.jl"
 "JuliaDataScience-main"
 ⋮
 "drawings1"
 "drawings2"
 "grades-comma.tsv"
 "grades-commas.csv"
 "grades-space-seperated.csv"
 "grades.csv"
 "grades.xlsx"
 "juliadatascience.pdf"
 "lorenz.mp4"
 "plot"
 "six_number.csv"
 "test.png"

* grades.csv 파일이 생성된 것을 확인

In [22]:
read(path, String)

"name,grade_2020\nSally,1.0\nBob,5.0\nAlice,8.5\nHank,4.0\n"

* CSV 데이터 형태는 간단한 텍스트 에디터로도 읽어들일 수 있는 장점이 있다.

* 하지만 데이터 상에 comma가 들어 있다면 문제가 될 수 있지만 CSV.jl은 이 문제를 자동적으로 고려해 처리해주고 있다. 

    - 컴마를 포함한 값들은 ```" ``` quotation 마크를 덧붙임(CSV.jl adds quotation marks " around the comma-containing values.)

In [23]:
function grades_with_commas()
    df = grades_2020()
    df[3, :name] = "Alice,"
    df
end
grades_with_commas()

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String,Float64
1,Sally,1.0
2,Bob,5.0
3,"Alice,",8.5
4,Hank,4.0


In [24]:
# 데이터 내 ,가 자동을 처리되어 있는 모습을 확인할 수 있음

function write_comma_csv()
    path = "grades-commas.csv"
    CSV.write(path, grades_with_commas())
end
path = write_comma_csv()
read(path, String)

"name,grade_2020\nSally,1.0\nBob,5.0\n\"Alice,\",8.5\nHank,4.0\n"

* **TSV 타입** (**T**ab-**S**eperated **V**alues) 도 CSV.jl 패키지의 CSV 함수를 이용해서 불러들일 수 있다.

In [25]:
function write_comma_tsv()
    path = "grades-comma.tsv"
    CSV.write(path, grades_with_commas(); delim = '\t')
end

read(write_comma_tsv(), String)

"name\tgrade_2020\nSally\t1.0\nBob\t5.0\nAlice,\t8.5\nHank\t4.0\n"

* 컴마 또는 탭 이외에도 다른 구분자(delimiters)를 이용하여 데이터를 구분하여 저장하고 불러들일 수 있다. 

In [26]:
function write_space_seperated()
    path = "grades-space-seperated.csv"
    CSV.write(path, grades_2020(); delim = ' ')
end

read(write_space_seperated(), String)

"name grade_2020\nSally 1.0\nBob 5.0\nAlice 8.5\nHank 4.0\n"

* 여전히 관례적으로 semicolon과 csv 확장자를 많이 사용하는 편임

* CSV를 읽을 때, 보통 path와 읽어들일 데이터 타입을 인수로 넣는다.

In [27]:
path = write_grades_csv()

"grades.csv"

In [28]:
CSV.read(path, DataFrame)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String7,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


In [29]:
grades_df = CSV.read(path, DataFrame)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,String7,Float64
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


* CSV 패키지에 대해 더 알아보고 싶다면 아래 공식문서를 참조

    > https://csv.juliadata.org/stable/

### Excel

* **XLSX.jl** 패키지는 가장 활발히 유지보수 되고 있는 엑셀 전용 패키지이며, 순수 줄리아(pure julia)로 작성되어 있기 때문에 어떻게 작동되는지 이해하고 검사하기 쉽다. 

In [30]:
using XLSX:
    eachtablerow,
    readxlsx,
    writetable

* 데이터와 컬럼명을 기록하는 사용자 정의 함수 생성

In [31]:
function write_xlsx(name, df::DataFrame)
    path = "$name.xlsx"
    data = collect(eachcol(df))
    cols = names(df)
    writetable(path, data, cols)
end

write_xlsx (generic function with 1 method)

* 이제 쉽게 grades 데이터를 엑셀로 변환 -> 하지만 실제 사용하려고 하면 에러가 발생

In [32]:
function write_grades_xlsx()
    path = "grades"
    write_xlsx(path, grades_2020())
    "$path.xlsx"
end

write_grades_xlsx (generic function with 1 method)

* 사용자 정의 함수는 에러가 발생하므로 다음과 같이 직접 xlsx 파일을 생성

In [33]:
# writetable("grades.xlsx", grades_df)

In [34]:
xf = readxlsx("grades.xlsx")

XLSXFile("grades.xlsx") containing 1 Worksheet
            sheetname size          range        
-------------------------------------------------
               Sheet1 5x2           A1:B5        


In [35]:
sheet = xf["Sheet1"]
eachtablerow(sheet) |> DataFrame

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,Any,Any
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


* 더 확인이 필요한 부분은 XLSX.jl 공식문서 참조

> https://felipenoris.github.io/XLSX.jl/stable/

## Index and Summarize

In [36]:
xf = readxlsx("grades.xlsx")
sheet = xf["Sheet1"]
grades_2020_df = (eachtablerow(sheet) |> DataFrame)

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,Any,Any
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


In [37]:
grades_2020_df

Unnamed: 0_level_0,name,grade_2020
Unnamed: 0_level_1,Any,Any
1,Sally,1.0
2,Bob,5.0
3,Alice,8.5
4,Hank,4.0


* 컬럼명을 ```.``` 연결하여 컬럼벡터 추출이 가능함

In [38]:
grades_2020_df.name

4-element Vector{Any}:
 "Sally"
 "Bob"
 "Alice"
 "Hank"

* column indexing을 이용한 방법

In [39]:
grades_2020_df[!, :name]

4-element Vector{Any}:
 "Sally"
 "Bob"
 "Alice"
 "Hank"

In [40]:
grades_2020_df[:,:name]

4-element Vector{Any}:
 "Sally"
 "Bob"
 "Alice"
 "Hank"

In [41]:
grades_2020_df[1:2, :name]

2-element Vector{Any}:
 "Sally"
 "Bob"

* collect 함수와 zip 함수를 이용, 두 열을 하나의 tuple로 묶을 수 있음

In [42]:
collect(zip(grades_2020_df.name, grades_2020_df.grade_2020))

4-element Vector{Tuple{Any, Any}}:
 ("Sally", 1.0)
 ("Bob", 5.0)
 ("Alice", 8.5)
 ("Hank", 4.0)