<h1 style="text-align:center">Data Structure</h1>
<h3 style="text-align:center">With Scala</h3>
<br>
<h4 style="text-align:center">Tae Geun Kim</h4>

## What is Data Structure?

컴퓨터의 메모리는 1차원 구조이기 때문에 현실 세계의 다차원데이터를 다루기 위해서는 이것을 1차원인 선 형태로 바꾸는 것이 필요하다. 대학교 1학년 과정에서 배우는 기초 알고리즘들은 바로 이 방법을 학습한다. 2차원 배열, 이진 트리, 그래프 등의 자료구조가 2차원 데이터를 1차원으로 욱여넣는 방법을 배우는 것이다. 더 나아가 3차원 데이터를 다루고, 더 지나면 3차원 데이터 이상의 다차원 데이터를 처리하는 자료구조를 만날 수 있다. 물론 B트리나 R트리의 경우처럼 같은 2차원 데이터도 어떻게 조직화하느냐에 따라 자료구조가 달라진다. [출처: 나무위키]

### Example: Python

1. List (But, it's Array)
    ```python
    X = [1,2,3,4,5]
    print(X[2])
    Y = [i + 1 for i in X] # List comprehension
    print(Y)
    ```

2. Tuple
    ```python
    X = ("hi", 2, 3.1)
    print(X[0])
    ```

3. Dict
    ```python
    X = {"hi": 2.0}
    print(X["hi"])
    ```    

### Example: Scala

1. Array
    ```scala
    val x = Array(1,2,3,4,5)
    println(x(2)) // Function?
    ```
    
2. List
    ```scala
    val x = List(1,2,3,4,5)
    println(x)
    def addOne[A](xs: List[A]): List[A] = xs match {
        case Nil => Nil
        case Cons(h, t) => Cons(h+1, addOne(t))
    }
    println(addOne(x))
    ```
    
3. Stream
    ```scala
    val x = Stream(1,2,3,4,5)
    println(x.take(3))
    ```

## Kind of Data Structure

* Basic Data Structure (ex) Python: List, Map, Tuple -> Skip)
* Object-Oriented Data Structure
* Functional Data Structure

## Object-Oriented Structure

* Array
* Class (OOP like)

### Array

컴퓨터 과학에서 배열(영어: array, 配列·排列, 문화어: 배렬)은 번호(인덱스)와 번호에 대응하는 데이터들로 이루어진 자료 구조를 나타낸다. 일반적으로 배열에는 같은 종류의 데이터들이 순차적으로 저장되어, 값의 번호가 곧 배열의 시작점으로부터 값이 저장되어 있는 상대적인 위치가 된다. 대부분의 프로그래밍 언어에서 사용할 수 있는 가장 기초적인 자료 구조로, 기본적인 용도 외에 다른 복잡한 자료 구조들을 표현하기 위해서 또는 행렬, 벡터 등을 컴퓨터에서 표현하는 용도 등으로도 사용된다. [출처: 위키피디아]

<img src="array.jpg" width=100%></img>

### Array Summary

* 배열은 고정된 크기! 크기를 한 번 지정하면 변경할 수 없음. (Python: ...?, Julia: ...?, MATLAB: ...?, R: ...?)
* 한 번 지정하면 변경이 불가 -> C 계열 언어에선 포인터로 이를 해결하지만 Python이나 Julia등은 필연적으로 메모리의 위치가 바뀜.
* 배열은 index를 포함하기에 변수접근 속도가 매우 빠름. ($\mathcal{O}(1)$)
* 하지만 추가나 값 변경을 할 시에 필연적으로 메모리의 변경이 일어나게 되고 속도 손실이 생김. // 동적언어는 메모리를 확장!
* 정적언어에서는 포인터로 접근하지만 동적언어에선 오류의 확인이 불가
* 자료구조의 가장 기본적인 꼴이므로 기본 처리속도 자체는 매우 빠른 편

### Example: Python

```python
def idCheck(xs):
    return [id(x) for x in xs]

A = [1,2,3,4,5]
ID1 = idCheck(A)
A[0] = 0
ID2 = idCheck(A)
A += [6,]
ID3 = idCheck(A)
```

### Class

*  객체지향의 꽃

클래스(class)는 객체 지향 프로그래밍(OOP)에서 특정 객체를 생성하기 위해 변수와 메소드를 정의하는 일종의 틀이다. 객체를 정의 하기 위한 상태(멤버변수)와 메서드(함수)로 구성된다.  
템플릿을 사용하면 객체를 클래스로 정의할 때 멤버의 자료형을 미리 정하지 않고 객체를 사용할 때 결정할 수 있다. 이를 통해 클래스나 멤버의 중복 정의를 하지 않아도 되므로 효율적으로 코딩이 가능하다. [출처: 나무위키]

### Example: Go

```go
import math

type Circle struct {
    radius  float64
}

func (C Circle) Area() {
    R = C.radius
    return math.Pi * math.Pow(R,2)
}
```

### Example: Julia
```julia
mutable struct Circle
    radius :: Float64
end

function calcArea(C::Circle)::Float64
    r = C.radius
    return pi * r^2
end
```

### Example: Scala

```scala
import math

class Circle(r: double) {
    var radius: double = r
    def calcArea: double = math.pi * math.square(radius)
}
```


### Example: Python

```python
import math

class Circle:
    def __init__(self, rad):
        self.radius = rad
     
    def area(self):
        return math.pi * self.radius ** 2
```

### Class 사용법

* Struct & Method 꼴의 경우 구조체에 데이터들을 초기화하고 그것을 바꿔가면서 사용
* Class의 경우도 비슷하나 Class 자체에 데이터와 메소드가 모두 있다는 것이 다름.

### Example: Julia

```julia
mutable struct Container
    x :: Float64
    y :: Float64
end

function calculator(C::Container)
    C.x += 1
    C.y += 2
end

function main()
    X = Container(1.0, -2.0)
    calculator(X)
    println(X)
end
```

### Example: Python

```python
class Container:
    def __init__(self, x, y):
        self.x = x
        self.y = y
    
    def calculator(self):
        self.x += 1
        self. y += 2

def main():
    C = Container(1, -2)
    C.calculator()
    print(C.x, C.y)
```

### Example: Python

```python
class Derivative:
    def __init__(self, f):
        self.f = f
        self.h = 1e-06
    
    def differentiate(self, x):
        return (self.f(x+self.h) - self.f(x))/self.h
       
    def __call__(self, x):
        return self.differentiate(x)
```

## Functional Data Structure

* (Linked) List
* Tree
* Stream

### List

연결 리스트, 링크드 리스트(linked list)는 각 노드가 데이터와 포인터를 가지고 한 줄로 연결되어 있는 방식으로 데이터를 저장하는 자료 구조이다. 이름에서 말하듯이 데이터를 담고 있는 노드들이 연결되어 있는데, 노드의 포인터가 다음이나 이전의 노드와의 연결을 담당하게 된다.  
연결 리스트는 늘어선 노드의 중간지점에서도 자료의 추가와 삭제가 O(1)의 시간에 가능하다는 장점을 갖는다. 그러나 배열이나 트리 구조와는 달리 특정 위치의 데이터를 검색해 내는데에는 O(n)의 시간이 걸리는 단점도 갖고 있다. [출처: 위키피디아]

<img src="list.gif" width=100%></img>

In [1]:
// Trait
sealed trait List[+A]
case object Nil extends List[Nothing]
case class Cons[+A](head:A, tail:List[A]) extends List[A]

object List {
    def apply[A](as: A*): List[A] = {
        if (as.isEmpty) Nil
        else Cons(as.head, apply(as.tail:_*))
    }
}

defined [32mtrait[39m [36mList[39m
defined [32mobject[39m [36mNil[39m
defined [32mclass[39m [36mCons[39m
defined [32mobject[39m [36mList[39m

In [2]:
// Print
val A  = List(1,2,3,4,5)
println(A)

Cons(1,Cons(2,Cons(3,Cons(4,Cons(5,Nil)))))


[36mA[39m: [32mList[39m[[32mInt[39m] = Cons(1,Cons(2,Cons(3,Cons(4,Cons(5,Nil)))))

In [3]:
// Pattern Matching
def addOne(as: List[Int]): List[Int] = as match {
    case Nil => Nil
    case Cons(h, t) => Cons(h+1, addOne(t))
}
println(addOne(A))

Cons(2,Cons(3,Cons(4,Cons(5,Cons(6,Nil)))))


defined [32mfunction[39m [36maddOne[39m

In [4]:
// Append is so Easy!
def append[A](as: List[A], bs: List[A]): List[A] = as match { // Do not consider bs!
    case Nil => bs
    case Cons(h,t) => Cons(h, append(t, bs))
}

defined [32mfunction[39m [36mappend[39m

In [5]:
val B = addOne(A)
val C = append(A,B)
println(C)

Cons(1,Cons(2,Cons(3,Cons(4,Cons(5,Cons(2,Cons(3,Cons(4,Cons(5,Cons(6,Nil))))))))))


[36mB[39m: [32mList[39m[[32mInt[39m] = Cons(2,Cons(3,Cons(4,Cons(5,Cons(6,Nil)))))
[36mC[39m: [32mList[39m[[32mInt[39m] = Cons(1,Cons(2,Cons(3,Cons(4,Cons(5,Cons(2,Cons(3,Cons(4,Cons(5,Cons(6,Nil))))))))))

### Tree

부모 노드 밑에 여러 자식 노드가 연결되고, 자식 노드 각각에 다시 자식 노드가 연결되는 재귀적 형태의 자료구조다. 단, 자식 노드의 자식이 부모로 연결되는 경우는 보통 트리로 인정하지 않는다.   
자식 노드에서 부모 쪽으로 계속해서 타고 올라가다 보면 결국 부모가 없는 하나의 노드로 이어지게 되는데, 이 노드를 루트 노드(root node)라고 부르며, 루트 노드를 중심으로 뻗어나가는 모습이 나무의 구조와 비슷하여 '트리'라는 이름이 붙었다. '수형도(樹形圖)'라고 부르기도 한다. [출처: 나무위키]

<img src="AVLtreef.svg" width=100%></img>

### Kinds of Tree

* Binary Tree
    * Binary Search Tree
    * AVL Tree
    * Red-Black Tree

In [6]:
// Binary Tree
sealed trait Tree[+A]
case object Null extends Tree[Nothing]
case class Leaf[A](value: A) extends Tree[A]
case class Branch[A](left: Tree[A], right: Tree[A]) extends Tree[A]

defined [32mtrait[39m [36mTree[39m
defined [32mobject[39m [36mNull[39m
defined [32mclass[39m [36mLeaf[39m
defined [32mclass[39m [36mBranch[39m

In [7]:
def size[A](tr: Tree[A]): Int = tr match {
    case Leaf(_) => 1
    case Branch(lx, rx) => 1 + size(lx) + size(rx)
    case Null => 0
}

def maximum(tr: Tree[Int]): Int = tr match {
    case Branch(lx, rx) => maximum(lx) max maximum(rx)
    case Leaf(x) => x
    case Null => 0
}

defined [32mfunction[39m [36msize[39m
defined [32mfunction[39m [36mmaximum[39m

In [8]:
object Tree {
    def apply[A](xs: Array[A]): Tree[A] = new Branch(Leaf(xs(0)), Leaf(xs(1)))
}

defined [32mobject[39m [36mTree[39m

In [9]:
val tr1 = Tree(Array(1,7))
val tr2 = Tree(Array(2,6))
val tr = Branch(tr1, tr2)
val tr_wrap = Branch(tr, Leaf(5))

println(size(tr_wrap))
println(maximum(tr_wrap))

9
7


[36mtr1[39m: [32mTree[39m[[32mInt[39m] = Branch(Leaf(1),Leaf(7))
[36mtr2[39m: [32mTree[39m[[32mInt[39m] = Branch(Leaf(2),Leaf(6))
[36mtr[39m: [32mBranch[39m[[32mInt[39m] = Branch(Branch(Leaf(1),Leaf(7)),Branch(Leaf(2),Leaf(6)))
[36mtr_wrap[39m: [32mBranch[39m[[32mInt[39m] = Branch(Branch(Branch(Leaf(1),Leaf(7)),Branch(Leaf(2),Leaf(6))),Leaf(5))

### Binary Search Tree

이진 트리의 일종으로, 노드의 왼쪽 가지에는 노드의 값보다 작은 값들만 있고, 오른쪽 가지에는 큰 값들만 있도록 구성되었다. 자식 노드들도 동일한 방법으로 정렬되어 노드의 왼쪽 자식의 왼쪽 가지에는 왼쪽 자식이 가진 값보다 작은 값만 있고, 왼쪽 자식의 오른쪽 가지에는 왼쪽 자식의 값보다 큰 값들만 있고, 오른쪽 자식의 왼쪽 가지에는... 이런 식으로 이진 탐색 트리의 어느 노드를 잡아도 동일한 규칙으로 정렬이 되어 있다.

이렇게 구성해 두면 어떤 값 n을 찾을 때, 루트 노드와 비교해서 n이 더 작다면 루트 노드보다 큰 값들만 모여 있는 오른쪽 가지는 전혀 탐색할 필요가 없다. 마찬가지로 루트 노드의 왼쪽 자식보다 n이 크다면 왼쪽 자식의 왼쪽 가지는 탐색할 필요가 없고... 다시 말해 트리 자체가 이진 탐색을 하기에 적합한 구성이 되는 것이다. 또한 값을 찾을 때 뿐만이 아니라 값을 삽입하거나 삭제할 때도 똑같은 과정을 거치므로, 이상적인 상황에서 탐색/삽입/삭제 모두 시간복잡도가 $\mathcal{O}(\log N)$이 된다. [출처: 나무위키]

### Binary Search Tree

다만 단점이 있는데, 값이 삽입되거나 삭제되는 경우에 따라서 운이 안좋으면 최악의 경우에 $\mathcal{O}(N)$의 시간이 걸리게 된다. 예를 들어, 비어있는 이진 탐색 트리에 1부터 100까지 순서대로 삽입한다면 처음 루트 노드는 1이 되고, 2는 1보다 크니 1의 오른쪽 자식이 되고, 3은 1보다 크니 1의 오른쪽, 2보다 크니 2의 오른쪽... 이런 식으로 트리의 오른쪽 끝으로만 계속 성장하게 된다. 이 상태로 50을 찾는다고 하면 결국 1부터 순서대로 오른쪽으로 쭈욱 내려가는 선형 탐색이나 다를게 없게 된다. 이러한 경우를 트리가 편향(skew)되었다고 한다.