# Day 1

### TODO
1. 깃헙에 스터디 그룹 개인 코드 및 노트 보관용 레포지토리 생성.
2. Big(O) Notation - 빅오 표기법의 시간 복잡도 공간 복잡도 간단하게 이해하기.
3. 엄청 간단한 시간 복잡도 줄이는 케이스를 함께 보기 (수학, 자료 구조).
4. 조금 더 복잡하지만 목표로 하는 자료구조는 그래프입니다.
5. 기본적인 자료구조 array(배열), queue(큐), stack(스택), linked list(연결 리스트), hash table(해시 테이블) 알아보기.

## Big(O) 표기법이란?

원래 Big(O), Big($\Omega$), Big($\Theta$)가 있는데 각자 시간과 공간 복잡도를 나타내는 방법들이다. 

서로 알고리즘 효율성을 측정하는데 기준이 다르다:  
- Big(O)는 상한선 기준으로 표기
- Big($\Omega$)는 하한선 기준으로 표기
- Big($\Theta$)는 상한선과 하한선의 사이 (평균)으로 표기

<img height=300px src='https://cdn.kastatic.org/ka-perseus-images/2bdc25c7eda8486d05b8031c5a63535684ecb5a1.png'>

하지만, 사실상 표준 (관례? 관습?)은 Big(O) - 빅오 표기법이다.

왜냐? 일단 프로그램이 운이 좋아서 빨리 돌아가면 다행이지만 그런 것은 현실에서 아무도 신경 안쓴다. 예를 들어, 차가 급발진 안한다고 그 브랜드를 칭찬하지 않는다 그건 당연하니까, 오류가 안나는게 베스트니까.

그래서, 운이 안좋을 때도 다른 알고리즘 보다 빠른 알고리즘을 알고 사용하는 것이 중요하다.  
즉, 빅오 시간 복잡도 / 공간 복잡도를 최소하 하는 것이 포인트다.

<img height=400px src='https://miro.medium.com/v2/resize:fit:1400/1*5ZLci3SuR0zM_QlZOADv8Q.jpeg'>

여기서 한 가지 예시를 들자면, 

## 수학의 중요성

특정 방정식을 알고 있으면 잘 활용해서 시간 복잡도를 줄일 수 있다.

우리 데이터분석가들은 미래에 머신러닝을 접하게 되면 수학공식을 많이 접할 수 밖에 없기 때문에, 아주 좋은 툴이 될 것이다.

아래의 예시를 보며 간단하게 알아보죠.

만약에 배열의 합을 구한다고 해보면 저희가 배운 기본 방식으로는 for loop을 돌려서도 가능하죠?

하지만 수학 공식을 알고 있다면 $\frac{n(n_0 + n_{-1})}{2}$ 와 같은 방식으로도 풀 수 있습니다.

In [4]:
import time
from utils import runtime_calculator, create_num_array

In [8]:
@runtime_calculator
def sum_for_loop(arr: list[int]) -> int:
    total = 0
    for num in arr:
        total += num
    return total

@runtime_calculator
def sum_math_formula(arr: list[int]) -> int:
    n = len(arr)
    total = (n * (arr[0]+ arr[-1])) / 2
    return int(total)

if __name__ == "__main__":
    n = 1000000
    nums = create_num_array(n)
    nums = nums[::-1]
    target = 6
    
    print(sum_for_loop(nums))
    
    print(sum_math_formula(nums))


Function 'sum_for_loop' executed in: 0.034909 seconds
250000000000
Function 'sum_math_formula' executed in: 0.000006 seconds
250000000000


# 자료 구조의 중요성

In [None]:
@runtime_calculator
def two_sum_dict(nums, target):
    twosum = dict()
    for i, num in enumerate(nums):
        complement = target - num

        if num in twosum:
            return [twosum[num], i]
        
        twosum[complement] = i

@runtime_calculator        
def two_sum_for_loop(nums, target):
    n = len(nums)
    for i in range(n - 1):
        for j in range(1, n):
            if nums[i] + nums[j] == target:
                return [i, j]


if __name__ == "__main__":
    
    nums = create_num_array(1_000_000)
    nums = nums[::-1]
    
    target = 6
    
    print(two_sum_dict(nums, target))
    
    print(two_sum_for_loop(nums, target))


In [32]:
3.000580 / 0.000612

4902.908496732026

## 저희 목표인 그래프

그래프는 왜 데이터분석에 중요할까요?

일단 저희가 여행 개인화 프로그램을 만든다고 해보시죠? 

이렇게 지도가 있는데 배열과 딕셔너리(해시 테이블)로 저장할 수 있나요?

<img height=500px src='http://keni.dmcart.gethompy.com/data/editor/3024514135_dHznEQXk_EB8C80ED959C28ECBD94EC9790ECBD9429.jpg'>

그렇다면 SNS 데이터를 분석하거나, 유저가 많은 개인화 추천시스템을 만들 때는요?
서로의 관계를 배열과 딕셔너리로 하면 효율적일까요? 

<img height=300px src='https://miro.medium.com/v2/resize:fit:1400/format:webp/0*KIKnUvzdIkp5zcDJ'>

그래서 이진트리(binary tree) 또는 그래프도 코드로 만들 수 있습니다.

<img height=300px src='https://upload.wikimedia.org/wikipedia/commons/a/ac/Network_Flow_Cropped2_-_revised.png'>

그래서 제가 생각하기에는 모든 것을 조금씩 배울텐데 데이터분석에 필요한 내용을 위주로 배울 생각압니다. 일단 목표는 학자가 아닌 효율적으로 빨리 취업하는 것이잖아요? 저는 이정도를 준비해봤지만, 앞으로도 도움이 될만한 내용이 있거나, 스터디 방향에 의의가 있다면 언제든지 제기 해주세요!