## 1. 실제 그래프 vs 랜덤 그래프

### 1.1 실제 그래프 vs 랜덤 그래프

> - **실제 그래프(Real Graph)**란 다양한 복잡계로 부터 얻어진 그래프를 의미한다.
    - ex) 소셜 네트워크, 전자상거래 구매 내역, 인터넷, 웹, 뇌, 단백질 상호작용, 지식 그래프 

> - **랜덤 그래프(Random Graph)**는 확률적 과정을 통해 생성한 그래프를 의미한다.
> - **에르되스-레니 랜덤 그래프**
> - 임의의 두 정점 사이에 간선이 존재하는지 여부는 동일한 확률 분포에 의해 결정된다.
> - 에르되스-레니 랜덤그래프 $G(n, p)$
    - $n$개의 정점을 가진다.
    - 임의의 두 개의 정점 사이에 간선이 존재할 확률은 $p$이다.
    - 정점 간의 연결은 서로 독립적이다.
    
## 2. 작은 세상 효과

### 2.1 필수 개념: 경로, 거리 및 지름

> - **정점 $u$ 와 $v$의 사이의 경로(Path)는 아래 조건을 만족하는 정점들의 순열(Sequence)이다.**
    - (1) $u$에서 시작해서 $v$에서 끝나야 한다.
    - (2) 순열에서 연속된 정점은 간선으로 연결되어 있어야 한다.

> - **경로의 길이**는 해당 경로 상에 놓이는 간선의 수로 정의된다.
> - 정점 $u$와 $v$의 사이의 **거리(Distance)는 $u$와 $v$ 사이의 최단 경로의 길이**이다.

> - 그래프의 **지름(Diameter)**은 정점 간 거리의 최댓값이다.

### 2.2 작은 세상 효과

> - **여섯 단계 분리(Six Degrees of Separatation) 실험**
> - 이러한 현상을 **작은 세상 효과(Small-world Effect)**라고 한다.

> - **모든 그래프에서 작은 세상 효과가 존재하는 것은 아니다.**
> - 체인(Chain), 사이클(Cycle), 격자(Grid) 그래프에서는 작은 세상 효과가 존재하지 않는다.

## 3. 연결성의 두터운 꼬리 분포

### 3.1 필수 개념: 연결성

> - 정점의 **연결성(Degree)**는 그 정점과 연결된 간선의 수를 의미한다.
    - 정점 $v$의 연결성은 해당 정점의 이웃들의 수와 같다.
    - 정점 $v$의 연결성은 $d(v), d_v, |N(v)|$로 표현한다.

### 3.2 연결성의 두터운 꼬리 분포

> - 실제 그래프의 연결성 분포는 **두터운 꼬리(Heavy Tail)**를 갖는다.
> - 즉, 연결성이 매우 높은 **허브(Hub) 정점이 존재**함을 의미한다.

> - 랜덤 그래프의 연결성 분포는 높은 확률로 **정규 분포와 유사**하다.
> - 이 경우, 연결성이 매우 높은 허브(Hub) 정점이 존재할 가능성은 0에 가깝다.

## 4. 거대 연결 요소

### 4.1 필수 개념: 연결 요소

> - **연결 요소(Connected Component)**는 다음 조건들을 만족하는 정점들의 집합을 의미한다.
    - (1) 연결 요소에 속하는 정점들은 경로로 연결될 수 있다. 
    - (2) (1)의 조건을 만족하면서 정점을 추가할 수 없다.

### 4.2 거대 연결 요소

> - 실제 그래프에는 **거대 연결 요소(Giant Connected Component)**가 존재한다.
> - 거대 연결 요소는 대다수의 정점을 포함합니다

> - 랜덤 그래프에도 높은 확률로 **거대 연결 요소(Giant Connected Component)**가 존재한다.
> - 정점들의 평균 연결성이 1보다 충분히 커야 한다.
    - Random Graph Theory 참고
    
## 5. 군집 구조

### 5.1 필수 개념: 군집 구조 및 군집 계수

> - **군집(Community)**이란 다음 조건들을 만족하는 정점들의 집합이다.
    - (1) 집합에 속하는 정점 사이에는 많은 간선이 존재한다.
    - (2) 집합에 속하는 정점과 그렇지 않은 정점 사이에는 적은 수의 간선이 존재한다.

> #### 지역적 군집 계수
> - **지역적 군집 계수(Local Clustering Coefficient)**는 한 정점에서 군집의 형성 정도를 측정한다.
    - 정점 $i$의 지역적 군집 계수는 **정점 $i$의 이웃 쌍 중 간선으로 직접 연결된 것의 비율**을 의미한다.
    - 정점 $i$의 지역적 군집 계수를 $C_i$로 표현한다.

> #### 전역 군집 계수
> - **전역 군집 계수(Global Clustering Coefficient)**는 전체 그래프에서 군집의 형성 정도를 측정한다.
    - 그래프 $G$의 전역 군집 계수는 각 정점에서의 지역적 군집 계수의 평균이다.
    - 단, 지역적 군집 계수가 정의되지 않는 정점은 제외한다.


### 5.2 높은 군집 계수

> - **실제 그래프에서는 군집 계수가 높다.**
> - 즉 많은 군집이 존재한다.

> - **동질성(Homophily)**
    - 서로 유사한 정점끼리 간선으로 연결될 가능성이 높다.
    - 같은 동네에 사는 같은 나이의 아이들이 친구가 되는 경우가 그 예시이다.

> - **전이성(Transitivity)**
    - 공통 이웃이 있는 경우, 공통 이웃이 매개 역할을 해줄 수 있다.
    - 친구를 서로에게 소개해주는 경우가 그 예시이다.

> - **반면 랜덤 그래프에서는 지역적 혹은 전역 군집 계수가 높지 않다.**
> - 구체적으로 랜덤 그래프 $G(n, p)$에서의 군집 계수는 $p$입니다.
> - 랜덤 그래프에서의 간선 연결이 독립적인 것을 고려하면 당연한 결과이다.
> - 즉 공통 이웃의 존재 여부가 간선 연결 확률에 영향을 미치지 않는다.