# **학업 일지**

#### 오늘의 한마디  

> **RNN에 Attention구조를 사용하여 NLP모델링의 다양한 구현을 해보자.**

## 1. 강의 정리

### 1.1 Grapgh

#### 1.1.1 Grapgh의 해결가능한 문제들

- 정점 분류 문제  
- 연결 예측 문제  
- 추천 시스템  
- 군집 분석 문제  
- 랭킹, 정보검색 문제  
- 정보전달 최대화 문제

#### 1.1.2 Grapgh의 종류

- 방향이 의미가 있는가 : Undirected graph, directed graph
 - Undirected graph
  - 순서쌍 리스트로 저장
  - 인접 리스트
  - 인접 행렬 : node사이의 연결을 나타내는 행렬
 - directed graph
  - 출발점,도착점 순서쌍 리스트로 저장
  - 인접 리스트(in, out 별도로 저장한다.)
  - 인접 행렬 : i에서 j로의 간선이 있으면 1 없으면 0으로 행렬 표현
- 크기 차이가 있는가 : Unweighted graph, weighted graph
- 종류가 나뉘어지는가 : Unparties graph, Biparties graph

#### 1.1.3 Grapgh 활용 모듈
- networkx : 사용하기 쉽고 오래걸린다.
- snappy : 사용하기 어렵고 적게 걸린다.

In [1]:
import networkx as nx
import numpy as np
import matplotlib.pyplot as plt

### 1.2 NetworkX 패키지

#### 1.2.1 NetworkX 사용법

- 객체 method  
 - add_node(int) : node 추가
 - add_edge(int,int) : edge 추가  
  
- 그리기  
 - nx.spring_layout(G) : 정점위치 결정
 - nx.draw_networkx_nodes(G, pos, node_color='red', node_size=100) : 색 크기 지정
 - nx.draw_networkx_edges(G, pos) # 간선 넣기
 - nx.draw_networkx_labels(G, pos, font_size=10, font_color='black') : 각 정점 라벨 출력
 - plt.show()함수로 보여준다.  
  
- 다양한 저장방법  
 - nx.to_dict_of_lists(G) : 인접 리스트로 저장
 - nx.to_edgelist(G) : 간선 리스트로 저장
 - nx.to_numpy_array(G) : 인접 행렬로 저장 (정점의 수가 메모리량에 기여)
 - nx.to_scipy_sparse_matrix(G) : 희소 인접 행렬로 저장 (간선의 수가 메모리량에 기여) 0이 많으면 일반 행렬이 속도가 빠르다.

### 1.3 실제 그래프의 특성

#### 1.3.1 실제 그래프 vs 랜덤 그래프

- MSN 메신저 그래프
 - 1억 8천만 정점
 - 13억 간선
- 랜덤 그래프
 - Erdos-Renyi Random graph
  - G(n,p) : n개의 정점, 임의의 두 개의 정점 사이에 간선이 존재할 확률 p
  - 정점 간의 연결은 서로 독립적

#### 1.3.2 작은 세상 효과

- Path : 정점 u와 v 사이의 경로(Path)는 아래 조건을 만족하는 정점들의 순열
 - u에서 시작해서 v에서 끝나야 한다.
 - 순열에서 연속된 정점은 간선으로 연결되어 있어야 한다.
- Distance
 - 최단 경로의 길이
- 지름
 - 가장 먼 경로의 길이

#### 1.3.3 두터운 꼬리 분포

- 연결성(Degree) : 정점과 연결된 간선의 수
 - 연결성 분포는 두터운 꼬리 분포를 갖는다. - 연결성이 매우 높은 허브(Hub) 정점이 존재함을 의미한다.

#### 1.3.4 거대 연결 요소

- 연결 요소 (Connected Component)
 - 연결 요소에 속하는 정점들은 경로로 연결될 수 있습니다.
 - 1의 조건을 만족하면서 정점을 추가할 수 없습니다. - 모두 연결된 집합을 명시해야 한다.
- 실제 그래프에서는 거대 연결 요소가 있다.
 - 랜덤 그래프에도 높은 확률로 거대 연결 요소가 존재한다.(단 정점들의 평균 연결성이 1보다 충분히 커야 한다.)

#### 1.3.5 군집 구조

- 군집(Community)
 - 집합에 속하는 정점 사이에는 많은 간선이 존재한다.
 - 집합에 속하는 정점과 그렇지 않은 정점 사이에는 적은 수의 간선이 존재한다.
- Local clustering coefficient)
 - 정점 i의 이웃 쌍 중 간선으로 직접 연결된 것의 비율을 의미한다.
 - 실제 그래프는 군집 계수가 높다. 즉 많은 군집이 존재한다.
  - 동질성(Homophily) : 유사한 정점들끼리 간선으로 연결될 가능성이 높다.(같은성향)
  - 전이성(Transitivity) : 공통 이웃이 있는 경우, 공통 이웃이 매개 역할을 해줄 수 있다.(친구소개)
 - 랜덤 그래프는 군집 계수가 낮다.
  - 간선연결 사이에 독립적이기에 당연하다.

### 1.4 그래프 불러오기

#### 1.4.1 그래프 분석

- 균일 그래프
- 랜덤 그래프
- 작은 세상 그래프

## 2. 피어 세션 정리

#### 2.1 스터디

- 2.1.1 Self attention 구조 코드구현 및 발표(발표: 이주남)

- 2.1.2 Transformer의 encoder, decoder 코드 리뷰 (발표: 김준철)


#### 2.2 원하는 진로를 잡고 논문 공부

- 새로운 논문 선택 gpt-1 읽기

## 3. 진행중인 공부 및 신규 공부 목록

- 진행중인 공부  

    - AI 기본 수학 : Mathematics for Machine learning - Marc Peter Deisenroth 4과 공부
    - 웹 크롤링 및 데이터 처리 연습 익숙해지기
    - Pytorch로 시작하는 딥러닝, Pytorch tutorial 공부  
    - pytorch 데이터셋 설정

- 신규 공부 목록  


- 완료한 공부  

## 4. 감사한 일

- 정말 좋은 과제 내주시고 깊게 생각할 기회 준 문영기 조교님에게 감사합니다.