#### Lecture 1. Multi-modal Learning

1. Multi-modal Learning
- 서로 다른 타입의 data를 학습에 사용(ex text, sound)
- data representation 의 차이 (ex audio - 1d, image - 3d)
- 1:N matching (ex text space - image space)
- model 학습의 한계 (one modality에 편향되는 경향이 발생)
- multi-modal 유형 : matching / translating / referencing

2. Multi-modal tasks - visual data & text
- text embedding : 문자를 machine learning에 사용하기 힘듬, map to dense vectors
    - dense representation 은 일반화 능력이 있음
    - word2vec : skip-gram model(중심 단어로 주변 단어 예측)
- join embedding : text, image embedding space간의 distance를 줄이는 방향으로
    - text data는 embedding 된 data를 softmax를 취함
    - image data는 feature real value의 gaussian model을 구함
    - image tagging, image + food recipe 연관, 
- cross modal translation : image captioning
    - show and tell : encoder(CNN model), decoder(LSTM module)
    - show attend and tell - soft attention, inference
    - text-to-image by generative model
- cross-modal reasoning(referencing) : 다른 modality를 참고하여 답을 도출
    - visual question answering : CNN과 LSTM을 통과한 FC-layer를 point-wise multiplication > FC > softmax 을 배치한 후 end-to-end training
    

3. Multi-modal tasks - visual data & audio
- sound representation : 시간 축에 대한 waveform(1-d signal) -> spectrogram
    - Short-time Fourier Transform(STFT) : 짧은 시간단위로 쪼개서 Hamming window 적용
    - Fourier Transform - 파형을 주파수 성분으로 분해
    - spectrogram : 시간 축에 따른 spectrum의 stacking, ex) MFCC, malspectrogram
- join embedding : sound tagging
    - SoundNet : train by teacher-student manner, poo5 feature 로 classifier 훈련
- cross modal translation :
    - Speech2Face : video 내의 얼굴과 목소리가 이미 매칭이 되어 있어 학습에 사용
    - image-to-speech synthesis
        - mage > subword unit(Resnet, LSTM + attention) + unit > speech(TTS)
        - subword unit을 기점으로 양방향 학습
- cross-modal reasoning(referencing) : 
    - sound source localization : 영상에서 소리와 매칭되는 sementic object를 표시
        - visual net/audio net ==> attention net , localization score로부터 학습
        - image-audio matching을 annotation으로 활용하여 unsupervised learning 가능
    - speech separation : 각각의 speaker에 대해 spectrogram mask 를 출력
        - training data를 두개의 clean speech video로부터 합성함

4. Conclusion
- text,audio에 국한되지 않고 다양한 sensor의 datatype을 처리하는 것도 가능
    - ex) Autopilot : tesla self-driving

#### image captioning 실습

In [2]:
# image captioning 구현
resnet = torchvision.models.resnet101(pretrained=True)
modules = list(resnet.children())[:-2]
# classification task가 아니므로 위치 정보 보존을 위해 linear, pool layer 보존
self.resnet = nn.Sequential(*modules)

NameError: name 'torchvision' is not defined

- beam search k = 3 적용 : each decode step 에 대하여 3가지 top score에 대해 3가지 경우의 수, 총 3x3 = 9가지 중에 가장 score 높은 3가지만 남겨둠 (여지가 있는 greedy)

#### Lecture 2. 3D understanding

1. 3D 관점의 세계
- 우리가 살고 있는 세상이 3D 이므로, AI model도 3D 공간에 대한 이해가 필요
- AR / VR, 3D medical application, 단백질 구조 분석
- image는 2D projection ( ex - camera : 2D projection 도구 )
- triangulation : 2D image들로 3D image 구하기
- 3D representation : multi-view image, volumetric, point cloud, part assembly, mesh(Graph CNN 여러개의 삼각형으로 쪼개기), implicit shape(고차원 함수 F(x) = 0)
- 3D dataset
    - ShapeNet : 51,300 3D model with 55 category
    - PartNet : 573,585 part instance in 26,671 3D model

2. 3D tasks
- 3D object recognition : 2D image 처럼 volumetric CNN 이용하여 구분
- 3D semantic segmentation
- conditional 3D generation : detected objects, Mask R-CNN(3D branch 추가)
- 복잡한 3D reconstruction model >> 여러 sub-problem(물리적 단위) 으로 분해

3. 3D Application example
- photo refocusing(ex portrait mode) : depth map thresholding(focus/defocus mask)