-
Notifications
You must be signed in to change notification settings - Fork 41
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[20230226] Weekly AI ArXiv 만담 시즌2 - 7회차 #73
Comments
Audio, Speech, MusicNews
Arxiv
|
Multimodal Chain-of-Thought Reasoning in Language Models 기존 방법과의 가장 큰 차이점은 Vision feature와 language feature를 결합하는 방법입니다. 단순한 concatenation이 아닌 single head self-attention 후 gated fusion 방식을 활용하여 learned feature intermingling을 잘 활용해야지만 성능 향상을 볼 수 있었습니다. 결합 방법에 대한 추가적인 ablation과 이론적 분석이 없다는 점은 다소 아쉬웠습니다. 논문의 가장 큰 기여는 1B의 작은(?) 모델에서도 CoT를 가능하게 할뿐만 아니라 SOTA 성능을 냈다는 점과 hallucination을 vision feature를 통해 크게 줄일 수 있다는 것을 보여주었다는 점으로 생각됩니다. Vision feature extractor 또한 pre-trained model의 frozen weight를 사용했기 때문에 연구를 진행하는데 많은 도움이 될 것 같습니다. FlexGen: Running large language models like OPT-175B/GPT-3 on a single GPU. Stanford, Berkley, EPFL 등 여러 연구 단체에서 FlexGen이라는 LLM inference 라이브러리를 공개했습니다. LLM inference에서 고성능 GPU 없이도 비교적 빠르게 inference를 진행하기 위해 새로운 offloading schedule 및 compression을 활용하여 OPT-175B와 같은 LLM에서도 높은 throughput을 낼 수 있습니다. 다만, latency는 좋지 않다고 합니다. 아직 알파 단계이지만 LLM inference 결과를 분석하는 연구를 하는데 도움이 될 것 같습니다. |
[ChatGPT의 가능성과 한계]
Product Hunt에 올라온 ChatGPT 관련 서비스들
|
좋은 자료 정말 감사합니다. 여기 공유해주셨군요 :) |
News
ArXiv
The text was updated successfully, but these errors were encountered: