Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[20230514] Weekly AI ArXiv 만담 시즌2 - 17회차 #83

Open
jungwoo-ha opened this issue May 14, 2023 · 5 comments
Open

[20230514] Weekly AI ArXiv 만담 시즌2 - 17회차 #83

jungwoo-ha opened this issue May 14, 2023 · 5 comments

Comments

@jungwoo-ha
Copy link
Owner

jungwoo-ha commented May 14, 2023

시청방법

News

ArXiv

  • PaLM 2 Technical Report

    • PaLM 2 의 Tech Report: 굳이 제목이 TR인 건 Method 디테일이 없기 때문 (OpenAI와 동일한)
    • Scaling law관점에서 동일 컴퓨팅 예산대비 최적의 parameter 크기 실험
    • 순다르 피차이의 키노트나 데이터 설명 섹션 그리고 Bard 속도 고려할 때 크기는 540B에 달하는 PaLM보다는 훨씬 작을 것으로 추정
    • 구글의 25개 서비스에 크기별로 바로 녹여 넣는 것을 고려할 정도로 Sam Altman이 얘기한 것처럼 크기의 전쟁이 아닌 서비스 활용 관점에서 비용구조까지 고려한 최적화 (데이터, 학습기법, FLAN 등) 에 집중한 것을 보임
    • Pre-training data 조합에 매우 신경쓴 듯 하며 요즘의 대세인 대량 pre-training data 정책 취한 것으로 보임
    • UL2에서 제안한 조금 더 복잡한 형태의 pretraining 활용
    • 매우 다양한 다운스트림 태스크에서 성능 평가. 정량적으로 GPT4를 넘지는 못하는 것으로 보이나 양쪽 추정 모델의 크기를 고려하면 상당한 경쟁력
    • Med-PaLM2 와 Sec-PaLM 등 의료와 보안성에 방점을 둠
    • Vertex AI 와 별도 API를 제공 예정
    • 4개 종류의 크기 모델 제공: Gecko (모바일 가능 수준이라고), otter, Bison, Unicorn
    • 진정한 GPT4 혹은 이후 버전의 대응은 구글 딥마인드가 준비중인 Gemini가 될 것이며 여전히 훈련 진행 중 (6개월 실험 중지는 저 멀리)
      image
      image
      image
      image
  • InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

    • BLIP2, ICML2023 연구진(Salesforce)과 HKUST, NTU 연구진이 함께 만든 vision-langauge model의 instruct tuning 연구
    • BLIP2의 Q-Former 부분을 학습 Image encoder와 Large LM decoder는 Frozen
    • Q-Former 에서 Image embedding을 cross-attention 으로 밀어넣고 Instruct도 함께 넣어 Instruct와 Image가 결합된 feature 생성
    • 그렇게 생성된 feature를 Instruct와 함께 soft prompt 형태로 LLM에 입력 후 답을 맞추도록 한다.
    • 26개의 VL task 중 일부를 Instruct learning 용으로 나머지는 zero-shot 평가용으로..
    • LLM은 FLAN-T5 와 Vicuna-7B / 13B 를 활용. 특이한게 Vicuna-13B가 좀 힘을 못쓰는데.. 덜구워져서 인지..
    • VL 에서 나름 해볼만한 instruct learning method 연구라 읽어볼만 함.
    • https://github.com/salesforce/LAVIS/tree/main/projects/instructblip
      image
      image
      image
@veritas9872
Copy link

veritas9872 commented May 14, 2023

News

Google I/O PaLM 2 & Bard Blogposts:
https://blog.google/technology/ai/google-palm-2-ai-large-language-model
https://blog.google/technology/ai/google-bard-updates-io-2023
https://cloud.google.com/blog/products/ai-machine-learning/google-cloud-launches-new-ai-models-opens-generative-ai-studio?hl=en
https://cloud.google.com/blog/products/ai-machine-learning/google-cloud-at-io-2023?hl=en

(적대적) 한국어 예시. 아직 한국어가 매우 능숙하지는 않다고 합니다.

KakaoTalk_20230514_134922695

KakaoTalk_20230514_134922695_01

Anthropic, Introducing 100K Context Windows:
https://www.anthropic.com/index/100k-context-windows

Anthropic에서 10만 토큰을 받을 수 있도록 모델을 업데이트했다고 합니다. 다만, 공개될 때까지 검증할 수 없다는 점이 아쉽습니다.

Assisted Generation: a new direction toward low-latency text generation:
https://huggingface.co/blog/assisted-generation

gif_4_1080p.mov

허깅페이스에서 새로운 inference 알고리즘을 제안하고 코드를 공개했습니다.
현재 LLM 모델의 inference 과정에서 full model을 전부 실행하기 위해 많은 resource를 사용해야 한다는 단점이 있는데
전체 sequence를 출력했을 때 출력된 sequence가 큰 모델의 inference output이 될 수 있는지 확인하는 것은 순차적인 출력을 상당 부분 생략함으로써 시간을 단축할 수 있습니다.
이런 과정을 유도하기 위해 동일한 구조의 작은 모델에서 여러 sequence를 출력하게 한 후 해당 sequence를 LLM에게 제공했을 때 모든 예측이 각 위치의 argmax인지 확인할 수 있습니다.
Average computational complexity를 대폭 낮춰주며 병렬화를 가능하게 하기 때문에 많은 도움이 될 것 같습니다.

대부분의 token 예측은 매우 낮은 entropy를 가졌기 때문에 작은 모델에서 entropy가 낮은 예측을 연속적으로 진행하도록 하고 예측의 entropy가 높아지는 token에서 종료하여 큰 모델에게 검증받는 등 방법을 활용할 수 있을 것 같습니다.

HuggingFace Daily Papers (by AK):
https://huggingface.co/papers

트위터에서 매일 수많은 좋은 논문을 공유해주시는 AK님께서 HuggingFace Papers라는 공식 페이지에 정리 및 업로드를 시작하셨습니다. 웹사이트를 방문하시면 여러 주제에 대해 좋은 논문을 찾을 수 있어 연구자들에게 많은 도움이 될 것 같습니다.

Announcing AI2 OLMo, an open language model made by scientists, for scientists:
https://blog.allenai.org/announcing-ai2-olmo-an-open-language-model-made-by-scientists-for-scientists-ab761e4e9b76

Allen Institute for AI (AI2)와 AMD에서 협업을 하여 순수 AMD CPU/GPU만을 사용한 슈퍼컴퓨터에서 학습을 시작할 것을 발표했습니다. 현재 NVIDIA의 독점적인 위치와 대기업에서 LLM의 독점에 우려를 제기하는 연구자들이 많은데 이러한 문제를 타개하기 위해 새로운 초거대 모델의 학습을 개시했습니다.

@terryum
Copy link

terryum commented May 14, 2023

인공지능 기업/스타트업의 주요 실적

상장을 한 회사 또는 상장을 준비하고 있는 회사는 감사보고서를 공시해야 합니다. 2021년까지 팬데믹의 수혜를 입었던 기업들의 실적이 급격한 유동성의 변화로 크게 출렁였던 2022년, 과연 AI기업들의 실적은 어떤 변화가 있을까요?

1. 네이버와 카카오

네이버 '성장'·카카오 '주춤'…1분기 예상 실적 비교해보니

네이버는 내수 경기 둔화로 검색과 광고 매출이 감소했지만, 북미 개인간거래(C2C) 플랫폼 포시마크 연결 편입과 크림 수수료 인상, 그리고 이북재팬 인수 효과 등에 따라 커머스·콘텐츠 매출이 오름세를 보이면서 전체 영업수익이 개선된 것으로 점쳐진다.

카카오는 선물하기 직매입 판매 증가에 힘입어 커머스 매출은 성장세를 나타냈지만, 작년 서비스 장애에 따른 이모티콘 보상으로 신규 이모티콘 판매량이 감소하는 등 톡비즈 광고 수익이 줄어든 것으로 예측된다.

image

[종합] 네이버, 1Q 실적 예상치 웃돌아...AI 기술로 매출 성장 가속화 예고
image
[그래픽] 카카오 분기별 실적 추이
image

2. AI 상장 기업들

[AI 실적분석] 수익 기준 진형 갈라진 AI 상장 기업
image

  • 파란불 안에 들어온 셀바스AI·위세아이텍·라온피플

셀바스AI는 음성인식, 음성합성, 필기 OCR(광학식 문자판독장치) 등 인식 기술을 개발·공급하는 기업이다. 삼성전자 갤럭시 노트의 펜 인식 기술도 이 업체가 납품했다. 이 기업은 음성 AI 기술을 고도화하며 안정적인 시장 기반을 만들었다. 해양 분야나 경찰서 조서 작성 등에 특화된 음성 기술을 개발해 공공기관과 지자체, 대기업, 금융권 등에 납품 중이다.

위세아이텍은 1990년 설립돼 AI 개발을 지원하는 소프트웨어를 주력 사업으로 하고 있다. 노코드, 로우코드 등 AI 개발 지원 플랫폼이 대중화되지 않았을 때부터 관련 제품을 출시해 초기부터 시장을 형성해왔다. 대표 제품으로는 ‘와이즈프로핏’이 있다. 데이터만 입력하면 AI 기반 예측모델을 개발할 수 있는 오토ML 플랫폼이다.

라온피플은 지난해 264억 원의 매출을 기록했다. 전년(197억 원)보다 34% 성장한 수치다. 수익 면에서도 흑자 전환했다. 라온피플은 제조 분야 AI 비전 강자다. 주요 제조 분야에 머신비전 기술을 공급한 공급망을 토대로 AI 비전 기술을 납품하고 있다. 라온피플 관계자는 “안동 AI 스마트팜 사업이 확대되고 AI 스마트 교통 솔루션 공급이 많아지면서 매출이 증가했다”며 “제조 분야에서도 안정적인 매출이 이어지고 있다”고 말했다.

  • 의료·제약 AI는 위기… 비전 AI 다크호스 ‘알체라’도 고전

루닛, 뷰노, 딥노이드, 알체라는 전년보다 매출이 상승했지만 그만큼 적자 폭도 늘었다. 루닛은 지난해 전년보다 109% 성장한 138억 원의 매출을 냈다. 하지만 506억 원의 적자를 내며 전년보다 적자 폭이 확대됐다. (But "루닛, 1분기 매출 110억원 기록.. "전년동기 대비 268.6% 증가" )

뷰노와 딥노이드의 매출 성장 폭도 컸다. 뷰노는 전년 대비 269% 증가한 82억 원의 매출을, 딥노이드는 238% 증가한 31억 원의 매출을 기록했다. 하지만 두 회사는 각각 153억 원, 61 억 원의 손실을 내며 전년보다 적자가 확대됐다. 비전 AI 기업 알체라도 마찬가지다. 전년보다 10% 성장한 110억 원의 매출을 냈지만 168억 원의 손실을 냈다.

3. AI 스타트업들

2022년 주요 스타트업 실적, 업종별 정리! (372개 기업) (아웃스탠딩의 유료기사로 접근이 제한적입니다)
기본적인 정보는 전자공시시스템 DART벤처확인종합관리시스템을 정리한 내용입니다. 아래는

이하 2022년 매출(영업이익) ← 2021년 매출(영업이익) 형태로 표현

  • AI반도체 스타트업은 큰 매출 성장을 일으키며 잘 나가고 있습니다.
    세미파이브 802억(-412억) ← 96억(-209억)
    파두 564억(15억) ← 52억(-337억)
    퓨리오사AI 3억(-501억) ← 미공개(-143억)
    리벨리온 미공개

  • 데이터 레이블링은 정체로 보입니다
    크라우드웍스 119억(-63억) ← 87억(53억)
    셀렉트스타 43억(-62억) ← 53억(-38억)

  • 가상인간B2B 역시 적자폭이 크지만 생성AI를 노리고 있습니다.
    마음AI 82억(-55억) ← 70억(-68억)
    딥브레인AI 65억(-114억) ← 32억(-39억)
    네오사피엔스 23억(-54억) ← 9억(-29억)

  • 여러 AI스타트업들은 고군분투 중이네요. 활발한 투자활동이 필요해 보입니다.
    업스테이지AI 59억(-81억) ← 58억(-9억) : 2021년 316억 투자
    보이저엑스 8억(-55억) ← 2억(-30억) : 2021년 300억 투자
    스켈터랩스 7억(-80억) ← 15억(-63억) : 2021년 120억 투자 (누적 400억)
    스캐터랩 6억(-80억) ← 8억(-47억) : 2023년 15억 투자 (누적 370억)
    라이언로켓 3억(-34억) ← 7억(-6억) : 2021년 65억 투자 (누적 75억)
    뤼튼테크놀로지스 1.5억(-9억) ← 0.7억(-2억) : 2022년 38억 투자 (누적 45억)
    아트랩 9억(-4억) ← 2억(-6억) : 2020년 8억 투자

[테리 생각]

매출이나 영업이익이 모든 걸 말해주진 않습니다. 왜냐하면 J커브를 노리는 스타트업의 특성 상 미래의 무한확장성을 꿈꾸며 기술적해자를 쌓기위해선 BEP 이전의 강을 건너는 투자가 필수적이기 때문이죠. 만약 미래의 큰 산업이 기대되고 그 안에서 막대한 수익을 창출할 수 있는 확신이 있다면 큰 적자를 감내하더라도 빠르게 치고 나가는 것이 중요할 것입니다.

하지만 한편으론 그러한 미래에 대한 치밀한 전략 없이 팬데믹의 넘치는 유동성에 올라타 상장을 하고 투자를 받은 경우들도 있을 것입니다. 상장기업은 몇년 안에 흑자전환을 보임으로써 그 가치를 증명해내야 할 것이고, 비상장기업(스타트업)은 안좋은 시장상황에도 불구하고, 기존보다 더 높은 기업가치를 증명해야 합니다. 참 어려운 일이죠.

다만 요즘 GPT를 시작으로 일고 있는 생성AI에 대한 기대와 조금씩 회복되고 있는 투자시장을 감안할 때, 올해 하반기부터는 많은 AI기업 투자소식이 이어지며 다시 꿈을 꿀 수 있지 않을까 싶습니다. 투자를 통해 단지 상장이 목표가 아닌, 흑자 흐름도 만들고 AI & Robotics Tech(ART)가 세상에 뿌리내려지는 그날을 위해 많은 기업들의 분투와 시장의 화답을 기대합니다. 화이팅!

(광고: 아트랩은 현재 AI 인재 채용 중입니다. 올해말 시리즈A를 계획 중인데 함께 드라마틱한 성장을 경험하실 분 편하게 연락주세요. 병특 가능! terry@artlab.ai)

@veritas9872
Copy link

veritas9872 commented May 14, 2023

Research:

ImageBind: One Embedding Space To Bind Them All
image
Blog: https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai
ArXiv: https://arxiv.org/abs/2305.05665
GitHub: https://github.com/facebookresearch/ImageBind

An Inverse Scaling Law for CLIP Training
image
ArXiv: https://arxiv.org/abs/2305.07017
GitHub: https://github.com/UCSC-VLAA/CLIPA

Bot or Human? Detecting ChatGPT Imposters with A Single Question
image
ArXiv: https://arxiv.org/abs/2305.06424
GitHub: https://github.com/hongwang600/FLAIR

@scene-the-ella
Copy link

scene-the-ella commented May 14, 2023

ArXiv


VideoChat: Chat-Centric Video Understanding

image image
image image
  • The framework of VideoChat
    • VideoChat-Text: textualizes videos in stream
      image
    • VideoChat-Embed: encodes videos as embeddings
    • Txt & Emb: 둘다 LLM input으로
  • Dataset
    • videos matched with detailed descriptions and conversations
      image

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

  • Salesforce Research
  • Github
  • pre-trained BLIP-2 model 기반 vision-language instruction tuning
  • visual scene understanding and reasoning, knowledge-grounded image description, multi-turn visual conversation
    image
  • Qualitative Comparison with Concurrent Multimodal Models
    image
  • The Q-Former: visual features 추출
    • soft prompt input to the frozen LLM
    image
  • 튜닝에 사용된 dataset
    image
    • image - 보유 데이터 세트를 튜닝 데이터로 변환하는 데 사용되는 템플릿

Domain Incremental Lifelong Learning in an Open World

  • Alibaba Group
  • Diana
    image
    • pre-trained language 모델 & 계층적으로 구성된 프롬프트로 다양한 형식의 task learning에 사용
      image
      • general: shared for all training tasks so that it encodes global task knowledge
      • (a) 각 작업에는 별도의 프롬프트가 할당되고 가까운 프롬프트가 쿼리 벡터로 활성화
      • (b) 프롬프트 풀이 유지되고 쿼리 벡터에 가장 가까운 top-M 프롬프트가 활성화되고 결합
      • (c) 네 가지 종류의 프롬프트는 task 포맷, 쿼리 벡터<->프롬프트 키 사이 거리 기반으로 결합

Long-Tailed Question Answering in an Open World

  • Alibaba Group
  • 실제 데이터: long-tailed 분포
    image
  • 다양한 작업을 지원하는 통합 QA 모델을 구축하는 것이 실용적
    • pre-train the framework by knowledge distillation (KD) from the LM
    • jointly train the frame and a QA model
    • Knowledge sharing between head, tail, and unseen tasks
      image
    • Retrieve-then-rerank 프레임워크를 사용하여 사전 훈련된 LM에서 knowledge mining

Segment and Track Anything (SAM-Track)

top

  • Open-source project that focuses on the segmentation and tracking of any objects in videos, utilizing both automatic and interactive methods
  • SAM (Segment Anything Models) 기반 segmentation
  • DeAOT (Decoupling features in Associating Objects with Transformers) (NeurIPS2022) 기반 multi-object tracking and propagation.
  • https://www.youtube.com/watch?v=nXfq17X6ohk

@kimyoungdo0122
Copy link

kimyoungdo0122 commented May 14, 2023

Post

News

  • IBM, Watson X라는 새로운 AI 플랫폼 출시

    • 컴퓨팅 인프라, 탄소 배출량 계산, 유지보수 운영 등의 관리가 가능한 거버넌스 도구, AI 워크플로우 관리 + 구글 메타 등과 협업해서 모델 얹어 나가는 서비스까지
    • 늦게마나 정신을 차린 듯한 느낌..?
  • Google I/O의 여러 떡밥 중 개발자를 위한 'Codey'에 대한 기대감을 가져봅니다

    • Copilot이 직접 코드를 수정하거나 자동완성, 오류 해결 등의 도구적인 느낌이었다면 Codey는 협업 개발자가 있는 듯한 대화형 인터페이스로 제공할 예정
    • MS가 깃헙의 수많은 코드로 학습한 느낌이라면, Codey는 구글 중심의 오픈 소스와 레퍼런스 코드를 주로 활용하지 않았을 까 하는 레딧에서의 썰들(실제로 언어도 자바, 자바스크립트, 파이썬, 고랭, 파이썬 정도라고 하네요)
    • 대형 클라우드 서비스를 하는 회사들은 주 이용자가 개발자라는 점을 많이 인식해서인지, 점차 개발자를 위한 AI 적용 도구들이 출시되고 개선되는 듯합니다
      image
  • 그러면 페이스북은 광고주와 마케터를 위한 AI를 내놓지!

    • 어쨌든 중요한 SNS이자 광고 플랫폼인 페이스북은 마케터를 위한 AI를 내놓는군요
    • 마케팅용 콘텐츠(텍스트, 이미지 등)을 다양하게 생성한 버전으로 제시해주고
    • 영상, 이미지 사이즈를 콘텐츠 포맷에 맞게 자동으로 변형해주고, 광고에 대한 액션과 데이터를 바탕으로 최적화해주는 도구까지
    • 전술한 AI 공룡 기업들이 플랫폼 기업이고 타겟 유저들에게 효용성이 있는 AI 어플리케이션을 출시하려는 것이 중요한 흐름 중 하나라는 점인 듯합니다~!

image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants