Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[20230402] Weekly AI ArXiv 만담 시즌2 - 12회차 #78

Open
jungwoo-ha opened this issue Apr 1, 2023 · 4 comments
Open

[20230402] Weekly AI ArXiv 만담 시즌2 - 12회차 #78

jungwoo-ha opened this issue Apr 1, 2023 · 4 comments

Comments

@jungwoo-ha
Copy link
Owner

jungwoo-ha commented Apr 1, 2023

News

ArXiv

  • TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs

    • ChatGPT Plugin의 형상 Position paper (from MSRA)
    • We introduce TaskMatrix.AI as a new AI ecosystem that connects foundation models with millions of APIs for task completion.
    • Contributions
      • TaskMatrix.AI can perform both digital and physical tasks
      • TaskMatrix.AI has an API platform as a repository of various task experts.
      • TaskMatrix.AI has a powerful lifelong learning ability.
      • TaskMatrix.AI has better interpretability for its responses.
    • Action = MCFM (모델, APIs, 사용자 instruction, Contexts)
    • 몇가지 예시: Visual ChatGPT 중심 이미지기반 대화, Office 연동, IoT device control 등
      image
      image
@gyunggyung
Copy link

gyunggyung commented Apr 1, 2023

Uploading 그림1.png…

빌 게이츠 이야기

image

이제 누구도 인공지능의 발전을 막을 수 없습니다. 그가 다시 열정을 찾은 거 같습니다. 이제 누구도 AGI를 막을 수 없습니다. 자동차 금지 법을 만들면 중국에 가겠죠. 그럼 세계 패권을 뺐기는 건데, 나라가 계산기 금지 법을 만들까? 인공지능의 시대가 시작되었습니다.

인공 지능은 휴대폰과 인터넷 만큼이나 혁신적인 기술입니다.
By 빌 게이츠 | 2023년 3월 21일 14분 읽기
https://www.facebook.com/groups/583445217086296/permalink/584230357007782/

AGI

image
오랜만에 논문 리뷰로 돌아왔습니다. 오늘 내용은 모두 주목해주시길 바랍니다.

텍스트, 이미지, 비디오를 처리할 수 있는 모델들입니다. Flamingo는 2022년에 나온 비디오 까지 처리할 수 있는 모델이며, KOSMOS-1은 GPT-4라고 생각해도 됩니다. 공식적으로는 오디오 및 비디오 처리가 안 되나 약간 수정을 하면 사용 가능할 것으로 보입니다.
https://www.facebook.com/groups/6129390073749513/permalink/6200063456682174/

잡다한 것들

다들 하나 씩 하자가 있어서 각자 좋은 부분을 뽑아 써야 합니다.

소설 양자 컴퓨팅을 활용한 GPT-5: 초대규모 언어 모델의 성능 향상과 인공 일반 지능의 구현

요약:
본 논문에서는 양자 컴퓨터를 활용하여 개발한 새로운 AI 언어 모델인 GPT-5에 대해 소개한다. GPT-5는 파라미터 1000조개를 사용하여 모든 PPT, Word, Excel 등 사용자 데이터와 유튜브를 포함한 인터넷의 모든 정보를 학습하였다. 이를 통해 인공 일반 지능(AGI)를 구현하였으며, 대통령 수준의 의사결정 능력을 보여주었다. 이 논문의 탁월한 성과로 인해 튜닝상과 노벨상 동시 수상이 기대된다. 개발 비용은 약 7조 달러에 이른다.

  1. 서론
    AI 언어 모델의 발전 과정과 GPT 시리즈의 역사
    GPT-5의 목표와 기대되는 성능 혁신
    인공 일반 지능(AGI) 분야에서의 돌파구

  2. 데이터 수집 및 전처리
    PPT, Word, Excel 등 사용자 데이터와 유튜브 포함 인터넷의 모든 정보 학습
    데이터 수집 원천 및 처리 과정
    편향성과 편견을 최소화하기 위한 데이터 전처리 및 샘플링 방법

  3. 양자 컴퓨터를 활용한 학습
    양자 컴퓨터의 원리 및 장점
    양자 컴퓨팅을 활용한 GPT-5 모델 학습의 효율성
    양자 알고리즘을 통한 최적화 및 일반화 성능 향상 전략

  4. 모델 구조 및 훈련 방법
    GPT-5의 아키텍처 및 파라미터 1000조개의 구성
    훈련 방법 및 양자 컴퓨팅 자원 활용
    양자 알고리즘을 통한 최적화 및 일반화 성능 향상을 위한 전략
    훈련 방법 및 컴퓨팅 자원에 대한 설명
    최적화 알고리즘 및 일반화 성능 향상을 위한 전략

  5. 성능 평가 및 분석
    인공 일반 지능 평가를 위한 All2All AGI 테스트 진행
    대통령 수준의 의사결정 능력 평가 및 성능 비교
    특정 도메인에서의 편향성과 편견을 평가하기 위한 실험 설계 및 결과
    데이터셋 크기 및 구성에 대한 고찰

  6. 응용 사례 및 논의
    대통령 수준의 의사결정 능력을 갖춘 GPT-5의 다양한 분야 활용 방안
    정치: 정책 결정 및 국제 협상 지원
    경제: 경제 발전 전략 수립 및 재정 관리 최적화
    사회복지: 사회문제 해결을 위한 정책 개발 및 시민들의 요구 분석
    교육: 교육 정책 및 커리큘럼 개발, 개별 학습 계획 지원
    환경: 지속 가능한 발전 전략 및 환경 보호 정책 제안
    국방: 안보 정책 및 위기 대응 전략 수립 지원
    GPT-5의 한계점 및 개선 방안에 대한 논의
    데이터 편향 및 편견 문제
    높은 개발 비용과 자원 소모
    인공 지능의 윤리적, 법적 책임
    이러한 대규모 언어 모델의 사회적 영향과 윤리적 고려 사항
    기술의 민주적 분배 및 접근성 확대
    개인정보 보호 및 데이터 활용에 대한 가이드라인 마련
    인공 지능과 인간의 협업을 통한 미래 사회 비전 제시

  7. 결론
    GPT-5의 개발과 성과에 대한 요약
    인공 일반 지능(AGI) 구현의 가능성 및 그 한계에 대한 고찰
    앞으로의 연구 방향 및 기대되는 사회적 변화에 대한 전망

  8. 참고문헌
    [1] Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
    [2] Brown, T. B., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. arXiv preprint arXiv:2005.14165.
    [3] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention is All you Need. Advances in Neural Information Processing Systems, 30, 5998-6008.
    [4] Nielsen, M. A., & Chuang, I. L. (2010). Quantum Computation and Quantum Information: 10th Anniversary Edition. Cambridge University Press.
    [5] Shor, P. W. (1994). Algorithms for Quantum Computation: Discrete Logarithms and Factoring. Proceedings 35th Annual Symposium on Foundations of Computer Science, 124-134.
    [6] Grover, L. K. (1996). A Fast Quantum Mechanical Algorithm for Database Search. Proceedings of the 28th Annual ACM Symposium on the Theory of Computing, 212-219.
    [7] https://www.nature.com/articles/nature14539

이 논문에서 제시된 GPT-5 모델은 양자 컴퓨팅을 활용하여 인공 일반 지능(AGI)에 한 걸음 더 다가갔으며, 대통령 수준의 의사결정 능력을 보여주었다. 이러한 연구 성과는 기존의 인공지능 기술 발전에 중요한 영향을 미칠 것으로 예상되며, 앞으로의 연구 방향과 기대되는 사회적 변화에 대한 전망이 기대된다.

가짜 뉴스 조심
https://www.linkedin.com/posts/activity-7048199313591599104-_kn7?utm_source=share&utm_medium=member_desktop

@ghlee3401
Copy link

ghlee3401 commented Apr 1, 2023

Arxiv

  1. ASR
    • Text is All You Need: Personalizing ASR Models using Controllable Speech Synthesis
    • ICASSP 2023
    • 개인화된 데이터(personalized data)의 부족으로 인하여 일반적인 ASR 모델을 특정 개인을 위해 사용하는 것이 어려움
    • 첫 번째 질문으로 synthetic data를 이용하여 ASR을 모델을 학습하면 성능이 좋아지는가? 에 대해서는 4개츼 벤치마크 데이커 셋에 대하여 확인했을 때 좋아지는 것을 확인하였음
    • 두 번째 질문으로 왜 synthetic data를 사용하면 좋아지는가? 에 대해서 style이 아니라 content가 speaker adaptation에서 중요하다는 것을 확인하였음
    • 결과적으로 개인화 된 ASR 모델을 위하여 speech content를 기반으로 한 데이터를 선택하는 것을 제안

    • Table 1
      • 카테고리 1 : (style O, text O) global data의 speaker의 스타일과 target speaker의 text로 global dataset에 잘 나타나는 dataset
      • 카테고리 2 : (style X, text O) global data에 잘 나타나지 않는 speaker 스타일과 target speaker의 text 로 만들어지는 dataset
      • 카테고리 3 : (style O, text X) global data에 잘 나타나는 speaker 스타일이과 global data와 다른 target speaker의 text로 만들어지는 dataset
      • 카테고리 4 : (style X, text X) global data에 잘 나타나지 않는 speaker style과 text로 만들어지는 dataset
      • 네 개의 세팅에 대하여 모두 synthetic dataset을 사용한 것이 좋지만, 카테고리 1은 별로 도움이 안됨
      • 즉, target speaker가 global data에 잘 나타나지 않을 때 synthetic data를 사용하는 것이 도움이 된다. 땅땅!

    • Table 2
      • target dataset만 이용한 2번 보다 3번의 성능이 더 좋은 것을 확인할 수 있다.
      • 여기서 3, 4, 5 의 경우 text를 target domain의 text를 샘플링하여 만들어진다.
      • 4, 5번은 텍스트는 그대로 두고 스타일만 바꾸어서 fine-tune을 한 결과인데 크게 성능이 저하 되지 않는 걸 확인할 수 있다.
      • 6, 7번은 텍스트를 다르게 해서 추가를 한 경우인데 4, 5 번과 비교하여 성능이 크게 떨어지는 것을 확인할 수 있다.
      • 즉, Personalized ASR fintuning에서 사용하는 합성 음성에서 중요한 것은 다양한 스타일이 아니라 text가 가장 중요하다!

  2. TTS
  3. Audio Captioning
  4. Others

@veritas9872
Copy link

veritas9872 commented Apr 1, 2023

뉴스:

image

ChatGPT와 같은 거대 LLM의 학습을 6개월 중단할 것을 주장하는 공개 선언이 발표되어 많은 논란과 비판을 낳고 있습니다.
Elon Musk, Yoshua Bengio (???!!!) 등 유명인사가 서명하여 논쟁이 불거졌습니다.
https://futureoflife.org/open-letter/pause-giant-ai-experiments

이탈리아에서 ChatGPT가 금지되었다고 합니다.
처음에는 만우절 농담으로 생각했는데 사실이었습니다...
https://www.bbc.com/news/technology-65139406

연구:

Whose Opinions Do Language Models Reflect?
ArXiv: https://arxiv.org/abs/2303.17548
GitHub: https://github.com/tatsu-lab/opinions_qa

image

인공지능 윤리 관련 연구가 Stanford에서 나왔습니다. 인공지능 챗봇의 사회적 역할이 커지면서 매우 중요한 이슈라고 생각되고 저도 전에 관련해서 발표했기 때문에 보다 더 많은 고민이 필요하다고 생각됩니다.

BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects
Blog: https://bundlesdf.github.io
ArXiv: https://arxiv.org/abs/2303.14158

Sigmoid Loss for Language Image Pre-Training
ArXiv: https://arxiv.org/abs/2303.15343

image

Training Language Models with Language Feedback at Scale
ArXiv: https://arxiv.org/abs/2303.16755

image

image

Robotics 관련 연구가 이번주에 많이 나왔습니다.

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
Blog: https://tonyzhaozh.github.io/aloha
Paper: https://tonyzhaozh.github.io/aloha/aloha.pdf

Robots that learn from videos of human activities and simulated interactions
Blog: https://ai.facebook.com/blog/robots-learning-video-simulation-artificial-visual-cortex-vc-1/

@gyunggyung
Copy link

Yoshua Bengio는 사칭 아닌가요?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants