Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[20230416] Weekly AI ArXiv 만담 시즌2 - 14회차 #80

Open
jungwoo-ha opened this issue Apr 15, 2023 · 7 comments
Open

[20230416] Weekly AI ArXiv 만담 시즌2 - 14회차 #80

jungwoo-ha opened this issue Apr 15, 2023 · 7 comments

Comments

@jungwoo-ha
Copy link
Owner

jungwoo-ha commented Apr 15, 2023

News

2023 Stanford AI Index Report 특집

10개 Key message

image
image

Ch2. Tech Performance - Timeline in 2022

image
image
image
image
image
image
image

Ch6. Policy and Governance

  • 전체 하이라이트
    image

  • 법안 관련

    • 127개국 전체 2022년 통과된 법안 수: 37개
    • 국가별 현황 - 대한민국 1-5개 (2016년 이후 누적 5개 대략 8위권)
    • 2016년 1개에서 대략 선형적으로 증가해옴.
      image
      image
    • 법안이라도 국가에 따라 내용이 다르다 (활용 vs. 규제)
      image
    • 연방과 주단위 모두 법안 제출 건수 감소, 주단위 법안 통과율 높음.
      image
      image
  • 정부에서 AI에 대한 언급

    • 2022년에 처음으로 감소 (81개국 전체 기준), 한국은 역시 적은 편
      image
      image
    • 미의회의 경우 하원은 예산, 상원은
      image
    • AI보고서 주제별 분석
      image
  • 국가 AI 전략 현황
    image

  • 미국 AI 예산 투자

    • 비 국방분야: 2조원 정도 (USD 1.84B)
      image
    • 국방분야: 1.3조원 정도 (USD 1.13B)
      image
    • 정부 AI분야 공공발주 계약
      image
  • 미국 AI관련 소송판례

    • 2018년부터 AI관련 법정 판계 케이스 급격히 증가
      image
      image
      image
    • Civil 법이 가장 많음.
      image
@jungwoo-ha jungwoo-ha changed the title [20230416] [20230416] Weekly AI ArXiv 만담 시즌2 - 14회차 Apr 15, 2023
@veritas9872
Copy link

veritas9872 commented Apr 15, 2023

이번 주에도 중요한 연구가 많이 발표되었지만 뉴스에 집중하도록 하고 다음 주에 정리하도록 하겠습니다.

PR12 발표:
지난 주 제가 Symbolic Discovery of Optimization Algorithms (Lion Optimizer) 내용을 PR12에서 발표한 동영상 공유해드립니다.
새로운 Optimizer 및 evolutionary search 알고리즘에 대한 연구에 흥미 있으신 분들 참조 부탁드립니다. 링크

지난 주 리뷰:
조금 부끄럽지만 지난번 공유드린 30T parameter 모델 관련 트위터 글은 만우절 농담이라고 합니다...

뉴스 겸 연구:
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm

ChatGPT의 라이선스에서 GPT 모델의 출력을 경쟁 언어모델을 만들기 위해 사용하는 것을 금지하는 조항이 있는데 최근 DataBricks에서 최초의 완전히 오픈소스 모델인 Dolly2를 공개했습니다. In-house LLM을 만드는데 많은 도움이 될 것으로 생각됩니다.

Building LLM applications for production
https://huyenchip.com/2023/04/11/llm-engineering.html

MLOps 관련 책의 저자이자 블로거로 유명하신 Chip Huyen님께서 LLM을 production에서 사용하기 위한 블로그를 업로드했습니다. 제품을 만드는 엔지니어들에게 많은 도움이 될 것이라고 생각합니다.

Choose Your Weapon: Survival Strategies for Depressed AI Academics
https://arxiv.org/abs/2304.06035

거대 기업의 거대한 리소스에 압도당한 연구원들을 위한 전략을 제시하는 블로그성 논문이 업로드되었습니다. 연구주제를 찾아가는데 도움이 될 것으로 생각됩니다.

Stanford AI Index Report 2023 Chapters 7 & 8

인공지능 연구원의 성별, 인종 등 구성 (Chapter 7) 및 인공지능에 대한 여론 (Chapter 8)에 관련된 내용입니다.

image

image

image

image

image

image

image

image

image

image

image

image

요약: 학부 및 고등학교 과정에서 성별 불균형이 감소하고 있으나 대학원 이상의 과정에서는 현재 큰 변화 없음.
동양인의 비중이 증가하는 추세이며 백인의 비중이 감소하는 추세이다.
다만, 현재 인공지능 트렌드에 비해 대학원 이상의 고등 교육과정에서 인공지능 전공자 비중은 크게 증가하지 않음.

image

image

image

image

image

image

image

image

요약: 대중적으로 동양에서 인공지능에 대해 가장 긍정적인 인식을 가지고 있으며 반대로 비국 등 서양권에서 부정적인 인식이 강함. 특히 자율주행 차량은 안전하지 않다는 인식이 강함. 인공지능에 의해 대체되는 것에 대한 염려가 부정적 인식의 가장 큰 원인으로 꼽힘.
전문가 사이에서 단순히 모델 규모를 키우는 것에 대해 인식이 매우 부정적임. 벤치마크에만 집착하는 것을 안좋게 생각함. 기업에 너무 많이 집중되어 있다고 생각함.
현재 ChatGPT는 인공지능 관련 SNS 언급의 절반 이상을 차지함.

@gyunggyung
Copy link

gyunggyung commented Apr 15, 2023

News
https://www.theinformation.com/articles/alphabets-google-and-deepmind-pause-grudges-join-forces-to-chase-openai

AGI

Dolly - LoRa - GPT-J-6b

Auto-GPT: An Autonomous GPT-4 Experiment

🔴 🔴 🔴 Urgent: USE stable not master 🔴 🔴 🔴

This information takes precedence over any other information provided and should be followed accordingly.

Our workflow has been improved, but please note that master branch may often be in a broken state.
Please download the latest stable release from here: https://github.com/Torantulino/Auto-GPT/releases/latest.

GitHub Repo stars
Twitter Follow
Discord Follow
Unit Tests

Auto-GPT is an experimental open-source application showcasing the capabilities of the GPT-4 language model. This program, driven by GPT-4, chains together LLM "thoughts", to autonomously achieve whatever goal you set. As one of the first examples of GPT-4 running fully autonomously, Auto-GPT pushes the boundaries of what is possible with AI.

Demo (30/03/2023):

Auto-GPT-Demo-2.mp4

Table of Contents

🚀 Features

  • 🌐 Internet access for searches and information gathering
  • 💾 Long-Term and Short-Term memory management
  • 🧠 GPT-4 instances for text generation
  • 🔗 Access to popular websites and platforms
  • 🗃️ File storage and summarization with GPT-3.5

샘 알트만 CEO 내한 시 초청 행사 추진계획

  • IT전문매체 테크M과 기획기사 5편 보도 협의 중
  • 챗GPT로 생성한 성적 텍스트와 Gen-2, Hugging Face, Reflecting on Reflection 등을 통해 Fake porn 제작 가능
  • 이같은 방식은 이미 사용되고 있는 것으로 파악
  • 챗GPT 플러그인이 불법 포르노 사이트와 연동돼있는지 여부, 국내외 정부 대응 등 다룰 예정
  • 기획 기사 5편 보도 후 샘 알트만 내한 시기에 맞춰 초청 행사를 열 계획.

행사 주최 후보

  • 네이버, 삼성, 청와대, 국회의원, 방송국

@snoop2head
Copy link

snoop2head commented Apr 15, 2023

Open Assistant

LAION AI가 Pythia와 LLaMA 기반으로 10B+ 모델들을 제작하고 공개했습니다. 특히 두 모델을 만드는 모든 과정에 사용된 재료들을 공개한 것 같습니다. 리포트에 따르면 Pythia-12B만 해도 93.5% preferable as GPT-3.5.turbo라는데, 사용해보면서 확인할 예정입니다. LLaMA 모델은 곧 공개하겠다고 하는데, 아직 올라오지는 않은 것 같네요.

주요 훈련 기법

  • Supervised Fine-tuning (SFT)
  • Reinforcement learning from human feedback (RLHF)

특히 Reward Model인 Deberta checkpoint도 공개한 덕분에 이쪽 분야 공부하는데에 도움이 될 것 같네요.

데이터셋

161,443개의 메세지와 461,292개의 메세지 퀄리티 평점으로 구성되어 있습니다. 주요 언어는 영어와 스페인어(영어 40%, 스페인어 30%)이며, 현재 어플리케이션에서 한국어로 인사를 해도 영어로 답변이 나옵니다.

image

Conversation Tree라는 자료구조로 데이터셋을 구성했는데, prompt-assistant가 대화를 주고받는 방식으로 구성이 되어 있습니다. 이때 각 Node는 반드시 인간일 필요는 없으며, 기계의 데이터도 어느 정도 들어간 것으로 보입니다. Root Node - Leaf Node로 향하는 각 path를 thread로 정의했습니다. 161,443개의 메세지는 약 92,000개의 prompt message와 약 69,600개의 assistant reply로 구성되어 있습니다

@jwlee-neubla
Copy link

jwlee-neubla commented Apr 16, 2023

Stanford AI Index Report - Chapter 1

Research and Development

1.1. Publication

2010년부터 2021년까지 AI publication의 총 수는 2010년 20만 건에서 2021년에는 약 50만 건으로 두 배 이상 증가했습니다.
image

지난 12년 동안 저널 논문과 repository publication은 각각 3배, 26.6배 증가한 반면, 컨퍼런스 논문은 2019년 이후 감소했습니다.
image

교육 부문이 각 지역에서 우위를 점하고 있습니다. 산업 참여 수준은 미국이 가장 높고 그 다음이 유럽연합입니다. 2010년 이후 각 지역에서 교육 AI 출판물의 비중은 감소하고 있습니다.
image
image

지난 12년 동안 가장 많은 수의 공동 작업이 미국과 중국 간에 이루어졌으며, 2010년 이후 약 4배 증가했습니다. 그러나 2020년에서 2021년 사이 미국과 중국의 총 협업 건수는 2.1% 증가에 그쳐 2010년 이후 가장 적은 전년 대비 증가율을 보였습니다. 2021년에는 미국과 중국 간의 협업 건수가 영국과 중국 간의 협업 건수보다 2.5배 더 많았습니다.
image
image

AI Journal Publications

2010년부터 2015년까지 소폭 증가에 그쳤던 AI 저널 출판 건수는 2015년 이후 약 2.3배 증가했습니다. 2020년에서 2021년 사이에는 14.8% 증가했습니다.
image

중국은 2021년에도 39.8%로 1위를 유지했으며, 유럽연합과 영국(15.1%), 미국(10.0%)이 그 뒤를 이었습니다. 인도의 비중은 2010년 1.3%에서 2021년 5.6%로 꾸준히 증가하고 있습니다.
image

인공지능 저널 출판물에서 중국의 인용 비율은 2010년 이후 점차 증가한 반면, 유럽연합과 영국, 미국의 인용 비율은 감소했습니다.
image

AI Conference Publications

AI 컨퍼런스 발표 건수는 2019년에 정점을 찍었고, 2021년에는 정점보다 20.4% 감소했습니다. 2021년 AI 컨퍼런스 총 논문 수는 85,094건으로 2010년 총 75,592건보다 소폭 증가했습니다.
image

2021년에는 중국이 26.2%로 2017년 유럽연합과 영국을 제치고 전 세계 AI 컨퍼런스 출판물에서 가장 많은 비중을 차지했습니다. 유럽연합과 영국이 20.3%로 그 뒤를 이었고, 미국이 17.2%로 3위를 차지했습니다.
image

2021년에 중국이 가장 많은 AI 컨퍼런스 논문을 발표했지만, 미국이 23.9%로 가장 높은 점유율을 보였고 중국이 22.0%로 그 뒤를 이었습니다. 그러나 미국과 중국의 AI 컨퍼런스 인용 횟수 격차는 점점 좁혀지고 있습니다.
image

AI Repositories

AI Repositories의 출판물 수는 지난 12년 동안 거의 27배 증가했습니다.
image

미국이 2016년 이후 전 세계 AI repositories에서 선두를 유지하고 있는 가운데 중국이 추격하고 있으며, 유럽연합과 영국의 점유율은 계속 하락하고 있습니다. 2021년에는 미국이 23.5%를 차지했으며, 유럽연합과 영국(20.5%), 중국(11.9%)이 그 뒤를 이었습니다.
image

2021년에 미국이 전체 인용 건수의 29.2%로 유럽연합과 영국(21.5%), 중국(21.0%)을 제치고 1위를 차지했습니다.
image

Top Publishing Institutions

모든 분야 2010년 이후 가장 많은 총 AI 논문을 발표한 기관은 중국과학원입니다. 다음 상위 4개 기관은 모두 중국 대학입니다.
image

image

2021년에 가장 많은 수의 AI 컴퓨터 비전 논문을 발표한 상위 10개 기관은 모두 중국 기관이었습니다.
image

상위 NLP 출판사의 점유율은 미국 기관이 더 많이 차지하고 있습니다. 2021년에도 중국과학원이 세계 최고의 기관이었지만(182개 출판물), 카네기멜론이 2위(140개 출판물)를 차지했고 Microsoft가 그 뒤를 이었습니다(134개). 또한, 2021년은 아마존과 알리바바가 상위 10대 출판 NLP 기관에 포함된 첫 해였습니다.
image

2021년에 가장 많은 음성 인식 논문을 발표한 곳은 중국과학원(107건)이었으며, Microsoft(98건)와 Google(75건)이 그 뒤를 이었습니다.
image

1.2 Trends in Significant Machine Learning Systems

2022년에 출시된 중요한 AI language system은 23개로, 그 다음으로 많이 출시된 유형인 multimodal system의 약 6배에 달했습니다.
image

2022년에는 산업계에서 생산한 중요한 머신 러닝 시스템이 32개였던 반면, 학계에서 생산한 머신 러닝 시스템은 3개에 불과했습니다.
image

2022년에는 미국이 16개로 가장 많은 수의 중요한 머신러닝 시스템을 배출했으며, 영국(8개)과 중국(3개)이 그 뒤를 이었습니다.
image

머신러닝 시스템의 저자 수는 2022년에 미국이 285명으로 영국의 두 배 이상, 중국의 거의 6배에 달합니다.
image
image

Parameter Trends

시간이 지남에 따라 model parameter의 수는 꾸준히 증가해 왔으며, 특히 2010년대 초반부터 급격한 증가세를 보이고 있습니다. AI 시스템이 parameter를 빠르게 늘리고 있다는 사실은 수행해야 하는 작업의 복잡성 증가, 데이터 가용성 향상, 기본 하드웨어의 발전, 그리고 가장 중요한 것은 더 큰 모델의 성능이 입증되었다는 것을 반영합니다.
image
image

Compute Trends

AI의 컴퓨팅 수요 증가는 몇 가지 중요한 시사점을 내포하고 있습니다. 예를 들어, 컴퓨팅 집약적인 모델은 환경에 더 큰 영향을 미치는 경향이 있으며, 산업계는 대학과 같은 다른 기관보다 컴퓨팅 리소스에 더 쉽게 액세스할 수 있는 경향이 있습니다.
image
image

LLM and Multimodal Models

image

image

Minerva(540B)를 훈련하는 데 사용된 컴퓨팅은 2022년 6월에 출시된 OpenAI의 GPT-3에 사용된 것보다 약 9배, GPT-2(2019년 2월 출시)에 사용된 것보다 약 1839배 더 큰 규모입니다.

image

Training Cost

image

1.3 AI Conferences

AI 컨퍼런스의 총 참석자 수는 증가세를 보이다가 2021년과 2022년에 다시 감소했습니다. 이러한 감소세는 2020년과 2021년에 많은 컨퍼런스가 완전히 온라인화된 후 하이브리드 또는 대면 형식으로 돌아갔기 때문인 것으로 보입니다.
NeurIPS는 약 15,530명이 참석하여 계속해서 가장 많이 참석한 컨퍼런스 중 하나였습니다.14 1년 동안 참석자가 가장 많이 증가한 컨퍼런스는 국제 로봇 공학 및 자동화 컨퍼런스(ICRA)로, 2021년 1,000명에서 2022년 8,008명으로 증가했습니다.
image
image

1.4 Open-Source AI Software

2011년 이후 AI 관련 GitHub AI project의 총 수는 꾸준히 증가하여 2011년 1,536개에서 2022년 347,934개로 증가했습니다. 2022년 기준, 인도(24.2%)의 소프트웨어 개발자가 가장 많은 부분을 기여했습니다(그림 1.4.2). 그 다음으로 많이 참여한 지역은 유럽 연합과 영국(17.3%), 미국(14.0%)이었습니다. 미국 GitHub AI project 비중은 2016년 이후 꾸준히 감소하고 있습니다.
image
image

Stars

image

Summary

image

@scene-the-ella
Copy link

scene-the-ella commented Apr 16, 2023

Stanford AI Index Report - Chapter 5

고등교육에서의 AI Education

Graduates

0416-1

  • 2021년에 새로운 북미 CS 학사 졸업생의 총 수는 33,059명으로 2012년보다 거의 4배
    0416-2
  • 새로운 석사 졸업생의 총 수는 15,532명에서 15,068명으로 약간 감소
    0416-3
    0416-4

# of Facluty

0416-5
0416-6
0416-7
0416-8
0416-9
0416-10

Who Funds CS Departments in the U.S.?

0416-11

K–12 AI Education

US

0416-12

International

image

image

Chapter Highlights

More and more AI specialization

  • 미국 대학 내 CS 박사 졸업생의 비율은 2020년 14.9%, 2010년 10.2%에서 2021년 19.1%로 급증

New AI PhDs increasingly head to industry

  • 점점 더 산업으로 향하고 있는 AI 박사들
    • 2011년: 학계(41.6%) <-> 산업계(40.9%)에 취직
    • 2021년: 학계(28.2%) <-> 산업계(65.4%)에 취직. 약 두 배 이상

New North American CS, CE, and information faculty hires stayed flat

  • 새로운 북미 CS, CE 및 정보 교수진 고용이 크게 늘지는 않음
  • 2012년 733명에 비해 2021년에 총 710명이 고용

The gap in external research funding for private versus public American CS departments continues to widen( 570만 달러 vs 970만)

Interest in K–12 AI and computer science education grows in both the United States and the rest of the world

  • K-12 AI와 컴퓨터 과학 교육에 대한 관심은 미국과 전 세계에서 증가
  • 2021년 현재, 벨기에, 중국, 한국을 포함한 11개국이 공식적으로 K-12 AI 커리큘럼을 승인하고 시행

@nick-jhlee
Copy link

nick-jhlee commented Apr 16, 2023

Stanford AI Index Report - Chapter 3

unsurprising results, yet still surprising when we look at the numbers.

3.1 Meta-analysis of Fairness and Bias Metrics

  • metric 및 benchmark들이 너무 많아진다...! 뭘 써야할까요?
    image

3.2 AI Incidents (feat. AIAAIC)

  • AI, Algorithmic, and Automation Incidents and Controversies (AIAAIC) Repository
  • 2012년과 비교하여 26배 정도 증가함!
    • ex. (2022년) deepfake of Zelenskyy 대통령의 항복
    • ...etc
      image

3.3 NLP Bias Metrics

  • Perspective API: measuring toxicity in natural languages
  • Winogender task (SuperGLUE): fill in sentence with occupation and stereotypical pronoun
    • Instruction-tuning helps!
  • BBQ Benchmark: Bias Benchmark for QA
    • 고려하는 axis (gender, age, appearance, ethnicity)에 따라 bias의 정도가 다름!
      image
  • HELM Benchmark (Holistic Evaluation of Language Models)
    • Fair하지만 bias가 더 큰 경우가 있을 수 있음 (and vice versa)
    • RealToxicityPrompts
  • ...etc

Appendix

  • fairness: counterfactual fairness & statistical fairness
  • social bias: "a systematic asymmetry in language choice”
  • "Fairness refers to disparities in the task-specific accuracy of models across social groups. In contrast, bias refers to properties of model generations, i.e. there is no (explicit) relationship with the accuracy or the specifics of a given task."

3.4 Conversational AI Ethical Issues - ChatGPT

  • Gender Representation of Chatbots
    • 37% is represented by female
  • Anthropomorphization (의인화) in Chatbots
    • 내가 이야기를 하는 대상이 사람인지 chatbot인지 모를 수 있다..!
    • uncanny valley?
      image
  • Tricking ChatGPT into building a dirty bomb
    • cat and mouse, ad infinitum...

3.5 Fairness and Bias in Text-to-Image Models

  • Instagram으로 학습하는게 ImageNet보다 더 fair함!
    • 하지만 ethics나 privacy측면에선... ㅠㅠ
  • VLStereoSet: Extension of StereoSet to vision-language model
    • 6개의 pretrained model로 평가한 결과, gender가 제일 문제
  • Bias in Stable Diffusion, DALL-E 2, Midjourney
    • 특히 training dataset에 내재된 bias (stable diffusion)가 나타남..
      image

3.6 AI Ethics in China

(직접 읽어보시는게 좋을 듯 합니다!)

3.7 AI Ethics Trends at FAccT and NeurIPS

  • FAccT: 2021년에 대비해 submission# 2배 증가! (2018년에 대비해 10배!)
    • 특히 industry에서 가장 많은 submission이 보임
      image
  • NeurIPS:
    real-world impact, XAI, causal learning, privacy, fairness, bias... 더 추세가 느는중
    • 몇 몇 토픽은 2022년에 대비해 2~3배 더 증가함!
    • workshop도 느는중

3.8 Factuality and Truthfulness

  • fact-checking benchmarks: FEVER, LIAR, Truth of Varying Shades
  • Missing Counterevidence and NLP fact-checking
  • TruthfulQA
    • instruction-tuning works!
      image

@kimyoungdo0122
Copy link

kimyoungdo0122 commented Apr 16, 2023

Stanford AI Index Report - Chapter 4


Highlight 1. 22년은 지난 10년 간 처음으로 AI에 대한 투자가 감소한 해

  • 22년 세계 전체 투자액이 919억 달러이며, 이는 21년보다 26.7% 줄어든 수치

Highlight 2. AI 업계에서 가장 많은 투자를 받은 분야는 (1)의료 및 헬스케어(61억 달러), (2)데이터 관리, 처리, 클라우드, 인프라(59억 달러), (3)핀테크(55억 달러)

Highlight 3. AI의 비즈니스 적용 사례 비율은 (1)RPA(39%), (2)Computer Vision(34%), (3)NLP(33%), (4)Virtual Agent(33%)

  • 비즈니스 영역에서는 (1)서비스 운영 최적화(24%), (2)신규 AI 제품(22%), (3)고객 세분화(19%) 등

4.1 Jobs

  • 채용 관련 데이터는 미국 내 채용 시장을 중심으로 했거나, 채택한 데이터가 온전하지 않은 경우가 많다 후루룩 생략하겠습니당

4.2 Investment

  • 하이라이트에서 언급했듯이 투자액은 21년도에 비해 감소, 하지만 21년이 투자가 많았다는 사실
    1
    2
    3

4.3 Corporate Activity

  • 여러 산업 분야에서 AI를 채택하는 비율이 높아지고 있고, 그 현황과 남은 과제에 대한 서술
    4
    5
    6
    7

4.4 Robot Installation

  • 산업 로보틱스에서 중국의 압도적인 약진..!
    image
    image
    image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

8 participants