Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[20220327] Weekly AI ArXiv 만담 - 45회차 (Stanford AI Index Report 특집) #45

Closed
jungwoo-ha opened this issue Mar 26, 2022 · 6 comments

Comments

@jungwoo-ha
Copy link
Owner

jungwoo-ha commented Mar 26, 2022

Stanford AI Index Report

@jungwoo-ha
Copy link
Owner Author

jungwoo-ha commented Mar 26, 2022

[AI Policy and Governance]

요약

  • 25개국 AI법령이 2016년 1개 에서 2021년엔 18개로 증가.

  • 미국 연방정부의 경우 입법기록 기준으로 엄청 증가 했으나 실제 법제정으로 이어진 경우는 2%.
    image

  • 그에 비해 주의회 입법은 20% 정도 (법령제안은 2012년 2개에서 2021년 131개까지 대폭 증가). 민주당이 공화당 2배
    image

  • 각 주별로 편차가 꽤 큼. MA가 1등! 그런데 하와이는 왜이렇게 많은겨..
    image

  • 117차 의회 회기(2021 ~ ): 295회 언급 vs. 116차 회기 (2019-2020): 506회 언급. 2017년부터 폭발적 증가
    image

  • 입법 정책 관련 활동은 스페인, 영국이 상당히 많음. 일본도 매우 많음. 한국은 법령은 적지 않은편인데 최근의 활동은 그닥
    image

  • 정책총서의 주제기준으로 규제관련이 좀 많아 보임 (프라이버시, 안전, 윤리 등등)
    image

  • 미국 연방정부의 공공 AI 투자 규모는 USD 1.67B (국방빼고), 국방분야는 USD 10B 정도이며 대부분은 DOD (국방성) 주도. 미국의 AI R&D의 중심축은 국방성이 컨트롤 타워로 보임 (생각보다 규모가 작아보여도 사실 미국은 기업중심으로 투자규모가 막강함)
    image
    image
    image

@ghlee0304
Copy link

ghlee0304 commented Mar 27, 2022

Chapter4 : The Economy and Education


Highlights

  • 뉴질랜드, 홍콩, 아일랜드, 룩셈부르크, 스웨덴은 2016년부터 2021년까지 AI 고용이 가장 많이 증가한 국가 또는 지역
  • 2021년 AI에 대한 민간 투자는 전년 대비 2배 이상, 신규 자금 지원을 받는 AI 기업의 수는 3년 연속 하락
  • 2021년 '데이터 관리, 처리 및 클라우드'는 가장 많은 민간 AI 투자를 받았음
  • 2021년 미국은 AI에 대한 총 민간 투자와 신규 자금 지원 AI 회사 수가 세계 1위
  • 업계에서 AI를 사용하는 것과 관련한 윤리적 문제를 인식하지만 위험을 완화하기 위한 조치는 제한적
  • 2020년 지난 10년 동안 CS 박사 졸업생에서 5명 중 1명은 인공지능/머신러닝을 전문으로 하였음
  • 2010년부터 2020년까지 미국 AI 박사 대다수는 산업계로 향함

4.1 Jobs

4.1.1 AI Hiring

  • 링크드인 기준 상대적 고용 지표 계산
  • Relative AI hiring index는 국가에서 전체 고용보다 상대적으로 AI 고용률이 얼마나 빠르게 증가했는지를 보여줌
    1
    2

4.1.2 AI Labor demand

  • 4만 5천 개의 웹사이트에서 AI 기술을 요구하는 채용 공고 목록을 분석
    3
  • 기술별 노동 수요 분석으로 AI 관련 채용 공고에서는 머신러닝이 가장 높음
    4
  • 산업 분야별 AI와 관련이 있는 노동 수요를 보여줌
    5

4.1.3 AI Skill Penetraion

  • 링크드인 회원이 직업에 AI가 얼마나 사용하는지 강도를 보기 위한 통계
    6
  • 인도, 캐나다, 한국, 호주, 핀란드, 스위스에서는 남성보다 여성이 AI 기술을 직업에서 많이 사용하는 것을 보여줌
    7

4.2 Invesetment

4.2.1 Corporate investment

  • 그림 4.2.1은 AI에 대한 전반적인 글로벌 기업 투자 현황을 보여줌
    8

4.2.2 Startup Activity

  • 그림 4.2.2를 보면 2021년 AI에 대한 민간 투자가 2020년에 2배를 보이고 있음
    9
  • 테이블 4.2.1은 AI 펀딩 횟수와 거래 규모가 커진 것을 보여줌
    10
  • 그러나 AI 신규 투자 기업은 3년 연속 감소세
    11

4.2.3 Regional Comparison by Newly Funded AI Companies

  • 그림 4.2.9를 보면 2018년 이후 새로 자금을 지원받는 AI 기업의 수가 감소하는 것을 볼 수 있음
    12
  • 그림 4.2.10, 4.2.11에서는 민간 투자 집중 분야를 살펴봄
    13
    14

4.3 Corporate activity

  • 산업에 적용되는 AI 기술 현황
    15

4.4 Education

  • 그림 4.4.1은 북미에서 CS 학부생의 졸업자 수 (2010 ~ 2020년) 추이
    16
  • CS 졸업자 전공 비율
    17
  • CS 박사 졸업생들이 산업에서 일하는 비율
    18

@nick-jhlee
Copy link

nick-jhlee commented Mar 27, 2022

Chapter 3. Technical AI Ethics

  • NLP 모델들은 커지는 만큼 bias도 (유래없이) 커짐..
    • 170M ==> 280B하면서 29% increase in bias

3.1 Meta-analysis of fairness and bias metrics

  • Allocative harm vs representative harm
  • Benchmark datasets, Diagnostic metrics

Screen Shot 2022-03-27 at 9 37 53 PM

3.2 Natural Language Processing Bias Metrics

  • intrinsic bias vs extrinsic bias
  • Toxicity
  • stereotypes, gender bias
    • StereoSet, CrowS-Pairs
    • 위와 마찬가지로, 모델이 클수록 더 stereotypical...
    • bias in datasets
    • Winogender, WinoBias, WinoMT
      • 여긴... larger model일수록 gender bias를 mitigate 할 수 있!
      • Winogender 한정!
  • Bias in word embeddings
    • static vs contextual wod embeddings!
    • association tests: WEAT, CFAT, iEAT, SEAT
    • 새로운 transformer-based word embedding은 이전보단 덜 bias되어있지만, 그래도 그 나물에 그 밥...
    • 시간에 따른 embedding을 보면, historical context가 그대로 묻어나옴! (Fig 3.2.12 in the full paper)
    • multilingual bias!

Screen Shot 2022-03-27 at 10 03 33 PM

Screen Shot 2022-03-27 at 9 58 04 PM

Screen Shot 2022-03-27 at 9 56 46 PM

3.3 AI Ethics trends at FACCT and NeurIPS

  • AI ethics에 관련된 논문들이 대단히 쏟아지고 있고, academic한 분야에서 많은 implication이 있는 mainstream으로 바�뀜
    • 특히 industry affiliation가 있는 publication이 71% 증가함
      -ACM FAccT: ACM Conference on Fairness, Acountability, and Transparency
    • Algorithm의 사회적 분석(?)을 하는 여러 분야 사람들을 다 모은 첫 conference!
    • 근데 거의 미국/캐나다...
  • NeurIPS workshops
    • 2014년에 처음 열린 이후 많은 관심을 가짐
    • 2020년부턴 broad impact를 필수적으로 적어야함
    • interpretability, explainability, causality, privacy and data collection, fairness, bias...
      • cf. counterfactual fairness (Kusner et al., NeurIPS 2017)

Screen Shot 2022-03-27 at 9 50 10 PM

Screen Shot 2022-03-27 at 9 54 28 PM

Screen Shot 2022-03-27 at 9 54 43 PM

3.4 Factuality and Truthfulness

  • increased interest in automated fact-checking: FEVER, LIAR, Truth of Varying Shades
    • 근데 거의 영어...
  • model size and truthfulness
    • TruthfulQA: model size와 truthfulness가 큰 상관은 없다
    • 그런데.. Gopher에서 이 claim을 반박함...
      • catch: TurthfulQA는 GPT-3 175B에 대해 adversarial하게 collection이 되어서, GPT 모형들이 잘 안되는게 너무 당연하다...?
    • cf. WebGPT, InstructGPT

Screen Shot 2022-03-27 at 9 44 45 PM

Screen Shot 2022-03-27 at 9 46 51 PM

  • Multimodal 모델들에는 bias도 multimodal 형식으로 나타내짐
  • Exploratory probing in CLIP:
    • 흑인들의 이미지가 다른 인종의 이미지보다 2배 가까이 nonhuman으로 misclassify가 됨
    • conspiricy theory도 만들 수 있음:

Screen Shot 2022-03-27 at 9 40 33 PM

@hollobit
Copy link

hollobit commented Mar 27, 2022

Stanford AI Index로부터 어떤 insight를 얻을 수 있을까 ?

1. 관심 주제의 변천사

2. AI Vibrancy Index

https://aiindex.stanford.edu/vibrancy/

2021년 한국 지표

2019년 한국 지표

3. 한국의 AI Index 지표 상 순위의 변화

4. 2021 AI Vibrancy Matrix, Normalized Score (0-100) of 23 Metric

@veritas9872
Copy link

veritas9872 commented Mar 27, 2022

Chapter 2. Technical Performance

A scorecard across many different fields of deep learning.

생각한 것보다 성적표를 읽는 것 같아 분야별로 묶는 대신 성적 순서대로 묶었습니다. ㅋㅋㅋㅋ

Takeaways:

  1. Data is king.
  2. There is never too much compute.

ImageNet training

O: Outstanding.

  1. Hardware Acceleration: ImageNet training costs have been reduced x200.

Screenshot (37)

  1. Image Classification on ImageNet is now almost a solved problem.

Screenshot (40)

  1. ASR for general recognition of popular languages.

Screenshot (44)

E: Exceeds Expectations.

  1. Facial recognition was almost a solved problem (until COVID arrived).

Screenshot (41)

Screenshot (42)

A: Acceptable.

  1. Criteo Recommender systems on click-through

Screenshot (45)

P: Poor.

AI systems still lack common sense. And there does not seem to be any way of getting there.

  1. Visual Commonsense

Screenshot (43)

  1. Logical thought (ReClor)

Screenshot (46)

@kimyoungdo0122
Copy link

Ch.1: Research & Development

  • AI분야 연구는 다른 STEM(Science, Technology, Engineering, Mathmatics) 분야에 비해 Git이나 arxiv 등 오픈 소스로 공개하는 경향이 큰 차이점

  • publication은 매년 늘고 있는 추세, 21년(334,497건)에는 10년(162,444건)에 비해 2배 이상 늘었습니다.
    image

  • 그리고 51.5%, 절반 이상이 저널에 게재되었으며, 21.5%가 컨퍼런스에, 17% repository에 게재되었습니다.
    image

  • 패턴 인식, 머신러닝 분야의 출간 수는 증가했으나 관련 분야의 연구는 약간 증가하는 추세
    image

  • 미국과 중국이 AI 연구에서도 경쟁하고 있지만, 동시에 협력 연구도 많이 진행하고 있으며 미국 연구자 중국 연구자가 함께 출간한 경우도 전체 AI 연구의 10%에 달한다
    image

  • 흥미롭게도, 미국과 중국의 공동 연구가 1등이고 미국과 영국의 연구가 2등인데 3등이 중국과 오스트레일리아로 나타남. 대부분 미국과 다른 국가간 협력 연구의 사례가 많음
    image

  • 저널에 게재된 연구의 수가 폭발적으로 증가했다는 소식은 이제는 익숙하시죠?
    image

  • 중국이 저널 논문 게재도 많이 하는데, 인용 수도 많이 늘었다. 단순히 양적인 공세가 아니라 연구적으로 인정받는 부분도 많이 늘었다는 의미일지?
    image

  • 그런데 컨퍼런스는 또 달라요.
    image

  • 컨퍼런스에서는 미국 연구의 인용이 높고 중국 연구의 인용이 낮습니다. 저널과 컨퍼런스는 어떤 차이가 있을까요?
    image

  • Git repository는 중요한 연구 공개 장소
    image

  • 연구에 그치지 않고 특허로 이어지는 경우가 폭발적으로 늘었습니다.
    image

  • 특히 중국이 특허를 출원 및 허가하는 경우가 많고, 미국과 영국은 상대적으로 조심스럽게 허가하는 모습입니다.
    image

  • 구현 관련된 부분도 중요하죠? 많은 사례에서 pytorch가 tensorflow를 연구 부문에서 앞섰다는 소식을 접하셨을테지만, 별을 4만 개 이상 받은 경우 중에서는 여전히 tensorflow가 많은 경우를 보이고 있습니다.
    image

@jungwoo-ha jungwoo-ha changed the title [20220320] Weekly AI ArXiv 만담 - 45회차 (Stanford AI Index Report 특집) [20220327] Weekly AI ArXiv 만담 - 45회차 (Stanford AI Index Report 특집) Apr 2, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants