본문 바로가기

Paper Study/NLP

[간단요약] Are Emergent Abilities of Large Language Models a Mirage?

Emergent Abilities?

The term “emergent abilities of LLMs” was recently and crisply defined as “abilities that are not present in smaller-scale models but are present in large-scale models; thus they cannot be predicted by simply extrapolating the performance improvements on smaller-scale models”

  • larger-scale models의 능력이 smaller-scale models에서 모두 실현되지 않는 것을 넘어, 예측이 불가능한 특성이 실현될 수 있음이 발견
  • 크게 두 가지 특성을 보임 : Sharpness, Unpredictability
    • Sharpness: 어느 순간 갑자기 특성이 나타나는 것처럼 보임
    • Unpredictability 특성이 나타나는 모델의 크기를 예측할 수 없음
    cf) LLM의 성능은 선형적으로 증가하지 않습니다. 모델의 크기를 키웠을 때, 어느 시점에서 갑작스럽게 특성이 발현되거나, 특정 성능이 갑자기 폭발적으로 증가하는 경향을 보이는 것으로 관찰될 때가 있는데, 이를 emergent ability라고 부릅니다. 즉, 근래의 LLM은 scale-law를 따르지 않아, 모델 규모를 키웠을 때 성능이 얼마나 향상할 것인지 예측할 수 없다는 문제가 발생합니다!

 

왜 문제인가?

⇒ 모델이 무엇을 얼마큼 학습할지 예측할 수 없다면 AI 안전성/정렬 문제를 마주할 수 있습니다!

  • AI safety: 인공지능이 의도치 않은 행동을 하거나 예측할 수 없는 결과를 초래하는 것을 방지함으로써, 인간의 윤리와 가치에 부합하는 행동을 보장
  • AI alignment: 인공지능 시스템의 목표와 행동이 인간의 가치, 목표, 의도와 일치하도록 하는 것

 

포인트

  • 모델의 근본적 특성이 아니라 평가 지표에 의해 그렇게 보인 것은 아닐까? ← 논문 주장
    1. 평가 지표를 비선형/불연속 → 선형/연속으로 변경하면 예측 가능한 성능 향상이 드러난다.
      • Fig 2, Fig 7~8 (cf. Fig 7~8은 Vision Task 사례)




       
    2. 비선형 평가 지표에서 테스트 데이터셋의 크기를 늘린다면 측정된 모델 성능의 해상도가 높아져 지속적이고 예측 가능한 모델 개선이 드러난다.
    3. 평가 지표 무관, 타겟 문자열의 길이가 증가하면 모델 성능이 기하 급수적으로 낮아진다.
      
  • 즉 근래의 LLM(GPT3 등)에서 발견되었던 emergent ability 현상은 연구자의 선택(평가지표)에 의한 creation/mirage(신기루)일 가능성이 있다.
  • 성능 평가 시 평가지표의 특성에 따라 LLM의 특성이 달라질 수 있으며, 이 때문에 연구자들은 벤치마크/평가지표의 구성에 있어 신중해야 한다!

 


 

Reference

https://heegyukim.medium.com/large-language-model의-scaling-law와-emergent-ability-6e9d90813a87

https://arxiv.org/abs/2206.07682

https://jaunyeajun.tistory.com/m/2

https://velog.io/@jaeheerun/논문분석-Are-Emergent-Abilities-of-Large-Language-Models-a-Mirage

 


LLMs / AI Ethics

2023.04.28

NeurIPS 2023

https://arxiv.org/abs/2304.15004