SimpleTOD Paper review

introduction

  • SimpleTOD는 DST를 위한 생성 모델 - SOTA

  • SimpleTOD는 dialogue state tracking, action decisions, response generation을 함께 수행하는 최초의 End to End방식 모델 - SOTA

  • SimpleTOD는 nosiy-labeled annotation 에서도 강인하다

  • END토큰의 중요성을 보여준다.

  • MultiWOZ dataset를 사용

  • Base 모델은 GPT-2이다. -> hugging face 에서 불러와서 사용

image

  1. User의 발화가 들어감
  2. 비어있는 slot의 value값을 User의 발화를 보고 생성
  3. 완성된 Belief값을 DB Quary에 입력한다.
  4. DB는 입력된 Quary를 가지고 Result값을 출력 후 입력으로 사용
  5. Result값으로 Action값 생성
  6. 이 Action값으로 System 발화 생성

Model Architecture

image

  1. User, system의 대화를 가지고 SimpleTOD(GPT-2 Architecture)안에 넣어서 Belief state생성
  2. Belief state 값을 DB에 넣고 결과값 받은후 다시 입력으로 사용
  3. 대화쌍, Belief값, DB값을 SimpleTOD에 넣고 Action값 생성
  4. 대화쌍, Belief값, DB값, Action값을 SimpleTOD에 넣고 Response 생성

Training Objective

image

  • GPT-2는 Autoregressive 한 모델 즉 본인이 생성한 값을 다시 입력받고 다음 값 생성
  • (생성한 값)과 (데이터 입력된 값 -1step) 과 CE를 통한 LOSS 최소화하면서 학습

Experiment

Data

데이터셋은 MultiWOZ 2.1, MultiWOZ 2.0에 대해서 진행한다.

이들은 10000개 이상의 multi-domain 발화로 구성 되어 있으며 35개의 domain-slot쌍과 5개의 도메인(기차, 레스토랑, 호텔, 택시, 명소)로 구성되어 있다. 공개적으로 사용 가능한 가장 큰 3개의 multi-domain TOD dataset이다.

Result

MultiWOZ2.0

image

MultiWOZ2.1

image

  • (O) MultiWOZ 2.1 그대로 넣음 nosiy-labeled annotation 에도 강인한 걸 보여줌
  • (*) MultiWOZ 2.1 라벨 청소
  • (+) MultiWOZ 2.1 라벨 정규화

image

  • 여기서 User/System은 대화임
    • 대화가 없으니 점수가 현저히 낮은걸 볼 수 있음
  • 각각의 Context, Belief State, DB Search, Action, Response를 BOS, EOS를 각각 설정해줌
    • BOS, EOS를 잘 설정해 주니 점수가 높은걸 볼 수 있음

이 두개를 합쳐서 사용하니 매우 높은 점수가 나왔다고 한다.

Conclusion

  • SimpleTOD는 dialogue state tracking, action decisions, response generation을
    함께 수행하는 최초의 End to End방식 모델

  • DST분야에서는 SOTA를 찍은 모델이다.

  • 다른 sub-task를 분류하는 end토큰을 사용하니 성능이 높아졌다.

  • nosiy-labeled annotation에서도 강인했다

Leave a comment