NMT Model 정리

April 18, 2021

The University of Edinburgh’s Neural MT Systems for WMT17
https://www.aclweb.org/anthology/W17-4739.pdf

에든버러 대학교의 NMT

BPE 방식을 통해 서브워드 분절
https://www.aclweb.org/anthology/P16-1162.pdf
model - seq2seq구조인데 LSTM이 아닌 GRU을 사용해서 RNN을 구성 Google NMT와 마찬가지로 Residual connection 사용 인코더 4층 디코더 8층쌓아 만들었다.

optimizer는 Adam 을 사용

Back-translation

데이터중에 병렬데이터가 별로 없다
근데 단일언어 데이터는 많다.
그데이터를 사용하자는 방법론이다.

이방법이 효과적인 이유는 perplexity가 높은 단어를 입력으로 받기 때문에
좀 더 유연하게 단어를 생성할수 있기 때문에 성능이 올라간다고 한다.

copied Translation

이것도 단일 언어 코퍼스를 활용하는 방식
source data : target data
두개에 같은 데이터를 넣어 훈련시키는것
적용 하니까 대체로 성능이 향상되서 사용하는것 같다.
이유는 안나와있다.

결과적으로 성능 향상

Achieving Human Parity on Automatic Chinese to English News Translation

MS 의 NMT

MS는 트랜스포머 구조를 사용해 Seq2Seq 구현

듀얼 지도학습, 듀얼 비지도학습

사람도 기사나 논문을 쓸때 초안을 만들고 그 초안을 다듬어서 결과를 만들어낸다. 이를 이용한 기법

인코더에서 문맥 파악후에 첫디코더에서 초안만들어서 두번째 디코더에 입력

실험결과