Semi-supervised Named Entity Recognition in noisy-text Paper review
NER 할때 주로 쓰는 인코딩 방식은 Begin-Inside-Outside (BIO)방식이다.
BIEOU = BILOU 두개 같은 표현
Begin-Inside-End-Outside-Unigram (BIEOU)
Begin-Inside-Last-Outside-Unigram (BILOU)
HMM 정리 https://lovit.github.io/nlp/2018/09/11/hmm_based_tagger/
CRF 정리 https://lovit.github.io/nlp/2018/09/13/crf_based_tagger/
https://ratsgo.github.io/machine learning/2017/11/10/CRF/
introduction
기존의 NER방식은 적절한 구문으로 이루어진 뉴스 코퍼스 데이터를 기반으로 구축됨.
하지만 이렇게 하면 트위터같이 노이즈가 심한 데이터에 대해서는 정확한 결과를 얻기 힘듦
이 논문은 CRF를 기반으로 하고 BIEOU인코딩 체계를 사용하였고 각종 Feature Engineering을 제안 하였다.
WNUT 2016 NER 출전 모델 github 에 공개되어 있다.
https://github.com/napsternxg/TwitterNER.
ST는 얘네가 전에 냈던 WNUT 2016 NER 대회에 제출했던거
SI는 얘네가 제시했던 semi-supervised 한 NER모델 → 이에대해 개선사항을 제시
rf → random feature
data
WNUT 2016 Dataset
개체명을 가진 트위터 text데이터
3. Feature Engineering
- Regex features [RF]
- Gazetteers [GZ]
- Word representations [WR]
- Word clusters [WC]
- Additional features
- Random up-sampling with feature dropout [RSFD]
4. NER classification algorithm
CRF 모델사용 모델은 L2 norm, SGD사용해서 훈련시킴
[ST]
lexical tokens [LT], Regex features [RF], Random up-sampling with feature dropout [RSFD] 사용 해서 supervised learning함
[SI]는 ST의 문제점을 개선한것
ST는 한가지 단점이 있었는데 이는 overfitting 이다.
이 overfitting을 막기 위해 semi-supervised를 사용했다.
unlabeled data → train, dev, test병합해서 만든 레이블링되지 않은 데이터
unlabeled data를 word embeding후 클러스터링 해서 기존의 데이터에 추가 학습
→ 트윗에 있는 토큰이 증가 →레이블이 지정되지 않은 새로운 테스트 데이터를 사용하여 단어 표현과 클러스터를 개선
→ unlabeled data는 regularization factor 역할을 하여 훈련 데이터에 과적합되는 것을 방지한다.
[TDTE]는 train, dev, test의 text를 병합
[TD] 테스트 데이터를 뺀 나머지 train dev text 병합
[SI]에 대한 개선사항
→gazetteer [GZ] 기능을 추가하면 분류 정확도가 크게 향상
[WCBTP] → brown clustesrs
[WRFTC] → fine-tuned word representations based clusters
[WCCC] → Clark clusters
위의 4개 추가 하니까 F1score 향상
Leave a comment