Emerging Properties in Self-Supervised Vision Transformers
https://github.com/facebookresearch/dino
DINO and PAWS: Advancing the state of the art in computer vision
https://youtu.be/8I1RelnsgMw
2021년 ICCV에 Facebook AI Research팀에서 발표한 논문
Self-distillation with no labels ->DINO 라는 학습 방법을 제시
🔑Keyword
- (1) Cross-entropy loss
- (2) multi-crop
- (3) Teacher Momentum (mean teacher)
- (4) centering, sharpening
Introduction
❓Question
- SSL(Self-Supervised Learning)을 ViT에 적용해보면 어떨까 라는 질문에서 시작
- 즉, Vision Transformers (ViT)에 대한 self-supervised pretraining의 잠재력
- Convolutional networks (convnets)에서의 성공적인 self-supervised 방법들에서 영감을 얻어, 이 연구는 ViT features에 대한 self-supervised pretraining의 영향을 이해
Background: Transformer
Motivation: NLP SOTA
Background: Knowlege Distillation
Conclusion