Transformer: Attention is all you need 논문 리뷰
https://reniew.github.io/43/ https://www.theteams.kr/teams/2829/post/69500 이 논문에서는 attention만으로 모든 모델을 만들었다 기존의 모델들처럼 rnn, cnn을 사용하지 않고 attention 만 사용해서 연산량이 매우 줄었다(성능이 매우 높게 나온다) transformer라고도 불린다 Introduction rnn은 기계번역이나 언어 모델링 등 sequence를 다루기 위한 모델로 많이 사용되고 있다. 하지만 rnn을 활용한 모델은 문장이 길어질수록 성능이 떨어지고 memory의 제약으로 batch에도 제한이 생길 수 있다. 또한 단순한 sequence to sequence 모델은 sequence의 alignment(순서, 정렬, 일직..
2021.01.28