분야

트랜스포머

작업

BERT 5개 GLUE 태스크 레이어 단위 분석. 세 가지 발견: 분리도 기반 레이어 skip + 보상 분류기로 무손실 압축, FFN의 92% 구조적 / 8% 분류 분해, 오답의 60–93%가 high-confidence error로 CLS 벡터 자체가 본질적 한계.