트랜스포머 XAI를 위한 QKV 분해 논문 · 2026
가중치만으로 트랜스포머 예측 실패를 진단하고, 한 레이어 재학습으로 교정. GPT-2 수도 정확도 2/8 → 8/8, 부작용 0, V-only Wv 슬라이스(59만 params)로도 가능.
가중치만으로 트랜스포머 예측 실패를 진단하고, 한 레이어 재학습으로 교정. GPT-2 수도 정확도 2/8 → 8/8, 부작용 0, V-only Wv 슬라이스(59만 params)로도 가능.
BERT 5개 GLUE 태스크 레이어 단위 분석. 세 가지 발견: 분리도 기반 레이어 skip + 보상 분류기로 무손실 압축, FFN의 92% 구조적 / 8% 분류 분해, 오답의 60–93%가 high-confidence error로 CLS 벡터 자체가 본질적 한계.