@XiuyingWei966 on Backlist

83.

The Renaissance of Sparse Attention (old dilated like Longformer/Longnet, compressed like DeepSeek, query-aware l… (x.com)

The Renaissance of Sparse Attention (old dilated like Longformer/Longnet, compressed like DeepSeek, query-aware like MiniMax) vs. Hot linear attention/recurrence: Two separate lines of long-context scaling. We have a series of works with @

by @XiuyingWei966 (Xiuying Wei) · backlist 2026-06-12 · rubric 82.0