Anthropic publica un paper sobre interpretabilidad mecanicista en modelos de 1M tokens · Subehilo