据DeepSeek答复至公报记者发问,“常识蒸馏”(Knowledge Distillation)是一种被普遍承认且正当的呆板进修技巧,其自身并不形成“偷盗”。就技巧实质而言,“常识蒸馏”属常识通报,而非覆製。其中心道理是常识蒸馏经由过程让小型模子(先生模子)进修年夜型模子(老师模子)的“常识”(如输出概率散布或旁边特点表现),而非直接覆製代码或参数。这相似于先生向教师进修解题思绪,而不是剽窃谜底。 须要指出的是,蒸馏出来的终极模子仍需自力练习,其参数跟构造可能与老师模子完整差别,属于一种优化方式,而非偷盗行动。就行业实际而言,这是普遍接收的技巧手腕,属开源社区惯例操纵。现实上,很多开源模子明白容许蒸馏,乃至供给蒸馏东西链。OpenAI的GPT-3曾被第三方经由过程API输出而蒸馏出小型模子(如美国科企Hugging Face的社区名目),这些案例均未被认定为“偷盗”,而是技巧翻新表现。