新闻中心

话你知/“常识蒸馏”

日期：2025-01-31 09:04 浏览：

据DeepSeek答复至公报记者发问，“常识蒸馏”（Knowledge Distillation）是一种被普遍承认且正当的呆板进修技巧，其自身并不形成“偷盗”。就技巧实质而言，“常识蒸馏”属常识通报，而非覆製。其中心道理是常识蒸馏经由过程让小型模子（先生模子）进修年夜型模子（老师模子）的“常识”（如输出概率散布或旁边特点表现），而非直接覆製代码或参数。这相似于先生向教师进修解题思绪，而不是剽窃谜底。须要指出的是，蒸馏出来的终极模子仍需自力练习，其参数跟构造可能与老师模子完整差别，属于一种优化方式，而非偷盗行动。就行业实际而言，这是普遍接收的技巧手腕，属开源社区惯例操纵。现实上，很多开源模子明白容许蒸馏，乃至供给蒸馏东西链。OpenAI的GPT-3曾被第三方经由过程API输出而蒸馏出小型模子（如美国科企Hugging Face的社区名目），这些案例均未被认定为“偷盗”，而是技巧翻新表现。

新闻中心

﻿话你知/“常识蒸馏”

话你知/“常识蒸馏”