Yahoo Web Search

Search results

  1. 13 hours ago · 我们使用复制的 Transformer 块扩展现成的预训练大语言模型,如图 2 所示。. 新添加的块的线性层被零初始化以启用身份映射,仅使用特定领域的语料库进一步调整,而其余块则被冻结。. 调整后,扩展的预训练模型在一般任务和特定领域任务中都表现出色。. 在 ...