About 105,000 results
Open links in new tab
  1. 如何最简单、通俗地理解Transformer? - 知乎

    这个东西很难说到底有没有一种简单、通俗地理解方式。 你看这个问题下面现在有60多个回答,我大概翻看了一下,几乎都是长篇大论,原因很简单,Transformer就不是简单几句话就能讲得 …

  2. 一文了解Transformer全貌(图解Transformer)

    Sep 26, 2025 · Transformer整体结构(输入两个单词的例子) 为了能够对Transformer的流程有个大致的了解,我们举一个简单的例子,还是以之前的为例,将法语"Je suis etudiant"翻译成英 …

  3. Transformer模型详解(图解最完整版) - 知乎

    Transformer 的整体结构,左图Encoder和右图Decoder 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体 …

  4. Transformer 和 cnn 是两条差异巨大的路径吗? - 知乎

    卷积和注意力:AI 领域的“分手还是复合”剧本? Transformer 和 CNN,真的是两条差异巨大的路径吗? 两者设计逻辑不一样,但目标一致——让机器看懂东西 CNN 是图像领域的老炮,靠“局 …

  5. 如何从浅入深理解 Transformer? - 知乎

    如果说「从浅入深」理解 Transformer,逐渐要到深的那部分,答案肯定短不了,希望你有耐心看完。我认为分三步: 第一步,了解 Transformer 出现之前的几个主流语言模型,包括 N 元文 …

  6. MoE和transformer有什么区别和联系? - 知乎

    01. Transformer:像“万能翻译官”的神经网络 Transformer 是当今AI大模型(如ChatGPT)的核心架构,最初用于机器翻译,核心是自注意力机制(Self-Attention),能同时分析句子中所有词 …

  7. 如何评价 Meta 新论文 Transformers without Normalization? - 知乎

    Transformers without Normalization?论文链接:https://arxiv.org/pdf/2503.10622

  8. Transformer模型怎么用于regression的问题? - 知乎

    Transformer模型火了这么久,但都是针对分类问题的,另一类常见的预测问题是递归,怎么把transformer用于…

  9. Transformer不是编解码器都有的吗?为什么会发展出仅 解/编 码器 …

    原始的Transformer架构确实包含编码器和解码器,后来发展出仅解码器和仅编码器模型,主要是为了更好地适应不同任务需求 。 三者的区别如下 : - 功能:编码器-解码器架构用于文本到文本 …

  10. 有没有比较详细通俗易懂的 Transformer 教程? - 知乎

    )。 这篇文章旨在拆解Transformer的工作原理以及实现方式,没有针对特定任务。在后续文章中,我们将尝试基于Transformer结构从零开始实现一个语音识别系统(挖坑.jpg),以 …