爆品样例

Top-Tier Paper Workflow

用 Agent 写一篇
顶会级 AI 论文

这不是泛泛的“论文准备流程”,而是直接以一篇顶会风格 AI 论文为目标案例来拆解:先看顶会范例与标准架构,再用 Codex Agent、OpenClaw 和其他大模型协同完成一篇 benchmark 论文的写作、修订与评测。

顶会范例 4 篇标准结构 6 部分写作阶段 5 轮benchmark 维度 6 项

这页最适合谁

想把 Agent 真正用到研究写作、而不是只让它润色句子的人。
准备做 AI 模型或 AI Agent benchmark,希望有一个高难度、完整的任务样例。
想用一篇真正像顶会论文的案例,做课程亮点和能力展示的人。

NeurIPS / ICLR / ICML

机器学习与大模型核心论文首选目标

如果你的工作强调模型、训练方法、推理机制、Agent 设计、benchmark 或系统性实验,这三类会议通常是最主要的目标。

  • 更看重问题定义、方法创新、实验说服力与可复现性
  • 论文必须能清楚回答:新方法是什么、为什么有效、对谁有价值
  • 写作上要避免大而空的叙述,重点是贡献、实验和分析是否扎实

ACL / EMNLP / NAACL

语言模型、NLP 任务与应用研究的重要阵地

如果论文更偏语言任务、评测、检索增强、Agent 在语言场景中的应用或写作辅助,这一类 venue 也很关键。

  • 更强调任务定义、数据设计、实验协议与文本分析
  • 适合 benchmark、推理、工具调用、写作辅助与应用型研究
  • 需要把应用价值和实验设计一起讲清楚,不能只有故事没有证据

主要 AI 顶会

把主要顶会名字和适用方向一次写清楚

这一块不只是为了 SEO,而是为了让用户一眼知道这篇论文案例究竟面向哪些会议体系,以及不同研究方向通常会往哪里投稿。

机器学习与大模型

NeurIPS、ICLR、ICML、COLM、AISTATS

适合模型方法、Agent 框架、benchmark 设计、训练策略、推理机制和系统性实验。

自然语言处理

ACL、EMNLP、NAACL、COLING

适合语言模型、写作辅助、检索增强、工具调用、Agent 在文本任务中的应用与评测。

计算机视觉与多模态

CVPR、ICCV、ECCV

适合视觉模型、多模态 Agent、视觉工具调用、图像与视频 benchmark 研究。

综合人工智能

AAAI、IJCAI、UAI

适合更广义的 AI 问题、推理、规划、多 Agent 系统与方法型论文。

数据挖掘、搜索与 Web

KDD、WWW、SIGIR、WSDM

适合面向推荐、搜索、用户行为、数据产品和产业应用的 benchmark 与系统论文。

顶会范例

先看好论文长什么样,再开始让 Agent 动手写

这几篇论文适合拿来做写作 benchmark 的结构参考。它们并不代表你的论文要模仿一切内容,而是帮助你理解顶会论文如何组织问题、方法、实验和结论。

标准论文架构

标题 + 摘要

用最短篇幅说明论文解决什么问题、提出了什么、结果好在哪里。

  • 标题要能体现对象、方法或 benchmark 范围
  • 摘要要包含问题、方法、实验和结果,不要只有愿景
  • 摘要里的 claim 后文都必须能被实验和分析支撑

引言

讲清楚问题重要性、现有方法缺口、本文贡献与结果摘要。

  • 前两段解决“为什么这个问题重要”
  • 中间解决“现有工作差在哪”
  • 结尾用 3 到 5 点列清 contribution

Related Work

把已有方法和自己工作的位置关系说清楚,避免 reviewer 觉得你没读懂领域。

  • 不要只按时间罗列,要按任务、方法或评测维度组织
  • 突出与自己最相近工作的差异
  • 让 related work 和 introduction 的 problem gap 对齐

Method / Benchmark Design

详细说明你的方法、数据、任务设计或 benchmark 结构,让别人知道你到底做了什么。

  • 定义清楚任务输入输出与评价对象
  • 说明数据来源、任务拆分和实验协议
  • 图、表、流程图优先于纯文字堆砌

Experiment Setup + Main Results

展示对比基线、实验设置和主结果,确保 reviewer 能看懂结果的可信度。

  • 基线选择要合理,不能刻意挑弱对手
  • 指标、数据集、prompt 或工具版本要交代清楚
  • 主表格回答“是否更好”,分析回答“为什么更好或何时失效”

Analysis / Ablation / Limitations

这部分决定论文是不是成熟,不只是“有效”,还要说明边界、局限和可解释性。

  • 至少有一组 ablation 或 error analysis
  • 说明方法在哪些任务、数据或设置下不稳定
  • 局限性、伦理与复现信息不要只在最后敷衍提一句

基准案例

先定义一篇真正要写出来的 benchmark 论文

工作标题

PaperAgent-Bench: Benchmarking AI Models and Agents on End-to-End Top-Conference Paper Writing

以“写出一篇顶会风格 AI 论文”为目标任务,系统评估不同 AI 模型和 AI Agent 在论文写作流程中的端到端能力。

备选标题

  • ResearchFlow-Bench: Evaluating AI Agents for Full-Stack Paper Development
  • Write2Top: A Benchmark for AI Models and Agents on Top-Tier Paper Authoring

核心研究问题

  • 不同模型或 Agent 在文献收集、related work 整理、结构生成和初稿写作上差异有多大?
  • 接入 Browser、代码执行、工作区记忆与多步规划后,Agent 是否比单轮大模型更稳定?
  • 在引用准确性、结构完整性、claim-evidence alignment 和 revision 质量上,哪类系统更强?

最小可交付成果

  • 顶会论文范例库与结构模板
  • 论文写作任务集:选题、文献池、矩阵、提纲、章节初稿、revision
  • 一套评估 rubric:结构、事实、引用、实验、分析、修订
  • 模型与 Agent 的横向评测结果与失败案例分析

论文样稿

先给出一个可以继续扩写的标题与摘要

PaperAgent-Bench: Benchmarking AI Models and Agents on End-to-End Top-Conference Paper Writing

We introduce PaperAgent-Bench, a benchmark for evaluating AI models and AI agents on end-to-end top-conference paper writing. Unlike prior evaluations that isolate individual subtasks such as summarization, question answering, or citation retrieval, PaperAgent-Bench measures full-stack research writing capabilities across venue selection, literature collection, related work construction, paper blueprint design, draft generation, and reviewer-style revision. We build a task suite that combines open-web evidence gathering, structured writing constraints, benchmark design requirements, and multi-stage revision signals. We evaluate model-only and agent-based systems under identical writing objectives and compare them on citation accuracy, structure completeness, claim-evidence alignment, experiment readiness, and revision quality. Our study shows that agents with browser access, persistent workspace organization, and explicit multi-step planning produce more complete and internally consistent drafts, but still struggle with citation fidelity, novelty framing, and robust experimental justification. PaperAgent-Bench provides a realistic workload for assessing whether AI systems can support the creation of top-conference-style research papers rather than only assisting with isolated fragments of the writing process.

Contribution 样式

顶会论文常见的贡献点写法

  • 提出 PaperAgent-Bench,用一套端到端任务评估 AI 模型与 AI Agent 的顶会论文写作能力。
  • 把写作任务拆成 venue 选择、文献池、related work、蓝图、章节草稿、revision 六个可比较阶段。
  • 设计结构完整性、引用准确性、claim-evidence alignment、实验可提交度和 revision 质量等评估维度。
  • 比较 model-only 与 agent-plus-browser-plus-workspace 两类系统,分析它们在长流程研究写作中的优势与失败模式。

Introduction 样稿

让用户直接看到一篇 benchmark 论文该怎么开篇

这一段不是抽象模板,而是按顶会论文常见写法给出的引言示例,目标是展示如何把问题、缺口、方法和结果在开头讲清楚。

Paragraph 1

Recent progress in large language models has motivated a wave of systems that aim to support research writing, literature review, tool use, and multi-step task planning. However, most existing evaluations still focus on isolated subtasks such as summarization, citation retrieval, outline generation, or question answering. These settings do not fully capture what is required to write a top-conference-style AI paper, where success depends on maintaining coherence across venue selection, literature coverage, problem framing, benchmark design, draft writing, and multi-round revision.

Paragraph 2

At the same time, the rise of agent systems suggests that writing support may benefit from more than stronger base models alone. Agents can combine planning, browser access, persistent workspaces, iterative revision, and external tools to organize a longer research workflow. Yet it remains unclear whether these capabilities translate into better paper writing outcomes, or whether they merely produce longer but not necessarily more reliable drafts.

Paragraph 3

To address this gap, we introduce PaperAgent-Bench, a benchmark for end-to-end top-conference paper writing. Rather than evaluating one fragment of the process, PaperAgent-Bench measures whether a system can move from paper framing to literature organization, from blueprint creation to section drafting, and from reviewer-style critique to revision. Our benchmark is designed around realistic research-writing artifacts, including related-work matrices, contribution statements, benchmark design documents, experiment plans, and revised paper drafts.

Paragraph 4

We evaluate model-only and agent-based systems under the same writing objective and compare them across citation accuracy, structure completeness, claim-evidence alignment, experiment readiness, and revision quality. Our results suggest that agents with browser access and explicit workflow management produce stronger long-form outputs, but still face persistent weaknesses in citation fidelity, novelty framing, and robust experimental grounding.

Related Work Matrix

相关工作矩阵不是列文献,而是明确我们和谁对齐、和谁拉开

这张矩阵能直接拿去做写作准备,也能拿来比较不同模型或 Agent 是否真正理解了论文所处的位置。

方向代表工作现有缺口我们的关系
大模型写作辅助Language Models are Few-Shot Learners, instruction-tuned writing assistants多数工作强调生成能力,但没有系统评估一整篇顶会论文的结构、引用和 revision 质量。PaperAgent-Bench 将写作任务从“生成一段文字”扩展到端到端论文产出。
Agent 推理与行动ReAct, tool-using agents, browser-enabled agents已有工作展示 Agent 可调用工具和规划任务,但很少把能力落到完整研究写作 benchmark。PaperAgent-Bench 检验 Agent 的工具使用与工作区能力是否真的提升论文写作质量。
工具调用与外部检索Toolformer, retrieval-augmented systems, search-enabled copilots这些方法改善了外部信息接入,但不保证结果能形成可提交的学术论文结构。PaperAgent-Bench 把检索、引用、文献组织和章节写作放进统一评测框架。
代码与软件工程 benchmarkSWE-bench, agent software engineering evaluations已有 benchmark 已证明端到端复杂任务评测的重要性,但研究写作仍缺少同等级别任务集。PaperAgent-Bench 将这种端到端评测思想迁移到 AI 论文写作场景。

Main Results

主实验表要让用户一眼看懂:谁更完整,谁更靠谱

这里先给一张 benchmark 结果表样稿。正式课程里可以继续扩成不同模型、不同 Agent 配置和多轮 revision 的完整对比。

系统CitationStructureAlignmentReadinessRevision
Model-Only Baseline62.471.858.654.149.7
Model + Browser Retrieval74.379.266.863.558.9
Agent + Browser + Workspace81.788.475.672.969.8

Agent 写作流程

再开始让 AI Agent 真的写这篇论文

这套流程的重点不只是“生成文字”,而是让 Agent 参与资料、结构、章节、修订和 benchmark 评测的整个链路。

阶段 1:先锁定 venue、范例和研究边界

这一步决定后面写出来的是不是“顶会论文”,而不是一篇普通项目报告。

Agent 负责

  • 收集目标 venue 的典型论文样式与常见结构
  • 从范例论文里抽出标题模式、contribution 写法和实验展示方式
  • 生成目标问题、关键词和排除项初稿

人工负责

  • 确认最终要投的 venue 类型与研究方向
  • 判断题目是否足够聚焦,是否真的值得写
  • 明确论文必须回答的核心问题与成功标准

阶段产出

目标 venue 清单、范例论文库、问题定义文档

阶段 2:搭建文献池与 related work 矩阵

顶会论文最容易被质疑的地方之一就是 related work 没读透、对比不充分。

Agent 负责

  • 用 OpenClaw Browser 抓论文页、项目页、官方代码和摘要
  • 把文献按综述、方法、benchmark、数据集和应用分组
  • 生成对比矩阵:任务、方法、数据、指标、优点、局限

人工负责

  • 筛掉表面相关但实际无关的论文
  • 决定哪些工作必须在引言和相关工作中点名比较
  • 补充最能证明 gap 的关键引用

阶段产出

文献池、related work 矩阵、必引论文名单

阶段 3:先写论文蓝图,再写正文

没有蓝图直接让 Agent 写论文,最后很容易出现结构散、claim 不稳和实验缺口。

Agent 负责

  • 根据目标 venue 生成章节大纲和每节要回答的问题
  • 把 contribution、主表格、主要图示和分析段落提前规划
  • 生成 abstract / intro / method / experiment 的写作骨架

人工负责

  • 确认贡献点是否真实、是否值得放进标题和摘要
  • 删掉只好看但没有证据的表达
  • 决定主表格、对比基线和实验重点

阶段产出

论文章节蓝图、claim matrix、图表计划

阶段 4:按章节让 Agent 起草论文

顶会写作不是一次性生成全文,而是章节分开写,再反复对齐和收束。

Agent 负责

  • 先起草引言:问题、gap、贡献、结果摘要
  • 再起草 method / benchmark design:任务、数据、流程、评价协议
  • 最后起草 experiment、analysis、limitations 和 appendix 待补项

人工负责

  • 检查每一节是否过度承诺、是否和真实实验一致
  • 决定术语、图表命名和叙事节奏
  • 保证全文语气与逻辑统一,而不是多段拼接痕迹

阶段产出

章节级初稿、图表草案、实验待补列表

阶段 5:做 reviewer 式检查与 revision

真正拉开模型和 Agent 差距的,不是能不能写草稿,而是能不能高质量修订。

Agent 负责

  • 按 reviewer 视角检查引用、结构、事实和实验解释
  • 生成 major concerns、minor concerns 和 revision plan
  • 输出多轮修订版本并保留版本差异

人工负责

  • 决定哪些 criticism 成立,哪些需要补实验或改 claim
  • 把结论压实,删掉无法证实的句子
  • 最终统一摘要、引言、结论和主实验表述

阶段产出

revision plan、引用核查清单、可提交版本初稿

Benchmark 模板

用这篇论文直接做 AI 模型与 Agent 的 benchmark

benchmark_name: PaperAgent-Bench
objective: 评估 AI 模型与 AI Agent 端到端完成顶会论文写作的能力
target_paper:
  title: PaperAgent-Bench: Benchmarking AI Models and Agents on End-to-End Top-Conference Paper Writing
  venue_family: [NeurIPS, ICLR, ICML, ACL]
tasks:
  - venue_and_gap_definition
  - literature_collection
  - related_work_matrix
  - paper_blueprint_generation
  - introduction_drafting
  - method_and_benchmark_section
  - experiment_plan
  - reviewer_style_revision
metrics:
  - citation_accuracy
  - structure_completeness
  - claim_evidence_alignment
  - novelty_framing
  - experiment_readiness
  - revision_quality
systems:
  - model_only
  - agent_plus_browser
  - agent_plus_browser_plus_workspace

建议评分维度

  • 选题与问题定义

    能否把题目收束成一个 reviewer 能理解、且实验能验证的问题。

  • 文献覆盖与引用准确性

    是否找到了真正相关的工作,引用是否存在张冠李戴或虚构。

  • 论文结构完整性

    标题、摘要、引言、related work、method、experiment、analysis、limitations 是否完整且顺序合理。

  • claim-evidence alignment

    每一个核心结论是否有实验、图表或分析支持,而不是只有措辞。

  • benchmark / 方法描述清晰度

    任务定义、输入输出、数据来源、评价协议和对比基线是否写清楚。

  • revision 能力

    收到 reviewer 式反馈后,系统能否稳定修订并保持前后文一致。

继续学习

如果你准备把这套论文 benchmark 真正跑起来,建议继续看相关课程里的工作区组织、Browser 使用和多步任务维护方法。

查看相关课程