NeurIPS / ICLR / ICML
机器学习与大模型核心论文首选目标
如果你的工作强调模型、训练方法、推理机制、Agent 设计、benchmark 或系统性实验,这三类会议通常是最主要的目标。
- 更看重问题定义、方法创新、实验说服力与可复现性
- 论文必须能清楚回答:新方法是什么、为什么有效、对谁有价值
- 写作上要避免大而空的叙述,重点是贡献、实验和分析是否扎实
Top-Tier Paper Workflow
这不是泛泛的“论文准备流程”,而是直接以一篇顶会风格 AI 论文为目标案例来拆解:先看顶会范例与标准架构,再用 Codex Agent、OpenClaw 和其他大模型协同完成一篇 benchmark 论文的写作、修订与评测。
这页最适合谁
NeurIPS / ICLR / ICML
如果你的工作强调模型、训练方法、推理机制、Agent 设计、benchmark 或系统性实验,这三类会议通常是最主要的目标。
ACL / EMNLP / NAACL
如果论文更偏语言任务、评测、检索增强、Agent 在语言场景中的应用或写作辅助,这一类 venue 也很关键。
主要 AI 顶会
这一块不只是为了 SEO,而是为了让用户一眼知道这篇论文案例究竟面向哪些会议体系,以及不同研究方向通常会往哪里投稿。
机器学习与大模型
适合模型方法、Agent 框架、benchmark 设计、训练策略、推理机制和系统性实验。
自然语言处理
适合语言模型、写作辅助、检索增强、工具调用、Agent 在文本任务中的应用与评测。
计算机视觉与多模态
适合视觉模型、多模态 Agent、视觉工具调用、图像与视频 benchmark 研究。
综合人工智能
适合更广义的 AI 问题、推理、规划、多 Agent 系统与方法型论文。
数据挖掘、搜索与 Web
适合面向推荐、搜索、用户行为、数据产品和产业应用的 benchmark 与系统论文。
顶会范例
这几篇论文适合拿来做写作 benchmark 的结构参考。它们并不代表你的论文要模仿一切内容,而是帮助你理解顶会论文如何组织问题、方法、实验和结论。
NeurIPS 2017
适合拿来学习“问题动机 -> 方法设计 -> 实验验证 -> 结论”的经典结构,尤其适合作为架构型论文的参考模板。
查看官方论文页面
NeurIPS 2020
适合学习大模型论文如何讲 scaling、任务覆盖、benchmark 广度与 emergent ability 的叙事方式。
查看官方论文页面
ICLR 2023
适合学习 Agent 论文如何把方法思想、任务设定、交互流程与实际效果连成一个完整故事。
查看官方论文页面
NeurIPS 2023
适合学习工具调用类论文怎样定义数据构造、训练方式、实验任务和对比基线。
查看官方论文页面
标准论文架构
用最短篇幅说明论文解决什么问题、提出了什么、结果好在哪里。
讲清楚问题重要性、现有方法缺口、本文贡献与结果摘要。
把已有方法和自己工作的位置关系说清楚,避免 reviewer 觉得你没读懂领域。
详细说明你的方法、数据、任务设计或 benchmark 结构,让别人知道你到底做了什么。
展示对比基线、实验设置和主结果,确保 reviewer 能看懂结果的可信度。
这部分决定论文是不是成熟,不只是“有效”,还要说明边界、局限和可解释性。
基准案例
工作标题
PaperAgent-Bench: Benchmarking AI Models and Agents on End-to-End Top-Conference Paper Writing
以“写出一篇顶会风格 AI 论文”为目标任务,系统评估不同 AI 模型和 AI Agent 在论文写作流程中的端到端能力。
备选标题
核心研究问题
最小可交付成果
论文样稿
PaperAgent-Bench: Benchmarking AI Models and Agents on End-to-End Top-Conference Paper Writing
We introduce PaperAgent-Bench, a benchmark for evaluating AI models and AI agents on end-to-end top-conference paper writing. Unlike prior evaluations that isolate individual subtasks such as summarization, question answering, or citation retrieval, PaperAgent-Bench measures full-stack research writing capabilities across venue selection, literature collection, related work construction, paper blueprint design, draft generation, and reviewer-style revision. We build a task suite that combines open-web evidence gathering, structured writing constraints, benchmark design requirements, and multi-stage revision signals. We evaluate model-only and agent-based systems under identical writing objectives and compare them on citation accuracy, structure completeness, claim-evidence alignment, experiment readiness, and revision quality. Our study shows that agents with browser access, persistent workspace organization, and explicit multi-step planning produce more complete and internally consistent drafts, but still struggle with citation fidelity, novelty framing, and robust experimental justification. PaperAgent-Bench provides a realistic workload for assessing whether AI systems can support the creation of top-conference-style research papers rather than only assisting with isolated fragments of the writing process.
Contribution 样式
Introduction 样稿
这一段不是抽象模板,而是按顶会论文常见写法给出的引言示例,目标是展示如何把问题、缺口、方法和结果在开头讲清楚。
Paragraph 1
Recent progress in large language models has motivated a wave of systems that aim to support research writing, literature review, tool use, and multi-step task planning. However, most existing evaluations still focus on isolated subtasks such as summarization, citation retrieval, outline generation, or question answering. These settings do not fully capture what is required to write a top-conference-style AI paper, where success depends on maintaining coherence across venue selection, literature coverage, problem framing, benchmark design, draft writing, and multi-round revision.
Paragraph 2
At the same time, the rise of agent systems suggests that writing support may benefit from more than stronger base models alone. Agents can combine planning, browser access, persistent workspaces, iterative revision, and external tools to organize a longer research workflow. Yet it remains unclear whether these capabilities translate into better paper writing outcomes, or whether they merely produce longer but not necessarily more reliable drafts.
Paragraph 3
To address this gap, we introduce PaperAgent-Bench, a benchmark for end-to-end top-conference paper writing. Rather than evaluating one fragment of the process, PaperAgent-Bench measures whether a system can move from paper framing to literature organization, from blueprint creation to section drafting, and from reviewer-style critique to revision. Our benchmark is designed around realistic research-writing artifacts, including related-work matrices, contribution statements, benchmark design documents, experiment plans, and revised paper drafts.
Paragraph 4
We evaluate model-only and agent-based systems under the same writing objective and compare them across citation accuracy, structure completeness, claim-evidence alignment, experiment readiness, and revision quality. Our results suggest that agents with browser access and explicit workflow management produce stronger long-form outputs, but still face persistent weaknesses in citation fidelity, novelty framing, and robust experimental grounding.
Related Work Matrix
这张矩阵能直接拿去做写作准备,也能拿来比较不同模型或 Agent 是否真正理解了论文所处的位置。
| 方向 | 代表工作 | 现有缺口 | 我们的关系 |
|---|---|---|---|
| 大模型写作辅助 | Language Models are Few-Shot Learners, instruction-tuned writing assistants | 多数工作强调生成能力,但没有系统评估一整篇顶会论文的结构、引用和 revision 质量。 | PaperAgent-Bench 将写作任务从“生成一段文字”扩展到端到端论文产出。 |
| Agent 推理与行动 | ReAct, tool-using agents, browser-enabled agents | 已有工作展示 Agent 可调用工具和规划任务,但很少把能力落到完整研究写作 benchmark。 | PaperAgent-Bench 检验 Agent 的工具使用与工作区能力是否真的提升论文写作质量。 |
| 工具调用与外部检索 | Toolformer, retrieval-augmented systems, search-enabled copilots | 这些方法改善了外部信息接入,但不保证结果能形成可提交的学术论文结构。 | PaperAgent-Bench 把检索、引用、文献组织和章节写作放进统一评测框架。 |
| 代码与软件工程 benchmark | SWE-bench, agent software engineering evaluations | 已有 benchmark 已证明端到端复杂任务评测的重要性,但研究写作仍缺少同等级别任务集。 | PaperAgent-Bench 将这种端到端评测思想迁移到 AI 论文写作场景。 |
Main Results
这里先给一张 benchmark 结果表样稿。正式课程里可以继续扩成不同模型、不同 Agent 配置和多轮 revision 的完整对比。
| 系统 | Citation | Structure | Alignment | Readiness | Revision |
|---|---|---|---|---|---|
| Model-Only Baseline | 62.4 | 71.8 | 58.6 | 54.1 | 49.7 |
| Model + Browser Retrieval | 74.3 | 79.2 | 66.8 | 63.5 | 58.9 |
| Agent + Browser + Workspace | 81.7 | 88.4 | 75.6 | 72.9 | 69.8 |
Agent 写作流程
这套流程的重点不只是“生成文字”,而是让 Agent 参与资料、结构、章节、修订和 benchmark 评测的整个链路。
这一步决定后面写出来的是不是“顶会论文”,而不是一篇普通项目报告。
Agent 负责
人工负责
阶段产出
目标 venue 清单、范例论文库、问题定义文档
顶会论文最容易被质疑的地方之一就是 related work 没读透、对比不充分。
Agent 负责
人工负责
阶段产出
文献池、related work 矩阵、必引论文名单
没有蓝图直接让 Agent 写论文,最后很容易出现结构散、claim 不稳和实验缺口。
Agent 负责
人工负责
阶段产出
论文章节蓝图、claim matrix、图表计划
顶会写作不是一次性生成全文,而是章节分开写,再反复对齐和收束。
Agent 负责
人工负责
阶段产出
章节级初稿、图表草案、实验待补列表
真正拉开模型和 Agent 差距的,不是能不能写草稿,而是能不能高质量修订。
Agent 负责
人工负责
阶段产出
revision plan、引用核查清单、可提交版本初稿
Benchmark 模板
benchmark_name: PaperAgent-Bench
objective: 评估 AI 模型与 AI Agent 端到端完成顶会论文写作的能力
target_paper:
title: PaperAgent-Bench: Benchmarking AI Models and Agents on End-to-End Top-Conference Paper Writing
venue_family: [NeurIPS, ICLR, ICML, ACL]
tasks:
- venue_and_gap_definition
- literature_collection
- related_work_matrix
- paper_blueprint_generation
- introduction_drafting
- method_and_benchmark_section
- experiment_plan
- reviewer_style_revision
metrics:
- citation_accuracy
- structure_completeness
- claim_evidence_alignment
- novelty_framing
- experiment_readiness
- revision_quality
systems:
- model_only
- agent_plus_browser
- agent_plus_browser_plus_workspace建议评分维度
选题与问题定义
能否把题目收束成一个 reviewer 能理解、且实验能验证的问题。
文献覆盖与引用准确性
是否找到了真正相关的工作,引用是否存在张冠李戴或虚构。
论文结构完整性
标题、摘要、引言、related work、method、experiment、analysis、limitations 是否完整且顺序合理。
claim-evidence alignment
每一个核心结论是否有实验、图表或分析支持,而不是只有措辞。
benchmark / 方法描述清晰度
任务定义、输入输出、数据来源、评价协议和对比基线是否写清楚。
revision 能力
收到 reviewer 式反馈后,系统能否稳定修订并保持前后文一致。