返回 Blog

Volume 02

为什么复现往往死在回归之前

Field Manual / Replication Infrastructure

论文复现数据治理工程规范

Blog

为什么复现往往死在回归之前

真正拖垮复现项目的,往往不是估计量本身,而是文件命名、变量字典、版本漂移和路径管理这些被低估的工程细节。

3

高风险断点

1

主仓规范

100%

路径显式化

复现工程/2026年3月19日/10 分钟

复现方法编辑

EconAgora Methods Desk

专栏索引

01

回归脚本只是最后一公里,前面的目录治理才是主战场。

02

任何没有变量字典和版本说明的复现项目,本质上都不可审计。

03

先把路径、命名、原始数据保护写进规则,再谈自动化。

研究者通常会把注意力集中在回归表能不能跑出来,但复现项目最常见的失败点,发生在估计量出现之前的文件组织阶段。

路径与版本漂移是最隐蔽的风险

一份脚本今天能跑,不代表三个月后还能跑。只要数据目录、软件版本或中间文件命名发生一次无记录的变化,后续复现者就会开始猜测。

把复现仓库视为产品,而不是附件

一个合格的复现仓库必须解释输入、处理过程和输出之间的关系。README 要告诉别人从哪里开始,数据字典要说明变量如何生成,中间产物要明确能否删除和重建。

  • 原始数据永远只读,清洗后的数据另存目录。
  • 每个脚本只承担单一阶段责任。
  • 任何手动操作都要写回文档。

让 AI 协助复现,但不要让它接管判断

LLM 很擅长整理日志、生成目录树、补齐变量说明,但它不应该替你决定两个看似相近的数据版本是否可互换。AI 适合做压缩与记录,关键边界仍需要研究者确认。