研究者通常会把注意力集中在回归表能不能跑出来,但复现项目最常见的失败点,发生在估计量出现之前的文件组织阶段。
路径与版本漂移是最隐蔽的风险
一份脚本今天能跑,不代表三个月后还能跑。只要数据目录、软件版本或中间文件命名发生一次无记录的变化,后续复现者就会开始猜测。
把复现仓库视为产品,而不是附件
一个合格的复现仓库必须解释输入、处理过程和输出之间的关系。README 要告诉别人从哪里开始,数据字典要说明变量如何生成,中间产物要明确能否删除和重建。
- 原始数据永远只读,清洗后的数据另存目录。
- 每个脚本只承担单一阶段责任。
- 任何手动操作都要写回文档。
让 AI 协助复现,但不要让它接管判断
LLM 很擅长整理日志、生成目录树、补齐变量说明,但它不应该替你决定两个看似相近的数据版本是否可互换。AI 适合做压缩与记录,关键边界仍需要研究者确认。