政策风洞 · 预测精度仪器
我们模拟一群真实的人,只问:一记政策冲击带来的分党派意见分化,能不能被预测?每个发光的点是一位真实的美国受访者,按左右政治倾向着色。
⚗ 仅在堕胎 / Dobbs 上校准验证。「pro-choice 份额」是验证靶(Gallup 量的就是它)。其余议题仅作示意。
⚡ 同一道盲测,分人群预测比直接问 GPT 准 3 倍(误差 0.030 vs 0.087)· out-of-sample →1 真实事件 · 2022 Dobbs
按下「回放」,下面这台地球会让这 2,596 位真实美国受访者动起来,把这次真实的立场迁移演给你看 —— 头条数字就是上面 Gallup 实测的真值。
2 回放
图 3 — 大白话判读
02 各子群分布
民主党、独立派、共和党,每一群都横跨从 pro-life 到 pro-choice 的整条光谱。头条数字只数中线(0.5)右侧那块人。一记冲击把所有人往一个方向推,有些人越过中线,头条数字就翻了。
| 子群 | 基线 | 模型 | 模型Δ | Gallup Δ | 判定 |
|---|
所有动员都在 1.0× 时,独立派(坐在 0.5 线上)比民主党跳得多 —— 和现实相反。要对上真实 Dobbs 数字,你得把民主党动员拉到远高于其他。
04 验证账本
方向 ✓ · 基线份额对齐 Gallup ✓ · 差异化符号 out-of-sample 在 2 个独立冲击(移民 + 法院信任)上转移 · 极化差异符号 8/8 · 全折 17/20 = 85%
在分党派绝对 MAE 上,强度加权并不比均匀基线更好。冲击的量级是外生的(由新闻显著度驱动)→ 我们报告一个区间,绝不报一个点。这是我们最引以为傲地如实说出的结果。
05 它生效的范围
仅在堕胎 / DOBBS 上校准与验证。「pro-choice 份额」是验证靶 —— Gallup 量的正是它。Dobbs 是能找到的最干净的自然实验(一记突发冲击 + 分党派事前/事后真值)。模拟器里其余议题仅作示意。真 LLM 扮演那条路在差异化上仍 NO-GO。