← 探索筆記
民調不是資料生成——
民調是資料收集。
— Eli McKown-Dawson, Silver Bulletin, 2026
2024.11.04
那個失準的夜晚
2024 年 11 月 4 日,美國大選前夕。一家名叫 Aaru 的矽谷新創用 LLM 合成的「數位雙胞胎」受訪者跑出最終預測:賀錦麗將在密西根、內華達、賓州、威斯康辛四個搖擺州全數領先。同一天,Nate Silver 團隊的 Silver Bulletin 給賀錦麗 48.20% 的勝率;Aaru 給 50.50%。
24 小時後,川普贏下全部四州。Aaru 的模擬世界與真實世界的裂縫第一次被公開驗證。但更值得注意的是後續發展——儘管在關鍵時刻失準,Aaru 仍在 2025 年獲得十億美元級的估值。2026 年 3 月,Axios 報導該公司的一份母職健康調查時,全篇未揭露「受訪者」其實是 LLM 代理。讀者將模型預測誤認為民意觀察。
但這不只是一家公司的故事。這是一個橫跨方法論、科技產業、媒體倫理的結構性問題。當合成民調的估值邏輯與它的技術實效脫鉤,當政策決策者開始把「模擬」當成「觀察」,民主就失去了它校準自己的基礎感測器。這是一個需要政策幕僚正面理解的方法論危機。
PRINCIPLE
民調不可替代原理
這個原理根植於三條獨立的理論傳統——資訊理論、測量哲學、調查統計學——它們各自推導出同一個結論:對當下、隨情境變化的社會意見進行測量的資訊價值,不可透過任何模型(含 LLM 合成樣本)從既有資料重新生成。
核心命題
民調的本質是對真實世界意見分布進行「測量」,而非對分布進行「建模」。任何合成樣本無論技術多精妙,都只是對既有測量的壓縮與再生成,其輸出資訊量上限受制於訓練分布,無法產生新的觀察數據。
綜合自 Shannon (1948), Meehl (1967), Groves et al. (2009), McKown-Dawson (2026)
用白話重述:真人民調是在 T₀ 時刻走進現實世界、問一個未被問過的問題、獲得一筆新資訊;合成民調則是在訓練好的模型中調取過去的答案,重新排列組合成「看似像當下」的回應。Shannon 的資料處理定理早在 1948 年就給出了數學證明——任何確定性轉換不可能增加資訊量。LLM 作為壓縮器,它的輸出必然是訓練分布的子集或近似。
這不是「AI 還不夠好」的問題,這是資訊守恆律的問題。無論模型多大、演算法多精巧,從過去訓練的語料中不可能生成「尚未發生的當下意見」。
KEY NUMBERS
關鍵數字
0
Aaru 給賀錦麗的
最終勝率
2024.11.02 預測 / 實際輸四個搖擺州
0
Public Sentiment Institute
AI 受訪者污染比例
373 真人 + 114 AI 代理混合樣本
0
Aaru 估值規模
(美金)
技術實效與創投定價脫鉤
MEASUREMENT VS MODELING
測量與建模的認識論裂縫
這條裂縫比「準不準」更深。Meehl(1967)在《科學哲學》中早已指出:測量是連結理論構念與可觀察現象的橋樑,建模則是在構念之間推論。兩者屬於不同的認識論層級,不可互相取代。以建模取代測量,等同於用已被編碼的先驗取代觀察事實——這是理論循環論證,而非實證研究。
| 維度 | 真人民調(測量) | 合成樣本(建模) |
| 資訊來源 | T₀ 時刻現實世界的新觀察 | 訓練語料中過去意見分布的壓縮 |
| 資訊上限 | 理論上無上限(可擴充樣本) | 鎖定於訓練分布,不可超越 |
| 誤差結構 | 抽樣/無回應/覆蓋誤差(可量化) | 模型誤設誤差(大小方向不可知) |
| 新議題反應 | 直接問受訪者,獲得真實反應 | 依最接近的舊模式生成,高機率失準 |
| 次群體精度 | 可透過分層抽樣提升精度 | 主流/高教育/西方視角過度代表 |
| 時序漂移 | 每次調查重新測量當下 | 訓練截止後意見無法更新 |
| 可審計性 | 通話錄音、填答時序、裝置指紋 | 黑箱生成過程,無田野證據 |
統計推論的反直覺洞察
Nate Silver 提出一個反直覺結論:當統計推論技術提升,每一筆原始數據的邊際資訊價值反而上升。因為更精巧的推論方法可以從更少的真實數據中萃取更多訊號。這意味著:AI 時代應該更重視、而非更不重視真實抽樣。合成樣本節省的邊際成本,遠小於它在關鍵決策時刻失準的邊際風險。
McKown-Dawson (2026), Silver Bulletin, "AI polls are fake polls"
BOUNDARY CONDITIONS
不是二元對立,而是邊界條件
必須誠實承認:民調不可替代原理不是主張「合成樣本一無是處」,而是主張它有明確的邊界條件。在這條邊界以內,合成樣本可以是有用的工具;跨過邊界,它就從工具變成誤導。政策幕僚與研究設計者需要知道這條線畫在哪裡。
邊界以內(可作為輔助工具):問卷前測、議題初步掃描、意見空間粗略建模、反示播列題(anti-prompt-injection)設計輔助。在這些非決策場景,合成樣本可用來快速探索「哪些群體分歧最大、哪些議題有隱性共識」,作為正式田野前的成本效益工具。
邊界以外(不可替代真人):即時民意追蹤、選舉預測、政策衝擊後的反應調查、新議題意見空間建立、小眾/難抽樣族群的意見探索。在這些決策場景,任何合成樣本的替代都會把「模型預測」錯配為「民意觀察」,兩者在證據份量上有量級差距。
TRANSPARENCY ASYMMETRY
透明度不對稱:結構性風險
真正的危機不在技術本身,而在資訊揭露的結構性不對稱。當合成樣本的揭露成本低、隱藏收益高時,市場會系統性地朝「不揭露」方向偏移。2026 年 3 月 Axios 事件就是典型案例——媒體報導民調時未標註受訪者是 LLM,讀者將合成資料誤認為真實民意數據。這不是個案,這是結構趨勢。
透明度不對稱原理
當「不揭露」可以讓估值翻倍、而「揭露」會打折扣時,公共財(研究可信度)就會被私人利益(新創融資敘事)逐步侵蝕。這不是道德問題,是誘因結構問題——只有制度化的揭露規範,才能對抗這種不對稱。
更棘手的是混合樣本(mixed sample)的出現。Public Sentiment Institute 在 373 名真實受訪者中摻入 114 個 AI 代理(23.00% 污染比例),構成「混合採用」模型中最難評估的灰色地帶。讀者無從判斷結論有多少來自真人、多少來自模型,方法論的可驗證性被實質架空。
TAIWAN IMPLICATIONS
台灣啟示:民意感測器的政策治理
台灣作為高度數位化的民主社會,同時也是民意調查密度極高的市場,需要在合成民調浪潮登陸之前,建立起制度性防線。這不是單一政黨的議題——所有依賴民意回饋來校準政策的公共治理,都需要真實民意感測器的可靠性。以下是三個可直接操作的政策方向。
01
民調揭露規範立法化
比照食品標示原則,推動「民調成分揭露規範」:所有對外發布的民調報告必須標示受訪者來源(真人/AI 代理/混合)、抽樣方法、真實回應率、訓練數據截止日期(如使用 LLM 輔助)。不是禁止合成樣本,而是要求透明。透明度制度化是對抗市場「不揭露偏移」的唯一有效工具。
關鍵指標:揭露合規率
政策工具:法規/公會自律
02
選舉期間「純真人樣本」門檻
在選罷法民調規範中加入「選舉期間合成樣本禁令」:選舉公告日後,所有公開發布的選情民調必須為 100.00% 真人樣本,並提供可審計田野紀錄(通話錄音、填答時序、裝置指紋)。Aaru 在 2024 美國大選的失準已是前車之鑑——選舉是典型的「分布外外推」高風險區,合成樣本的失效成本由整個民主體系承擔。
關鍵指標:選舉民調真實樣本佔比
政策工具:中選會/選罷法修正
03
政策衝擊反應調查的真實抽樣保障
當政府推出重大政策(能源、勞動、移民、兩岸)或面對突發衝擊時,反應調查必須以真人機率抽樣為主。這類「新議題情境」正是合成樣本資訊價值趨近於零的區域。建議行政院層級建立「政策感測基金」,在重大政策前後保障真實田野調查的資源,作為民主回饋迴路的制度性基礎設施。
關鍵指標:重大政策前後民調覆蓋率
政策工具:政策感測基金
CONCLUSION
當工程師說「我們模擬了全球」——
他模擬的是過去的壓縮影子;
唯有真人民調,還在觀察此刻。
民主需要的不是更聰明的模型,
而是更誠實的感測器。
民調不可替代原理不是在保衛一個舊產業,而是在保衛民主體系的基礎回饋迴路。當政策決策失去真實民意的感測器,校準自己的能力就同步消失。AI 時代真正的任務,不是用合成取代真人,而是用更嚴謹的透明度規範、更精巧的統計推論、更有韌性的田野方法——讓每一筆真實觀察的邊際價值最大化。這是政策幕僚可以立即啟動的制度工程。