← 探索筆記
社會指標

民意不在模型裡

民調不可替代原理——AI 時代的合成樣本能壓縮過去,卻無法觀察此刻;當政策決策依賴「數位雙胞胎」,民主就失去了它最後的感測器

⏲ 約 15 分鐘 2026.04.15
Scroll
民調不是資料生成——
民調是資料收集。 — Eli McKown-Dawson, Silver Bulletin, 2026
2024.11.04

那個失準的夜晚

2024 年 11 月 4 日,美國大選前夕。一家名叫 Aaru 的矽谷新創用 LLM 合成的「數位雙胞胎」受訪者跑出最終預測:賀錦麗將在密西根、內華達、賓州、威斯康辛四個搖擺州全數領先。同一天,Nate Silver 團隊的 Silver Bulletin 給賀錦麗 48.20% 的勝率;Aaru 給 50.50%。

24 小時後,川普贏下全部四州。Aaru 的模擬世界與真實世界的裂縫第一次被公開驗證。但更值得注意的是後續發展——儘管在關鍵時刻失準,Aaru 仍在 2025 年獲得十億美元級的估值。2026 年 3 月,Axios 報導該公司的一份母職健康調查時,全篇未揭露「受訪者」其實是 LLM 代理。讀者將模型預測誤認為民意觀察。

但這不只是一家公司的故事。這是一個橫跨方法論、科技產業、媒體倫理的結構性問題。當合成民調的估值邏輯與它的技術實效脫鉤,當政策決策者開始把「模擬」當成「觀察」,民主就失去了它校準自己的基礎感測器。這是一個需要政策幕僚正面理解的方法論危機。

PRINCIPLE

民調不可替代原理

這個原理根植於三條獨立的理論傳統——資訊理論、測量哲學、調查統計學——它們各自推導出同一個結論:對當下、隨情境變化的社會意見進行測量的資訊價值,不可透過任何模型(含 LLM 合成樣本)從既有資料重新生成

核心命題

民調的本質是對真實世界意見分布進行「測量」,而非對分布進行「建模」。任何合成樣本無論技術多精妙,都只是對既有測量的壓縮與再生成,其輸出資訊量上限受制於訓練分布,無法產生新的觀察數據。

綜合自 Shannon (1948), Meehl (1967), Groves et al. (2009), McKown-Dawson (2026)

用白話重述:真人民調是在 T₀ 時刻走進現實世界、問一個未被問過的問題、獲得一筆新資訊;合成民調則是在訓練好的模型中調取過去的答案,重新排列組合成「看似像當下」的回應。Shannon 的資料處理定理早在 1948 年就給出了數學證明——任何確定性轉換不可能增加資訊量。LLM 作為壓縮器,它的輸出必然是訓練分布的子集或近似。

這不是「AI 還不夠好」的問題,這是資訊守恆律的問題。無論模型多大、演算法多精巧,從過去訓練的語料中不可能生成「尚未發生的當下意見」。

KEY NUMBERS

關鍵數字

0
Aaru 給賀錦麗的
最終勝率
2024.11.02 預測 / 實際輸四個搖擺州
0
Public Sentiment Institute
AI 受訪者污染比例
373 真人 + 114 AI 代理混合樣本
0
Aaru 估值規模
(美金)
技術實效與創投定價脫鉤
真人民調 T₀ . 100.00% [ 測量 ] LLM 壓縮 ≤ 80.00% [ 壓縮 ] 合成樣本 ≤ 60.00% [ 再生成 ] 新議題情境 ≈ 0.00% [ 分布外外推 ] 0% 100% 資訊價值衰減階梯 Information Decay in Synthetic Reproduction
Stage 01 . 測量
真人民調 T₀:100.00%
在 T₀ 時刻走進現實世界,用機率抽樣接觸真實受訪者。每一筆回答都是獨立於研究者先驗的新觀察——這是唯一一個「意見分布被觀察而非被假設」的環節。資訊價值定義為 100.00%,因為它是所有後續壓縮與再生成的原始來源。
獨立測量:產生新資訊
Stage 02 . 壓縮
LLM 訓練:≤ 80.00%
大量真人民調資料、社群文本、新聞被餵入 LLM。但壓縮必然有損——Shannon 的資料處理定理保證:經過任何確定性轉換後,資訊量不可能增加。LLM 學到的是意見分布的「粗略形狀」,不是每一筆受訪者的具體位置。主流、高教育、西方視角被過度代表。
資訊守恆律:上限已鎖死
Stage 03 . 再生成
合成樣本:≤ 60.00%
從 LLM 內部取樣生成「合成受訪者」的回答,再加入次群體配比校準。但每一次抽樣與校準都引入新的模型誤設誤差(model misspecification)。Badih et al. (2025) 在 PNAS 已記錄合成樣本的系統性偏誤:「不知道」過少、過度預測政治人物好感度、次群體差異被壓縮、難以捕捉負面情緒。
誤差疊加:偏誤方向不可知
Stage 04 . 失效
新議題情境:≈ 0.00%
當社會進入訓練數據沒有涵蓋的議題——新災難、新政策衝擊、突發事件——合成樣本可用資訊近乎歸零。LLM 無法「外推」到它從未見過的情境,只能根據最接近的舊模式生成看似合理、實則無效的回答。這正是 Aaru 在 2024 大選關鍵州失準的結構性原因。
分布外外推:失效的高風險區
MEASUREMENT VS MODELING

測量與建模的認識論裂縫

這條裂縫比「準不準」更深。Meehl(1967)在《科學哲學》中早已指出:測量是連結理論構念與可觀察現象的橋樑,建模則是在構念之間推論。兩者屬於不同的認識論層級,不可互相取代。以建模取代測量,等同於用已被編碼的先驗取代觀察事實——這是理論循環論證,而非實證研究。

維度真人民調(測量)合成樣本(建模)
資訊來源T₀ 時刻現實世界的新觀察訓練語料中過去意見分布的壓縮
資訊上限理論上無上限(可擴充樣本)鎖定於訓練分布,不可超越
誤差結構抽樣/無回應/覆蓋誤差(可量化)模型誤設誤差(大小方向不可知)
新議題反應直接問受訪者,獲得真實反應依最接近的舊模式生成,高機率失準
次群體精度可透過分層抽樣提升精度主流/高教育/西方視角過度代表
時序漂移每次調查重新測量當下訓練截止後意見無法更新
可審計性通話錄音、填答時序、裝置指紋黑箱生成過程,無田野證據
統計推論的反直覺洞察

Nate Silver 提出一個反直覺結論:當統計推論技術提升,每一筆原始數據的邊際資訊價值反而上升。因為更精巧的推論方法可以從更少的真實數據中萃取更多訊號。這意味著:AI 時代應該更重視、而非更不重視真實抽樣。合成樣本節省的邊際成本,遠小於它在關鍵決策時刻失準的邊際風險。

McKown-Dawson (2026), Silver Bulletin, "AI polls are fake polls"

BOUNDARY CONDITIONS

不是二元對立,而是邊界條件

必須誠實承認:民調不可替代原理不是主張「合成樣本一無是處」,而是主張它有明確的邊界條件。在這條邊界以內,合成樣本可以是有用的工具;跨過邊界,它就從工具變成誤導。政策幕僚與研究設計者需要知道這條線畫在哪裡。

合成樣本是問卷的草稿紙——
不是民意的定稿

邊界以內(可作為輔助工具):問卷前測、議題初步掃描、意見空間粗略建模、反示播列題(anti-prompt-injection)設計輔助。在這些非決策場景,合成樣本可用來快速探索「哪些群體分歧最大、哪些議題有隱性共識」,作為正式田野前的成本效益工具。

邊界以外(不可替代真人):即時民意追蹤、選舉預測、政策衝擊後的反應調查、新議題意見空間建立、小眾/難抽樣族群的意見探索。在這些決策場景,任何合成樣本的替代都會把「模型預測」錯配為「民意觀察」,兩者在證據份量上有量級差距。

TRANSPARENCY ASYMMETRY

透明度不對稱:結構性風險

真正的危機不在技術本身,而在資訊揭露的結構性不對稱。當合成樣本的揭露成本低、隱藏收益高時,市場會系統性地朝「不揭露」方向偏移。2026 年 3 月 Axios 事件就是典型案例——媒體報導民調時未標註受訪者是 LLM,讀者將合成資料誤認為真實民意數據。這不是個案,這是結構趨勢。

透明度不對稱原理

當「不揭露」可以讓估值翻倍、而「揭露」會打折扣時,公共財(研究可信度)就會被私人利益(新創融資敘事)逐步侵蝕。這不是道德問題,是誘因結構問題——只有制度化的揭露規範,才能對抗這種不對稱。

更棘手的是混合樣本(mixed sample)的出現。Public Sentiment Institute 在 373 名真實受訪者中摻入 114 個 AI 代理(23.00% 污染比例),構成「混合採用」模型中最難評估的灰色地帶。讀者無從判斷結論有多少來自真人、多少來自模型,方法論的可驗證性被實質架空。

TAIWAN IMPLICATIONS

台灣啟示:民意感測器的政策治理

台灣作為高度數位化的民主社會,同時也是民意調查密度極高的市場,需要在合成民調浪潮登陸之前,建立起制度性防線。這不是單一政黨的議題——所有依賴民意回饋來校準政策的公共治理,都需要真實民意感測器的可靠性。以下是三個可直接操作的政策方向。

01
民調揭露規範立法化
比照食品標示原則,推動「民調成分揭露規範」:所有對外發布的民調報告必須標示受訪者來源(真人/AI 代理/混合)、抽樣方法、真實回應率、訓練數據截止日期(如使用 LLM 輔助)。不是禁止合成樣本,而是要求透明。透明度制度化是對抗市場「不揭露偏移」的唯一有效工具。
關鍵指標:揭露合規率 政策工具:法規/公會自律
02
選舉期間「純真人樣本」門檻
在選罷法民調規範中加入「選舉期間合成樣本禁令」:選舉公告日後,所有公開發布的選情民調必須為 100.00% 真人樣本,並提供可審計田野紀錄(通話錄音、填答時序、裝置指紋)。Aaru 在 2024 美國大選的失準已是前車之鑑——選舉是典型的「分布外外推」高風險區,合成樣本的失效成本由整個民主體系承擔。
關鍵指標:選舉民調真實樣本佔比 政策工具:中選會/選罷法修正
03
政策衝擊反應調查的真實抽樣保障
當政府推出重大政策(能源、勞動、移民、兩岸)或面對突發衝擊時,反應調查必須以真人機率抽樣為主。這類「新議題情境」正是合成樣本資訊價值趨近於零的區域。建議行政院層級建立「政策感測基金」,在重大政策前後保障真實田野調查的資源,作為民主回饋迴路的制度性基礎設施。
關鍵指標:重大政策前後民調覆蓋率 政策工具:政策感測基金
THE EQUATION

為什麼民調不可替代

Measurement
真人民調
= 新資訊
>
Modeling
LLM 合成
≤ 訓練分布
+
Drift
時序漂移
誤差累積

資訊守恆律 × 時序漂移 × 模型誤設 = 合成樣本的三重資訊衰減。這不是可以靠「更大的模型」解決的工程問題,而是資料處理定理本身的結構性上限。

CONCLUSION
當工程師說「我們模擬了全球」——
他模擬的是過去的壓縮影子
唯有真人民調,還在觀察此刻
民主需要的不是更聰明的模型,
而是更誠實的感測器

民調不可替代原理不是在保衛一個舊產業,而是在保衛民主體系的基礎回饋迴路。當政策決策失去真實民意的感測器,校準自己的能力就同步消失。AI 時代真正的任務,不是用合成取代真人,而是用更嚴謹的透明度規範、更精巧的統計推論、更有韌性的田野方法——讓每一筆真實觀察的邊際價值最大化。這是政策幕僚可以立即啟動的制度工程。