社會指標

民意不在模型裡

民調不可替代原理——AI 時代的合成樣本能壓縮過去，卻無法觀察此刻；當政策決策依賴「數位雙胞胎」，民主就失去了它最後的感測器

⏲ 約 15 分鐘 2026.04.15

Scroll

民調不是資料生成——
民調是資料收集。 — Eli McKown-Dawson, Silver Bulletin, 2026

2024.11.04

那個失準的夜晚

2024 年 11 月 4 日，美國大選前夕。一家名叫 Aaru 的矽谷新創用 LLM 合成的「數位雙胞胎」受訪者跑出最終預測：賀錦麗將在密西根、內華達、賓州、威斯康辛四個搖擺州全數領先。同一天，Nate Silver 團隊的 Silver Bulletin 給賀錦麗 48.20% 的勝率；Aaru 給 50.50%。

24 小時後，川普贏下全部四州。Aaru 的模擬世界與真實世界的裂縫第一次被公開驗證。但更值得注意的是後續發展——儘管在關鍵時刻失準，Aaru 仍在 2025 年獲得十億美元級的估值。2026 年 3 月，Axios 報導該公司的一份母職健康調查時，全篇未揭露「受訪者」其實是 LLM 代理。讀者將模型預測誤認為民意觀察。

但這不只是一家公司的故事。這是一個橫跨方法論、科技產業、媒體倫理的結構性問題。當合成民調的估值邏輯與它的技術實效脫鉤，當政策決策者開始把「模擬」當成「觀察」，民主就失去了它校準自己的基礎感測器。這是一個需要政策幕僚正面理解的方法論危機。

PRINCIPLE

民調不可替代原理

這個原理根植於三條獨立的理論傳統——資訊理論、測量哲學、調查統計學——它們各自推導出同一個結論：對當下、隨情境變化的社會意見進行測量的資訊價值，不可透過任何模型（含 LLM 合成樣本）從既有資料重新生成。

核心命題

民調的本質是對真實世界意見分布進行「測量」，而非對分布進行「建模」。任何合成樣本無論技術多精妙，都只是對既有測量的壓縮與再生成，其輸出資訊量上限受制於訓練分布，無法產生新的觀察數據。

綜合自 Shannon (1948), Meehl (1967), Groves et al. (2009), McKown-Dawson (2026)

用白話重述：真人民調是在 T₀ 時刻走進現實世界、問一個未被問過的問題、獲得一筆新資訊；合成民調則是在訓練好的模型中調取過去的答案，重新排列組合成「看似像當下」的回應。Shannon 的資料處理定理早在 1948 年就給出了數學證明——任何確定性轉換不可能增加資訊量。LLM 作為壓縮器，它的輸出必然是訓練分布的子集或近似。

這不是「AI 還不夠好」的問題，這是資訊守恆律的問題。無論模型多大、演算法多精巧，從過去訓練的語料中不可能生成「尚未發生的當下意見」。

KEY NUMBERS

關鍵數字

Aaru 給賀錦麗的
最終勝率

2024.11.02 預測 / 實際輸四個搖擺州

Public Sentiment Institute
AI 受訪者污染比例

373 真人 + 114 AI 代理混合樣本

Aaru 估值規模
（美金）

技術實效與創投定價脫鉤

Stage 01 ．測量

真人民調 T₀：100.00%

在 T₀ 時刻走進現實世界，用機率抽樣接觸真實受訪者。每一筆回答都是獨立於研究者先驗的新觀察——這是唯一一個「意見分布被觀察而非被假設」的環節。資訊價值定義為 100.00%，因為它是所有後續壓縮與再生成的原始來源。

獨立測量：產生新資訊

Stage 02 ．壓縮

LLM 訓練：≤ 80.00%

大量真人民調資料、社群文本、新聞被餵入 LLM。但壓縮必然有損——Shannon 的資料處理定理保證：經過任何確定性轉換後，資訊量不可能增加。LLM 學到的是意見分布的「粗略形狀」，不是每一筆受訪者的具體位置。主流、高教育、西方視角被過度代表。

資訊守恆律：上限已鎖死

Stage 03 ．再生成

合成樣本：≤ 60.00%

從 LLM 內部取樣生成「合成受訪者」的回答，再加入次群體配比校準。但每一次抽樣與校準都引入新的模型誤設誤差（model misspecification）。Badih et al. (2025) 在 PNAS 已記錄合成樣本的系統性偏誤：「不知道」過少、過度預測政治人物好感度、次群體差異被壓縮、難以捕捉負面情緒。

誤差疊加：偏誤方向不可知

Stage 04 ．失效

新議題情境：≈ 0.00%

當社會進入訓練數據沒有涵蓋的議題——新災難、新政策衝擊、突發事件——合成樣本可用資訊近乎歸零。LLM 無法「外推」到它從未見過的情境，只能根據最接近的舊模式生成看似合理、實則無效的回答。這正是 Aaru 在 2024 大選關鍵州失準的結構性原因。

分布外外推：失效的高風險區

MEASUREMENT VS MODELING

測量與建模的認識論裂縫

這條裂縫比「準不準」更深。Meehl（1967）在《科學哲學》中早已指出：測量是連結理論構念與可觀察現象的橋樑，建模則是在構念之間推論。兩者屬於不同的認識論層級，不可互相取代。以建模取代測量，等同於用已被編碼的先驗取代觀察事實——這是理論循環論證，而非實證研究。

維度	真人民調（測量）	合成樣本（建模）
資訊來源	T₀ 時刻現實世界的新觀察	訓練語料中過去意見分布的壓縮
資訊上限	理論上無上限（可擴充樣本）	鎖定於訓練分布，不可超越
誤差結構	抽樣／無回應／覆蓋誤差（可量化）	模型誤設誤差（大小方向不可知）
新議題反應	直接問受訪者，獲得真實反應	依最接近的舊模式生成，高機率失準
次群體精度	可透過分層抽樣提升精度	主流／高教育／西方視角過度代表
時序漂移	每次調查重新測量當下	訓練截止後意見無法更新
可審計性	通話錄音、填答時序、裝置指紋	黑箱生成過程，無田野證據

統計推論的反直覺洞察

Nate Silver 提出一個反直覺結論：當統計推論技術提升，每一筆原始數據的邊際資訊價值反而上升。因為更精巧的推論方法可以從更少的真實數據中萃取更多訊號。這意味著：AI 時代應該更重視、而非更不重視真實抽樣。合成樣本節省的邊際成本，遠小於它在關鍵決策時刻失準的邊際風險。

McKown-Dawson (2026), Silver Bulletin, "AI polls are fake polls"

BOUNDARY CONDITIONS

不是二元對立，而是邊界條件

必須誠實承認：民調不可替代原理不是主張「合成樣本一無是處」，而是主張它有明確的邊界條件。在這條邊界以內，合成樣本可以是有用的工具；跨過邊界，它就從工具變成誤導。政策幕僚與研究設計者需要知道這條線畫在哪裡。

合成樣本是問卷的草稿紙——
不是民意的定稿。

邊界以內（可作為輔助工具）：問卷前測、議題初步掃描、意見空間粗略建模、反示播列題（anti-prompt-injection）設計輔助。在這些非決策場景，合成樣本可用來快速探索「哪些群體分歧最大、哪些議題有隱性共識」，作為正式田野前的成本效益工具。

邊界以外（不可替代真人）：即時民意追蹤、選舉預測、政策衝擊後的反應調查、新議題意見空間建立、小眾／難抽樣族群的意見探索。在這些決策場景，任何合成樣本的替代都會把「模型預測」錯配為「民意觀察」，兩者在證據份量上有量級差距。

TRANSPARENCY ASYMMETRY

透明度不對稱：結構性風險

真正的危機不在技術本身，而在資訊揭露的結構性不對稱。當合成樣本的揭露成本低、隱藏收益高時，市場會系統性地朝「不揭露」方向偏移。2026 年 3 月 Axios 事件就是典型案例——媒體報導民調時未標註受訪者是 LLM，讀者將合成資料誤認為真實民意數據。這不是個案，這是結構趨勢。

透明度不對稱原理

當「不揭露」可以讓估值翻倍、而「揭露」會打折扣時，公共財（研究可信度）就會被私人利益（新創融資敘事）逐步侵蝕。這不是道德問題，是誘因結構問題——只有制度化的揭露規範，才能對抗這種不對稱。

更棘手的是混合樣本（mixed sample）的出現。Public Sentiment Institute 在 373 名真實受訪者中摻入 114 個 AI 代理（23.00% 污染比例），構成「混合採用」模型中最難評估的灰色地帶。讀者無從判斷結論有多少來自真人、多少來自模型，方法論的可驗證性被實質架空。

TAIWAN IMPLICATIONS

台灣啟示：民意感測器的政策治理

台灣作為高度數位化的民主社會，同時也是民意調查密度極高的市場，需要在合成民調浪潮登陸之前，建立起制度性防線。這不是單一政黨的議題——所有依賴民意回饋來校準政策的公共治理，都需要真實民意感測器的可靠性。以下是三個可直接操作的政策方向。

民調揭露規範立法化

比照食品標示原則，推動「民調成分揭露規範」：所有對外發布的民調報告必須標示受訪者來源（真人／AI 代理／混合）、抽樣方法、真實回應率、訓練數據截止日期（如使用 LLM 輔助）。不是禁止合成樣本，而是要求透明。透明度制度化是對抗市場「不揭露偏移」的唯一有效工具。

關鍵指標：揭露合規率政策工具：法規／公會自律

選舉期間「純真人樣本」門檻

在選罷法民調規範中加入「選舉期間合成樣本禁令」：選舉公告日後，所有公開發布的選情民調必須為 100.00% 真人樣本，並提供可審計田野紀錄（通話錄音、填答時序、裝置指紋）。Aaru 在 2024 美國大選的失準已是前車之鑑——選舉是典型的「分布外外推」高風險區，合成樣本的失效成本由整個民主體系承擔。

關鍵指標：選舉民調真實樣本佔比政策工具：中選會／選罷法修正

政策衝擊反應調查的真實抽樣保障

當政府推出重大政策（能源、勞動、移民、兩岸）或面對突發衝擊時，反應調查必須以真人機率抽樣為主。這類「新議題情境」正是合成樣本資訊價值趨近於零的區域。建議行政院層級建立「政策感測基金」，在重大政策前後保障真實田野調查的資源，作為民主回饋迴路的制度性基礎設施。

關鍵指標：重大政策前後民調覆蓋率政策工具：政策感測基金

THE EQUATION

為什麼民調不可替代

Measurement

真人民調
= 新資訊

Modeling

LLM 合成
≤ 訓練分布

Drift

時序漂移
誤差累積

資訊守恆律 × 時序漂移 × 模型誤設 = 合成樣本的三重資訊衰減。這不是可以靠「更大的模型」解決的工程問題，而是資料處理定理本身的結構性上限。

CONCLUSION

當工程師說「我們模擬了全球」——
他模擬的是過去的壓縮影子；
唯有真人民調，還在觀察此刻。
民主需要的不是更聰明的模型，
而是更誠實的感測器。

民調不可替代原理不是在保衛一個舊產業，而是在保衛民主體系的基礎回饋迴路。當政策決策失去真實民意的感測器，校準自己的能力就同步消失。AI 時代真正的任務，不是用合成取代真人，而是用更嚴謹的透明度規範、更精巧的統計推論、更有韌性的田野方法——讓每一筆真實觀察的邊際價值最大化。這是政策幕僚可以立即啟動的制度工程。