async def plan_content_distribution(
 brand_id: str,
 target_platforms: list[str]  # ['openai', 'gemini', 'perplexity']
 ) -> dict:
 """
 分析各 AI 平台的引用來源偏好,
 產出「應在哪些外部平台發布內容」的建議清單。 例:Perplexity 傾向引用 Reddit + 媒體報導
 Gemini AI Overviews 傾向引用 Google 收錄的結構化頁面
 """
 source_preference = await db. query("""
 SELECT platform, cited_domain, COUNT(*) as freq
 FROM variant_trials
 WHERE brand_id = %s
 AND cited = true
 GROUP BY platform, cited_domain
 ORDER BY freq DESC
 """, brand_id)
 # 用 Claude API 分析並產出佈局建議
 plan = await claude_api(f"""
 根據以下引用來源數據,建議品牌應優先在哪些外部平台發布內容:
 {json. dumps(source_preference, ensure_ascii=False)}
 回傳 JSON:{{"platform": ". . . ", "reason": ". . . ", "priority": 1-5}}
 """)
 return json. loads(plan)

。**

GRPO(DeepSeek 提出,group 相對獎勵)

LLM 做法:不用 critic network,改用同一 batch 內的相對表現打分,節省記憶體,訓練更穩定。

GEO 對應:Thompson Sampling Bandit 本質上就是 GRPO 的精神——用同一組變體之間的相對表現(alpha/beta 分佈)來選優,而不依賴一個絕對的外部評分器。GRPO 的核心概念已在你們的選優機制裡。

Constitutional AI(Anthropic 的做法)

LLM 做法:先定義一套原則(Constitution),讓 AI 根據原則自我批評再優化,減少對人類偏好標注的依賴。

GEO 對應:在內容變體進入試驗前,加入品牌憲法把關層:

brand_constitution = """
品牌內容生成原則:
1. 內容必須準確反映品牌的核心服務,不得誇大
2. 不得捏造數據,所有數字必須有依據
3. 語氣專業但不過度學術,適合 AI 引用
4. 不得主動貶低競品
5. 必須包含至少一個具體的客戶價值陳述
6. 內容與原始品牌描述的語意相似度不得低於 0.7
"""