Blind Model Evaluation

金融專業回答盲測

請依照你的金融知識與實際使用感受,比較三個匿名模型回答的品質。

研究目的

本研究旨在了解不同大型語言模型在金融問答情境中的回答品質。你會看見三個匿名回答 A / B / C,並依正確性、完整性與可讀性進行比較;過程中不會看到模型名稱。

時間
約 8-12 分鐘
題數
5 題開放問題
比較方式
A / B / C 匿名盲測
資料用途
論文量化與質性分析

你需要完成的事

  1. 輸入一個符合當題方向的問題。
  2. 閱讀三個匿名模型回答。
  3. 比較三個回答中整體最好與整體最差的回答。
  4. 依正確性、完整性與可讀性選出各面向較佳的回答。
  5. 簡短說明您的選擇理由與觀察。

作答前請注意

題目可以來自學習、工作或理解金融資訊時真的可能會問 AI 的問題;請避免使用固定背誦題,也不要刻意輸入與金融無關的問題。

請不要輸入姓名、帳號、持股明細、公司內部資料、未公開資訊或其他個人敏感資訊。

背景資料主要用於樣本描述與金融相關性檢核;主要分層變項預先指定為金融工作或實習經驗,金融熟悉度作為次要連續變項;其他人口統計與使用經驗欄位僅作探索性分析,不作為主要推論依據。

模型回答僅供研究比較,不構成投資建議,也不應作為實際買賣依據。本研究資料只會用於整體量化比較與文字理由的質性分析。

駱泳誌

國立政治大學 資訊管理系 碩士生

指導教授:蔡瑞煌博士

Thesis Title: The Augmentative Residual Adapter Approach to Pre-training