今天是「機器學習」的第二篇,進入「模型」層面的討論,內容相比于之前一篇「基本原理與設計要素」來說抽象了很多。接下來進入「界面」層面的話題后會更易于理解。

上篇:

首先,我們來了解「模型」層面的一系列設計原則,涉及「數據」與「指標」兩個方面。

為了讓 app 能夠識別狗狗的照片,我們首先要通過一系列范例內容幫助機器訓練相關的模型。這些范例就是我們所說的「數據」。

數據(Data)

要實現優秀的照片搜索體驗,我們需要大量的、種類繁多的數據。要確保人們在搜索「dog」時能夠得到狗狗的照片而非其他相似的小動物,我們需要同時提供狗狗和其他動物的照片來訓練模型進行識別。

進一步來說,真正的搜索體驗應該支持人們日??赡芩阉鞯某汕先f種對象類型。對于其中的每一類,我們都需要提供數據;要新增一個類型或是改善現有類型的搜索,我們同樣需要提供數據。

如何選擇有效的訓練數據,這是打造搜索體驗的關鍵。數據決定了模型的行為方式。

數據與設計目標相匹配

如果你的數據無法捕捉到特定場景,那么訓練出的模型也很難在那個場景中良好地運作。由于數據決定著模型的行為,而后者又直接決定著產品的功能體驗,因此數據的選擇也必須能夠反映出目標用戶的實際需求與利益。

聽起來有些抽象,我們實際看個例子。在「相機」的人像模式中,機器學習被用于探測人臉,并將身體與背景分離開來。

從技術發展的歷史角度看,人臉識別對于有色人種并不十分友好;然而對于 Apple 而言,我們必須確保產品體驗具有足夠的包容性。因此,我們的團隊從不同的人種、文化與場景當中收集了大量的數據;只有這樣,訓練出的模型才能提供具備高度包容性的體驗。

簡而言之,我們的數據規模與我們期望打造的產品體驗是相匹配的;我們會根據產品設計目標有針對性地收集數據用以訓練模型。

對你而言也是同理。在訓練模型之前確認一些問題,例如由誰來收集數據,具體應該收集哪些數據,如何收集,如何確保數據的客觀性?

如果你的設計目標是塑造豐富有趣的產品體驗,那么數據也要反映出這一目標;如果你的產品主要用于戶外活動,那么數據也應該來自于相關的場景。數據必須意圖明確。

開發者們很容易忽略產品體驗的實際場景而盲目制定數據收集策略。必須首先充分理解你們的產品設計目標,進而確定需要為機器提供怎樣的數據來訓練出最為有效的模型。

在前期花些時間思考如何收集正確的數據,往往可以為后期節省大量的時間和金錢。

隨著產品的迭代,以及你們對于用戶及市場的理解的加深,你可能還需要不斷更新數據,使模型始終適應于不斷變化的設計目標。

另外還需要留意所謂的「標準化數據集」。由學術界或行業制定的標準化數據或許可以幫你更好地了解機器學習的原理,從而易于起步,或是加速開發流程;但這些數據并非面向真實場景與體驗而設計,更無法代表你們的產品設計目標。因此如果必須使用這類數據,首先考慮清楚它們的覆蓋范圍,在必要的時候進行補充,使其更符合你們的特定需求。

指標(Metrics)

數據用于訓練模型;接下來要聊的「指標」則用于評估模型。

我們需要通過測試來評估模型的有效性。仍以照片搜索為例。完成訓練后,我們會為模型提供一系列包含各種小動物的照片,觀察其判斷的結果,對比其中正確與錯誤的數量。

在這個例子當中,模型的正確率是 75%。

這就是一個指標。諸如此類的指標可以幫助我們判斷模型的訓練是否成功,是否達到了產品應用的標準,或是需要繼續訓練。

我們可以從很多不同的維度對模型進行測試,譬如觀察它的運行速度,或是能夠支持的對象類型數量等等。你需要充分權衡,從眾多維度當中選擇出最能代表你們設計目標的那些,作為判斷模型成功與否的指標。

指標與設計目標相匹配

指標可以衡量模型的質量,而模型的質量決定了產品體驗能否達到設計標準,因此你所選擇的指標必須能夠代表你對于優質體驗的定義。

指標同樣體現著產品的關鍵價值所在。

我們來看個例子。Face ID 正是基于機器學習來探測你的面孔并實現設備解鎖的。

其整個機制背后蘊藏著一系列明確的體驗目標與設計意圖,而其中最為首要的就是安全性,因為用戶信任我們,他們會將重要的個人數據交托于我們所提供的設備。

安全問題涉及到方方面面,我們必須通過多種不同的指標來判斷模型是否足夠可靠;其中非常關鍵的一個指標就是「任意一個人拿到你的手機之后能成功刷臉解鎖的幾率」。

我們一直追蹤著這個指標,下了很大功夫去進行優化。在 Face ID 發布時,這一幾率已經下降到了百萬分之一。

由于 Face ID 在當時還是新事物,我們需要讓人們知道這項技術是足夠可信的,因此我們也會通過這個指標與人們進行溝通,讓人們了解 Face ID 的安全性。

關于技術局限

但無論如何,「百萬分之一」并非絕對完美。模型有可能產生的任何一次失誤,都會在一個真實的使用場景里影響到一個真實的人;產品設計者必須考慮到這一點。

如果另一個時空當中的我突然出現在了我的身邊,我顯然不希望他能通過 Face ID 來解鎖我的手機,因此我還會設置密碼進行額外的保護。在現實當中,這類問題對于雙胞胎親屬來說是真實存在的;這也是新技術當中所存在的局限,設計者無法回避。因此我們也會和消費者就這一點進行溝通,并建議他們進行額外的安全設置。

出錯,這對于機器學習來說是難以避免的。很少有模型可以達到 100% 的正確率,作為設計者,你必須了解到這一局限。但這是可以接受的,因為產品設計本就是一個迭代的過程,模型同樣可以不斷進化。

模型自身所存在的出錯概率并不意味著你無法為人們提供優秀的產品體驗。分析出錯的原因,改善模型,或是清晰直白地讓人們知道技術自身所存在的局限性。

指標不是全部

另外不要忘記,指標,永遠只是產品設計目標的一系列量化表現形式;不要僅著眼于統計數字的優化而無法自拔,卻忽略了在真實場景中可能產生的實際體驗問題;必要的時候,你可能需要結合其他方式來塑造更完整的體驗。

通過機器學習,App Store 會根據你已經安裝的 app 來為你推薦更多類似的產品。

用戶在某個 app 中的停留時長確實是個不錯的指標,畢竟人們在一件事情上所花費的時間越多,越代表他們喜歡這件事。但是,如果 App Store 完全以這個指標及相關模型作為驅動,那么人們最終只能看到一個又一個和自己當前使用的 app 非常相似的推薦。對我而言,這就意味著我將看到越來越多的游戲推薦。我雖然喜歡游戲,但我不止需要游戲。

需求、興趣及場景是多種多樣的;人們在一個 app 當中花費的時間未必真的代表他的實際需求。為了補足推薦模型的固有局限性,實現更加完整的體驗,App Store 同時提供了人工參與編輯的推薦內容,幫助人們探索更多類型的優秀產品。

模型的進化

上線后,你會越來越多地了解到產品的實際表現,進而也會對用戶需求產生更加深入的理解。設計目標會因此而逐漸進化,模型與相應的指標也是如此。

譬如你可以通過實際的統計來評估人們對于多樣化內容的需求,進而創建相關的模型,在推薦內容的「多樣性」與「喜好相關性」之間找到最佳平衡點。

無論如何變化發展,你都要確保通過正確的指標來持續追蹤模型在進化過程中的表現,進而對設計目標的實現程度保持了解。

如何確保指標能夠始終體現出不斷進化的產品設計目標呢?

  • 理解錯誤:對模型出錯的狀況進行分析,將失敗案例按照不同的類型與場景歸類,并考慮不同的處理方式:是否需要通過非機器學習的方式進行處理,譬如改善界面層面的設計?還是需要一個更好的模型?
  • 針對失敗場景的設計:在設計的過程中有針對性地考慮到失敗場景,考慮到人們在實際使用時可能經歷的各種情況,提供必要的額外保障措施,而不只是面向一切運作正常的情況而設計。
  • 評估實際體驗:指標可以給到我們關于模型質量的客觀數字;模型的表現決定了體驗,但不等同于體驗。作為設計師,仍然需要對體驗本身進行持續評估。進行必要的用研,通過原型進行體驗評估,與用戶交流并獲取反饋。如果評估結論是體驗欠佳,但指標顯示一切良好,那么你的指標本身很可能存在問題。
  • 持續優化指標:始終對指標的有效性保持質疑和評估。你越需要依賴某件事物,就越需要評估它的正確性。以不斷進化的產品設計目標為核心,持續追蹤和思考當前模型指標的合理性。

「數據」與「指標」代表著模型層面的設計要素。接下來,我們將進入界面設計的層面,了解基于機器學習的產品在界面輸出與輸入方面的一系列設計原則。

歡迎關注作者的微信公眾號:「Beforweb」

點贊
收藏 6
繼續閱讀相關文章

發表評論 已發布 1

還可以輸入 800 個字
 
 
載入中....
1 收藏