參加Google Cloud AI Study Jam 2024 - 生成式 AI 培訓計劃
網站:https://rsvp.withgoogle.com/events/csj-tw-2024
指定學習教材
Path 3: Advanced: Generative AI for Developers Learning Path (12 堂課程)
Vector Search and Embeddings
Search 搜尋
每天都會有搜尋的需求,例如要找某個產品的資料、想要旅遊行程。在企業上想要用影像搜尋、自然語言搜尋、推薦工具來管理內部資訊等等。在企業內部搜尋相關文件、找出必要的主題內容專家(SME)或跨團隊探索使用範例。向量搜尋是著重於語意相似度(Semantic similarity)的技術,可以用於上面情境。
Vector Search and Embeddings
(1) 向量搜尋如何工作
- Encode:將輸入資料(文字、圖片、聲音、影像、編碼等等)使用embeding模型來將資料轉成向量格式,
- Index:然後建立索引,以向量的方式可以更快速與更廣的方式搜尋
- Search:在向量空間上搜尋類似的資訊
(2)向量搜尋運作的方式
- Build: 會將Meta資料透過embeding模型產生向量並建立索引後,儲存在向量資料庫(Vector Space)中
- Query: 先把搜尋的句子透過embeding模型產生向量來跟向量資料庫(Vector Space)進行搜尋
(3)向量資料庫的挑戰
問題 | 技術 | |
---|---|---|
編碼 | 如何建立多模態的資料(文字、圖片、聲音、影像、編碼)來語意表示 | Embeddings |
建立索引與搜尋 | 建立快速且有效的搜尋 | Vector Search |
傳統與向量搜尋的比較
傳統搜尋
選項 | 說明 |
---|---|
搜尋方式 | 關鍵字搜尋 |
技術 | 先爬蟲網路上的資料,再建立索引與排名提供搜尋結果 |
儲存 | 資料儲存在資料表 |
搜尋範圍 | 只能在一定的範圍有效 |
瓶頸 | 1.無法知道查詢的意圖與情境 2.需要使用者自行整理歸納資料或報告 3. 無法多模態(圖形、語音、文字)搜尋 |
向量搜尋
選項 | 說明 |
---|---|
搜尋方式 | 語意搜尋 |
技術 | 將關鍵字使用encode進行編碼,在建立索引提供搜尋結果 |
儲存 | 資料轉成向量表示方式 |
搜尋範圍 | 了解語意 |
解決痛點 | 1.查詢出跟語意類似的結果 2.根據使用者個人化建議與整理歸納報告 3.多模態(圖形、語音、文字)搜尋 |
參考資料
https://www.cloudskillsboost.google/paths/183/course_templates/939/video/497240?locale=zh_TW
留言
張貼留言