Vector Search and Embeddings 向量搜尋與生成嵌入

參加Google Cloud AI Study Jam 2024 - 生成式 AI 培訓計劃

指定學習教材

Path 3: Advanced: Generative AI for Developers Learning Path (12 堂課程)

每天都會有搜尋的需求，例如要找某個產品的資料、想要旅遊行程。在企業上想要用影像搜尋、自然語言搜尋、推薦工具來管理內部資訊等等。在企業內部搜尋相關文件、找出必要的主題內容專家(SME)或跨團隊探索使用範例。向量搜尋是著重於語意相似度(Semantic similarity)的技術，可以用於上面情境。

(1) 向量搜尋如何工作

(2)向量搜尋運作的方式

How does Vector Search work?

(3)向量資料庫的挑戰

問題		技術
編碼	如何建立多模態的資料(文字、圖片、聲音、影像、編碼)來語意表示	Embeddings
建立索引與搜尋	建立快速且有效的搜尋	Vector Search

alt text

選項	說明
搜尋方式	關鍵字搜尋
技術	先爬蟲網路上的資料，再建立索引與排名提供搜尋結果
儲存	資料儲存在資料表
搜尋範圍	只能在一定的範圍有效
瓶頸	1.無法知道查詢的意圖與情境 2.需要使用者自行整理歸納資料或報告 3. 無法多模態(圖形、語音、文字)搜尋

選項	說明
搜尋方式	語意搜尋
技術	將關鍵字使用encode進行編碼，在建立索引提供搜尋結果
儲存	資料轉成向量表示方式
搜尋範圍	了解語意
解決痛點	1.查詢出跟語意類似的結果 2.根據使用者個人化建議與整理歸納報告 3.多模態(圖形、語音、文字)搜尋

Transformer Model

無聊看看