目前位置: 首頁 > 可移轉技術資訊
:::

可移轉技術資訊

年度
112
領域
服務創新
執行單位
工研院院本部
可移轉技術名稱
零樣本動作識別技術
計畫名稱
工研院創新前瞻技術研究計畫
技術規格
動作辨識Zero-shot 第一人稱視角 Top 5 accuracy > 90% 操作評估模組Reaction time < 3 secs/action
技術成熟度
實驗室階段
潛力預估
目前缺乏使用者動作確認功能,主要原因在技術的瓶頸與開發成本,zero-shot 動作辨識技術正是解決這些問題的解決方法。另,技術運用Image-based vision language model (VLM)可在約1/4的運算資源條件下運作,同時也解決運算資源需求過高的問題。
可應用範圍
可用於各種場域如:教育、培訓、維修、遊戲、廣告等進行動作評估。其中,尤其是高危險作業
所需軟硬體設備
個人電腦
須具備之專業人才
軟體設計能力
技術摘要(中)
本技術以單張影像 (image-based) 視覺語言預訓練模型(Vision-Language Pretraining Model, VLP or VLM)為基礎,結合大語言模型(LLM)以及時間序(time sequence) 邏輯推演,運用在第一人稱視角(egocentric) 操作SOP之動作辨識(action recognition) 應用。相較於文獻中的video-based VLM cube embedding,運算量大幅降低,解決了運算資源過於昂貴的實用面問題。
技術摘要(英)
This technology is built upon a single-image (image-based) Vision-Language Pretraining Model (VLP or VLM), integrating a Large Language Model (LLM) and temporal sequence logic deduction. It is applied in action recognition tasks specifically for Standard Operating Procedure (SOP) execution from a first-person perspective (egocentric). In contrast to the video-based VLM cube embedding discussed in the literature, our approach significantly reduces computational requirements, addressing practical challenges associated with costly computational resources.
聯絡人員
林均蔓
電話
03-5916705
傳真
03-5917531
電子信箱
jmlin@itri.org.tw
更新日期:2024-08-15

回上一頁 回首頁