可移轉技術資訊

目前位置：首頁 > 可移轉技術資訊

可移轉技術資訊

年度

112

領域

服務創新

執行單位

工研院院本部

可移轉技術名稱

零樣本動作識別技術

計畫名稱

工研院創新前瞻技術研究計畫

技術規格

動作辨識Zero-shot 第一人稱視角 Top 5 accuracy > 90% 操作評估模組Reaction time < 3 secs/action

技術成熟度

實驗室階段

潛力預估

目前缺乏使用者動作確認功能，主要原因在技術的瓶頸與開發成本，zero-shot 動作辨識技術正是解決這些問題的解決方法。另，技術運用Image-based vision language model (VLM)可在約1/4的運算資源條件下運作，同時也解決運算資源需求過高的問題。

可應用範圍

可用於各種場域如：教育、培訓、維修、遊戲、廣告等進行動作評估。其中，尤其是高危險作業

所需軟硬體設備

個人電腦

須具備之專業人才

軟體設計能力

技術摘要（中）

本技術以單張影像 (image-based) 視覺語言預訓練模型(Vision-Language Pretraining Model, VLP or VLM)為基礎，結合大語言模型(LLM)以及時間序(time sequence) 邏輯推演，運用在第一人稱視角(egocentric) 操作SOP之動作辨識(action recognition) 應用。相較於文獻中的video-based VLM cube embedding，運算量大幅降低，解決了運算資源過於昂貴的實用面問題。

技術摘要（英）

This technology is built upon a single-image (image-based) Vision-Language Pretraining Model (VLP or VLM), integrating a Large Language Model (LLM) and temporal sequence logic deduction. It is applied in action recognition tasks specifically for Standard Operating Procedure (SOP) execution from a first-person perspective (egocentric). In contrast to the video-based VLM cube embedding discussed in the literature, our approach significantly reduces computational requirements, addressing practical challenges associated with costly computational resources.

聯絡人員

林均蔓

電話

03-5916705

傳真

03-5917531

電子信箱

[email protected]

參考網址

請參考工研院官網

可移轉技術、服務創新

更新日期：2024-08-15