核心技術(shù)
嵌入式多模態(tài)大模型
通過百億參數(shù)級基礎(chǔ)模型與強(qiáng)化學(xué)習(xí)驅(qū)動的世界模型,打造多模態(tài)智能駕駛大模型(Motovis大模型)。該技術(shù)兼具泛化能力與場景適應(yīng)能力,支持跨模態(tài)數(shù)據(jù)交互與智能決策,可靈活部署于嵌入式平臺,構(gòu)建高度擬人化的駕駛智能體,提升智能駕駛系統(tǒng)的安全性與智能化水平。
MOTOVIS VLA基礎(chǔ)大模型框架,是認(rèn)知模型的基礎(chǔ),是以視覺編碼器,視覺語言模型,動作策略模型為基礎(chǔ),以世界模型為強(qiáng)化學(xué)習(xí)環(huán)境,以4D數(shù)據(jù)集,VQA數(shù)據(jù)集,法規(guī)數(shù)據(jù)集,物理交互數(shù)據(jù)集作Fine Tune。
● 多模態(tài)統(tǒng)一融合編碼
● 擴(kuò)散模型驅(qū)動的高效軌跡預(yù)測
● 感知規(guī)控平行設(shè)計,兼容中低算力平臺
● 強(qiáng)化學(xué)習(xí)驅(qū)動的VLA智駕智能體
● 4D標(biāo)注驅(qū)動的世界預(yù)測模型
● 3DGS場景重建