多媒体智能的时序学习

Video QA

Grounding

Diffusion


目标1:S* 狗
一条 S* 狗和一条 V* 猫跳过一条河。
目标2:V* 猫
一条 S* 狗和一条 V* 猫在下棋。

H2V for sports lives