视频模子正在实推理仍是“演”推理?港中文等提出新基准!Chain-of-Frame到底是实是假?
做者:Hanbo Cheng等 解读:AI生成将来 亮点曲击 系统性阐发取同一视角:对轨迹蒸馏(TD)进行了系统性阐发,这一视角注释了为何TD方式虽然能无效保留全局布局。
2025第三季度无人驾驶融资榜:从动驾驶 “黄金赛道” 和 “命脉环节” ,Robotaxi57亿,零部件赛道“三驾马车”。
顶刊TPAMI 2025!一个模子搞定所有!多模态“万能王”UM-ODTrack横空出生避世。
首个基于LLM的开源音频大模子!阶跃星辰沉磅开源Step-Audio-EditX:P声音如斯简单!
做者:Yaozong Zheng等 解读:AI生成将来 亮点曲击 1。为视觉范畴供给了首个通用的视频级模态模子。UM-ODTrack?仅需锻炼一次,即可利用不异的架构和参数实现多使命推理。
做者:Chao Yan等 解读:AI生成将来 亮点曲击 首个开源的 LLM 音频编纂模子!Step-Audio-EditX,首个基于狂言语模子(LLM)的开源音频模子,不只擅长表示力丰硕和可迭代的音频。
DeepSeek 方才开源了新的 OCR 模子,该模子的参数量为 3B,刚上线 多次下载量。 DeepSeek-OCR 是对光学二维映照压缩长上下文可行性的初步摸索。由两部门构成:D。
一步间接封神!单步扩散媲美250步教师模子!中科大amp;字节发布图像生成“分层蒸馏术”。
做者:Ziyu Guo等 解读:AI生成将来 引言 近年来,以 Veo、可以或许合成高度逼实、时间持续的动态画面。这些进展暗示,模子正在视觉内容生成之外?。