学生论坛嘉宾

- 杰出学生论坛嘉宾 -

方杰民
简历：方杰民博士，华为云高级研究员、3D视觉方向助理首席专家，分别于2023年和2018年在华中科技大学电信学院获得博士和学士学位。其主要研究方向为3D计算机视觉、神经架构搜索/设计，于TPAMI, CVPR, ICLR, SIGGRAPH Asia等期刊/会议发表论文20余篇，谷歌学术引用1000余次；获CVM期刊2021年度最佳论文奖；作为负责人获第八届中国国际“互联网+”创新创业大赛全国金奖；获2022年度“中国大学生自强之星标兵”；获华中科技大学十大研究生“学术新星”。
个人主页：

报告题目：标题基于Gaussian Splatting的3D/4D内容重建和生成
报告摘要： 3D Gaussian Splatting (GS) 在快速建模并实时渲染3D场景上取得了巨大的成功，相比于以NeRF为代表的神经渲染方法，GS具有更强的显式性和更高的渲染效率，在3D领域颇具潜力。本报告将分享讲者围绕GS在3D/4D内容重建和生成等任务中做出的一系列探索，包括4D场景实时渲染 (4D Gaussian Splatting)、文本生成3D (GaussianDreamer)、文本编辑3D (GaussianEditor) 等研究工作。

龙霄潇
简历：龙霄潇于香港大学计算机系获得博士学位，目前在香港大学从事博士后研究工作。师从IEEE Fellow & ACM Fellow 王文平教授。长期从事三维重建、神经渲染、三维生成等方向的研究。目前在CVPR/ICCV/ECCV/ICLR等国际顶级会议上发表一作和通讯论文10篇。
个人主页：https://www.xxlong.site/

报告题目：基于跨域生成模型的单目三维重建
报告摘要：随着计算机视觉、机器学习和图形处理技术的迅猛发展，三维重建与生成技术已成为科研领域内的焦点，特别是如何从多个或单个图像中精确建模物体和场景。近期随着OpenAI的ChatGPT和文生图的Midjourney等生成模型的流行，三维生成领域也迎来了前所未有的发展机遇。基于得分蒸馏采样（SDS）损失方法的最新方法已经显示出从二维扩散先验中恢复三维几何的潜力，但它们通常受到每个形状优化耗时和几何不一致的影响。相比之下，某些工作通过快速网络推理生成三维信息，但其结果通常质量低下且缺乏几何细节。为了全面提高图像到三维任务的质量、一致性和效率，我们提出了一个跨领域扩散模型Wonder3D，生成多视角法线图和相应的彩色图像，进而通过几何感知法线融合算法，从多视角二维表达中提取高质量的几何。

吴睿海
简历：吴睿海是北京大学前沿技术研究中心四年级博士生，导师是董豪老师，研究方向是具身智能中机器人对物体的操控，是2024苹果奖学金的被提名人，2023字节奖学金finalist。他在NeurIPS，ICLR，CVPR，ICCV，ECCV，AAAI，ICRA等顶级会议共发表13篇论文，其中第一作者/共同第一作者11篇，含1篇oral。这些论文研究了机器人中的柔性物体（衣服、布料、绳子等）操作、铰接物体（柜子、抽屉等）操作，双臂协作，物体拼接等重要问题。
个人主页：warshallrho.github.io

报告题目：具身智能中物体操作的视觉表征
报告摘要：物体操作是具身智能中最常见和重要的问题之一。物体的种类繁多，如刚性物体、铰接物体和柔性物体，每类物体中不同个体又拥有着不同的几何、物理等属性，它们操作方式和任务也各不相同。本报告针对不同类别和属性的物体，提出了一系列的物体操作的视觉表征，以完成柔体、铰接物体等不同物体的不同操作任务（如叠衣服，开抽屉，物体拼接），并进一步通过交互提升表征的准确性和适用性。

王倩倩
简历：王倩倩，现加州伯克利大学的博士后，研究方向为3D计算机视觉。博士毕业于康奈尔大学，导师为Prof. Noah Snavely和Prof. Bharath Hariharan。本科毕业于浙江大学，导师为周晓巍教授。
个人主页：

报告题目：基于单目视频的运动信息恢复与动态场景重建
报告摘要：我们生活在一个动态的3D的环境中，从视频中理解动态的3D场景是尤为重要的课题。近年来，从多张图片或者视频中恢复静态场景取得了很大进展，但是从视频中重建动态场景依旧是一个难题。其中一个难点在于，动态场景每个时间点的场景的几何信息会发生变化，不再有多目一致性，但是同时，每个时刻下的场景并不是完全独立的，相反有很强的时序连续性。理解视频中的运动信息会对重建动态场景有很大的帮助，今天我将介绍如何从单目视频中重建完整的、像素级别的运动信息，以及如何运用它来重建一个动态场景。

蔡中昂
简历：蔡中昂是新加坡南洋理工大学MMLab的博士研究生，师从刘子纬教授和吕健勤教授。他的研究兴趣包括人体动作捕捉和生成，迄今已于计算机视觉/机器学习顶会（如NeurIPS、ICLR、ICCV和ECCV等）上发表了十余篇论文并多次获得杰出审稿人的奖项。他的代表工作包括首个拥有社交智能的3D角色框架数字生命计划（Digital Life Project）、首个动作捕捉基模型SMPLer-X以及最早一批基于扩散模型的动作生成算法MotionDiffuse。同时，他也是商汤科技研究院的高级算法研究员，负责构建用于人体感知、重建和生成的系统和算法。
个人主页：https://caizhongang.com/

报告题目：动作捕捉与动作生成的相遇还有多远？
报告摘要：在大语言模型的推动下，基于文本的动作生成技术在近期已经取得了显著的进步。驱动3D角色演绎表达丰富和互动性强的故事已然从一个遥不可及的梦想逐渐变成了现实。然而，目前的动作生成方法对使用昂贵的光学动作捕捉系统构建的高质量动作数据集有着很强的依赖，这极大地限制了生成动作的多样性。与此同时，基于单目视频的动作捕捉提供了一种低成本的收集大规模人体动作的选项，但是从二维视频中准确地恢复出三维动作本质上是一个充满不确定性的难题。针对这一问题，我们探索了增大数据量和模型参数量从而建立了首个动作捕捉基模型，并以此为基础提出了端到端的单阶段方法，并实现了在世界坐标系中估计人体和相机轨迹。我们希望这些工作能为提升基于视觉的动作捕捉技术从而满足不断增长的动作生成需求开辟道路。

刘圳
简历：刘圳是Mila研究所和蒙特利尔大学的博士生，师从Liam Paull和Yoshua Bengio，本科与硕士毕业于佐治亚理工学院。他近期的主要研究方向是三维表征与生成模型。他目前是德国马克思普朗克智能系统所的访问学生，导师为Michael J. Black和Bernhard Schölkopf。
个人主页：https://itszhen.com

报告题目：三维表征与非水密网格的重建与生成
报告摘要：衣服等重要且常见的三维数字资产通常适合用非水密网格建模，但它们的高效高质量的重建与生成都是不小的技术挑战。为此，我们提出一种基于三维空间网格的三维表征以高效、鲁棒地参数化非水密网格。利用这种表征，我们不仅把基于可微光栅化器的高质量多视图重建拓展到非水密网格的重建上，还实现了第一个能直接生成非水密网格的扩散模型。

李哲
简历：李哲，清华大学自动化系五年级直博生，师从刘烨斌教授。2019年本科毕业于中国科学技术大学少年班。研究方向为面向人体的三维视觉，主要包括三维人体重建与驱动。在CVPR/TPAMI/SIGGRAPH等会议或期刊发表论文9篇，其中一作6篇，一作Oral论文2篇。曾获国家奖学金，入选华为“天才少年”计划。
个人主页：https://lizhe00.github.io/

报告题目： Animatable Gaussians：基于3D Gaussian Splatting的可驱动数字人体化身
报告摘要：本次报告将介绍可动画高斯（Animatable Gaussians），这是一种新的化身表达方法，它利用强大的二维 CNN 和3D Gaussian Splatting来创建高保真数字人体化身。为了将三维高斯与可驱动化身关联起来，该方法首先从输入视频中学习一个参数化模板，然后在两个前、后标准高斯图上对模板进行参数化，高斯图上每个像素代表一个三维高斯点。学习到的模板对穿着的服装具有自适应性，可用于建模长裙等宽松服装。这种以模板为导向的二维参数化使得本方法能够利用强大的2D CNN来学习与姿势相关的高斯图，从而建模精细的动态人体外观。此外，本方法还引入了一种姿势投影策略，以更好地将模型泛化至新姿势。总之，Animatable Gaussians可以从多视点RGB视频中自动化地创建具有动态、逼真和可泛化外观的人体化身。

徐霖宁
简历：徐霖宁是香港中文大学MMLab四年级博士生，主要研究方向是高逼真度的神经辐射场三维场景渲染，以及在室内场景和大规模城市场景的应用，曾在CVPR、ICCV、ECCV、SIGGRAPH等会议上发表数篇论文。
个人主页：

报告题目： Multiverse Reality: 基于神经辐射场技术的高逼真虚拟现实场景
报告摘要：消费级VR头显的兴起开启了一个沉浸式视觉内容的时代，高逼真度的虚拟化数字场景资产促进丰富、互动的体验，为新的人和场景交互方式带来可能。此次分享围绕我们对高逼真度室内神经辐射场的初步探索展开，探讨神经辐射技术和三维生成大模型对虚拟现实世界的未来展望。