Loop Consistent Video Generative Model

Joint training of video and multi-view native Diffusion Forcing Transformer for enabling complex loop closures via context enhancement.

Joint training of a video and multi-view native Diffusion Forcing Transformer for enabling complex loop closures via context enhancement. Work done as visiting researcher at MIT.

At: Scene Representation Group, MIT