모켓 로고
Wan

Wan

AI 영상영상생성알리바바오픈소스

소개

Wan은 알리바바가 개발한 오픈소스 AI 영상 생성 모델 시리즈로, wan.video 플랫폼에서 텍스트-영상, 이미지-영상, 영상 편집, 음성-영상, 캐릭터 애니메이션 등 다양한 창작 도구를 제공합니다. 최신 Wan 2.2는 MoE 아키텍처(T2V-A14B·I2V-A14B)와 5B·14B 모델을 함께 공개했으며, TI2V-5B는 RTX 4090급 24GB GPU에서 720P@24fps 영상을 생성할 수 있습니다. 이전 버전 Wan 2.1의 1.3B 경량 모델은 8.19GB VRAM에서 동작해 진입장벽이 낮고, 영상 내 중국어·영어 텍스트 렌더링과 ComfyUI·Diffusers·ModelScope 통합을 지원합니다.

장점

  • Apache 2.0 오픈소스로 모델 가중치와 코드가 공개되어 무료 셀프호스팅 가능
  • Wan 2.1의 1.3B 경량 모델은 8.19GB VRAM으로 일반 소비자 GPU에서 실행 가능
  • Wan 2.2의 TI2V-5B는 RTX 4090급 24GB GPU에서 720P@24fps 영상 생성 지원
  • 텍스트-영상, 이미지-영상, 음성-영상, 캐릭터 애니메이션을 한 모델군에서 제공
  • ComfyUI·Hugging Face Diffusers·ModelScope 등 오픈소스 생태계와 폭넓게 통합

단점

  • 한국어 UI 정적 콘텐츠가 확인되지 않으며 프롬프트는 중국어·영어가 권장됨
  • Wan 2.2 14B 모델은 단일 GPU 80GB VRAM이 필요해 개인 사용자에게 진입장벽이 높음
  • wan.video 플랫폼 가격이 React 동적 렌더링이라 정적 페이지에서 확인 불가
  • 최대 720P 해상도로 1080P 이상이 필요한 전문 영상 제작에는 부족

주요 활용 사례

  • 텍스트 설명으로 SNS용 짧은 AI 영상 제작
  • 제품 사진을 동영상 광고 소재로 이미지-영상 변환
  • 음성 입력으로 디지털 휴먼 립싱크 영상 제작 (S2V-14B)
  • 캐릭터 교체·애니메이션 영상 합성 (Animate-14B)
  • 기존 영상의 리페인팅·확장·합성 편집 (VACE)
  • 로컬 GPU에서 오픈소스 모델로 영상 생성 파이프라인 구축
  • 스케치·드로잉을 고품질 이미지로 변환하거나 영상 초해상도 업스케일링

핵심 기능

텍스트-영상 (T2V-A14B/1.3B)

텍스트 프롬프트로 최대 720P 해상도의 AI 영상을 생성합니다

이미지-영상 (I2V-A14B)

정지 이미지를 자연스러운 동영상으로 변환하며 480P/720P 해상도를 지원합니다

VACE 영상 편집

기존 영상의 리페인팅, 합성 편집, 확장 등 고급 편집 기능을 1.3B/14B 두 가지 크기로 제공합니다

소비자 GPU 지원

Wan 2.1 1.3B는 8.19GB VRAM, Wan 2.2 TI2V-5B는 24GB GPU에서 720P@24fps 생성이 가능합니다

Wan 2.2 MoE 아키텍처

T2V-A14B는 27B 총 파라미터 중 14B만 활성화하는 MoE 구조로 효율을 높였습니다

음성-영상·캐릭터 애니메이션

S2V-14B는 음성 기반 립싱크 영상, Animate-14B는 캐릭터 교체와 애니메이션을 지원합니다

Apache 2.0 오픈소스

GitHub Wan-Video 조직에서 가중치와 코드가 공개되어 자유롭게 커스터마이징 가능합니다

공식 사이트 2026-05-08 검증

💰 요금제 (2026-05-08 기준)

Free Tier

무료 ​(​크레딧 기반​)​

  • · 기본 생성 기능 이용 가능
  • · 일일 무료 크레딧 제공

오픈소스 셀프호스팅

무료 ​(​GPU 비용 별도​)​

  • · GitHub에서 모델 다운로드
  • · 1.3B 모델: 8.19GB VRAM 필요
  • · 14B 모델: 멀티 GPU 필요

🇰🇷 한국 사용자 안내

한국어 UI:
확인 필요
결제:
확인 필요
wan.video는 React 동적 렌더링 방식이라 정적 한국어 콘텐츠가 확인되지 않으며 /ko URL도 동일한 영문 셸로 응답. 오픈소스 모델(Apache 2.0)은 언어 무관하게 사용 가능

자주 묻는 질문

Wan은 무료로 사용할 수 있나요?
wan.video 플랫폼에서 무료 크레딧으로 기본 기능을 이용할 수 있고, 오픈소스 모델을 다운로드해 로컬에서 무료로 실행할 수도 있습니다.
어떤 GPU가 필요한가요?
Wan 2.1 1.3B는 8.19GB VRAM이면 충분하며 RTX 4090에서 5초 480P 영상을 약 4분에 생성합니다. Wan 2.2 TI2V-5B는 24GB GPU에서, 14B MoE 모델은 단일 GPU 80GB 또는 4-8 GPU 분산 환경이 필요합니다.
Wan 2.2의 주요 개선점은 무엇인가요?
MoE 아키텍처(T2V-A14B·I2V-A14B), TI2V-5B 통합 모델, S2V-14B 음성-영상, Animate-14B 캐릭터 애니메이션이 추가됐습니다. 학습 데이터도 이미지 65.6%·영상 83.2% 증가했습니다.
ComfyUI에서 사용할 수 있나요?
네, Wan 2.1은 ComfyUI, Hugging Face Diffusers, 네이티브 코드 등 다양한 방식으로 통합할 수 있습니다.
한국어 프롬프트를 지원하나요?
공식적으로 중국어와 영어 프롬프트를 지원합니다. 한국어 프롬프트는 제한적이며, 영어로 입력하는 것이 더 안정적인 결과를 제공합니다.
영상 해상도와 길이는 어떻게 되나요?
최대 720P 해상도를 지원하며, 14B 모델은 720P와 480P, 1.3B 모델은 480P 영상을 생성합니다.

2026-05-08 검증 · 변경 가능