
Wan
완
소개
Wan은 알리바바가 개발한 오픈소스 AI 영상 생성 모델 시리즈로, wan.video 플랫폼에서 텍스트-영상, 이미지-영상, 영상 편집, 음성-영상, 캐릭터 애니메이션 등 다양한 창작 도구를 제공합니다. 최신 Wan 2.2는 MoE 아키텍처(T2V-A14B·I2V-A14B)와 5B·14B 모델을 함께 공개했으며, TI2V-5B는 RTX 4090급 24GB GPU에서 720P@24fps 영상을 생성할 수 있습니다. 이전 버전 Wan 2.1의 1.3B 경량 모델은 8.19GB VRAM에서 동작해 진입장벽이 낮고, 영상 내 중국어·영어 텍스트 렌더링과 ComfyUI·Diffusers·ModelScope 통합을 지원합니다.
장점
- Apache 2.0 오픈소스로 모델 가중치와 코드가 공개되어 무료 셀프호스팅 가능
- Wan 2.1의 1.3B 경량 모델은 8.19GB VRAM으로 일반 소비자 GPU에서 실행 가능
- Wan 2.2의 TI2V-5B는 RTX 4090급 24GB GPU에서 720P@24fps 영상 생성 지원
- 텍스트-영상, 이미지-영상, 음성-영상, 캐릭터 애니메이션을 한 모델군에서 제공
- ComfyUI·Hugging Face Diffusers·ModelScope 등 오픈소스 생태계와 폭넓게 통합
단점
- 한국어 UI 정적 콘텐츠가 확인되지 않으며 프롬프트는 중국어·영어가 권장됨
- Wan 2.2 14B 모델은 단일 GPU 80GB VRAM이 필요해 개인 사용자에게 진입장벽이 높음
- wan.video 플랫폼 가격이 React 동적 렌더링이라 정적 페이지에서 확인 불가
- 최대 720P 해상도로 1080P 이상이 필요한 전문 영상 제작에는 부족
주요 활용 사례
- 텍스트 설명으로 SNS용 짧은 AI 영상 제작
- 제품 사진을 동영상 광고 소재로 이미지-영상 변환
- 음성 입력으로 디지털 휴먼 립싱크 영상 제작 (S2V-14B)
- 캐릭터 교체·애니메이션 영상 합성 (Animate-14B)
- 기존 영상의 리페인팅·확장·합성 편집 (VACE)
- 로컬 GPU에서 오픈소스 모델로 영상 생성 파이프라인 구축
- 스케치·드로잉을 고품질 이미지로 변환하거나 영상 초해상도 업스케일링
핵심 기능
텍스트-영상 (T2V-A14B/1.3B)
텍스트 프롬프트로 최대 720P 해상도의 AI 영상을 생성합니다
이미지-영상 (I2V-A14B)
정지 이미지를 자연스러운 동영상으로 변환하며 480P/720P 해상도를 지원합니다
VACE 영상 편집
기존 영상의 리페인팅, 합성 편집, 확장 등 고급 편집 기능을 1.3B/14B 두 가지 크기로 제공합니다
소비자 GPU 지원
Wan 2.1 1.3B는 8.19GB VRAM, Wan 2.2 TI2V-5B는 24GB GPU에서 720P@24fps 생성이 가능합니다
Wan 2.2 MoE 아키텍처
T2V-A14B는 27B 총 파라미터 중 14B만 활성화하는 MoE 구조로 효율을 높였습니다
음성-영상·캐릭터 애니메이션
S2V-14B는 음성 기반 립싱크 영상, Animate-14B는 캐릭터 교체와 애니메이션을 지원합니다
Apache 2.0 오픈소스
GitHub Wan-Video 조직에서 가중치와 코드가 공개되어 자유롭게 커스터마이징 가능합니다
공식 사이트 2026-05-08 검증
영상 가이드
💰 요금제 (2026-05-08 기준)
Free Tier
무료 (크레딧 기반)
- · 기본 생성 기능 이용 가능
- · 일일 무료 크레딧 제공
오픈소스 셀프호스팅
무료 (GPU 비용 별도)
- · GitHub에서 모델 다운로드
- · 1.3B 모델: 8.19GB VRAM 필요
- · 14B 모델: 멀티 GPU 필요
🇰🇷 한국 사용자 안내
- 한국어 UI:
- 확인 필요
- 결제:
- 확인 필요
🔄 대안 도구
❓ 자주 묻는 질문
Wan은 무료로 사용할 수 있나요?
어떤 GPU가 필요한가요?
Wan 2.2의 주요 개선점은 무엇인가요?
ComfyUI에서 사용할 수 있나요?
한국어 프롬프트를 지원하나요?
영상 해상도와 길이는 어떻게 되나요?
2026-05-08 검증 · 변경 가능



