Alibaba Cloud เปิดแหล่งที่มาของโมเดล AI สําหรับการสร้างวิดีโอ

- Alibaba Cloud โอเพ่นซอร์ส 14 พันล้านพารามิเตอร์และ 1.3 พันล้านพารามิเตอร์ของโมเดล Video Foundation Wan2.1
- Wan2.1 อยู่ในอันดับต้น ๆ ของลีดเดอร์บอร์ด VBench ซึ่งเป็นโมเดลการสร้างวิดีโอโอเพ่นซอร์สเพียงรุ่นเดียวในห้าอันดับแรก
Aibaba Cloud กล่าวเมื่อวันพุธว่าได้ทําให้โมเดล AI สําหรับการสร้างวิดีโอพร้อมใช้งานฟรี ซึ่งเป็นส่วนหนึ่งของความพยายามล่าสุดในการมีส่วนร่วมในชุมชนโอเพ่นซอร์ส
บริษัทคลาวด์คอมพิวติ้งกําลังเปิดซอร์สสี่รุ่นของซีรีส์ Wan2.1 เวอร์ชันพารามิเตอร์ 14 พันล้าน (B) และ 1.3 พันล้านพารามิเตอร์ (B) ซึ่งเป็นรุ่นล่าสุดของโมเดลพื้นฐานวิดีโอ Tongyi Wanxiang (Wan)
ทั้งสี่รุ่น ได้แก่ T2V-14B, T2V-1.3B, I2V-14B-720P และ I2V-14B-480P ได้รับการออกแบบมาเพื่อสร้างภาพและวิดีโอคุณภาพสูงจากอินพุตข้อความและรูปภาพ สามารถดาวน์โหลดได้จากชุมชนโมเดล AI ของ Alibaba Cloud, Model Scope และแพลตฟอร์ม AI ที่ทํางานร่วมกัน Hugging Face ซึ่งนักวิชาการ นักวิจัย และสถาบันการค้าทั่วโลกสามารถเข้าถึงได้
เปิดตัวเมื่อต้นปีนี้ ซีรีส์ Wan2.1 เป็นรุ่นวิดีโอรุ่นแรกที่รองรับเอฟเฟกต์ข้อความทั้งภาษาจีนและภาษาอังกฤษ มีความเชี่ยวชาญในการสร้างภาพที่สมจริงโดยการจัดการการเคลื่อนไหวที่ซับซ้อนอย่างแม่นยํา ความแม่นยําในการปฏิบัติตามคําแนะนําได้ผลักดัน Wan2.1 ขึ้นสู่อันดับต้น ๆ ของลีดเดอร์บอร์ด VBench ซึ่งเป็นชุดเกณฑ์มาตรฐานที่ครอบคลุมสําหรับโมเดลการสร้างวิดีโอ นอกจากนี้ยังเป็นโมเดลการสร้างวิดีโอโอเพ่นซอร์สเพียงรุ่นเดียวในห้าอันดับแรกบนลีดเดอร์บอร์ด VBench ของ Hugging Face
จากข้อมูลของ VBench ซีรีส์ Wan2.1 ด้วยคะแนนรวม 86.22% เป็นผู้นําในมิติสําคัญ เช่น ระดับไดนามิก ความสัมพันธ์เชิงพื้นที่ สี และการโต้ตอบกับหลายวัตถุ

โมเดลพื้นฐานวิดีโอการฝึกอบรมต้องใช้ทรัพยากรการประมวลผลจํานวนมหาศาลและข้อมูลการฝึกอบรมคุณภาพสูงจํานวนมาก การเข้าถึงแบบเปิดช่วยลดอุปสรรคสําหรับธุรกิจจํานวนมากขึ้นในการใช้ประโยชน์จาก AI ทําให้พวกเขาสามารถสร้างเนื้อหาภาพคุณภาพสูงที่ปรับให้เหมาะกับความต้องการของตนได้อย่างคุ้มค่า
รุ่น T2V-14B เหมาะกว่าสําหรับการสร้างภาพคุณภาพสูงพร้อมไดนามิกการเคลื่อนไหวที่สําคัญ ในทางตรงกันข้าม โมเดล T2V-1.3B สร้างสมดุลระหว่างคุณภาพการผลิตและพลังการคํานวณ ทําให้เหมาะสําหรับนักพัฒนาที่หลากหลายที่ดําเนินการพัฒนาทุติยภูมิและการวิจัยทางวิชาการ ตัวอย่างเช่น รุ่น T2V-1.3B ช่วยให้ผู้ใช้ที่มีแล็ปท็อปส่วนบุคคลมาตรฐานสามารถสร้างวิดีโอความยาว 5 วินาทีที่ความละเอียด 480p ได้ในเวลาเพียง 4 นาที
รุ่น I2V-14B-720P และ I2V-14B-480P รองรับการสร้างข้อความเป็นวิดีโอและให้ความสามารถในการแปลงรูปภาพเป็นวิดีโอ ในการสร้างเนื้อหาวิดีโอแบบไดนามิก ผู้ใช้เพียงแค่ป้อนรูปภาพเดียวพร้อมกับคําอธิบายข้อความสั้นๆ แพลตฟอร์มรองรับอินพุตภาพขนาดปกติทุกมิติ
Alibaba Cloud เป็นหนึ่งในบริษัทเทคโนโลยีรายใหญ่ระดับโลกรายแรกที่โอเพ่นซอร์สโมเดล AI ขนาดใหญ่ที่พัฒนาขึ้นเอง โดยเปิดตัวโมเดลเปิดตัวแรก Qwen (Qwen-7B) ในเดือนสิงหาคม 2023 โมเดลแบบเปิดของ Qwen ติดอันดับกระดานผู้นํา HuggingFace Open LLM อย่างต่อเนื่อง โดยประสิทธิภาพที่ตรงกับโมเดล AI ชั้นนําระดับโลกในเกณฑ์มาตรฐานต่างๆ
ณ ตอนนี้ โมเดลอนุพันธ์มากกว่า 100,000 รายการตามตระกูลโมเดล Qwen ได้รับการพัฒนาบน Hugging Face ทําให้เป็นหนึ่งในตระกูลโมเดล AI ที่โดดเด่นที่สุดทั่วโลก
แบ่งปัน
คุณอาจชอบเนื้อหานี้
เลือกชมสินค้ามากมาย และให้เราสั่งซื้อสินค้าให้คุณ
เนื้อหายอดนิยม
Alibaba Cloud เปิดแหล่งที่มาของโมเดล AI สําหรับการสร้างวิดีโอ

- Alibaba Cloud โอเพ่นซอร์ส 14 พันล้านพารามิเตอร์และ 1.3 พันล้านพารามิเตอร์ของโมเดล Video Foundation Wan2.1
- Wan2.1 อยู่ในอันดับต้น ๆ ของลีดเดอร์บอร์ด VBench ซึ่งเป็นโมเดลการสร้างวิดีโอโอเพ่นซอร์สเพียงรุ่นเดียวในห้าอันดับแรก
Aibaba Cloud กล่าวเมื่อวันพุธว่าได้ทําให้โมเดล AI สําหรับการสร้างวิดีโอพร้อมใช้งานฟรี ซึ่งเป็นส่วนหนึ่งของความพยายามล่าสุดในการมีส่วนร่วมในชุมชนโอเพ่นซอร์ส
บริษัทคลาวด์คอมพิวติ้งกําลังเปิดซอร์สสี่รุ่นของซีรีส์ Wan2.1 เวอร์ชันพารามิเตอร์ 14 พันล้าน (B) และ 1.3 พันล้านพารามิเตอร์ (B) ซึ่งเป็นรุ่นล่าสุดของโมเดลพื้นฐานวิดีโอ Tongyi Wanxiang (Wan)
ทั้งสี่รุ่น ได้แก่ T2V-14B, T2V-1.3B, I2V-14B-720P และ I2V-14B-480P ได้รับการออกแบบมาเพื่อสร้างภาพและวิดีโอคุณภาพสูงจากอินพุตข้อความและรูปภาพ สามารถดาวน์โหลดได้จากชุมชนโมเดล AI ของ Alibaba Cloud, Model Scope และแพลตฟอร์ม AI ที่ทํางานร่วมกัน Hugging Face ซึ่งนักวิชาการ นักวิจัย และสถาบันการค้าทั่วโลกสามารถเข้าถึงได้
เปิดตัวเมื่อต้นปีนี้ ซีรีส์ Wan2.1 เป็นรุ่นวิดีโอรุ่นแรกที่รองรับเอฟเฟกต์ข้อความทั้งภาษาจีนและภาษาอังกฤษ มีความเชี่ยวชาญในการสร้างภาพที่สมจริงโดยการจัดการการเคลื่อนไหวที่ซับซ้อนอย่างแม่นยํา ความแม่นยําในการปฏิบัติตามคําแนะนําได้ผลักดัน Wan2.1 ขึ้นสู่อันดับต้น ๆ ของลีดเดอร์บอร์ด VBench ซึ่งเป็นชุดเกณฑ์มาตรฐานที่ครอบคลุมสําหรับโมเดลการสร้างวิดีโอ นอกจากนี้ยังเป็นโมเดลการสร้างวิดีโอโอเพ่นซอร์สเพียงรุ่นเดียวในห้าอันดับแรกบนลีดเดอร์บอร์ด VBench ของ Hugging Face
จากข้อมูลของ VBench ซีรีส์ Wan2.1 ด้วยคะแนนรวม 86.22% เป็นผู้นําในมิติสําคัญ เช่น ระดับไดนามิก ความสัมพันธ์เชิงพื้นที่ สี และการโต้ตอบกับหลายวัตถุ

โมเดลพื้นฐานวิดีโอการฝึกอบรมต้องใช้ทรัพยากรการประมวลผลจํานวนมหาศาลและข้อมูลการฝึกอบรมคุณภาพสูงจํานวนมาก การเข้าถึงแบบเปิดช่วยลดอุปสรรคสําหรับธุรกิจจํานวนมากขึ้นในการใช้ประโยชน์จาก AI ทําให้พวกเขาสามารถสร้างเนื้อหาภาพคุณภาพสูงที่ปรับให้เหมาะกับความต้องการของตนได้อย่างคุ้มค่า
รุ่น T2V-14B เหมาะกว่าสําหรับการสร้างภาพคุณภาพสูงพร้อมไดนามิกการเคลื่อนไหวที่สําคัญ ในทางตรงกันข้าม โมเดล T2V-1.3B สร้างสมดุลระหว่างคุณภาพการผลิตและพลังการคํานวณ ทําให้เหมาะสําหรับนักพัฒนาที่หลากหลายที่ดําเนินการพัฒนาทุติยภูมิและการวิจัยทางวิชาการ ตัวอย่างเช่น รุ่น T2V-1.3B ช่วยให้ผู้ใช้ที่มีแล็ปท็อปส่วนบุคคลมาตรฐานสามารถสร้างวิดีโอความยาว 5 วินาทีที่ความละเอียด 480p ได้ในเวลาเพียง 4 นาที
รุ่น I2V-14B-720P และ I2V-14B-480P รองรับการสร้างข้อความเป็นวิดีโอและให้ความสามารถในการแปลงรูปภาพเป็นวิดีโอ ในการสร้างเนื้อหาวิดีโอแบบไดนามิก ผู้ใช้เพียงแค่ป้อนรูปภาพเดียวพร้อมกับคําอธิบายข้อความสั้นๆ แพลตฟอร์มรองรับอินพุตภาพขนาดปกติทุกมิติ
Alibaba Cloud เป็นหนึ่งในบริษัทเทคโนโลยีรายใหญ่ระดับโลกรายแรกที่โอเพ่นซอร์สโมเดล AI ขนาดใหญ่ที่พัฒนาขึ้นเอง โดยเปิดตัวโมเดลเปิดตัวแรก Qwen (Qwen-7B) ในเดือนสิงหาคม 2023 โมเดลแบบเปิดของ Qwen ติดอันดับกระดานผู้นํา HuggingFace Open LLM อย่างต่อเนื่อง โดยประสิทธิภาพที่ตรงกับโมเดล AI ชั้นนําระดับโลกในเกณฑ์มาตรฐานต่างๆ
ณ ตอนนี้ โมเดลอนุพันธ์มากกว่า 100,000 รายการตามตระกูลโมเดล Qwen ได้รับการพัฒนาบน Hugging Face ทําให้เป็นหนึ่งในตระกูลโมเดล AI ที่โดดเด่นที่สุดทั่วโลก












