Alibaba Cloud เปิดตัวโมเดลการวิจัยใหม่เพื่อการให้เหตุผลด้วยภาพที่ดียิ่งขึ้น

ทั้งหมด Alibaba Group อีคอมเมิร์ซ เทคโนโลยี โลจิสติกส์ ความยั่งยืน ไลฟ์สไตล์

Alibaba Cloud เปิดตัวโมเดลการวิจัยใหม่เพื่อการให้เหตุผลด้วยภาพที่ดียิ่งขึ้น

เทคโนโลยี|เผยแพร่เมื่อ 30 ธันวาคม 2024

libaba Cloud เพิ่งเปิดตัว QVQ-72B-Preview (“QVQ”) ซึ่งเป็นโมเดลการวิจัยเชิงทดลองแบบโอเพนซอร์สที่ออกแบบมาเพื่อพัฒนาความสามารถในการให้เหตุผลด้วยภาพ

QVQ เป็นโมเดลน้ําหนักแบบเปิดสําหรับการให้เหตุผลแบบหลายรูปแบบที่ให้ประสิทธิภาพที่ยอดเยี่ยมในเกณฑ์มาตรฐานต่างๆ โดยเฉพาะอย่างยิ่ง ได้คะแนน 70.3% ในเกณฑ์มาตรฐาน Multimodal Massive Multi-task Understanding (MMMU) ซึ่งเน้นย้ําถึงความเข้าใจและความสามารถในการให้เหตุผลแบบสหสาขาวิชาชีพที่แข็งแกร่ง นอกจากนี้ QVQ ยังแสดงให้เห็นถึงความก้าวหน้าที่สําคัญใน MathVision ซึ่งเป็นชุดทดสอบการใช้เหตุผลทางคณิตศาสตร์หลายรูปแบบ ซึ่งได้ผลลัพธ์ที่เหนือกว่ารุ่นก่อนหน้า Qwen2-VL-72B ประสิทธิภาพที่ยอดเยี่ยมในเกณฑ์มาตรฐาน OlympiadBench ซึ่งเป็นชุดทดสอบเกณฑ์มาตรฐานวิทยาศาสตร์หลายรูปแบบสองภาษาระดับการแข่งขันโอลิมปิก เน้นย้ําถึงความสามารถของ QVQ ในการจัดการกับปัญหาที่ซับซ้อนและท้าทายอย่างมีประสิทธิภาพ

ผ่านการให้เหตุผลทีละขั้นตอน QVQ แสดงความสามารถที่เพิ่มขึ้นในงานให้เหตุผลด้วยภาพ โดยเฉพาะอย่างยิ่งในสถานการณ์ที่ต้องการการคิดวิเคราะห์ขั้นสูง อย่างไรก็ตาม แม้จะมีประสิทธิภาพที่ดี แต่ QVQ ก็มีข้อจํากัดบางประการ ตัวอย่างเช่น ในระหว่างการให้เหตุผลด้วยภาพหลายขั้นตอน โมเดลอาจค่อยๆ สูญเสียโฟกัสไปที่เนื้อหารูปภาพ ซึ่งอาจนําไปสู่อาการประสาทหลอนได้

QVQ เป็นโอเพ่นซอร์สและสามารถทดลองบน Hugging Face, Github และ Model Studio ชุมชนโอเพ่นซอร์สของอาลีบาบา