Alibaba Cloud เปิดตัวโมเดลการวิจัยใหม่เพื่อการให้เหตุผลด้วยภาพที่ดียิ่งขึ้น – Taobao Thailand

ทั้งหมด                 Alibaba Group                 อีคอมเมิร์ซ                 เทคโนโลยี                 โลจิสติกส์            ความยั่งยืน                 ไลฟ์สไตล์


Alibaba Cloud เปิดตัวโมเดลการวิจัยใหม่เพื่อการให้เหตุผลด้วยภาพที่ดียิ่งขึ้น

เทคโนโลยี|เผยแพร่เมื่อ 30 ธันวาคม 2024

libaba Cloud เพิ่งเปิดตัว QVQ-72B-Preview (“QVQ”) ซึ่งเป็นโมเดลการวิจัยเชิงทดลองแบบโอเพนซอร์สที่ออกแบบมาเพื่อพัฒนาความสามารถในการให้เหตุผลด้วยภาพ

QVQ เป็นโมเดลน้ําหนักแบบเปิดสําหรับการให้เหตุผลแบบหลายรูปแบบที่ให้ประสิทธิภาพที่ยอดเยี่ยมในเกณฑ์มาตรฐานต่างๆ โดยเฉพาะอย่างยิ่ง ได้คะแนน 70.3% ในเกณฑ์มาตรฐาน Multimodal Massive Multi-task Understanding (MMMU) ซึ่งเน้นย้ําถึงความเข้าใจและความสามารถในการให้เหตุผลแบบสหสาขาวิชาชีพที่แข็งแกร่ง นอกจากนี้ QVQ ยังแสดงให้เห็นถึงความก้าวหน้าที่สําคัญใน MathVision ซึ่งเป็นชุดทดสอบการใช้เหตุผลทางคณิตศาสตร์หลายรูปแบบ ซึ่งได้ผลลัพธ์ที่เหนือกว่ารุ่นก่อนหน้า Qwen2-VL-72B ประสิทธิภาพที่ยอดเยี่ยมในเกณฑ์มาตรฐาน OlympiadBench ซึ่งเป็นชุดทดสอบเกณฑ์มาตรฐานวิทยาศาสตร์หลายรูปแบบสองภาษาระดับการแข่งขันโอลิมปิก เน้นย้ําถึงความสามารถของ QVQ ในการจัดการกับปัญหาที่ซับซ้อนและท้าทายอย่างมีประสิทธิภาพ

ผ่านการให้เหตุผลทีละขั้นตอน QVQ แสดงความสามารถที่เพิ่มขึ้นในงานให้เหตุผลด้วยภาพ โดยเฉพาะอย่างยิ่งในสถานการณ์ที่ต้องการการคิดวิเคราะห์ขั้นสูง อย่างไรก็ตาม แม้จะมีประสิทธิภาพที่ดี แต่ QVQ ก็มีข้อจํากัดบางประการ ตัวอย่างเช่น ในระหว่างการให้เหตุผลด้วยภาพหลายขั้นตอน โมเดลอาจค่อยๆ สูญเสียโฟกัสไปที่เนื้อหารูปภาพ ซึ่งอาจนําไปสู่อาการประสาทหลอนได้

QVQ เป็นโอเพ่นซอร์สและสามารถทดลองบน Hugging Face, Github และ Model Studio ชุมชนโอเพ่นซอร์สของอาลีบาบา

เลือกชมสินค้ามากมาย และให้เราสั่งซื้อสินค้าให้คุณ

SHOPPING MALL

Alibaba Cloud เปิดตัวโมเดลการวิจัยใหม่เพื่อการให้เหตุผลด้วยภาพที่ดียิ่งขึ้น

เทคโนโลยี|เผยแพร่เมื่อ 30 ธันวาคม 2024
เผยแพร่เมื่อ 30 ธันวาคม 2024

libaba Cloud เพิ่งเปิดตัว QVQ-72B-Preview (“QVQ”) ซึ่งเป็นโมเดลการวิจัยเชิงทดลองแบบโอเพนซอร์สที่ออกแบบมาเพื่อพัฒนาความสามารถในการให้เหตุผลด้วยภาพ

QVQ เป็นโมเดลน้ําหนักแบบเปิดสําหรับการให้เหตุผลแบบหลายรูปแบบที่ให้ประสิทธิภาพที่ยอดเยี่ยมในเกณฑ์มาตรฐานต่างๆ โดยเฉพาะอย่างยิ่ง ได้คะแนน 70.3% ในเกณฑ์มาตรฐาน Multimodal Massive Multi-task Understanding (MMMU) ซึ่งเน้นย้ําถึงความเข้าใจและความสามารถในการให้เหตุผลแบบสหสาขาวิชาชีพที่แข็งแกร่ง นอกจากนี้ QVQ ยังแสดงให้เห็นถึงความก้าวหน้าที่สําคัญใน MathVision ซึ่งเป็นชุดทดสอบการใช้เหตุผลทางคณิตศาสตร์หลายรูปแบบ ซึ่งได้ผลลัพธ์ที่เหนือกว่ารุ่นก่อนหน้า Qwen2-VL-72B ประสิทธิภาพที่ยอดเยี่ยมในเกณฑ์มาตรฐาน OlympiadBench ซึ่งเป็นชุดทดสอบเกณฑ์มาตรฐานวิทยาศาสตร์หลายรูปแบบสองภาษาระดับการแข่งขันโอลิมปิก เน้นย้ําถึงความสามารถของ QVQ ในการจัดการกับปัญหาที่ซับซ้อนและท้าทายอย่างมีประสิทธิภาพ

ผ่านการให้เหตุผลทีละขั้นตอน QVQ แสดงความสามารถที่เพิ่มขึ้นในงานให้เหตุผลด้วยภาพ โดยเฉพาะอย่างยิ่งในสถานการณ์ที่ต้องการการคิดวิเคราะห์ขั้นสูง อย่างไรก็ตาม แม้จะมีประสิทธิภาพที่ดี แต่ QVQ ก็มีข้อจํากัดบางประการ ตัวอย่างเช่น ในระหว่างการให้เหตุผลด้วยภาพหลายขั้นตอน โมเดลอาจค่อยๆ สูญเสียโฟกัสไปที่เนื้อหารูปภาพ ซึ่งอาจนําไปสู่อาการประสาทหลอนได้

QVQ เป็นโอเพ่นซอร์สและสามารถทดลองบน Hugging Face, Github และ Model Studio ชุมชนโอเพ่นซอร์สของอาลีบาบา

เลือกชมสินค้ามากมาย และให้เราสั่งซื้อให้คุณ

SHOPPING MALL

ให้เราสั่งซื้อสินค้าให้คุณ

SHOPPING MALL

คุณอาจชอบเนื้อหานี้

Privacy Preference Center