DeepSeek AI มัลติโมดัล: อ่านภาพได้ก่อนเปเปอร์ถูกลบ

ในที่สุด DeepSeek ก็สามารถ "มองเห็น" ได้แล้ว! ถือเป็นความเคลื่อนไหวครั้งสำคัญในวงการปัญญาประดิษฐ์ เมื่อ DeepSeek ได้เปิดทดสอบระบบ DeepSeek AI มัลติโมดัล (Multi-modal AI) ให้กับผู้ใช้งานบางกลุ่ม โดยเพิ่มปุ่มโหมดอ่านภาพเข้ามาในหน้าแรก ซึ่งหมายความว่าตอนนี้โมเดลสามารถเข้าใจและวิเคราะห์ภาพที่อัปโหลดได้ใกล้เคียงกับมนุษย์แล้ว

ไทม์ไลน์การเปิดตัวและการลบข้อมูลที่น่าสงสัย

DeepSeek Multi-modal AI Announcement

29 เมษายน: คุณ Chen Xiaokang หัวหน้าทีมมัลติโมดัลของ DeepSeek โพสต์ข้อความว่า "ตอนนี้ พวกเรามองเห็นคุณแล้ว" ถือเป็นการประกาศอย่างเป็นทางการว่าแชตบอตเชื่อมต่อกับระบบมัลติโมดัลแล้ว 30 เมษายน: DeepSeek ปล่อยรายงานทางเทคนิค (Paper) ที่ชื่อว่า 《Thinking with Visual Primitives》 ซึ่งอธิบายเบื้องหลังการทำงานของเทคโนโลยีตัวใหม่นี้ 1 พฤษภาคม: ผู้ใช้งานพบว่า DeepSeek ลบข้อมูลคลังเก็บมัลติโมดัลและเปเปอร์ต้นฉบับทิ้งไปแบบข้ามคืน โดยหน้า Github แสดงสถานะ "404 Not Found"

DeepSeek Paper 404 Status

แม้ทางบริษัทจะไม่ได้ออกมาชี้แจงสาเหตุอย่างเป็นทางการ แต่คนในวงการคาดเดากันว่า ไม่ได้เกิดจากเนื้อหาที่ผิดพลาด แต่เป็นเพราะเปเปอร์นี้อาจเปิดเผยข้อมูลความลับทางเทคโนโลยีมากเกินไป

นวัตกรรมใหม่: เมื่อ AI ต้องมี "นิ้วชี้" เพื่อช่วยคิด

จากข้อมูลในเปเปอร์ สไตล์การพัฒนาของ DeepSeek ยังคงเน้นความใช้งานได้จริง โดยมุ่งใช้กระบวนการทางวิศวกรรมเพื่อลดต้นทุน และใช้กระบวนทัศน์แบบใหม่ เปเปอร์ระบุว่า สาเหตุที่โมเดล AI มัลติโมดัลในปัจจุบันมักจะไปไม่รอดเมื่อเจอคำสั่งซับซ้อน ไม่ใช่เพราะมันมองไม่เห็น (Perception Gap) แต่เกิดจาก "การชี้เป้าที่ไม่แม่นยำ" (Reference Gap)

ภาษาธรรมชาติของมนุษย์มีความคลุมเครือ เมื่อเราสั่งให้โมเดลประมวลผลพื้นที่ซับซ้อน การใช้แค่คำอธิบายตัวอักษรจะทำให้สับสนง่าย เปรียบเสมือนการนับเหรียญที่กองกระจัดกระจาย หากไม่ใช้นิ้วชี้จิ้มทีละเหรียญ ก็มีโอกาสสูงที่จะนับพลาดหรือนับซ้ำ

รู้จักระบบ Visual Primitives

วิธีแก้ปัญหาคือการสร้าง "นิ้วชี้" ให้โมเดล AI ด้วยโครงสร้างที่เรียกว่า Visual Primitives

ระบบนี้ยกระดับให้จุด (Points) หรือกรอบพื้นที่ (Bounding Boxes) กลายเป็นหน่วยความคิดที่เล็กที่สุด
โมเดลจะสามารถ "คิดไปพร้อมๆ กับชี้ไปได้" (Thinking while pointing)
ทำให้ตรรกะทางภาษาที่เป็นนามธรรม เชื่อมโยงเข้ากับพิกัดบนพื้นที่จริงได้อย่างแม่นยำ

แนวคิดนี้ได้รับแรงบันดาลใจจากพฤติกรรมมนุษย์ ที่มักใช้นิ้วชี้เพื่อลดภาระความคิดและรักษาตรรกะให้คงที่

ประสิทธิภาพที่ทัดเทียม GPT, Claude และ Gemini

โมเดลนี้สร้างบนพื้นฐานของ DeepSeek-V4-Flash ซึ่งมีพารามิเตอร์สูงถึง 2.84 แสนล้าน จากการทดลองพบว่าวิธีการ "ชี้และคิด" ทำให้ความแม่นยำในการวิเคราะห์พุ่งสูงขึ้นอย่างมีนัยสำคัญ โดยเฉพาะงานการใช้เหตุผลเชิงพื้นที่ (Spatial Reasoning) และการตอบคำถามจากภาพ (Visual QA) ซึ่งทำผลงานได้เทียบเท่าหรือเหนือกว่าโมเดลล่าสุดของ GPT, Claude และ Gemini

นี่เป็นข้อพิสูจน์ว่า อนาคตของ AI มัลติโมดัล ไม่ใช่แค่การทำให้ AI "มองเห็นพิกเซลมากขึ้น" แต่คือการสร้างสะพานเชื่อมโยงที่แม่นยำระหว่าง "ภาษา" และ "การมองเห็น"

ก้าวต่อไปของ DeepSeek ในสมรภูมิ AI

ย้อนกลับไป 24 เมษายน DeepSeek เพิ่งเปิดตัวซีรีส์ V4 ซึ่งรองรับ Context ยาว 1 ล้านคำ แต่ไม่มีการพูดถึงระบบภาพที่หลายคนรอคอย ระบบมัลติโมดัลถือเป็นทิศทางสำคัญในการอัปเดต LLM ปัจจุบัน การที่ DeepSeek ตามหลังในจุดนี้เคยถูกมองว่าเป็นจุดอ่อน

มีข่าวลือว่าสาเหตุที่ DeepSeek ชะลอการฝึกฝนระบบมัลติโมดัล เป็นเพราะข้อจำกัดด้านพลังการประมวลผล (Compute Power) และเงินทุน แต่หลังการระดมทุนเพิ่มเติม เชื่อว่าทิศทางการพัฒนาโมเดล AI ที่มองเห็นได้หลังจากนี้ จะดุดันและน่าจับตามองอย่างแน่นอน!

เจาะลึก! DeepSeek เปิดตัว AI มัลติโมดัล (Multi-modal) อ่านภาพได้ ก่อนลบเปเปอร์ทิ้งข้ามคืน เกิดอะไรขึ้น?

ไทม์ไลน์การเปิดตัวและการลบข้อมูลที่น่าสงสัย

นวัตกรรมใหม่: เมื่อ AI ต้องมี "นิ้วชี้" เพื่อช่วยคิด

รู้จักระบบ Visual Primitives

ประสิทธิภาพที่ทัดเทียม GPT, Claude และ Gemini

ก้าวต่อไปของ DeepSeek ในสมรภูมิ AI