جوجل تقدم Veo 3.. النموذج الأول للذكاء الاصطناعي الذي ينشئ الفيديو والصوت معًا

في خطوة جديدة تعزز مستقبل الذكاء الاصطناعي في صناعة المحتوى، أعلنت شركة جوجل من خلال مؤتمر Google I/O 2025 عن إطلاق نموذجها الأحدث لتوليد الفيديو Veo 3، والذي يتميز بقدرته على إنتاج الصوت تلقائيا، بما في ذلك المؤثرات الصوتية، والضوضاء الخلفية، بل وحتى الحوارات.
جوجل تطلق Veo 3 أول نموذج ذكاء اصطناعي يولد الفيديو والصوت معا
وفقا لـ جوجل، فإن Veo 3 يمثل تطورا كبيرا مقارنة بسابقه Veo 2، ليس فقط من حيث جودة الفيديو، بل في دمج الصوت بشكل متزامن وطبيعي مع المشاهد المولدة، ما يفتح الباب أمام عصر جديد من “الفيديو الناطق” باستخدام الذكاء الاصطناعي.
قال ديميس هاسابيس، الرئيس التنفيذي لشركة Google DeepMind، خلال مؤتمر صحفي. “يمكنك الآن إعطاء Veo 3 وصفا يتضمن الشخصيات، والبيئة، وحتى مقاطع الحوار، مع تحديد طبيعة الصوت المطلوب”.
آلية الاستخدام والتوفر
النموذج الجديد Veo 3 أصبح متاحا ابتداء من الثلاثاء عبر تطبيق Gemini لمشتركي خطة AI Ultra التي تبلغ كلفتها 249.99 دولار شهريا، يمكن للمستخدمين تزويد النموذج بأوامر نصية أو صور ليقوم بتوليد فيديو متكامل بالصوت والصورة.وتستفيد جوجل في Veo 3 من أبحاث DeepMind السابقة في تقنيات “الفيديو إلى صوت”، التي تم الكشف عنها في يونيو الماضي، حيث تم تدريب النموذج على مزيج من مقاطع الفيديو، التأثيرات الصوتية، ونصوص الحوارات.رغم عدم تأكيد جوجل مصادر البيانات التي تم تدريب Veo 3 عليها، إلا أن يوتيوب يبقى احتمالا قويا، خاصة أن DeepMind سبق وألمحت إلى إمكانية استخدام بعض مواد يوتيوب في تدريب نماذجها.
علامات مائية لمكافحة التزييف
لمواجهة خطر التزييف العميق، أوضحت جوجل أن Veo 3 يستخدم تقنية SynthID لتضمين علامات مائية غير مرئية داخل كل إطار فيديو يتم توليده، ما يساعد على تتبع المصدر الأصلي وحماية المحتوى.
إلى جانب Veo 3، طرحت جوجل مجموعة تحديثات على الإصدار السابق Veo 2، تضمنت تحميل صور لشخصيات أو أنماط للحفاظ على التناسق البصري، دعم لحركات الكاميرا مثل التدوير والتقريب والتحريك، وإمكانية إضافة أو إزالة عناصر من المشاهد، مع ضبط تلقائي للظلال والإضاءة، وتوسيع الإطارات لتحويل المقاطع من الطولية إلى العرضية والعكس، هذه الميزات الجديدة ستتوفر قريبا عبر منصة Vertex AI الخاصة بـ جوجل.