أخبار

يحول الذكاء الاصطناعي الجديد من Google النص إلى موسيقى

ابتكر باحثو Google ذكاءً إصطناعيًا يمكنه إنشاء مقطوعات موسيقية مدتها دقائق من المطالبات النصية ، ويمكنه أيضًا تحويل اللحن إلى آلات أخرى .

وذلك على غرار الطريقة التي تولد بها أنظمة مثل DALL-E صورًا من المطالبات المكتوبة .

يُطلق على النموذج اسم MusicLM ، وبينما لا يمكنك اللعب به بنفسك ، قامت الشركة بتحميل مجموعة من العينات التي أنتجتها باستخدام النموذج.

هناك مقتطفات مدتها 30 ثانية لما يبدو وكأنه أغانٍ فعلية تم إنشاؤها من أوصاف طولها فقرة تصف نوعًا موسيقيًا وحيوية وحتى أدوات محددة .

بالإضافة إلى مقطوعات مدتها خمس دقائق تم إنشاؤها من كلمة واحدة أو كلمتين مثل “لحن تكنو”.

” ربما يكون المفضل لدي هو عرض توضيحي لـ “نمط القصة” ، حيث يُعطى النموذج أساسًا نصًا يتحول بين المطالبات.

قد لا يكون ذلك متاحًا للجميع ، لكن يمكنني أن أرى تمامًا أن هذا مؤلف من قبل إنسان.

يوجد أيضًا في الموقع التجريبي أمثلة لما ينتج عنه النموذج عندما يُطلب منه إنشاء مقاطع مدتها 10 ثوانٍ من آلات مثل التشيلو أو ماراكاس.

ومقاطع مدتها ثماني ثوانٍ من نوع معين ، موسيقى تناسب الهروب من السجن ، وحتى صوت عازف البيانو المبتدئ مقابل صوت متقدم.

ويتضمن أيضًا تفسيرات لعبارات مثل “نادي المستقبل” و “معدن الموت الأكورديون”.

يمكن لـ MusicLM حتى محاكاة الأصوات البشرية ، وعلى الرغم من أنه يبدو أنه يحصل على النغمة والصوت العام للأصوات بشكل صحيح ، إلا أن هناك جودة تتميز بها بالتأكيد.

أفضل طريقة يمكنني وصفها هي أنها تبدو محببة أو ثابتة.

هذه الجودة ليست بهذا الوضوح في المثال أعلاه ، لكنني أعتقد أن هذا يوضحها جيدًا.

هذا ، بالمناسبة ، هو نتيجة مطالبتهم بعمل موسيقى يمكن تشغيلها في صالة الألعاب الرياضية.

ربما لاحظت أيضًا أن كلمات الأغاني هراء ، ولكن بطريقة قد لا تلفت انتباهك بالضرورة إذا لم تكن منتبهًا .

نوعًا ما إذا كنت تستمع إلى شخص يغني في Simlish أو تلك الأغنية التي من المفترض أن تبدو مثل اللغة الإنجليزية ولكنها ليست كذلك.

لن أتظاهر بمعرفة كيف حققت Google هذه النتائج ، لكنها أصدرت ورقة بحثية تشرحها بالتفصيل إذا كنت من النوع الذي سيفهم هذا الرقم:

الموسيقى المولدة بالذكاء الاصطناعي لها تاريخ طويل يعود إلى عقود مضت. هناك أنظمة يُنسب لها الفضل في تأليف أغاني البوب .

ونسخ باخ بشكل أفضل مما كان يمكن للإنسان في التسعينيات ، ومرافقة العروض الحية.

يستخدم أحد الإصدارات الحديثة محرك إنشاء الصور بالذكاء الاصطناعي StableDiffusion لتحويل الرسائل النصية إلى مخططات طيفية يتم تحويلها بعد ذلك إلى موسيقى.

تقول الورقة أن MusicLM يمكن أن يتفوق على الأنظمة الأخرى من حيث “جودتها والتزامها بالتسميات التوضيحية” ، فضلاً عن حقيقة أنها يمكن أن تأخذ الصوت ونسخ اللحن.

ربما يكون هذا الجزء الأخير من أروع العروض التوضيحية التي طرحها الباحثون.

يتيح لك الموقع تشغيل صوت الإدخال ، حيث يقوم شخص ما بطنين أو صافرة لحن .

ثم يتيح لك سماع كيف يعيد النموذج إنتاجه كمصاحب توليف إلكتروني ، أو رباعي أوتار ، أو جيتار منفرد ، وما إلى ذلك من الأمثلة التي استمعت إليها ، فإنه يدير المهمة بشكل جيد جدا.

كما هو الحال مع الغزوات الأخرى في هذا النوع من الذكاء الاصطناعي ، فإن Google أكثر حذرًا مع MusicLM من نظرائها الذين قد يكون لديهم تقنية مماثلة.

“ليست لدينا خطط لإصدار نماذج في هذه المرحلة” ، تستنتج الورقة ، مستشهدة بمخاطر “اختلاس محتمل للمحتوى الإبداعي” والاستيلاء الثقافي المحتمل أو التحريف.

من الممكن دائمًا أن تظهر التقنية في إحدى تجارب Google الموسيقية الممتعة في وقت ما .

ولكن في الوقت الحالي ، الأشخاص الوحيدون الذين سيتمكنون من الاستفادة من البحث هم أشخاص آخرون يبنون أنظمة ذكاء اصطناعي موسيقية.

تقول Google إنها تطلق مجموعة بيانات علنية تضم حوالي 5500 زوجًا من أزواج النصوص الموسيقية .

والتي يمكن أن تساعد عند تدريب وتقييم أنظمة الذكاء الاصطناعي الموسيقية الأخرى.

مقالات ذات صلة