هوش مصنوعی مولد با پروژه muse گوگل، برآوردی از جایگاه آتی و هدفگذاری سرویس muse است که می توان از آن انتظار داشت. مقالات ترجمه شده netexe را از دست ندهید.
سال ۲۰۲۲ با عرضه مدلهایی مانند DALL-E 2، Stable Diffusion, Imagen و Parti، سال خوبی برای هوش مصنوعی مولد بود. و به نظر میرسد سال ۲۰۲۳ این مسیر را دنبال کند، زیرا گوگل از آخرین مدل متن به تصویر خود، Muse، در اوایل این ماه رونمایی کرد.
مانند سایر مدلهای تبدیل متن به تصویر، Muse یک شبکه عصبی عمیق است که یک پیام متنی را به عنوان ورودی دریافت میکند و تصویری مطابق با توضیحات تولید میکند. اما چیزی که Muse را از پیشینیانش متمایز میکند، کارایی و دقت آن است. محققان گوگل با تکیه بر تجربه کار قبلی در این زمینه و افزودن تکنیکهای جدید، توانستند یک مدل تولیدی ایجاد کنند که به منابع محاسباتی کمتری نیاز دارد و در برخی از مشکلاتی که سایر مدلهای تولیدی از آن رنج میبرند، پیشرفت میکند.
Google’s Muse از تولید تصویر مبتنی بر توکن استفاده میکند
Muse بر اساس تحقیقات قبلی در یادگیری عمیق، از جمله مدلهای زبان بزرگ (LLM)، شبکههای مولد کوانتیزه، و ترانسفورماتورهای تصویر مولد پوشانده شدهاست.
دیلیپ کریشنان، محقق در گوگل میگوید: «یک انگیزه قوی علاقه ما به یکسانسازی تولید تصویر و متن از طریق استفاده از توکنها بود. Muse بر اساس ایدههایی در MaskGit، مقاله قبلی از گروه ما، و روی پوشاندن ایدههای مدلسازی از مدلهای زبان بزرگ ساخته شدهاست.
Muse از شرطیسازی مدلهای زبان از پیش آموزشدیدهشده در کارهای قبلی و همچنین ایده مدلهای آبشاری که از Imagen وام گرفتهاست استفاده میکند. یکی از تفاوتهای جالب بین Muse و سایر مدلهای مشابه، تولید توکنهای مجزا به جای نمایشهای سطح پیکسل است که خروجی مدل را بسیار پایدارتر میکند.
مانند سایر تولیدکنندگان متن به تصویر، Muse بر روی مجموعه بزرگی از جفتهای تصویر-کپشن آموزش دیدهاست. یک LLM از پیش آموزشدیده، عنوان را پردازش میکند و یک نمایش عددی تعبیهشده و چند بعدی از توضیحات متنی ایجاد میکند. در همان زمان، آبشاری از دو رمزگذار-رمزگر تصویر، وضوحهای مختلف تصویر ورودی را به ماتریسی از توکنهای کوانتیزه تبدیل میکند.
در طول آموزش، مدل یک ترانسفورماتور پایه و یک ترانسفورماتور با وضوح فوقالعاده را آموزش میدهد تا جاسازیهای متن را با نشانههای تصویر تراز کند و از آنها برای بازتولید تصویر استفاده کند. مدل پارامترهای خود را با پوشاندن تصادفی نشانههای تصویر تنظیم میکند و سعی میکند آنها را پیشبینی کند.