هوش مصنوعی مولد با پروژه muse گوگل

تولید عکس براساس توکن با google muse

Neteژانویه 15, 2023

0 70 خواندن این مطلب 2 دقیقه زمان میبرد

هوش مصنوعی مولد با پروژه muse گوگل، برآوردی از جایگاه آتی و هدفگذاری سرویس muse است که می توان از آن انتظار داشت. مقالات ترجمه شده netexe را از دست ندهید.

سال ۲۰۲۲ با عرضه مدل‌هایی مانند DALL-E 2، Stable Diffusion, Imagen و Parti، سال خوبی برای هوش مصنوعی مولد بود. و به نظر می‌رسد سال ۲۰۲۳ این مسیر را دنبال کند، زیرا گوگل از آخرین مدل متن به تصویر خود، Muse، در اوایل این ماه رونمایی کرد.

مانند سایر مدل‌های تبدیل متن به تصویر، Muse یک شبکه عصبی عمیق است که یک پیام متنی را به عنوان ورودی دریافت می‌کند و تصویری مطابق با توضیحات تولید می‌کند. اما چیزی که Muse را از پیشینیانش متمایز می‌کند، کارایی و دقت آن است. محققان گوگل با تکیه بر تجربه کار قبلی در این زمینه و افزودن تکنیک‌های جدید، توانستند یک مدل تولیدی ایجاد کنند که به منابع محاسباتی کمتری نیاز دارد و در برخی از مشکلاتی که سایر مدل‌های تولیدی از آن رنج می‌برند، پیشرفت می‌کند.

Google’s Muse از تولید تصویر مبتنی بر توکن استفاده می‌کند

Muse بر اساس تحقیقات قبلی در یادگیری عمیق، از جمله مدل‌های زبان بزرگ (LLM)، شبکه‌های مولد کوانتیزه، و ترانسفورماتورهای تصویر مولد پوشانده شده‌است.

دیلیپ کریشنان، محقق در گوگل می‌گوید: «یک انگیزه قوی علاقه ما به یکسان‌سازی تولید تصویر و متن از طریق استفاده از توکن‌ها بود. Muse بر اساس ایده‌هایی در MaskGit، مقاله قبلی از گروه ما، و روی پوشاندن ایده‌های مدل‌سازی از مدل‌های زبان بزرگ ساخته شده‌است.

Muse از شرطی‌سازی مدل‌های زبان از پیش آموزش‌دیده‌شده در کارهای قبلی و همچنین ایده مدل‌های آبشاری که از Imagen وام گرفته‌است استفاده می‌کند. یکی از تفاوت‌های جالب بین Muse و سایر مدل‌های مشابه، تولید توکن‌های مجزا به جای نمایش‌های سطح پیکسل است که خروجی مدل را بسیار پایدارتر می‌کند.

مانند سایر تولیدکنندگان متن به تصویر، Muse بر روی مجموعه بزرگی از جفت‌های تصویر-کپشن آموزش دیده‌است. یک LLM از پیش آموزش‌دیده، عنوان را پردازش می‌کند و یک نمایش عددی تعبیه‌شده و چند بعدی از توضیحات متنی ایجاد می‌کند. در همان زمان، آبشاری از دو رمزگذار-رمزگر تصویر، وضوح‌های مختلف تصویر ورودی را به ماتریسی از توکن‌های کوانتیزه تبدیل می‌کند.

در طول آموزش، مدل یک ترانسفورماتور پایه و یک ترانسفورماتور با وضوح فوق‌العاده را آموزش می‌دهد تا جاسازی‌های متن را با نشانه‌های تصویر تراز کند و از آنها برای بازتولید تصویر استفاده کند. مدل پارامترهای خود را با پوشاندن تصادفی نشانه‌های تصویر تنظیم می‌کند و سعی می‌کند آنها را پیش‌بینی کند.

منبع

برچسب ها