محققان روش جدیدی را توسعه داده اند که از چندین مدل برای ایجاد تصاویر پیچیده تر با درک بهتر استفاده می کند.
اینترنت با معرفی DALL-E، یک تولید کننده تصویر از مصنوعی مصنوعی با الهام از سالوادور دالی و ربات دوست داشتنی WALL-E که از زبان طبیعی برای تولید هر تصویر مرموز و زیبایی که دل شما میخواهد، استفاده میکند، لحظهای خوش را تجربه کنید. کرد. . دیدن ورودیهای تایپشده مانند «گوفر خندان که قیفی بستنی را در دست دارد» فوراً به حیاتی تبدیل میشود که در جهان طنیناندازی میشود.
که گفته می شود گوفر خندان و ویژگی های ظاهر شده روی صفحه نمایش شما ظاهر می شود کار کوچکی نیست. DALL-E 2 از چیزی به نام مدل انتشار می کند، جایی که سعی می کند کل متن را در یک توضیحات رمزگذاری کند تا یک تصویر تولید کند. اما زمانی که متن بسیار زیادی است، برای یک توضیح واحد برای ثبت همه آن مشکل است. علاوه بر این، در حالی که آنها بسیار قابل قبول هستند، گاهی اوقات برای درک مفاهیم، مانند گیج کردن ویژگی ها یا روابط بین اشیاء مختلف، با مشکل مواجه می شوند.
برای تولید تصاویر پیچیده تر با درک بهتر، آزمایشگاه آزمایشگاه کامپیوتر و هوش مصنوعی MIT (CSAIL) مدل معمولی را از زاویه متفاوتی از علوم میدانند: جنبه های مختلف همکاری می کنند. مواردی که توسط متن یا برچسب های ورودی درخواست می شود. برای ایجاد یک تصویر با دو مؤلفه، مثلاً با دو جمله توضیح داده شده، هر مدل به یک جزء خاص از تصویر می پردازد.
مدل های به ظاهر جادویی پشت تولید تصویر با پیشنهاد یک سری مراحل اصلاحی تکراری برای رسیدن به تصویر مورد نظر کار می کنند. با یک تصویر "" شروع می شود و سپس به بد آن را اصلاح می کند به تصویر انتخاب می شود تبدیل شود. با ترکیبی از مدل با هم، آنها به طور مشترک ظاهر را در هر مرحله اصلاح می کنند، بنابراین نتیجه تصویری است که تمام ویژگی های هر مدل را نشان می دهد. با همکاری مدل، می توانید ترکیبات خلاقانه تری در تصاویر تولید شده به دست آورید.
به عنوان مثال، یک ماشین قرمز و یک خانه سبز را در نظر بگیرید. وقتی این جملات بسیار پیچیده میشود، این مدل ماشین قرمز و خانه سبز را اشتباه میگیرد. یک ژنراتور معمولی مانند DALL-E 2 ممکن است یک کامیون سبز و یک خانه قرمز بسازد، بنابراین این رنگ ها را با هم عوض می کند. تیم میتواند این نوع ویژگیهای ارتباطی را با اشیا را مدیریت کند، و بهویژه مجموعههای متعددی از چیزهای وجود دارد، میتواند هر شی را با دقت بیشتر مدیریت کند.
این مدلهای میتواند بهمنظور نتیجهگیریهای اشیا و توصیفهای را مدلسازی کند، که برای مدلهای تصویر موجود، چالش برانگیز است. مثلاً یک جسم و یک مکعب را در یک موقعیت خاص و یک کره را در جای دیگری قرار دهید. دال-ای 2 در تولید تصاویر طبیعی خوب است، اما گاهی اوقات در روابط شی با مشکل است. اگر میتوان به کودک اشاره کرد که یک مکعب را بالای یک کره قرار دهد و اگر این را به زبان بگویم، میتوان آن را برای سختی درک کرد. اما مدل ما می تواند را تولید کند و آنها را نشان دهد.
Composable Diffusion - مدل تیم - از مدلهای انتشار در کنار عملگرهای ترکیبی برای ترکیب توضیحات متنی بدون آموزش بیشتر استفاده میکند. تیم جزئیات متن را با دقت نسبت به مدل انتشار اصلی که مستقیماً کلمات را به عنوان یک جمله بلند رمز میکند، میکند، تعیین کنید. به عنوان مثال، با توجه به «آسمان تصویری» و «کوه آبی در افق» و «شکوفه های گیلاس در جلوی کوه»، مدل تیم دقیقاً آن تصویر را تولید می کند، در حالی که مدل اولیه آسمان را آبی و همه چیز تولید می کند. جلوی کوهی است
"این مدلی که ما را می توان ترکیب کرد به این معنی است که شما می توانید مدل های مختلف را در یک زمان یاد بگیرید. دیگر یاد بگیرید، و سپس چیزی را در سمت چپ شیء دیگر یاد بگیرید." از آنجایی که میتوانیم اینها را با هم بسازیم، میتوانیم بدانیم که سیستم ما را قادر میسازد تا زبان، روابط یا دانش را به صورت تدریجی یاد بگیریم، که فکر میکنم یک بسیار جالب برای کار آینده است.»
در حالی که این مدل در تولید تصاویر پیچیده و واقعی نشان داد، اما همچنان با چالشهایی مواجه شد، زیرا این مدل بر روی مجموعههای بسیار کوچکتری نسبت به نمونههایی مانند DALL-E 2 آموزش دیده بود، بنابراین برخی از اشیاء بودند که به نظر میرسیدند. نمی توانم آنها را بگیریم.
اکنون که Composable Diffusion میتواند بر روی مدلهای مولد مانند DALL-E 2 کار کند، محققان میخواهند مستمر را به عنوان مرحله بعدی بالقوه بررسی کنند. با توجه به اینکه معمولاً چیزهای بیشتر به روابط شی اضافه میشود، آنها میخواهند ببینند که آیا مدلهای انتشار میتوانند بدون فراموش کردن دانش آموختهشده قبلی شروع به «یادگیری» کنند - به مکانی که مدلهای جدید تصاویر با دانش قبلی و جدید تولید میکنند.
مارک چن میگوید: «این تحقیق روش جدیدی را برای ترکیب مفاهیم در تولید متن به تصویر پیشنهاد میکند، نه از طریق به هم پیوستن آنها برای تشکیل یک اعلان، بلکه با محاسبه امتیازات با توجه به هر مفهوم و ترکیب آنها با استفاده از عملگرهای ربط و نفی». یکی از خالقان DALL-E 2 و دانشمند پژوهشی در OpenAI. این ایده خوبی است که از تفسیر مبتنی بر انرژی مدلهای انتشار استفاده میکند تا ایدههای قدیمی در مورد ترکیببندی با استفاده از مدلهای مبتنی بر انرژی را بتوان به کار برد. این رویکرد همچنین میتواند از راهنماییهای بدون طبقهبندی استفاده کند، و شگفتآور است که میبینیم از خط پایه GLIDE در معیارهای ترکیبی مختلف بهتر عمل میکند و میتواند از نظر کیفی انواع بسیار متفاوتی از نسلهای تصویر را تولید کند.
برایان راسل، دانشمند تحقیقاتی در Adobe Systems میگوید: «انسانها میتوانند صحنههایی شامل عناصر مختلف را به روشهای بیشماری بسازند، اما این کار برای رایانهها چالش برانگیز است. این کار فرمولبندی ظریفی را پیشنهاد میکند که به صراحت مجموعهای از مدلهای انتشار را برای تولید یک تصویر با توجه به یک زبان طبیعی پیچیده میسازد.
در کنار لی و دو، نویسندگان مشترک مقاله نان لیو، دانشجوی کارشناسی ارشد علوم کامپیوتر در دانشگاه ایلینویز در اوربانا-شامپین، و اساتید MIT آنتونیو تورالبا و جاشوا بی تننبام هستند.
این تحقیق توسط Raytheon BBN Technologies Corp.، Mitsubishi Electric Research Laboratory و DEVCOM Army Research Laboratory پشتیبانی شد.