سیستم هوش مصنوعی مدل هایی مانند DALL-E 2 را خلاق تر می کند

محققان روش جدیدی را توسعه داده اند که از چندین مدل برای ایجاد تصاویر پیچیده تر با درک بهتر استفاده می کند.

اینترنت با معرفی DALL-E، یک تولید کننده تصویر از مصنوعی مصنوعی با الهام از سالوادور دالی و ربات دوست داشتنی WALL-E که از زبان طبیعی برای تولید هر تصویر مرموز و زیبایی که دل شما می‌خواهد، استفاده می‌کند، لحظه‌ای خوش را تجربه کنید. کرد. . دیدن ورودی‌های تایپ‌شده مانند «گوفر خندان که قیفی بستنی را در دست دارد» فوراً به حیاتی تبدیل می‌شود که در جهان طنین‌اندازی می‌شود.

 

که گفته می شود گوفر خندان و ویژگی های ظاهر شده روی صفحه نمایش شما ظاهر می شود کار کوچکی نیست. DALL-E 2 از چیزی به نام مدل انتشار می کند، جایی که سعی می کند کل متن را در یک توضیحات رمزگذاری کند تا یک تصویر تولید کند. اما زمانی که متن بسیار زیادی است، برای یک توضیح واحد برای ثبت همه آن مشکل است. علاوه بر این، در حالی که آنها بسیار قابل قبول هستند، گاهی اوقات برای درک مفاهیم، ​​مانند گیج کردن ویژگی ها یا روابط بین اشیاء مختلف، با مشکل مواجه می شوند.

 

برای تولید تصاویر پیچیده تر با درک بهتر، آزمایشگاه آزمایشگاه کامپیوتر و هوش مصنوعی MIT (CSAIL) مدل معمولی را از زاویه متفاوتی از علوم می‌دانند: جنبه های مختلف همکاری می کنند. مواردی که توسط متن یا برچسب های ورودی درخواست می شود. برای ایجاد یک تصویر با دو مؤلفه، مثلاً با دو جمله توضیح داده شده، هر مدل به یک جزء خاص از تصویر می پردازد.

 

مدل های به ظاهر جادویی پشت تولید تصویر با پیشنهاد یک سری مراحل اصلاحی تکراری برای رسیدن به تصویر مورد نظر کار می کنند. با یک تصویر "" شروع می شود و سپس به بد آن را اصلاح می کند به تصویر انتخاب می شود تبدیل شود. با ترکیبی از مدل با هم، آنها به طور مشترک ظاهر را در هر مرحله اصلاح می کنند، بنابراین نتیجه تصویری است که تمام ویژگی های هر مدل را نشان می دهد. با همکاری مدل، می توانید ترکیبات خلاقانه تری در تصاویر تولید شده به دست آورید.

 

به عنوان مثال، یک ماشین قرمز و یک خانه سبز را در نظر بگیرید. وقتی این جملات بسیار پیچیده می‌شود، این مدل ماشین قرمز و خانه سبز را اشتباه می‌گیرد. یک ژنراتور معمولی مانند DALL-E 2 ممکن است یک کامیون سبز و یک خانه قرمز بسازد، بنابراین این رنگ ها را با هم عوض می کند. تیم می‌تواند این نوع ویژگی‌های ارتباطی را با اشیا را مدیریت کند، و به‌ویژه مجموعه‌های متعددی از چیزهای وجود دارد، می‌تواند هر شی را با دقت بیشتر مدیریت کند.

 

این مدل‌های می‌تواند به‌منظور نتیجه‌گیری‌های اشیا و توصیف‌های را مدل‌سازی کند، که برای مدل‌های تصویر موجود، چالش برانگیز است. مثلاً یک جسم و یک مکعب را در یک موقعیت خاص و یک کره را در جای دیگری قرار دهید. دال-ای 2 در تولید تصاویر طبیعی خوب است، اما گاهی اوقات در روابط شی با مشکل است. اگر می‌توان به کودک اشاره کرد که یک مکعب را بالای یک کره قرار دهد و اگر این را به زبان بگویم، می‌توان آن را برای سختی درک کرد. اما مدل ما می تواند را تولید کند و آنها را نشان دهد.

 

Composable Diffusion - مدل تیم - از مدل‌های انتشار در کنار عملگرهای ترکیبی برای ترکیب توضیحات متنی بدون آموزش بیشتر استفاده می‌کند. تیم جزئیات متن را با دقت نسبت به مدل انتشار اصلی که مستقیماً کلمات را به عنوان یک جمله بلند رمز می‌کند، می‌کند، تعیین کنید. به عنوان مثال، با توجه به «آسمان تصویری» و «کوه آبی در افق» و «شکوفه های گیلاس در جلوی کوه»، مدل تیم دقیقاً آن تصویر را تولید می کند، در حالی که مدل اولیه آسمان را آبی و همه چیز تولید می کند. جلوی کوهی است

 

"این مدلی که ما را می توان ترکیب کرد به این معنی است که شما می توانید مدل های مختلف را در یک زمان یاد بگیرید. دیگر یاد بگیرید، و سپس چیزی را در سمت چپ شیء دیگر یاد بگیرید." از آنجایی که می‌توانیم اینها را با هم بسازیم، می‌توانیم بدانیم که سیستم ما را قادر می‌سازد تا زبان، روابط یا دانش را به صورت تدریجی یاد بگیریم، که فکر می‌کنم یک بسیار جالب برای کار آینده است.»

 

در حالی که این مدل در تولید تصاویر پیچیده و واقعی نشان داد، اما همچنان با چالش‌هایی مواجه شد، زیرا این مدل بر روی مجموعه‌های بسیار کوچک‌تری نسبت به نمونه‌هایی مانند DALL-E 2 آموزش دیده بود، بنابراین برخی از اشیاء بودند که به نظر می‌رسیدند. نمی توانم آنها را بگیریم.

 

اکنون که Composable Diffusion می‌تواند بر روی مدل‌های مولد مانند DALL-E 2 کار کند، محققان می‌خواهند مستمر را به عنوان مرحله بعدی بالقوه بررسی کنند. با توجه به اینکه معمولاً چیزهای بیشتر به روابط شی اضافه می‌شود، آن‌ها می‌خواهند ببینند که آیا مدل‌های انتشار می‌توانند بدون فراموش کردن دانش آموخته‌شده قبلی شروع به «یادگیری» کنند - به مکانی که مدل‌های جدید تصاویر با دانش قبلی و جدید تولید می‌کنند.

 

 

مارک چن می‌گوید: «این تحقیق روش جدیدی را برای ترکیب مفاهیم در تولید متن به تصویر پیشنهاد می‌کند، نه از طریق به هم پیوستن آنها برای تشکیل یک اعلان، بلکه با محاسبه امتیازات با توجه به هر مفهوم و ترکیب آنها با استفاده از عملگرهای ربط و نفی». یکی از خالقان DALL-E 2 و دانشمند پژوهشی در OpenAI. این ایده خوبی است که از تفسیر مبتنی بر انرژی مدل‌های انتشار استفاده می‌کند تا ایده‌های قدیمی در مورد ترکیب‌بندی با استفاده از مدل‌های مبتنی بر انرژی را بتوان به کار برد. این رویکرد همچنین می‌تواند از راهنمایی‌های بدون طبقه‌بندی استفاده کند، و شگفت‌آور است که می‌بینیم از خط پایه GLIDE در معیارهای ترکیبی مختلف بهتر عمل می‌کند و می‌تواند از نظر کیفی انواع بسیار متفاوتی از نسل‌های تصویر را تولید کند.

 

برایان راسل، دانشمند تحقیقاتی در Adobe Systems می‌گوید: «انسان‌ها می‌توانند صحنه‌هایی شامل عناصر مختلف را به روش‌های بی‌شماری بسازند، اما این کار برای رایانه‌ها چالش برانگیز است. این کار فرمول‌بندی ظریفی را پیشنهاد می‌کند که به صراحت مجموعه‌ای از مدل‌های انتشار را برای تولید یک تصویر با توجه به یک زبان طبیعی پیچیده می‌سازد.

 

در کنار لی و دو، نویسندگان مشترک مقاله نان لیو، دانشجوی کارشناسی ارشد علوم کامپیوتر در دانشگاه ایلینویز در اوربانا-شامپین، و اساتید MIT آنتونیو تورالبا و جاشوا بی تننبام هستند.

 

این تحقیق توسط Raytheon BBN Technologies Corp.، Mitsubishi Electric Research Laboratory و DEVCOM Army Research Laboratory پشتیبانی شد.

 

Link