بررسی تخصصی

مدل جدید هوش مصنوعی اپل تصاویر را بر اساس ورودی زبان طبیعی ویرایش می کند

محققان اپل مدل جدیدی از هوش مصنوعی منبع باز منتشر کرده اند که می تواند تصاویر را بر اساس دستورالعمل های زبان طبیعی کاربر ویرایش کند (از طریق VentureBeat).

ویرایش تصویر لوگوی اپل DALL%C2%B7E ai

تصویر MacRumors ساخته شده با DALL·E

این برنامه که “MGIE” نامیده می شود، مخفف MLLM-Guided Image Editing است، از مدل های زبان بزرگ چندوجهی (MLLMs) برای تفسیر درخواست های کاربر و انجام دستکاری در سطح پیکسل استفاده می کند.

این مدل قابلیت ویرایش جنبه های مختلف تصاویر را دارد. بهبودهای جهانی عکس می تواند شامل روشنایی، کنتراست یا وضوح یا استفاده از جلوه های هنری مانند طراحی باشد. ویرایش محلی می تواند شکل، اندازه، رنگ یا بافت مناطق یا اشیاء خاص را در یک تصویر تغییر دهد، در حالی که تغییرات به سبک فتوشاپ می تواند شامل برش، تغییر اندازه، چرخش و افزودن فیلترها یا حتی تغییر پس زمینه و ترکیب تصاویر باشد.

ورودی کاربر برای عکس یک پیتزا می تواند “سالم تر جلوه دادن آن” باشد. با استفاده از استدلال عقل سلیم، این مدل می‌تواند رویه‌های سبزیجات مانند گوجه‌فرنگی و سبزی را اضافه کند. یک درخواست ورودی بهینه‌سازی جهانی ممکن است به شکل «افزودن کنتراست برای شبیه‌سازی نور بیشتر» باشد، در حالی که یک اصلاح به سبک فتوشاپ می‌تواند با درخواست از مدل برای حذف افراد از پس‌زمینه عکس، تغییر فوکوس تصویر به سمت عکس انجام شود. حالت چهره سوژه

اپل با محققان دانشگاه کالیفرنیا همکاری کرد تا MGIE را ایجاد کند، که در مقاله ای در کنفرانس بین المللی نمایش های یادگیری (ICLR) 2024 ارائه شد. این مدل در GitHub در دسترس است و شامل کد، داده ها و مدل های از پیش آموزش دیده است.

ویرایش تصویر مدل MGIE apple AI


این دومین پیشرفت اپل در تحقیقات هوش مصنوعی در چند ماه اخیر است. در اواخر دسامبر، اپل فاش کرد که با ابداع یک تکنیک ابداعی استفاده از حافظه فلش، پیشرفت‌هایی در استقرار مدل‌های زبان بزرگ (LLM) روی آیفون‌ها و سایر دستگاه‌های اپل با حافظه محدود داشته است.

در چند ماه گذشته، اپل در حال آزمایش یک رقیب “Apple GPT” بوده است که می تواند با ChatGPT رقابت کند. مطابق با بلومبرگمارک گورمن، کار بر روی هوش مصنوعی برای اپل در اولویت قرار دارد و این شرکت در حال طراحی چارچوب “آژاکس” برای مدل های زبان بزرگ است.

هر دو اطلاعات و تحلیلگر جف پو ادعا می‌کند که اپل در اواخر سال 2024، یعنی زمانی که iOS 18 عرضه می‌شود، نوعی ویژگی هوش مصنوعی مولد را در آیفون و آی‌پد در دسترس خواهد داشت. طبق گفته Gurman، iOS 18 شامل نسخه بهبودیافته سیری با عملکرد هوش مصنوعی مولد ChatGPT است و این پتانسیل را دارد که «بزرگترین» به‌روزرسانی نرم‌افزاری در تاریخ آیفون باشد.

Rate this post

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا