سیری در آزمون دانش بنیادی 33 برنده سوپر باول 33 به عقاب می دهد

0 3 زمان تقریبی مطالعه 3 دقیقه

در آنچه ممکن است به همان اندازه تعجب آور نباشد ، آزمایش جدیدی از دانش سیری در مورد تاریخ سوپر باول ، مشکلات قابل توجهی را با دستیار مجازی اپل نشان داده است ، و نشان می دهد اپل هنوز راهی برای غلبه بر چالش ها با توانایی سیری در ارائه اطلاعات قابل اعتماد دارد.

سیری در آزمون دانش بنیادی 33 برنده سوپر باول 33 به عقاب می دهد
در یک آزمایش روشمند ، سونامی یک پاپل کافازس از سیری پرسید که هر سوپر بول را از طریق LX برنده شد و پاسخ های آن را ثبت کرد. نتایج به طرز چشمگیری ضعیف بود و سیری فقط 34 ٪ از زمان برندگان را به درستی مشخص کرد – فقط 20 پاسخ صحیح از 58 سوپر کاسه بازی شده.

شاید مهمتر از همه ، سیری بارها و بارها و نادرست با 33 پیروزی سوپر بول ، با علی رغم اینکه این تیم تنها در یک قهرمانی در تاریخ خود موفق به کسب یک قهرمانی شد ، به Eagles Philadelphia اعتبار داد. پاسخ های دستیار مجازی از ارائه اطلاعات در مورد سوپر کاسه های اشتباه گرفته تا ارائه حقایق کاملاً غیر مرتبط با فوتبال متغیر بود.

در حالی که سیری چند رگه از پاسخ های دقیق را مدیریت می کرد ، از جمله سه پاسخ صحیح متوالی برای Super Bowls V از طریق VII ، همچنین دارای 15 پاسخ نادرست متوالی بود که شامل سوپر کاسه های XVII از طریق XXXII بود.

در یک مثال ، وقتی در مورد Super Bowl XVI سؤال شد ، سیری پیشنهاد داد تا به Chatgpt تعویق کند – که پس از آن پاسخ صحیح را ارائه داد. این کنتراست محدودیت های پایگاه دانش خود سیری را در مقایسه با سیستم های پیشرفته هوش مصنوعی برجسته تر نشان می دهد.

این آزمایش در iOS 18.2.1 با فعال کردن اطلاعات Apple انجام شد و نتایج مشابهی در هر دو iOS 18.3 بتا و MACOS 14.7.2 یافت شد ، و این نشان می دهد که این مسئله در سکوهای اپل گسترش یافته است. Kafasis صفحه گسترده ای از نتایج را در هر دو قالب اکسل و PDF ایجاد کرد که می توانید در اینجا بخوانید.

به طور جداگانه ، با الهام از تست کافاز ، جسورانهجان گروبر برخی از نمایش داده های ورزشی خود را با سیری امتحان کرد و پاسخ های خود را با چتپپ ، کجی ، داکداکگو و گوگل مقایسه کرد که همه آنها موفق شدند جایی که سیری شکست خورد.

شاید برای اپل بدتر ، گروبر دریافت که سیری قدیمی (یعنی قبل از اطلاعات اپل) با رد کردن پاسخ به آن ، کار بهتری انجام داده است ، در عوض لیستی از پیوندهای وب را ارائه می دهد. نتیجه وب اول ، اگر تنها جزئی باشد ، به این سؤال پاسخ می دهد ، در حالی که سیری جدید ، با استفاده از اطلاعات اپل ، بسیار بدتر شد. گروبر توضیح می دهد:

New Siri – با استفاده از Apple Intelligence ™ با Entablation ChatGPT – جواب را کاملاً اما به طور قابل ملاحظه ای اشتباه می کند ، که این بدترین راه برای اشتباه است. این هم هست متناقض اشتباه – من چهار بار همان سؤال را امتحان کردم و هر بار که همه آنها اشتباه کردم ، همه آنها اشتباه کردم. این یک شکست کامل است.

گروبر اظهار داشت: “این فقط باورنکردنی است که سیری احمقانه درباره موضوعی از چنین محبوبیت است.” “اگر حدس زده بودید که سیری می تواند نیمی از سوپر کاسه ها را به درستی بدست آورد ، شما از دست دادید ، و حتی نزدیک نبود.”

البته ، این اولین بار نیست که سیری به دلیل عملکرد همه جانبه خود ، پوسته سنگین دریافت کرده است ، اما انتقاد گروبر در مورد پاسخ های “قابل قبول اشتباه” به سؤالات دانش عمومی با مشکل مدرن توهم چت بابات های هوش مصنوعی که باعث گمراه کننده یا مسطح می شوند ، ارتباط برقرار می کند. پاسخ های اشتباه با اعتماد به نفس کامل.

اپل در حال تهیه نسخه بسیار هوشمندانه تری از سیری است که از مدل های پیشرفته زبان بزرگ استفاده می کند ، که باید به دستیار شخصی اجازه دهد تا با چت بابات مانند ChatGPT بهتر رقابت کند. یک نسخه Chatbot از سیری به احتمال زیاد می تواند مکالمات مداوم را انجام دهد و نوع کمک و بینش را به عنوان چتگپت یا کلود ارائه دهد ، اما اینکه چگونه ادغام انجام خواهد داد ممکن است یک نگرانی باشد ، و در رکورد آهنگ شادی سیری قرار می گیرد.

انتظار می رود اپل به محض سال 2025 در WWDC LLM Siri را اعلام کند ، اما اپل تا چند ماه پس از رونمایی از آن ، آن را راه اندازی نمی کند. این بدان معناست که LLM Siri با برنامه ریزی اپل برای راه اندازی بهار 2026 به روزرسانی در iOS 19 می شود.