انقلابی در تعامل با کامپیوتر: رونمایی از دستیار هوش مصنوعی Nvidia R۲X
در این خبر از صفحه اقتصاد به رونمایی از دستیار هوش مصنوعی Nvidia R۲X پرداخته شده است. با ما همراه باشید!
انویدیا R۲X را معرفی کرد: آواتار هوش مصنوعی برای دسکتاپ با قابلیتهای پیشرفته مانند پردازش اسناد و کمک به کدنویسی. این فناوری هنوز در مراحل اولیه است.
در نمایشگاه CES ۲۰۲۵، انویدیا از یک آواتار هوش مصنوعی به نام R۲X رونمایی کرد که قرار است روی دسکتاپ کامپیوتر کاربران زندگی کند و در انجام وظایف مختلف کمک کند. این دستیار هوش مصنوعی که شبیه به یک شخصیت بازی ویدیویی است، با استفاده از مدلهای پیشرفته هوش مصنوعی انویدیا رندر و متحرکسازی میشود.
R۲X میتواند از طریق متن و صدا با کاربران تعامل کند، فایلهای آپلودشده را پردازش کند و حتی فعالیتهای زنده صفحه نمایش یا فید دوربین را مشاهده کند. اگرچه این مفهوم نوآورانه است، اما نمایشهای اولیه هم پتانسیل و هم عجایب این فناوری را آشکار میکند.
قابلیتهای پیشرفته R۲X
R۲X توسط مدلهای زبانی بزرگ (LLMs) محبوب مانند GPT-۴o شرکت OpenAI یا Grok شرکت xAI تغذیه میشود و به کاربران امکان میدهد قابلیتهای آواتار را بر اساس ترجیحات خود سفارشی کنند. این آواتار میتواند به کاربران در پیمایش برنامهها، ارائه بازخورد در مورد وظایف و کمک به فعالیتهای پیچیده مانند کدنویسی کمک کند.
انویدیا قصد دارد این آواتارها را در نیمه اول سال ۲۰۲۵ به صورت متنباز منتشر کند تا توسعهدهندگان بتوانند نرمافزار هوش مصنوعی مورد علاقه خود را ادغام کنند یا آواتارها را به صورت محلی اجرا کنند. این اقدام R۲X را به عنوان یک رابط کاربری جدید برای دستیاران هوش مصنوعی معرفی میکند که فناوری تولید بازیهای ویدیویی را با مدلهای زبانی بزرگ پیشرفته ترکیب میکند.
توانایی پردازش تصاویر صفحه نمایش
یکی از ویژگیهای برجسته R۲X توانایی آن در گرفتن اسکرینشاتهای مداوم از صفحه نمایش کاربر و پردازش آنها از طریق یک مدل هوش مصنوعی است. مشابه ویژگی Recall مایکروسافت که به دلیل نگرانیهای حریم خصوصی به تعویق افتاد، این قابلیت به طور پیشفرض غیرفعال است.
هنگامی که فعال شود، R۲X میتواند برنامههای در حال اجرا روی کامپیوتر را تحلیل کند و کمکهای لحظهای ارائه دهد. به عنوان مثال، میتواند کاربران را در انجام وظایف پیچیده در نرمافزارهایی مانند Adobe Photoshop راهنمایی کند.
تغییر مدل هوش مصنوعی از GPT-۴o به Grok شرکت xAI توانایی مشاهده صفحه نمایش را بازگرداند که محدودیتهای فناوری در مراحل اولیه را برجسته میکند.
چالشهای فنی و جلوه Uncanny Valley
اجزای بصری و شنیداری آواتار توسط بخش بازیهای ویدیویی انویدیا تأمین میشود. الگوریتم RTX neural faces ظاهر آواتار را تولید میکند، در حالی که مدل Audio۲Face™-۳D حرکات صورت، لب و زبان را به طور خودکار انجام میدهد. با وجود این پیشرفتها، آواتار گاهی اوقات جلوه Uncanny Valley را نشان میداد، به طوری که صورت آن در موقعیتهای عجیب گیر میکرد و لحن آن گاهی اوقات تهاجمی به نظر میرسید. این عجایب چالشهای ایجاد یک دستیار هوش مصنوعی واقعگرا که تعامل با آن طبیعی به نظر برسد را برجسته میکند.
پتانسیل R۲X در محیطهای حرفهای
در یکی از نمایشها، R۲X یک فایل PDF از دسکتاپ را پردازش کرد و به سوالات درباره محتوای آن با استفاده از یک ویژگی محلی به نام RAG پاسخ داد. این قابلیت به آواتار امکان میدهد اطلاعات را از اسناد استخراج کند و با استفاده از مدل زبانی بزرگ پردازش کند، که پتانسیل آن را به عنوان یک ابزار تحقیقاتی و افزایش بهرهوری نشان میدهد. انویدیا همچنین تصور میکند که R۲X میتواند به عنوان یک دستیار شخصی در جلسات Microsoft Teams شرکت کند و کاربرد آن را در محیطهای حرفهای گسترش دهد.
آینده R۲X و قابلیتهای عاملمحور
انویدیا در حال کار بر روی تجهیز R۲X به قابلیتهای عاملمحور است که به آن امکان میدهد اقداماتی را روی دسکتاپ کاربر انجام دهد. با این حال، این عملکرد هنوز در حال توسعه است و احتمالاً به همکاری با شرکتهای نرمافزاری مانند مایکروسافت و ادوبی نیاز دارد که آنها نیز در حال بررسی سیستمهای عاملمحور مشابه هستند.
شرکت هنوز مشخص نکرده است که صداهای این آواتارها چگونه تولید میشوند. در حالی که صدای R۲X هنگام استفاده از GPT-۴o با صداهای پیشفرض ChatGPT متفاوت است، چتبات Grok شرکت xAI در حال حاضر فاقد حالت صوتی است.
R۲X انویدیا گامی جسورانه به سوی بازتعریف نحوه تعامل کاربران با دستیاران هوش مصنوعی است. با ترکیب فناوری تولید بازیهای ویدیویی با مدلهای زبانی بزرگ پیشرفته، این شرکت مرزهای تواناییهای آواتارهای هوش مصنوعی را گسترش میدهد.
با این حال، مشکلات گاهبهگاه و رفتار عجیب نمونه اولیه، یادآوری میکند که این فناوری هنوز در مراحل اولیه است. با ادامه تلاشهای انویدیا برای بهبود R۲X، جالب خواهد بود که ببینیم این آواتار هوش مصنوعی چگونه تکامل مییابد و آیا میتواند بر چالشهای ایجاد یک تجربه کاربری بینقص و شهودی غلبه کند یا خیر.
نظر شما