سه شنبه / ۲۹ خرداد / ۱۴۰۳ Tuesday / 18 June / 2024
×
ارائه بیش از ۲۰ میلیون خدمت آزمایشگاهی در شبکه آزمایشگاهی فناوری‌های راهبردی
دبیر شبکه فناوری‌های راهبردی معاونت علمی، فناوری و اقتصاد دانش‌بنیان ریاست جمهوری:

ارائه بیش از ۲۰ میلیون خدمت آزمایشگاهی در شبکه آزمایشگاهی فناوری‌های راهبردی

ویدئوی جدیدی که توسط شرکت ۱X از انجام کارهای خانه توسط ربات‌های انسان‌نمای این شرکت منتشر شده
جدیدترین فیلم از خانه‌داری ربات «ایو»
  • کد نوشته: 67
  • خرداد 14, 1403
  • بدون دیدگاه
  • برچسب ها

    به گزارش ایسنا، شرکت رباتیک 1X با پشتیبانی شرکت اوپن‌ای‌آی(OpenAI) در حال انجام ماموریت خود برای تامین نیروی کار فیزیکی از طریق ربات‌های ایمن و هوشمند است.

    اکنون یک به‌روزرسانی جدید نشان می‌دهد که ربات انسان‌نمای ایو(Eve) توانایی خود را برای انجام کارهای مستقل پشت سر هم نشان می‌دهد.

    این شرکت ادعا می‌کند که این ویدیو شروع سفر شرکت 1X در توسعه یک سیستم هوش مصنوعی پیشرفته را به نمایش می‌گذارد. این سیستم از طریق فرمان‌های صوتی، وظایف ساده را به اقدامات پیچیده تبدیل می‌کند و امکان کنترل یکپارچه چند رباتی و عملکرد از راه دور را فراهم می‌کند.

    ربات‌های 1X از روش یادگیری فراگیر(Embodied Learning) استفاده می‌کنند، روشی که نرم‌افزار هوش مصنوعی را مستقیماً در اشکال فیزیکی آنها برای قابلیت‌های پیشرفته ادغام می‌کند.

    پیش از این، ربات‌های 1X توانایی خود را در انتخاب و دستکاری اشیای ساده به نمایش گذاشته بودند. با این حال این تیم بر این باور است که ربات‌های آن باید بر توانایی انجام زنجیره وظایف مختلف به صورت گروهی تسلط داشته باشند تا به ربات‌های خدماتی مؤثر تبدیل شوند.

    محققان شرکت 1X یک مدل مستقل برای ربات‌های خود ایجاد کرده بودند که بسیاری از وظایف را در یک شبکه عصبی شرطی هدف ادغام می‌کند. با این حال زمانی که این مدل‌های چند وظیفه‌ای کوچک هستند(کمتر از 100 میلیون پارامتر)، افزودن داده‌ها برای رفع یک کار اغلب بر عملکرد سایر وظایف تأثیر منفی می‌گذارد.

    به گفته این تیم، افزایش تعداد پارامترهای مدل می‌تواند این مشکل فراموشی را کاهش دهد، اما زمان آموزش را نیز افزایش می‌دهد و توانایی مهندسان را برای تعیین اینکه کدام نمایش‌ها را برای بهبود رفتار ربات جمع‌آوری کنند، به تأخیر می‌اندازد.

    این تیم برای تکرار سریع داده‌ها در حین ساخت یک ربات عمومی که قادر به انجام بسیاری از وظایف با یک شبکه عصبی واحد است، مجبور شد روند بهبود سریع عملکرد را با ادغام چندین قابلیت در یک شبکه عصبی منفرد جدا کند.

    اریک جانگ معاون هوش مصنوعی در شرکت 1X می‌گوید: ما برای انجام این کار یک رابط زبان طبیعی با کنترل صدا ایجاد کرده‌ایم تا قابلیت‌های افق کوتاه را در چندین مدل کوچک به مدل‌های طولانی‌تر زنجیره‌ای تبدیل کنیم. کار جدیدمان با هدایت زنجیره‌ای از مهارت‌ها به ما امکان می‌دهد تا رفتارهای افق بلند را محقق کنیم.

    زنجیره‌های مهارت ناوبری ربات

    زنجیر کردن چندین مهارت مستقل ربات در یک دنباله چالش برانگیز است، زیرا هر مهارت بعدی باید به موقعیت‌های شروع کمی متفاوت ناشی از مهارت قبلی تعمیم یابد.

    طبق اعلام شرکت 1X، این دشواری با هر مهارت متوالی ترکیب می‌شود. مهارت دوم باید تغییرات مهارت اول را کنترل کند، مهارت سوم باید با نتایج مهارت دوم سازگار شود و غیره.

    در حالی که انسان‌ها می‌توانند کارهای افق بلند را بدون زحمت انجام دهند، تکرار این کار در ربات‌ها نیازمند پرداختن به پیچیدگی این تغییرات متوالی است.

    جانگ می‌گوید: از دیدگاه کاربر، ربات قادر به انجام بسیاری از وظایف زبان طبیعی است. این به ما امکان می‌دهد مدل‌های تک‌کاره را با مدل‌های شرطی هدف در طول زمان ادغام کنیم.

    مدل‌های تک وظیفه‌ای یک خط پایه محکم برای ارزیابی حالت سایه ارائه می‌دهند و به تیم اجازه می‌دهد تا پیش‌بینی‌های یک مدل جدید را با خط پایه موجود در طول آزمایش مقایسه کند. هنگامی که مدل شرطی هدف به خوبی با پیش‌بینی‌های مدل تک وظیفه‌ای هماهنگ شد، محققان می‌توانند بدون تغییر در گردش کار کاربر، به مدلی قدرتمندتر و یکپارچه‌تر روی آورند.

    استفاده از این رابط زبانی سطح بالا برای هدایت ربات‌ها تجربه کاربری جدیدی را برای جمع آوری داده‌ها فراهم می‌کند. جانگ می‌گوید: یک اپراتور به جای استفاده از واقعیت مجازی برای کنترل یک ربات می‌تواند چندین ربات را با زبان سطح بالا هدایت کند و از آنجایی که اقدامات سطح بالا به ندرت ارسال می‌شود، اپراتورها حتی می‌توانند ربات‌ها را از راه دور کنترل کنند.

    محققان تاکید می‌کنند که این ویدئو نشان می‌دهد که ربات‌ها وظایف خود را بر اساس مسیر انسانی تغییر می‌دهند که نشان می‌دهد این فرآیند کاملاً مستقل نیست. پس از ایجاد مجموعه داده‌ای از فرمان بینایی به زبان طبیعی، گام منطقی بعدی خودکار کردن پیش‌بینی اقدامات سطح بالاست که این را می‌توان با استفاده از مدل‌های بینایی مانند GPT-4o، VILA و Gemini Vision به دست آورد.

    انتهای پیام

    دیدگاهتان را بنویسید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *