مدل بزرگ به سمت چند حالته

Jan 04, 2025 پیام بگذارید

آیا از پارادوکس موراوک شنیده اید؟ پارادوکس اظهار داشت که استدلال پیشرفته برای یک سیستم هوش مصنوعی (AI) به قدرت محاسباتی بسیار کمی نیاز دارد ، ضمن اجرای مهارت های ادراکی-حرکتی که انسان از آن استفاده می کند ، به منابع محاسباتی عظیمی نیاز دارد. در اصل ، کارهای منطقی پیچیده برای هوش مصنوعی آسان تر از کارهای حسی اساسی است که غرایز انسانی می توانند انجام دهند. این پارادوکس تفاوت بین هوش مصنوعی و توانایی های شناختی انسان در این مرحله را برجسته می کند.


مردم ذاتاً مولتیودال هستند. هرکدام از ما مانند یک ترمینال هوشمند است که معمولاً برای تحصیل (آموزش دیده) باید به مدرسه برود ، اما هدف و نتیجه آن آموزش و یادگیری این است که ما توانایی کار و زندگی خودمختار را داریم بدون اینکه همیشه به دستورالعمل های خارجی تکیه کنیم کنترل.


ما از طریق چندین روش حسی مانند بینایی ، گفتار ، صدا ، لمس ، طعم و بو برای تجزیه و تحلیل ، دلیل ، تصمیم گیری و اقدام در مورد دنیای اطراف خود می آموزیم.


پس از سالها فیوژن سنسور و تکامل هوش مصنوعی ، روبات ها در این مرحله تا حد زیادی به سنسورهای چند مدلی مجهز شده اند. از آنجا که ما قدرت محاسباتی بیشتری را به دستگاه های لبه مانند روبات ها می آوریم ، این دستگاه ها باهوش تر و باهوش تر می شوند ، قادر به سنجش محیط اطراف خود ، درک و برقراری ارتباط با زبان طبیعی ، دستیابی به هاپتیک از طریق رابط های سنجش دیجیتال و همچنین سنجش نیروی خاص ربات هستند. سرعت زاویه ای ، و حتی میدان مغناطیسی اطراف ربات از طریق ترکیبی از شتاب سنج ، ژیروسکوپ و مغناطیس و موارد دیگر.


به سمت دوره جدیدی از روباتیک و شناخت ماشین


قبل از ترانسفورماتور و مدل های زبان بزرگ (LLMS) ، اجرای چند مدلی در هوش مصنوعی به طور معمول نیاز به استفاده از مدل های جداگانه جداگانه مسئول انواع مختلف داده ها (متن ، تصاویر ، صوتی) و ادغام روشهای مختلف از طریق یک فرآیند پیچیده دارد.


با ظهور مدل های ترانسفورماتور و LLMS ، چند حالته یکپارچه تر شده است و به یک مدل واحد اجازه می دهد تا به طور همزمان انواع مختلف داده را پردازش و درک کند ، و در نتیجه سیستم های هوش مصنوعی که قادر به سنجش کامل محیط خود هستند. این تغییر تا حد زیادی کارایی و اثربخشی برنامه های هوش مصنوعی چندمودال را بهبود بخشیده است.


در حالی که LLMS مانند GPT -3 در درجه اول مبتنی بر متن است ، این صنعت پیشرفت سریع به سمت چند حالته داشته است. از کلیپ Openai و Dall-E ، و اکنون Sora و GPT {3} O ، نمونه هایی از مدلهایی هستند که به سمت چند حالته و تعامل طبیعی تر انسان و رایانه حرکت کرده اند. به عنوان مثال ، کلیپ تصاویر جفت شده با زبان طبیعی را درک می کند ، بنابراین شکاف بین اطلاعات بصری و متنی را ایجاد می کند. Dall-E قصد دارد بر اساس توضیحات متنی ، تصاویر را تولید کند. ما می بینیم که مدل Google Gemini در حال تحول مشابه است.


در سال 2024 ، تکامل چندمودال تسریع می کند. در ماه فوریه ، OpenAi Sora را منتشر کرد ، که فیلم های واقع گرایانه یا تخیلی را بر اساس توضیحات متن تولید می کند. وقتی در مورد آن فکر می کنید ، این می تواند یک مسیر امیدوارکننده برای ساختن شبیه سازهای جهانی جهانی باشد ، یا به ابزاری مهم برای آموزش روبات تبدیل شود. پس از سه ماه ، GPT {1}} O عملکرد تعامل انسان-روتوت را به طور قابل توجهی بهبود بخشیده و قادر است در زمان واقعی بین صدا ، دید و متن استدلال کند. ترکیب اطلاعات متن ، بصری و صوتی برای آموزش یک مدل جدید پایان به پایان ، دو انتقال معین را از روش ورودی به متن و سپس از متن به روش خروجی از بین می برد ، که به نوبه خود به طرز چشمگیری عملکرد را بهبود می بخشد.


در همان هفته در ماه فوریه ، گوگل Gemini 1.5 را منتشر کرد ، که طول زمینه را به طور چشمگیری به 1 میلیون توکن گسترش داد. این بدان معناست که 1.5 Pro می تواند مقادیر زیادی از اطلاعات را به طور همزمان پردازش کند ، از جمله یک ساعت فیلم ، 11 ساعت صوتی و یک پایگاه کد که حاوی بیش از 30 ، خطوط کد {7}} یا 700 ، {9 {9}} Words.Gemini 1.5 در تحقیقات پیشرو Google در مورد ترانسفورماتور و معماری متخصص مختلط (MOE) و مدلهای 2B و 7B منابع باز که می توانند در سمت لبه مستقر شوند ، ساخته شده است. در کنفرانس Google I/O در ماه مه ، علاوه بر دو برابر کردن طول زمینه و انتشار یک سری از ابزارها و برنامه های تولید کننده هوش مصنوعی ، Google دیدگاه خود را برای آینده پروژه Astra ، یک دستیار هوش مصنوعی با هدف کلی که اطلاعات چند مدلی را پردازش می کند ، بررسی کرد ، زمینه ای را که کاربر در آن قرار می دهد درک می کند و در مکالمات به روشی بسیار طبیعی با افراد در تعامل است.


به عنوان شرکت پشت منبع باز LLM LLAMA ، متا نیز به مسیر عمومی هوش مصنوعی (AGI) می پیوندد.


این چند حالته واقعی سطح هوش دستگاه را به شدت افزایش می دهد و منجر به پارادایم های جدید برای بسیاری از صنایع خواهد شد.


به عنوان مثال ، روبات ها با برخی سنسورها و قابلیت های حرکتی بسیار همگن بودند ، اما به طور کلی آنها "مغز" برای یادگیری چیزهای جدید و سازگاری با محیط های بدون ساختار و ناآشنا نداشتند.


انتظار می رود LLM های چند حالته توانایی روبات ها را برای تجزیه و تحلیل ، عقل و یادگیری تغییر دهند و آنها را از تخصص به تعمیم سوق دهند. رایانه های شخصی ، سرورها و تلفن های هوشمند رهبران سیستم عامل های محاسباتی با هدف کلی هستند و می توانند انواع مختلفی از برنامه های نرم افزاری را برای دستیابی به طیف گسترده ای از توابع اجرا کنند. تعمیم به مقیاس ، ایجاد اقتصاد مقیاس کمک می کند و قیمت ها را می توان به طور چشمگیری کاهش داد زیرا آنها مقیاس می شوند و منجر به یک چرخه با فضیلت در تصویب در حوزه های بیشتر می شوند.


الون موسک در اوایل فواید فناوری تعمیم یافته را متوجه شد ، زیرا روبات های تسلا در سال 2022 به Optimus Gen 1 ، در مارس 2023 اعلام شدند و Gen 2 ، در پایان سال 2023 ، با تطبیق پذیری و توانایی های یادگیری روزافزون اعلام شد. در طول گذشته {6}} ماه ، ما شاهد تعدادی از پیشرفت های پیشرفت در زمینه رباتیک و روباتیک انسانی بوده ایم.


فن آوری های جدید در پشت روباتیک نسل بعدی و هوش تجسم یافته


شکی نیست که ما قبل از رسیدن به هوش تجسم یافته به تولید انبوه ، هنوز کارهای زیادی باید انجام دهیم. ما برای پردازش و فیوز اطلاعات داده سنسور برای تصمیم گیری به موقع و کنترل اقدامات نیاز به طرح های سبک تر ، زمان های طولانی تر و سریعتر و قدرتمندتر محاسبات Edge داریم.


و ما به سمت ایجاد روبات های انسانی حرکت می کنیم. هزاران سال تمدن بشری محیط های همه جا را برای انسان ایجاد کرده است و سیستم های روباتیک انسان دوستانه انتظار می رود که به راحتی با انسان و محیط ارتباط برقرار کنند و به دلیل شباهت آنها در شکل با افراد ، در محیط های موجود در انسان عملیات لازم را انجام دهند. این سیستم ها به خوبی برای انجام کارهای کثیف ، خطرناک و کسل کننده مانند مراقبت از بیمار و توانبخشی ، کار خدمات در صنعت میهمان نوازی ، کمکهای آموزشی یا همراهان یادگیری در زمینه آموزشی و کارهای خطرناک مانند پاسخ به فاجعه و رسیدگی به مواد خطرناک مناسب خواهند بود. بشر چنین کاربردهایی از ویژگی های دستگاه انسانی انسان برای تسهیل فعل و انفعالات طبیعی انسان-روبات استفاده می کنند ، در فضاهای محور انسان عمل می کنند و کارهایی را انجام می دهند که اغلب برای روبات های سنتی دشوار است.


بسیاری از شرکت های هوش مصنوعی و روباتیک در حال تحقیق و همکاری جدید در مورد نحوه آموزش روبات ها برای عقل بهتر و برنامه ریزی در محیط های جدید بدون ساختار هستند. به عنوان "مغز" های جدید روبات ها ، مدلهایی که از قبل در مقادیر زیادی از داده ها آموزش داده می شوند دارای قابلیت تعمیم عالی هستند و به روبات ها اجازه می دهند محیط های خود را به طور جامع تر ببینند و درک کنند ، حرکات و اقدامات خود را بر اساس بازخورد حسی تنظیم کرده و عملکرد آنها را بهینه کنند. در انواع محیط های پویا.


به عنوان نمونه جالب ، سگ ربات Boston Dynamics ، Spot ، می تواند به عنوان یک راهنمای تور در یک موزه عمل کند ، با بازدید کنندگان در تعامل باشد ، آنها را با نمایشگاه های مختلف معرفی کند و به سؤالات آنها پاسخ دهد. ممکن است باور کردن دشوار باشد ، اما در این مورد استفاده ، عملکردهای سرگرم کننده ، تعاملی و ظریف Spot از مهمتر از اطمینان از صحت واقعیت ها هستند.


ترانسفورماتور رباتیک: مغز جدید روباتیک


ترانسفورماتور Robotics (RT) به سرعت در حال تحول برای ترجمه ورودی های مولتیودال به طور مستقیم به کد عملی است. Google DeepMind's RT -2 و همچنین سلف خود ، RT -1 را با عملکرد نزدیک به 100 ٪ در هنگام انجام کارهایی که قبلاً دیده شده است ، انجام می دهد. با این حال ، هنگامی که با PALM-E (یک مدل زبان چند حالته تجسم یافته ربات) و PALI-X (یک مدل چشم انداز و زبان چند زبانه در مقیاس بزرگ ، که به طور خاص برای روبات ها طراحی نشده است) آموزش داده شود ، RT {7}} توانایی های عمومی سازی بهتری دارد و Outperforms RT {8}}} در وظایف غیب.


مایکروسافت Llava ، یک زبان و چشم انداز در مقیاس بزرگ را معرفی کرد. در ابتدا برای کارهای مبتنی بر متن طراحی شده است ، Llava از قدرت GPT -4 استفاده می کند تا یک الگوی جدید برای دستورالعمل های چند مدلی برای پیروی از داده ها ، یکپارچه سازی اجزای متنی و بصری ایجاد کند ، که می تواند برای کارهای رباتیک مفید باشد. پس از معرفی خود ، Llava سوابق جدیدی را برای چت های چند حالته و وظایف امتحان علمی تنظیم کرده است که قبلاً بیش از قابلیت های متوسط ​​انسان است.


همانطور که در ابتدا گفته شد ، روباتیک هدف تسلا در Humanoid و AI General Purpose Robotics نه تنها به این دلیل که برای مقیاس و تولید انبوه طراحی شده است ، بلکه به این دلیل است که می توان از بنیاد فناوری کاملاً خود رانندگی (FSD) اتوپیلوت تسلا برای خودرو استفاده کرد. روبات ها تسلا همچنین برای استفاده از Optimus در فرآیند تولید جدید خودرو انرژی ، دارای یک مورد استفاده هوشمند است.


بازو سنگ بنای آینده روباتیک است


بازو معتقد است که مغز روباتیک ، هم "مغز بزرگ" و هم "مغز کوچک" ، باید یک سیستم محاسبات هوش مصنوعی ناهمگن باشد که عملکرد برتر ، پاسخ در زمان واقعی و بهره وری انرژی را ارائه می دهد.

 

news-800-1

 

روباتیک شامل طیف گسترده ای از کارها ، از جمله محاسبات اساسی (به عنوان مثال ، ارسال و دریافت سیگنال به موتورها و از طریق موتورها) ، پردازش داده های پیشرفته (به عنوان مثال ، تفسیر داده های تصویر و سنسور) و اجرای LLM های چندمودال که قبلاً ذکر شد. CPU برای کارهای عمومی مناسب مناسب است ، در حالی که پدال های گاز AI و GPU ها می توانند با کارآمدتر وظایف پردازش موازی ، مانند یادگیری ماشین (ML) و پردازش گرافیک را انجام دهند. پدال های گاز اضافی مانند پردازنده های سیگنال تصویر و کدک های ویدیویی نیز می توانند برای تقویت قابلیت بینایی ربات و راندمان ذخیره و انتقال یکپارچه شوند. علاوه بر این ، CPU باید دارای پاسخگویی در زمان واقعی باشد و باید بتواند سیستم عامل هایی مانند بسته های لینوکس و ROS را اجرا کند.


هنگامی که به پشته نرم افزار رباتیک گسترش یافته است ، لایه سیستم عامل نیز ممکن است به یک سیستم عامل در زمان واقعی (RTOS) نیاز داشته باشد که با اطمینان می تواند کارهای مهم را انجام دهد ، و همچنین یک توزیع لینوکس سفارشی برای روباتیک مانند ROS ، که می تواند فراهم کند ، می تواند فراهم کند. خدمات طراحی شده برای خوشه های محاسباتی ناهمگن. ما معتقدیم که استانداردهای تحت حمایت ARM و برنامه های صدور گواهینامه مانند SystemReady و PSA Certified به مقیاس توسعه نرم افزارهای روباتیک کمک می کند. SystemReady به منظور اطمینان از توزیع استاندارد سیستم عامل غنی بر اساس طیف گسترده ای از سیستم های روی تراشه (SOC) بر اساس معماری ARM طراحی شده است ، در حالی که PSA دارای مجوز کمک می کند تا راه حل های اجرای امنیتی برای برآورده کردن امنیت منطقه ای و الزامات نظارتی دستگاه های متصل کمک کند.


پیشرفت در مدل های چند مدلی در مقیاس بزرگ و AI تولید کننده دوره جدیدی در توسعه روبات های هوش مصنوعی و روبات های انسان دوستانه است. همراه با محاسبات هوش مصنوعی و اکوسیستم ، بهره وری انرژی ، امنیت و ایمنی عملکردی برای ساخت جریان اصلی روباتیک در این دوره جدید ضروری است. پردازنده های ARM در حال حاضر به طور گسترده ای در روباتیک مورد استفاده قرار می گیرند ، و ما مشتاقانه منتظر همکاری نزدیک با اکوسیستم هستیم تا ARM را به سنگ بنای آینده روباتیک هوش مصنوعی تبدیل کنیم.

ارسال درخواست

whatsapp

تلفن

ایمیل

پرس و جو