طراحی صوتی صوتی با کیفیت بالا برای برنامه های IoT

AUDIO بخشی جدایی ناپذیر از بسیاری از برنامه های IoT ، از جمله محصولات مصرفی مانند بلندگوها و هدفون ها ، پوشیدنی ها و دستگاه های پزشکی (به عنوان مثال ، سمعک) ، برنامه های اتوماسیون و کنترل صنعتی ، سیستم های سرگرمی و واحدهای سرگرمی خودرو است.

IoT Audio را می توان به طور گسترده ای به سه نوع طبقه بندی کرد: پخش (یعنی موسیقی ، صدا و داده) ، تشخیص صدا/دستورات و بی سیم از طریق اتصال بلوتوث و Wi-Fi (به عنوان مثال ، پخش صوتی چند کانال بر روی Wi-Fi به سیستم صوتی اطراف خانه). با این حال ، طراحی زیر سیستم های صوتی با کیفیت بالا و بدون وقفه صوتی می تواند چالش برانگیز باشد وقتی مهندسان باید به محدودیت های سخت مورد نیاز دستگاه های مبتنی بر IoT پایبند باشند.

طرح های پیچیده تر لازم است تا ویژگی های پیشرفته ای مانند تشخیص صدا را شامل شود ، مانند این که به رانندگان اجازه می دهد سیستم سرگرمی را در اتومبیل خود به همان روش دستی بدون تلفن همراه کنترل کنند. از آنجا که MCU در قلب همه این سیستم های صوتی قرار دارد ، مهم است که MCU را انتخاب کنید که فن آوری های صوتی لازم را برای طراحی یک سیستم صوتی بدون سر و صدای قابل اعتماد ادغام کند. در این مقاله به بررسی فن آوری های صوتی که می تواند برای طراحی چنین سیستم هایی استفاده شود.

اجزای زیر سیستم صوتی

IoT Audio شامل سه فعالیت اصلی است: بخار/داده با کیفیت بالا ، انتقال بی سیم و کنترل سازماندهی مجدد صدا. شکل 1 مهمترین بلوک های ساختمانی در یک سیستم تعبیه شده را نشان می دهد.

این نمودار بلوک بلوک های مهمترین ساختمان زیر سیستم پردازش صوتی را نشان می دهد

توجه داشته باشید که بسیاری از این ویژگی ها می توانند در MCU های مدرن ادغام شوند ، مانند Cypress Cyw43907 با Wi-Fi 802.11n یکپارچه استفاده شده در این مثال. برخی از فن آوری های مهم صوتی که ممکن است در یک سیستم مبتنی بر IoT گنجانده شوند عبارتند از:

برنامه های موسیقی

MCU با قابلیت صوتی به مهندسان اجازه می دهد تا جریان های MP3/4 را که توسط بیشتر بازیکنان رسانه ای محبوب و ارائه دهندگان محتوا استفاده می شود ، رمزگشایی کنند. بسیاری از طرح ها همچنین باید از رمزگشایی WMA و AAC AAC پشتیبانی کنند که به قدرت پردازش اضافی نیاز دارد. در برنامه های صوتی مصرف کننده ، MCU های صوتی کم هزینه اغلب با مدیریت جریان های موسیقی دیجیتال از لوازم جانبی صوتی مانند مجموعه بلندگوهای دیجیتال قابل استفاده هستند.

در این برنامه ها ، یک فریم از داده های صوتی PCM (که در قالب کلاس صوتی USB محصور شده است) هر 1 میلی ثانیه از طریق یکی از کانال های سریال SPI/I²C پردازنده وارد می شود. بسته به منبع ، جریان صوتی ممکن است به یکی از چندین قالب وارد شود (به عنوان مثال ، سمت چپ ، راست ، I2S و غیره). با این حال ، برخی از کدک های کم هزینه فقط می توانند قالب های خاصی را بپذیرند. در این موارد ، MCU نقش مهمی در اطمینان از تراز صحیح داده ها قبل از تغذیه به کدک دارد.

از آنجا که همه منابع صوتی از همان نرخ نمونه برداری استفاده نمی کنند ، کدک نیز باید فرکانس نمونه گیری خود را با منبع تطبیق دهد یا به MCU متکی باشد تا جریان داده نمونه برداری را به نرخ داده های مشترک تبدیل کند (شکل 2 را ببینید). در این موارد ، MCU باید جریان را مدیریت کند تا از شرایط زیر یا بیش از حد که می تواند منجر به ناپیوستگی ، پاپ و ناپیوستگی های صوتی شود که می تواند باعث از بین رفتن داده ها شود و تجربه گوش دادن به کاربر را مختل کند. توجه داشته باشید که MCU صوتی همچنین می تواند برای اجرای سایر کارکردهای زیر سیستم صوتی ، مانند کنترل روشنایی در هنگام پخش صوتی استفاده شود.

MCU صوتی ممکن است نیاز به انجام تبدیل فرمت ، تنظیم نرخ نمونه و مدیریت جریان و همچنین پشتیبانی از رابط های کاربر صوتی داشته باشد.

برای اجرای صدا در طیف گسترده ای از برنامه ها ، MCU های صوتی باید از انواع فن آوری های صوتی پشتیبانی کنند. شکل 3 نمونه هایی از این فناوری های صوتی را نشان می دهد.

فناوری صدا

رمزهای صوتی

کدک های صوتی مؤلفه اصلی جلوی یک سیستم صوتی هستند. بسیاری از MCU ها برای برنامه های IoT ساخته شده از عملکرد کدک در سخت افزار پشتیبانی می کنند. این امر به سیستم اجازه می دهد تا اندازه نمونه های صوتی دیجیتال را برای سرعت بخشیدن به انتقال بی سیم (صرفه جویی در قدرت) و صرفه جویی در فضای ذخیره سازی (کاهش فشار در ظرفیت حافظه داخلی) کاهش دهد. کدک ممکن است از قالب های استاندارد صوتی مختلف مانند AAC ، AC {1}} و ALAC پشتیبانی کند. برای انجام این کار ، به یک واحد دسترسی رمزگشایی (AU) نیاز دارد ، که قبل از هر پردازش صوتی (به عنوان مثال ، Dsola ، Sola) اجرا می شود. هنگامی که با فرمت های صوتی استاندارد مانند AAC ، AC {3}}} و ALAC استفاده می شود ، صدا به گونه ای طبقه بندی می شود که نمونه های صوتی بعدی در قالب تجویز شده مشخص شده در جریان داده بسته صوتی قرار دارند. فاصله بسته نیز قادر است در صورت وجود احتقان ، حداقل لرزش صلیب و عملکرد بدون وقفه را فراهم کند. اندازه بار AU امکان اجرای هرگونه پنهان کاری را که باید انجام شود امکان پذیر است.

نوار پایه

یک سیگنال باند پایه ، گروه اساسی فرکانس ها در یک شکل موج آنالوگ یا دیجیتال است که می تواند توسط مدارهای الکترونیکی پردازش شود. یک سیگنال باند پایه می تواند از یک فرکانس منفرد یا گروهی از فرکانس ها تشکیل شود یا در حوزه دیجیتال ، جریان داده های ارسال شده از طریق یک کانال غیر مبهم. باند پایه به عنوان باند پایه (سیگنال/دوم) مخلوط شده با سیگنال حامل برای تولید یک سیگنال مدوله شده تعریف می شود. توجه داشته باشید که در MCU از صوتی IoT ، کدک صوتی پردازش BaseBand و RF را در یک تراشه واحد ادغام می کند. کدک صوتی را می توان در انواع فرستنده های بی سیم برای ارائه داده های صوتی و/یا عملکرد موسیقی اجرا کرد. Codec همچنین دارای کانال های مونو و استریو برای خروجی صوتی و همچنین ورودی های استریو است.

پنهان کردن از دست دادن بسته و تکثیر داده ها

تأخیر بیش از حد ، از دست دادن بسته ها و تأخیر زیاد می تواند کیفیت ارتباط را مختل کند. احتمال از دست دادن ناگهانی بسته با بار شبکه افزایش می یابد و منجر به وقفه هایی می شود که توسط کاربر قابل شنیدن است. انتقال صوتی قوی از طریق Wi-Fi می تواند با ویژگی های پیشرفته مانند فناوری پنهان کردن بسته بندی بسته بندی Cypress افزایش یابد. منبع/گیرنده معماری سیستم به شرح زیر است: یک منبع صدا را ضبط می کند ، داده های PCM را از طریق ساختار جریان RTP چند برابر می کند و ساعت را با تمام گیرنده های متصل به منبع PLC همزمان می کند.

توجه داشته باشید که عملکرد پیوند ارتباطی به کیفیت عملکرد بودجه پیوند بستگی دارد. این بودجه پیوند توسط سه عامل تعیین می شود: انتقال قدرت ، انتقال آنتن و دریافت افزایش آنتن. به عنوان مثال ، اگر قدرت مسیر پیوند منهای از دست دادن فضای موجود بیشتر از حداقل سطح سیگنال دریافت شده رادیو دریافت کننده باشد (شکل 4).

عملکرد یک پیوند ارتباطی به کیفیت عملکرد بودجه پیوند بستگی دارد

تقویت قابل فهم گفتار (SIE)

سر و صدای پس زمینه در سیستم صوتی می تواند درک گفتار را کاهش دهد. اگر سر و صدا از سطح خاصی فراتر رود ، ممکن است گفتار برای کاربر دشوار باشد. در دسترس بودن شناخت گفتار مداوم در زمان واقعی در دستگاه های تعبیه شده به سیستمی نیاز دارد که قابلیت قابل فهم گفتار سر و صدا را تقویت کند. انتخاب MCU که از انتقال و بهینه سازی یک سیستم تشخیص گفتار مداوم واژگان بزرگ (LVCSR) پشتیبانی می کند ، می تواند توسعه را ساده کند.

تشخیص عبارت بیدار

این ویژگی پیشرفته کاربران را قادر می سازد با فعال کردن دستگاه با صدای خود ، سیستم را بدون دست و پا روشن کنند.

چند کیک کارآمد به یک یا چند بلندگو

Multicasting یک روش آدرس دهی شبکه است که برای ارسال پیام به گروهی از اهداف به طور همزمان با استفاده از کارآمدترین استراتژی استفاده می شود. پیام ها فقط یک بار از طریق هر لینک در شبکه تحویل داده می شوند و نسخه ها فقط زمانی ایجاد می شوند که پیوند بعدی به مقصد های مختلف تقسیم شود ، معمولاً در سوئیچ های شبکه و روترها. با این حال ، مانند پروتکل Datagram کاربر (UDP) ، Multicast تحویل جریان پیام را تضمین نمی کند ، که می تواند منجر به دور انداختن پیام یا تحویل پیام سازمان یافته شود. قابل اعتماد MultiCast (RMC) تأییدیه هایی را برای بسته های چند مرحله ای (فقط بسته ها) ارائه می دهد تا برخی از بسته های خاص چند مرحله ای با اطمینان قابل اعتماد باشند. فرستنده گیرنده را با ضعیف ترین RSSI انتخاب می کند تا قاب را تصدیق کند. در یک محیط IoT ، اجرای RMC به این معنی است که فرستنده Wi-Fi یکی از بسیاری از گیرنده های Wi-Fi را برای تصدیق پذیرش قاب انتخاب می کند. فرستنده گیرنده را با ضعیف ترین RSSI انتخاب می کند تا قاب را تصدیق کند. این اجرای از یک چارچوب عملیاتی حاوی عناصر اطلاعاتی اختصاصی RMC برای اطلاع رسانی و فعال کردن تأیید کننده استفاده می کند. این پیاده سازی همچنین حاوی دستورات درایور Wi-Fi خاص RMC برای تنظیم آدرس MAC Multicast و فعال کردن و غیرفعال کردن RMC است.

برای صوتی و تصویری با تأخیرهای انتقال ثابت و متقارن ، الزامات همگام سازی زمان برآورده می شود. به عنوان مثال ، RMC می تواند به زمان بندی و هماهنگ سازی بسیار دقیق برای انتقال صاف سلول به سلول داده های صوتی ، فیلم و تلفن همراه متکی باشد. دستیابی به زمان بندی بسیار دقیق و دقیق از نظر فنی آسان نیست ، بنابراین یافتن پیاده سازی هایی که می توانند برای پاسخگویی به نیازهای برنامه تأیید شوند ، مهم است.

قالب های قاب ، تصحیح خطای رو به جلو و تکثیر بسته

برای پخش صوتی ، بسیار مهم است که ساعت با همه گیرنده های Wi-Fi هماهنگ شود. یک رویکرد استفاده از یک ساعت مشترک برای دستگاه های منبع و گیرنده است که اغلب به آن ساعت دیواری یا ساعت سیستم (STC) گفته می شود. ابتدا ، هر گیرنده (گیرنده) STC (ساعت دیواری) خود را با STC منبع/فرستنده (ساعت اصلی دیوار) همگام می کند. هر گیرنده هم اکنون می تواند ساعت فرستنده را بازیابی کند زیرا جدول زمانی درج شده توسط منبع (موجود در هدر گسترده هر بسته RTP) نشان دهنده لحظه نمونه برداری رسانه نسبت به ساعت مشترک است.

STC بر اساس مقادیر ساعت Grandmaster است که در مشخصات 802.1AS بیان شده است. از آنجا که تمام دستگاه های گیرنده از همبستگی بین STC و ساعت رسانه دستگاه منبع (به عنوان مربوط به RTP یا Timestamp Media) آگاه هستند ، هر گیرنده می تواند یک نسخه از ساعت رسانه RTP دستگاه منبع را بازسازی کند و برای ارائه مناسب ، خروجی آن را به صورت مناسب صف کند. ساعت شفاف جایی است که سخت افزار/uCode می تواند بسته های Timestamp دریافت کرده و تا حد امکان به رابط MAC/PHY منتقل شود. در حالی که این مقدار ساعت برای پخش استفاده نمی شود ، می توان از آن برای اندازه گیری jitter در طول سیستم و انجام تجزیه و تحلیل عملکرد کامل استفاده کرد.

نمونه ای از یک سیستم صوتی خانگی هوشمند

برای درک صوتی IoT در متن ، نمونه خانه هوشمند را در نظر بگیرید و نقش صوتی می تواند در بهبود عملکرد کلی یک سیستم خانگی هوشمند بازی کند. هنگامی که دستگاه ها و وسایل موجود در آن می توانند با یکدیگر و افرادی که در آنجا زندگی می کنند ، یک خانه هوشمند شود. با افزایش ارتباط ما ، خانه های هوشمند در حال بهبود کیفیت زندگی ما و افزایش امنیت ما هستند.

یکی از موارد اصلی استفاده برای صدا در خانه هوشمند ذخیره و به اشتراک گذاری صدا از طریق Wi-Fi یا بلوتوث است. انتخاب Wi-Fi بیش از BLE با استفاده از برنامه متفاوت است و به دامنه و الزامات کیفیت صدا بستگی دارد. به عنوان مثال ، یک کنترل کننده خانه می تواند در هر اتاق خانه صدای خاصی پخش کند اگر کسی به جای وصل کردن زنگ در یک قسمت از خانه ، صدای درب را در درب بچرخاند. به همین ترتیب ، کنترلر می تواند صدا را به اتاقهای خاص ، مانند نه در مهد کودک برای نوزادان محدود کند. کنترل کننده های تعبیه شده به پردازش این صدا کمک می کنند و با مدیریت عملکردهای مختلف کنترل خروجی ، سیستم را باهوش تر می کنند.

سیستم های صوتی پخش

سیستم های صوتی پخش مجدد به یک برنامه مهم در بازار صوتی تبدیل شده اند. سیستم های پخش صوتی بی سیم در قلب خانه هوشمند قرار دارند و بسیاری از دستگاه های هوشمند مختلف را در خانه جمع می کنند و به نمایندگی از کاربر تصمیمات هوشمندانه می گیرند. به عنوان مثال ، یک سیستم صوتی می تواند الگوهای روشنایی را در یک خانه بر اساس موسیقی که در حال حاضر پخش می شود ، کنترل کند. همچنین می تواند از تبدیل متن به گفتار برای خواندن اعلان های کاربر یا ایمیل با صدای بلند استفاده کند. کاربران همچنین با استفاده از دستگاه های صوتی قابل شبکه مانند بلندگوهای بی سیم در اتاقهای مختلف خانه ، گزینه ایجاد مناطق در یک سیستم صوتی چند اتاق را دارند. این رویکرد یک اکوسیستم کامل را ایجاد می کند تا اطمینان حاصل شود که خانه همیشه با کارآیی اوج کار می کند و در عین حال تعامل با افرادی که در آنجا زندگی می کنند به حداقل می رسد. برای ایجاد چنین اکوسیستم ، طراحان IoT باید یک میکروکنترلر تعبیه شده را با عملکرد مناسب و ویژگی های مبتنی بر صدا که برای برنامه های IoT بهینه شده اند ، انتخاب کنند.

اثرات پردازش سیگنال دیجیتال

پردازش سیگنال صوتی در دامنه دیجیتال قبل از انتقال داده های صوتی از طریق لینک بی سیم ، بخش مهمی از هر سیستم صوتی است. این پردازش به طور معمول شامل اندازه گیری ، فیلتر کردن و/یا فشرده سازی سیگنال آنالوگ صوتی است. MCU های تعبیه شده با عملکرد DSP یکپارچه اثرات مانند افزودن میکسر دیجیتال و پشتیبانی از توابع کنترل از راه دور را فعال می کنند. با استفاده از اکولایزر باند 5- برای هر کانال ، پخش صوتی می تواند هوشمندانه با اکثر برنامه های ترتیب سنج برای ایجاد یک سیستم استودیویی قدرتمند یکپارچه شود.