نقش هوش مصنوعی در نظارت تصویری چیست؟
زمانیکه کامپیوتر شطرنج باز Deep Blue ساخت کمپانی IBM، درسال 1996 اولین بازی شطرنج خود را در مقابل قهرمان جهان Garry Kasparov برنده شد، عموم مردم به این باور رسیدند که کامپیوترها میتوانند تا چه حد قدرتمند باشند. از آن تاریخ تاکنون نه تنها قدرت محاسباتی، به طور تصاعدی رشد کرده بلکه هزینه محاسبات، به شدتکاهشیافته است. اینروندها درکنار پیشرفت الگوریتمهای هوش مصنوعی، زمینهساز توسعه و ساخت سیستم هایی شده است که در بعضی موارد میتوانند عملکردی بهتر از انسان داشته باشند.
نظارت تصویری یکی از اعمالی است که در آن سیستم های مجهز به هوش مصنوعی دارای عملکرد بهتری نسبت به انسان هستند. نظارت تصویری بازار بسیار گسترده ای است اما باید این موارد را در نظر داشت که با وجود این رشد عظیم در نظارت تصویری و توانایی در ذخیره سازی اطلاعات، توانایی در آنالیز تصویر به همان میزان رشدو پیشرفت نکردهاست. طبق گزارش IHS فقط در سال 2017 تعداد 127 میلیون دوربین نظارت تصویری و 400 هزار دوربین بدن (تن پوش) برای فروش ارسال خواهد شد؛ علاوه براین، تخمین زده میشود که 300 میلیون دوربین پیش از این به کار گرفته شده است و حدوداً روزانه 2.5 میلیارد Exabyte اطلاعات تولید میشود.
چالش های عمده پیش رو
یکی از مشکلات کاربران نظارت تصویری، خستگی ناشی از تمرکز مستقیم است. مغز به طور طبیعی به صورت متناوب حواس را از حالت تمرکز به عدم تمرکز و بالعکس معطوف میکند. در نظارت تصویری عدم تمرکز میتواند منجر به عواقب خطرناکی شود. وظیفه هوش مصنوعی طراحی یک سیستم نظارت تصویری است که هیچگاه دچار عدم تمرکز نشود و به همکاری با انسان بپردازد تا خطای انسانی را از بین ببرد. چالش اصلی آن است که در حقیقت کامپیوترها مانند مغز انسان عمل نمیکنند. برای مثال، درکامپیوترها فرآیند های پردازش و ذخیره جداگانه صورت میگیرد. کامپیوترها، سیستم هایی تمام دیجیتال هستند، اما مغز دارای ویژگیهای آنالوگ و دیجیتال است و لذا مدلسازی فرآیند مغز بسیار پیچیده تر است. محاسبات نورومورفیک، علمیاست که تلاش میکند تعدادی از ویژگی های مغز انسان را در سیستم های کامپیوتری پیاده سازی کند تا در بعضی از موارد بتوانند عملکرد بهتری داشته باشند. عملکرد کامپیوترها در محاسبات سنگین همواره بهتر از ماست. مغز برای انجام چنین محاسباتی توسعه نیافته اما بااین وجود درحس کردن، پردازش و واکنش نشان دادن به جریان اطلاعات که از محیط پیرامون جمع آوری شده است بسیار خوب عمل میکند. در نظارت تصویری، هوش مصنوعی که معادل ویژگی واکنش پذیری مغز در انسان است، بیشترین کاربرد را خواهد داشت. علاوه بر این سیستم های هوش مصنوعی که به کامپیوتر متصل هستند به مزیت حافظه ذخیره قابل اتکا مجهزهستند؛ این همان چیزی است که مغز در دست یافتن به آن ناتوان است.
توسعه ابتدایی هوش مصنوعی در چشم انداز کامپیوتر
تا سال 2012 کامپیوترها نمیتوانستند انواع گوناگون تصاویر را از یکدیگر متمایز نمایند اماAlex Krishevsky الگوریتمیرا طراحی کرد که شرایط را تغییر داد. او نشان داد که شناخت اشیا و دسته بندی آنها از طریق شبیه سازی و آموزش یک شبکه از اجزای محاسباتی امکان پذیر است. توپولوژی این شبکه به سلول های مغزی (نورون ها) شباهت دارد. از این رو آن را شبکه هوش مصنوعی مینامند. مبنای اجزای محاسباتی Krishevsky، شبکه عصبی کانولوشن است (CNN). این شبکه های عصبی افزونه ای قدرتمند در مجموعه ابزار کامپیوتری محسوب میشوند اما با دو محدودیت اساسی در نظارت تصویری درگیر هستند. اولین محدودیت در این زمینه مربوط به رویه ی یادگیری در شبکه عصبی است که مستلزم محاسبات عددی بسیار پیچیده صحیح و غلط است. در سیستم های محاسباتی ابری روزها و حتی هفته ها زمان نیاز است تا یک فرآیند یادگیری به پایان برسد. مسئله دوم نیاز به دسترسی به دسته انبوهی از داده ها برای تکمیل رویه آموزشی CNN ها است. این بدان معناست که رویه آموزش نیازمند گردآوری حجم بالایی از تصاویر است که هر شیء دارای یک نام برای معرفی خود میباشد. در نتیجه خطاهای سیستم در پایان هر شبکه ی عصبی قابل اندازه گیری خواهد بود. میلیون ها چرخه آموزش و میلیون ها تصویر با برچسب برای بازشناسی مورد نیاز است تا تابع عملکرد سیستم تمام اشیای مورد نظر را بازشناسایی کند. از دیگر محدودیت های این فناوری بروز خطا درصورت وجود نویز در تصویر حتی به مقدار کم است. این مشکل هنگامیکه پیکسلهای اتفاقی به دلیل نویز در سنسور و یا آلودگی لنز بر روی تصویر ایجاد میشوند آثار منفی خود را بیشتر نشان میدهد. دسته بندی اشتباه، محدودیت بعدی در این سیستم است. این مشکل، زمانی رخ میدهد که سیستم به هر دلیلی سردرگم شود . برای مثال، اگر فردی عینک به صورت خود بزند و تصاویر برچسب گذاری شده مربوط به همان فرد درون دیتابیس همگی بدون عینک باشند، سیستم دچار خطا میشود و چهره فردی که عینک به صورت دارد را به عنوان یک چهره جدید میشناسد. پارامترهای شبکه ای CNN ها نیازمند تنظیمات بسیار دقیق هستند و درمرحله بعد سرعت و دقت در دسته بندی صحیح تصاویر در مبحث نظارت تصویری میتواند کمتر از حد ایده آل باشد. برای جمع بندی، CNNها میتوانند در افزایش دقت در نظارت تصویری مفید باشند اما نیازمند دسترسی به سیستمیبا توان پردازش بسیار بالا و حجم بالایی از داده ها برای آموزش هستند که هر دو هزینه های بالایی را طلب میکنند. زمان مورد نیاز برای آموزش چنین سیستم هایی و ناتوانی آنها در یادگیری آنی از عوامل عدم جذابیت برای به کارگیری به شمار میروند.
شبکه عصبی اسپایک(SNN) و نظارت تصویری
SNN ها، بهدنبال دیگر جنبه های روش کارکرد مغز هستند. مغز انسان جرقه های کوچک انرژی بهنام اسپایک تولید میکند.پدیده وقوع اسپایک های مغزی در فواصل زمانی معین نسبت به یکدیگر رخ میدهند. میلیاردها اسپایک درون نورون های انسان در یک زمان جاری میشوند. مغز انسان محرک های بصری، شامل رنگ ها و اجزای یک تصویر را به سلسله های پالس از اسپایک تبدیل میکند که توسط نورون ها پردازش میشوند. سیناپس ها نورون ها را به یک دیگر متصل میکنند، مغز از پتانسیل الکتریکی و شیمیایی به عنوان پیغام رسان استفاده مینماید. هر نورون تمام مقادیری که وارد سیناپس ورودی میشود را دریافت میکند و اگر بیش از حد بحرانی باشد، پالس اسپایک خود را ارسال خواهد کرد. بازخورد، تعیین میکند که کدام یک از اسپایک ها رویداد خروجی دخیل در این جریان بوده اند و اثر اهمیت سیگنال های مربوط به آن سیناپس ها را برجسته تر نموده و به موازات آن اثر اهمیت سیگنال های متعلق به سیناپس های دیگر را کاهش میدهد. بدین ترتیب، نورون به یک الگوی خاص از اسپایک ها در پیام ورودی، حساس شده و پاسخ میدهد. این مفهوم در تضاد کامل با CNNها است که برپایه توابع پیچیده ریاضی عمل میکنند. SNNها در حقیقت تابع عملکرد نورون ها را مدل سازی میکنند. سؤالی که در اینجا مطرح میشود آن است که کاربرد این مفاهیم دردسته بندی تصاویر چیست؟ امروزه فناوری SNN میتواند الگوها و افرادی را در تصاویر ویدیویی شناسایی کنند. برای مثال، اداره پلیس در یک تصویر ویدیویی زنده به دنبال یک مظنون میگردد که تنها چند تصویر محدود از وی را در اختیار دارد و همچنین زمان کافی برای آموزش CNN نیز در دست نیست. در سیستم مبتنی بر SNN اندازه تصویر میتواند در اندازه 24*24 پیکسل و کیفیت عکس لازم نیست HD باشد. این سیستم قادر به یادگیری آنی و فوری است و تنها نیاز به پردازش معمولی دارد، یک کامپیوتر رومیزی با توان 86 برابر و یا یک سرور که میزان کمیانرژی مصرف میکند میتوانند این پردازش را انجام دهد. این بدان معناست که با همان سیستم های قدیمیبدون صرف هزینه جهت تهیه ی دستگاه پردازش جدید میتوان پردازش مورد نیاز را انجام داد. فناوری SNN را حتی میتوان تنها از طریق روش های نرم افزاری به کار برد و یا با نصب کارت های FPGA به آن سرعت بخشید.
عملکرد SNN ها در دنیای واقعی
توانایی SNN در دسته بندی چهره افراد در بخش نظارت تصویری شهری چه میزان است؟ SNN یک مجموعه داده حاوی تصاویر اینترنتی که توسط مؤسسه ی تحقیقاتی کالیفرنیا (caltech) جمع آوری شده بود را دریافتکرد. سیستم توانست یک فرد مشخص شده را از میان چهرههایی که در کادر حضور داشتند در میان آن مجموعه داده ها شامل 450 صورت بدون خطا شناسایی کند. دقت شناسایی حتی با افزایش نویز تصویر تا میزان 68 درصد، کاهش میزان گاما تا 52 درصد و یا افزایش نویز و پیکسل شدن تصویر، تغییری نکرد. در آزمایشات بعدی، با استفاده از یک سرور86x سیستم بیش از پانصد هزار تصویر چهره را از هشت دوربین باکیفیت HDبا مدت زمان سه ساعت و نیم استخراج و شناسایی کرد. در آزمایشی دیگر، سیستم درعرض کمتر از 2 ساعت، توانست، بیش از 150 هزار تصویر چهره را از 36 ساعت تصویر ویدیویی استخراج نماید. اعمالی که برای ماشین ها تا چندسال پیش غیرممکن به نظر میرسید امروزه اموری بسیار عادی تلقی میشوند. CNNها گامیبزرگ در حرکت رو به جلو به شمار میروند اما SNNها بیشترین پتانسیل را در ایجاد ظرفیت های جدید در بخش نظارت تصویری دارند.