۱۰ اردیبهشت ۱۴۰۳ |
مقالاتنظارت تصویری

ورود هوش مصنوعی به نظارت تصویری

نقش هوش مصنوعی در نظارت تصویری چیست؟

زمانی‌که ‌کامپیوتر شطرنج باز Deep Blue ساخت کمپانی IBM، درسال 1996 اولین بازی شطرنج خود را در مقابل قهرمان جهان Garry Kasparov برنده شد، عموم مردم به این باور رسیدند که کامپیوترها می‌توانند تا چه حد قدرتمند باشند. از آن تاریخ تاکنون نه تنها قدرت محاسباتی، به طور تصاعدی رشد کرده بلکه هزینه محاسبات، به شدت‌کاهش‌یافته است. این‌روندها درکنار پیشرفت الگوریتم‌های هوش مصنوعی، زمینه‌ساز توسعه و ساخت سیستم هایی شده است که در بعضی موارد می‌توانند عملکردی بهتر از انسان داشته باشند.

نظارت تصویری یکی از اعمالی است که در آن سیستم های مجهز به هوش مصنوعی دارای عملکرد بهتری نسبت به انسان هستند. نظارت تصویری بازار بسیار گسترده ای است اما باید این موارد را در نظر داشت که با وجود این رشد عظیم در نظارت تصویری و توانایی در ذخیره سازی اطلاعات، توانایی در آنالیز تصویر به همان میزان رشدو پیشرفت نکرده‌است. طبق گزارش IHS فقط در سال 2017 تعداد 127 میلیون دوربین نظارت تصویری و 400 هزار دوربین بدن (تن پوش) برای فروش ارسال خواهد شد؛ علاوه براین، تخمین زده می‌شود که 300 میلیون دوربین پیش از این به کار گرفته شده است و حدوداً روزانه 2.5 میلیارد Exabyte اطلاعات تولید می‌شود.

چالش های عمده پیش رو

یکی از مشکلات کاربران نظارت تصویری، خستگی ناشی از تمرکز مستقیم است. مغز به طور‌ طبیعی به صورت متناوب حواس را از حالت تمرکز به عدم تمرکز و بالعکس معطوف می‌کند. در نظارت تصویری عدم تمرکز می‌تواند منجر به عواقب خطرناکی شود. وظیفه هوش مصنوعی طراحی یک سیستم نظارت تصویری است که هیچگاه دچار عدم تمرکز نشود و به همکاری با انسان بپردازد تا خطای انسانی را از بین ببرد. چالش اصلی آن است که در حقیقت کامپیوترها مانند مغز انسان عمل نمی‌کنند. برای مثال، درکامپیوترها فرآیند های پردازش و ذخیره جداگانه صورت می‌گیرد. کامپیوترها، سیستم هایی تمام دیجیتال هستند، اما مغز دارای ویژگی‌های آنالوگ و دیجیتال است و لذا مدل‌سازی فرآیند مغز بسیار پیچیده تر است. محاسبات نورومورفیک، علمی‌است که تلاش می‌کند تعدادی از ویژگی های مغز انسان را در سیستم های کامپیوتری پیاده سازی کند تا در بعضی از موارد بتوانند عملکرد بهتری داشته باشند. عملکرد کامپیوترها در محاسبات سنگین همواره بهتر از ماست. مغز برای انجام چنین محاسباتی توسعه نیافته اما بااین وجود درحس کردن، پردازش و واکنش نشان دادن به جریان اطلاعات که از محیط پیرامون جمع آوری شده است بسیار خوب عمل می‌کند. در نظارت تصویری، هوش مصنوعی که معادل ویژگی واکنش پذیری مغز در انسان است، بیشترین کاربرد را خواهد داشت. علاوه بر این سیستم های هوش مصنوعی که به کامپیوتر متصل هستند به مزیت حافظه ذخیره قابل اتکا مجهزهستند؛ این همان چیزی است که مغز در دست یافتن به آن ناتوان است.

توسعه ابتدایی هوش مصنوعی در چشم انداز کامپیوتر

تا سال 2012 کامپیوترها نمی‌توانستند انواع گوناگون تصاویر را از یکدیگر متمایز نمایند اماAlex Krishevsky  الگوریتمی‌را طراحی کرد که شرایط را تغییر داد. او نشان داد که شناخت اشیا و دسته بندی آنها از طریق شبیه سازی و آموزش یک شبکه از اجزای محاسباتی امکان پذیر است. توپولوژی این شبکه به سلول های مغزی (نورون ها) شباهت دارد. از این رو آن را شبکه هوش مصنوعی می‌نامند. مبنای اجزای محاسباتی Krishevsky، شبکه عصبی کانولوشن است (CNN). این شبکه های عصبی افزونه ای قدرتمند در مجموعه ابزار کامپیوتری محسوب می‌شوند اما با دو محدودیت اساسی در نظارت تصویری درگیر هستند. اولین محدودیت در این زمینه مربوط به رویه ی یادگیری در شبکه عصبی است که مستلزم محاسبات عددی بسیار پیچیده صحیح و غلط است. در سیستم های محاسباتی ابری روزها و حتی هفته ها زمان نیاز است تا یک فرآیند یادگیری به پایان برسد. مسئله دوم نیاز به دسترسی به دسته انبوهی از داده ها برای تکمیل رویه آموزشی CNN ها است. این بدان معناست که رویه آموزش نیازمند گردآوری حجم بالایی از تصاویر است که هر شیء دارای یک نام برای معرفی خود می‌باشد. در نتیجه خطاهای سیستم در پایان هر شبکه ی عصبی قابل اندازه گیری خواهد بود. میلیون ها چرخه آموزش و میلیون ها تصویر با برچسب برای بازشناسی مورد نیاز است تا تابع عملکرد سیستم تمام اشیای مورد نظر را بازشناسایی کند.  از دیگر محدودیت های این فناوری بروز خطا درصورت وجود نویز در تصویر حتی به مقدار کم است. این مشکل هنگامی‌که پیکسل‌های اتفاقی به دلیل نویز در سنسور و یا آلودگی لنز بر روی تصویر ایجاد می‌شوند آثار منفی خود را بیشتر نشان می‌دهد. دسته بندی اشتباه، محدودیت بعدی در این سیستم است. این مشکل، زمانی رخ می‌دهد که سیستم به هر دلیلی سردرگم شود . برای مثال، اگر فردی عینک به صورت خود بزند و تصاویر برچسب گذاری شده مربوط به همان فرد درون دیتابیس همگی بدون عینک باشند، سیستم دچار خطا می‌شود و چهره فردی که عینک به صورت دارد را به عنوان یک چهره جدید می‌شناسد. پارامترهای شبکه ای CNN ها نیازمند تنظیمات بسیار دقیق هستند و درمرحله بعد سرعت و دقت در دسته بندی صحیح تصاویر در مبحث نظارت تصویری می‌تواند کمتر از حد ایده آل باشد. برای جمع بندی، CNNها می‌توانند در افزایش دقت در نظارت تصویری مفید باشند اما نیازمند دسترسی به سیستمی‌با توان پردازش بسیار بالا و حجم بالایی از داده ها برای آموزش هستند که هر دو هزینه های بالایی را طلب می‌کنند. زمان مورد نیاز برای آموزش چنین سیستم هایی و ناتوانی آنها در یادگیری آنی از عوامل عدم جذابیت برای به کارگیری به شمار می‌روند.

شبکه عصبی اسپایک(SNN) و نظارت تصویری

SNN ها،  به‌دنبال دیگر جنبه های روش کارکرد مغز هستند. مغز انسان جرقه های کوچک انرژی به‌نام اسپایک تولید می‌کند.پدیده وقوع اسپایک های مغزی در فواصل زمانی معین نسبت به یکدیگر رخ می‌دهند. میلیاردها اسپایک درون نورون های انسان در یک زمان جاری می‌شوند. مغز انسان محرک های بصری، شامل رنگ ها و اجزای یک تصویر را به سلسله های پالس از اسپایک تبدیل می‌کند که توسط نورون ها پردازش می‌شوند. سیناپس ها نورون ها را به یک دیگر متصل می‌کنند، مغز از پتانسیل الکتریکی و شیمیایی به عنوان پیغام رسان استفاده می‌نماید. هر نورون تمام مقادیری که وارد سیناپس ورودی می‌شود را دریافت می‌کند و اگر بیش از حد بحرانی باشد، پالس اسپایک خود را ارسال خواهد کرد. بازخورد، تعیین می‌کند که کدام یک از اسپایک ها رویداد خروجی دخیل در این جریان بوده اند و اثر اهمیت سیگنال های مربوط به آن سیناپس ها را برجسته تر نموده و به موازات آن اثر اهمیت سیگنال های متعلق به سیناپس های دیگر را کاهش می‌دهد. بدین ترتیب، نورون به یک الگوی خاص از اسپایک ها در پیام ورودی، حساس شده و پاسخ می‌دهد. این مفهوم در‌ تضاد کامل با CNNها است که برپایه توابع پیچیده ریاضی عمل می‌کنند. SNNها در حقیقت تابع عملکرد نورون ها را مدل سازی می‌کنند. سؤالی که در اینجا مطرح می‌شود آن است که کاربرد این مفاهیم دردسته بندی تصاویر چیست؟ امروزه فناوری SNN می‌تواند الگوها و افرادی را در تصاویر ویدیویی شناسایی کنند. برای مثال، اداره پلیس در یک تصویر ویدیویی زنده به دنبال یک مظنون می‌گردد که تنها چند تصویر محدود از وی را در اختیار دارد و همچنین زمان کافی برای آموزش CNN نیز در دست نیست. در سیستم مبتنی بر SNN اندازه تصویر می‌تواند در اندازه 24*24 پیکسل و کیفیت عکس لازم نیست HD باشد. این سیستم قادر به یادگیری آنی و فوری است و تنها نیاز به پردازش معمولی دارد، یک کامپیوتر رومیزی با توان 86 برابر و یا یک سرور که میزان کمی‌انرژی مصرف می‌کند می‌توانند این پردازش را انجام دهد. این بدان معناست که با همان سیستم های قدیمی‌بدون صرف هزینه جهت تهیه ی دستگاه پردازش جدید می‌توان پردازش مورد نیاز را انجام داد. فناوری SNN را حتی می‌توان تنها از طریق روش های نرم افزاری به کار برد و یا با نصب کارت های FPGA به آن سرعت بخشید.

عملکرد SNN ها در دنیای واقعی

توانایی SNN در دسته بندی چهره افراد در بخش نظارت تصویری شهری چه میزان است؟ SNN یک مجموعه داده حاوی تصاویر اینترنتی که توسط مؤسسه ی تحقیقاتی کالیفرنیا (caltech) جمع آوری شده بود را دریافت‌کرد. سیستم توانست یک فرد مشخص شده را از میان چهره‌هایی که در کادر حضور داشتند در میان آن مجموعه داده ها شامل 450 صورت بدون خطا شناسایی کند. دقت شناسایی حتی با افزایش نویز تصویر تا میزان 68 درصد، کاهش میزان گاما تا 52 درصد و یا افزایش نویز و پیکسل شدن تصویر، تغییری نکرد. در آزمایشات بعدی، با استفاده از یک سرور86x سیستم بیش از پانصد هزار تصویر چهره را از هشت دوربین باکیفیت  HDبا مدت زمان سه ساعت و نیم استخراج و شناسایی کرد. در آزمایشی دیگر، سیستم درعرض کمتر از 2 ساعت، توانست، بیش از 150 هزار تصویر چهره را از 36 ساعت تصویر ویدیویی استخراج نماید. اعمالی که برای ماشین ها تا چندسال پیش غیر‌ممکن به نظر می‌رسید امروزه اموری بسیار عادی تلقی می‌شوند. CNNها گامی‌بزرگ در حرکت رو به جلو به شمار می‌روند اما SNNها بیشترین پتانسیل را در ایجاد ظرفیت های جدید در بخش نظارت تصویری دارند.

ثبت یک پاسخ