مهلا دهتقیزاده؛ فرید صابری موحد؛ مهدی افتخاری
دوره 13، شماره 3 ، مهر 1398، ، صفحه 223-234
چکیده
دادههای میکرو-آرایهای DNA در یادگیری ماشین و تشخیص انواع مختلف ساختارهای سرطانی نقش مهمی را ایفا میکنند. دادههای میکرو-آرایهای به طور معمول شامل تعداد زیادی ویژگی و تعداد اندکی نمونه هستند. همچنین، اینگونه دادهها به دلیل داشتن برخی ویژگیهای نامرتبط میتوانند موجب بیشبرازش و کاهش دقت پیشبینی طبقهبند کنندهها ...
بیشتر
دادههای میکرو-آرایهای DNA در یادگیری ماشین و تشخیص انواع مختلف ساختارهای سرطانی نقش مهمی را ایفا میکنند. دادههای میکرو-آرایهای به طور معمول شامل تعداد زیادی ویژگی و تعداد اندکی نمونه هستند. همچنین، اینگونه دادهها به دلیل داشتن برخی ویژگیهای نامرتبط میتوانند موجب بیشبرازش و کاهش دقت پیشبینی طبقهبند کنندهها شوند. بنابراین، آنالیز دادههای میکرو-آرایهای امری مهم و چالش برانگیز در یادگیری ماشین و فناوری ژنتیک مولکولی محسوب میشود. یک راه مستقیم برای مقابله با این چالش، کاهش بعد داده میباشد. روش انتخاب ویژگی به عنوان یک راهکار مهم برای کاهش ابعاد و افزایش کارایی الگوریتمهای یادگیری عمل میکند. در این مقاله، با استفاده از مفهوم پایه برای مجموعهی دادههای میکرو-آرایهای، یک روش جدید انتخاب ویژگی معرفی شده است. به عبارت دیگر، از یک پایه شامل یک زیرمجموعهی بسیار کوچک از ژنها، به جای کل مجموعهی دادههای میکرو-آرایهای در تعریف مسالهی انتخاب ویژگی استفاده شده است. در این روش مسالهی انتخاب ویژگی بر اساس دیدگاه یادگیری زیرفضا و تجزیهی ماتریس پایه فرمولبندی شده است. در نهایت، با استفاده از مجموعهی دادههای میکرو-آرایهای DNA، کارایی روش پیشنهادی بررسی شده و نتایج به دست آمده با نتایج چند روش انتخاب ویژگی معتبر مقایسه شده است.