Marj tasniflagichi - Margin classifier

Yilda mashinada o'rganish, a margin klassifikatori a klassifikator har bir misol uchun qaror chegarasidan bog'liq masofani berishga qodir. Masalan, agar a chiziqli klassifikator (masalan, pertseptron yoki chiziqli diskriminant tahlil ) ishlatiladi, masofa (odatda evklid masofasi (boshqalar ishlatilishi mumkin), masalan, ajratuvchi giperplanadan olingan misol, bu misolning chegarasi.

Marj tushunchasi bir nechta mashinani o'rganishning tasniflash algoritmlarida muhim ahamiyatga ega, chunki uni chegaralash uchun foydalanish mumkin umumlashtirish xatosi klassifikator. Ushbu chegaralar tez-tez yordamida ko'rsatiladi VC o'lchovi. Umumlashtirish alohida e'tiborga loyiqdir xato bilan bog'liq kuni kuchaytirish algoritmlari va qo'llab-quvvatlash vektorli mashinalar.

Marginning vektorli mashina ta'rifini qo'llab-quvvatlash

Qarang qo'llab-quvvatlash vektorli mashinalar va maksimal marjli giperplan tafsilotlar uchun.

Algoritmlarni kuchaytirish uchun marj

Takrorlash uchun margin kuchaytirish Ikki sinfli misollar to'plami berilgan algoritmga quyidagicha ta'rif berish mumkin. Tasniflagichga misol jufti berilgan qayerda domen maydoni va misolning yorlig'i. Keyin takroriy kuchaytirish algoritmi tasniflagichni tanlaydi har bir takrorlashda qayerda haqiqiy qadriyatlarni taxmin qiladigan mumkin bo'lgan tasniflagichlar makonidir. Keyinchalik bu gipoteza tomonidan tortiladi kuchaytirish algoritmi tomonidan tanlanganidek. Takrorlashda , misol chegarasi shunday qilib belgilanishi mumkin

Ushbu ta'rifga ko'ra, margin ijobiy, agar misol to'g'ri etiketlangan bo'lsa, salbiy, masalan noto'g'ri etiketlangan bo'lsa.

Ushbu ta'rif o'zgartirilishi mumkin va algoritmlarni kuchaytirish marjini aniqlashning yagona usuli emas. Biroq, ushbu ta'rif jozibador bo'lishi mumkin bo'lgan sabablar mavjud.[1]

Marjga asoslangan algoritmlarga misollar

Ko'pgina klassifikatorlar har bir misol uchun bog'liq chegarani berishi mumkin. Shu bilan birga, faqat ba'zi tasniflagichlar ma'lumotlar to'plamidan o'rganish paytida chekka ma'lumotlardan foydalanadilar.

Ko'plab kuchaytiruvchi algoritmlar misollarga og'irlik berish uchun chekka tushunchasiga tayanadi. Agar konveks yo'qotish ishlatilsa (xuddi shunday) AdaBoost, LogitBoost va barcha a'zolari AnyBoost algoritmlar oilasi), shunda yuqori marjaga ega bo'lgan misol past marjaga ega bo'lganlarga qaraganda kamroq (yoki teng) vaznga ega bo'ladi. Bu kuchaytirish algoritmini og'irlikni past marjli misollarga qaratishga olib keladi. Qavariq bo'lmagan algoritmlarda (masalan.) BrownBoost ), margin baribir misolning tortilishini belgilaydi, garchi tortish marjga nisbatan monoton emas. Minimal marjni maksimal darajada oshiradigan kuchaytiruvchi algoritmlar mavjud (masalan, qarang [2]).

Vektorli mashinalarni qo'llab-quvvatlash ajratuvchi giperplane chegarasini maksimal darajada oshiring. Shovqinli ma'lumotlar yordamida o'qitiladigan qo'llab-quvvatlovchi vektorli mashinalar (berilgan maydonda ma'lumotlarni mukammal ajratish mavjud emas) yumshoq chegarani maksimal darajada oshiradi. Bu haqda ko'proq muhokama qo'llab-quvvatlash vektor mashinasi maqola.

The ovoz beruvchi pertseptron algoritm - bu klassikning takroriy qo'llanilishiga asoslangan margin maksimallashtirish algoritmi pertseptron algoritm.

Umumlashtirish xatosi chegaralari

Marj tasniflagichlari ortidagi nazariy turtki shundaki, ular umumlashtirish xatosi algoritm parametrlari va margin terminiga bog'liq bo'lishi mumkin. Bunday chegaraning misoli AdaBoost algoritmi uchun.[1] Ruxsat bering to'plami bo'ling taqsimotdan tasodifiy ravishda mustaqil ravishda olingan namunalar . Asosiy bazaviy klassifikatorning VC-o'lchovi deb taxmin qiling va . Keyin ehtimollik bilan bizda majburiyat bor

Barcha uchun .

Adabiyotlar

  1. ^ a b Robert E. Shapire, Yoav Freund, Piter Bartlett va Vi Sun Li. (1998) "Marjni oshirish: Ovoz berish usullari samaradorligining yangi izohi ", Statistika yilnomalari, 26(5):1651–1686
  2. ^ Manfred Uarmut va Karen Glozer va Gunnar Ratsch. Yumshoq marjani maksimal darajaga ko'tarish algoritmlarini kuchaytirish. Asabli axborotni qayta ishlash tizimidagi yutuqlar to'plamida 2007 yil 20, 1585-1592 betlar.