Rasmni qidirishdan ob'ektlarni turkumlash - Object categorization from image search

Yilda kompyuterni ko'rish, muammo tasvirni qidirishdan ob'ektlarni tasniflash o'qitish muammosi a klassifikator faqat Internet yordamida avtomatik ravishda olingan tasvirlardan foydalangan holda ob'ektlar toifalarini tanib olish qidiruv tizimi. Ideal holda, rasmlarni avtomatik yig'ish tasniflagichlarni kirish uchun toifadagi nomlardan boshqa hech narsa bilan o'rgatish imkonini beradi. Ushbu muammo bilan chambarchas bog'liq kontentga asoslangan tasvirni qidirish (CBIR), bu erda tasvirni tanib olish uchun klassifikatorni o'rgatishdan ko'ra yaxshiroq rasm qidirish natijalarini qaytarish.

An'anaga ko'ra, tasniflagichlar qo'l bilan etiketlangan tasvirlar to'plamlari yordamida o'qitiladi. Bunday tasvirlar to'plamini yig'ish ko'pincha juda ko'p vaqt va mehnat talab qiladigan jarayondir. Yorliqlangan tasvirlarning katta to'plamlarini olish jarayonini avtomatlashtirish uchun Internet-qidiruv tizimlaridan foydalanish kompyuterni ko'rish tadqiqotlarini sezilarli darajada engillashtirishning potentsial usuli sifatida tavsiflangan.^[1]

Qiyinchiliklar

Bir-biriga bog'liq bo'lmagan rasmlar

Internetdagi rasmlarni qidirish natijalarini klassifikator uchun mashg'ulotlar to'plami sifatida ishlatish bilan bog'liq muammolardan biri bu natijalar tarkibidagi bog'liq bo'lmagan rasmlarning yuqori foizidir. Hisob-kitoblarga ko'ra, Google rasmlari kabi qidiruv tizimida ob'ektlar toifasining nomi (masalan, samolyot?) Bilan so'ralganda, qaytarilgan rasmlarning 85% gacha toifaga aloqasi yo'q.^[1]

Sinf ichidagi o'zgaruvchanlik

Internet-rasmlarni qidirish natijalarini tasniflagichlar uchun treninglar to'plami sifatida ishlatishning yana bir qiyin tomoni shundaki, qo'lda belgilangan ma'lumotlar to'plamlarida mavjud bo'lgan toifalar bilan taqqoslaganda, ob'ekt toifalarida yuqori darajada o'zgaruvchanlik mavjud. Caltech 101 va Paskal. Ob'ektlarning tasvirlari miqyosi, pozasi, yoritilishi, ob'ektlar soni va okklyuziya miqdori kabi bir qator muhim omillarda keng farq qilishi mumkin.

pLSA yondashuvi

Fergus va boshqalarning 2005 yilgi maqolasida,^[1] pLSA (ehtimoliy yashirin semantik tahlil) va ushbu modelning kengaytmalari tasvirni qidirishdan ob'ektlarni turkumlash muammosiga tatbiq etildi. pLSA dastlab uchun ishlab chiqilgan hujjatlarning tasnifi, ammo keyinchalik qo'llanilgan kompyuterni ko'rish. Tasvirlar mos keladigan hujjatlar deb taxmin qilishadi so'zlar sumkasi model.

Model

Xuddi matnli hujjatlar so'zlardan iborat bo'lib, ularning har biri hujjat ichida va hujjatlar bo'ylab takrorlanishi mumkin, rasmlar kombinatsiyasi sifatida modellashtirilishi mumkin. vizual so'zlar. Matn so'zlarining butun to'plami lug'at bilan aniqlanganidek, vizual so'zlarning hammasi a-da aniqlanadi kod so'zi lug'ati.

pLSA hujjatlarni ikkiga ajratadi mavzular shuningdek. Maqolaning mavzusini (larini) bilish unda paydo bo'ladigan so'z turlari haqida yaxshi taxmin qilish imkonini bergani kabi, tasvirdagi so'zlarning taqsimlanishi asosiy mavzularga bog'liq. PLSA modeli bizga har bir so'zni ko'rish ehtimolini aytadi ${ displaystyle w}$ toifani hisobga olgan holda ${ displaystyle displaystyle d}$ mavzular bo'yicha ${ displaystyle displaystyle z}$ :

${ displaystyle displaystyle P (w | d) = sum _ {z = 1} ^ {Z} P (w | z) P (z | d)}$

Ushbu modelda qilingan muhim taxmin shu ${ displaystyle displaystyle w}$ va ${ displaystyle displaystyle d}$ shartli ravishda mustaqil berilgan ${ displaystyle displaystyle z}$ . Mavzuni hisobga olgan holda, ma'lum bir so'zning ushbu mavzuning bir qismi sifatida paydo bo'lish ehtimoli tasvirning qolgan qismiga bog'liq emas.^[2]

Ushbu modelni o'qitish topishni o'z ichiga oladi ${ displaystyle displaystyle P (w | z)}$ va ${ displaystyle displaystyle P (z | d)}$ bu har bir hujjatdagi kuzatilgan so'zlarning ehtimolini maksimal darajada oshiradi. Buning uchun kutishni maksimal darajaga ko'tarish algoritmi ishlatiladi, quyidagilar bilan ob'ektiv funktsiya:

${ displaystyle displaystyle L = prod _ {d = 1} ^ {D} prod _ {w = 1} ^ {W} P (w | d) ^ {n (w | d)}}$

Ilova

ABS-pLSA

Absolut pLSA (ABS-pLSA) pozitsiyasi har bir vizual so'zga rasmdagi X 揵 ins? Bu yerda, ${ displaystyle displaystyle x}$ vizual so'z qutilarning qaysi biriga tushishini anglatadi. Yangi tenglama:

${ displaystyle displaystyle P (w | d) = sum _ {z = 1} ^ {Z} P (w, x | z) P (z | d)}$

${ displaystyle displaystyle P (w, x | z)}$ va ${ displaystyle displaystyle P (d)}$ yordamida asl pLSA muammosiga o'xshash tarzda echilishi mumkin EM algoritmi

Ushbu modeldagi muammo shundaki, u tarjima yoki o'lchov o'zgarmasdir. Vizual so'zlarning pozitsiyalari mutlaq bo'lganligi sababli, tasvirdagi ob'ekt hajmini o'zgartirish yoki uni siljitish vizual so'zlarning turli xil axlat qutilariga fazoviy tarqalishiga sezilarli ta'sir ko'rsatishi mumkin.

TSI-pLSA

Tarjima va o'lchov o'zgarmas pLSA (TSI-pLSA). Ushbu model pLSA-ni boshqa yashirin o'zgaruvchini qo'shish orqali kengaytiradi, bu rasmdagi maqsad ob'ektining fazoviy joylashishini tavsiflaydi. Endi pozitsiya ${ displaystyle displaystyle x}$ vizual so'z tasvirdagi mutlaq pozitsiya sifatida emas, balki ushbu ob'ekt joylashuviga nisbatan berilgan. Yangi tenglama:

${ displaystyle displaystyle P (w, x | d) = sum _ {z = 1} ^ {Z} sum _ {c = 1} ^ {C} P (w, x | c, z) P ( c) P (z | d)}$

Shunga qaramay, parametrlar ${ displaystyle displaystyle P (w, x | c, z)}$ va ${ displaystyle displaystyle P (d)}$ yordamida hal qilish mumkin EM algoritmi. ${ displaystyle displaystyle P (c)}$ bir xil taqsimot deb taxmin qilish mumkin.

Amalga oshirish

So'zlarni tanlash

Rasmdagi so'zlar 4 xil xususiyat detektorlari yordamida tanlangan:^[1]

Kadir-Brady-ni aniqlash detektori
Ko'p o'lchovli Harris detektori
Gausslarning farqi
Tadqiqotda tavsiflangan chekka asosidagi operator

Ushbu 4 detektor yordamida har bir tasvir uchun 700 ga yaqin xususiyat aniqlandi. Keyinchalik bu xususiyatlar quyidagicha kodlangan Shkaladan o'zgarmas xususiyatlarni o'zgartirish kod daftarida mavjud bo'lgan 350 so'zdan biriga mos keladigan kvantlangan vektor. Kodlar kitobi ko'plab ob'ektlar toifalarini qamrab oladigan ko'plab rasmlardan olingan xususiyatlar asosida hisoblab chiqilgan.

Ob'ektning mumkin bo'lgan joylari

TSI-pLSA modelidagi muhim savollardan biri bu tasodifiy o'zgaruvchining qiymatlarini qanday aniqlashdir ${ displaystyle displaystyle C}$ olishi mumkin. Bu 4 vektorli, uning tarkibiy qismlari ob'ektni 抯 centroid tasvirlaydi, shuningdek x va y masshtablarini ob'ekt atrofidagi chegaralarni belgilaydi, shuning uchun u qabul qilishi mumkin bo'lgan qiymatlar maydoni juda katta. Mumkin bo'lgan ob'ektlar sonini oqilona raqam bilan cheklash uchun avval oddiy pLSA rasmlar to'plamida amalga oshiriladi va har bir mavzu uchun Gauss aralashmasi modeli tomonidan tortilgan vizual so'zlarga mos keladi ${ displaystyle displaystyle P (w | z)}$ . Qadar ${ displaystyle displaystyle K}$ Gausslar sinab ko'rilmoqda (bitta rasmda ob'ektning bir nechta nusxalarini yaratishga imkon beradi), qaerda ${ displaystyle displaystyle K}$ doimiy.

Ishlash

Fergus va boshqalarning mualliflari. qog'ozda uchta pLSA algoritmlarining (pLSA, ABS-pLSA va TSI-pLSA) qo'lda yig'ilgan ma'lumotlar to'plamlari va Google qidiruvlaridan qaytarilgan rasmlardagi ko'rsatkichlari taqqoslangan. Sinov to'plamidagi rasmlarni tasvirni o'z ichiga olgan yoki faqat fonni o'z ichiga olgan holda ishlash darajasi xatolik darajasi sifatida o'lchandi.

Kutilganidek, to'g'ridan-to'g'ri Google ma'lumotlari bo'yicha o'qitish, tayyorlangan ma'lumotlarga qaraganda yuqori xatoliklarni keltirib chiqaradi.?^[1] Sinovlangan ob'ekt toifalarining taxminan yarmida ABS-pLSA va TSI-pLSA odatdagi pLSA'dan sezilarli darajada yaxshiroq ishlaydi va TSI-pLSA boshqa ikkita modelga qaraganda 7 tadan faqat 2 toifasida yaxshiroq ishlaydi.

OPTIMOL

OPTIMOL (incremental MOdel Learning orqali avtomatik ravishda onlayn rasmlarni yig'ish) modellarni o'rganish va qidirishni bir vaqtning o'zida amalga oshirib, onlayn tasvir qidiruvidan ob'ektlar toifalarini o'rganish muammosiga yondashadi. OPTIMOL - maqsadli toifadagi modelini yangilab turadigan takrorlanuvchi model, shu bilan birga ko'proq mos rasmlarni olish.^[3]

Umumiy asos

OPTIMOL toifalarni o'rganish uchun ishlatiladigan o'ziga xos modeldan mustaqil bo'lgan umumiy iterativ asos sifatida taqdim etildi. Algoritm quyidagicha:

Yuklash kalit so'zni qidirish orqali Internetdan olingan rasmlarning katta to'plami
Boshlang ma'lumotlar to'plami urug'lik rasmlari bilan
Esa ma'lumotlar to'plamiga kerak bo'lgan qo'shimcha rasmlar:
- O'rganing ma'lumotlar to'plamining so'nggi qo'shilgan modeli
- Tasniflang yangilangan model yordamida yuklab olingan rasmlar
- Qo'shish ma'lumotlar to'plamiga qabul qilingan rasmlar

Ta'limning har bir bosqichida faqat so'nggi qo'shilgan rasmlardan foydalanilishini unutmang. Bu algoritmni o'zboshimchalik bilan ko'p miqdordagi kiritilgan tasvirlarda ishlashiga imkon beradi.

Model

Ikki toifalar (maqsadli ob'ekt va fon) Ierarxik Dirichlet jarayonlari (HDP) sifatida modellashtirilgan. PLSA yondashuvida bo'lgani kabi, tasvirlarni. Bilan tasvirlash mumkin deb taxmin qilinadi so'zlar sumkasi model. HDP toifadagi tasvirlar va toifalar bo'yicha aniqlanmagan sonli mavzularning taqsimlanishini modellashtiradi. Bitta toifadagi rasmlar orasida mavzularni taqsimlash a sifatida modellashtirilgan Dirichlet jarayoni (turi parametrsiz ehtimollik taqsimoti ). Sinflar bo'yicha mavzularni baham ko'rishga ruxsat berish uchun ushbu Dirichlet jarayonlarining har biri boshqa "Dirichlet" jarayonining namunasi sifatida modellashtirilgan. HDP birinchi marta Teh va boshq. 2005 yilda.^[4]

Amalga oshirish

Boshlash

Ma'lumotlar to'plamini boshlash kerak yoki o'rganilayotgan ob'ektlar toifasining yaxshi namunalari bo'lib xizmat qiladigan asl rasmlar to'plami bilan ekish kerak. Ular qidiruv tizimi tomonidan qaytarilgan rasmlarning birinchi sahifasi yoki shunga o'xshash narsalar yordamida avtomatik ravishda to'planishi mumkin (ular keyingi rasmlarga qaraganda yaxshiroq). Shu bilan bir qatorda, dastlabki rasmlarni qo'l bilan to'plash mumkin.

Namunaviy o'rganish

HDP ning turli parametrlarini bosqichma-bosqich o'rganish uchun, Gibbs namunalari yashirin o'zgaruvchilar ustida ishlatiladi. U har bir yangi rasm to'plami ma'lumotlar to'plamiga kiritilgandan so'ng amalga oshiriladi. Gibbsdan namuna olish to'plamdan qayta-qayta tanlab olishni o'z ichiga oladi tasodifiy o'zgaruvchilar ularning taqsimlanishini taxmin qilish uchun. Namuna olish, unga bog'liq bo'lgan boshqa tasodifiy o'zgaruvchilar holatiga asoslanib, ko'rib chiqilayotgan tasodifiy miqdor uchun qiymat yaratishni o'z ichiga oladi. Etarli namunalarni hisobga olgan holda qiymatni oqilona yaqinlashishiga erishish mumkin.

Tasnifi

Har bir takrorlashda, ${ displaystyle displaystyle P (z | c)}$ va ${ displaystyle displaystyle P (x | z, c)}$ oldingi Gibbs tanlovidan so'ng o'rganilgan modeldan olish mumkin, bu erda ${ displaystyle displaystyle z}$ bu mavzu, ${ displaystyle displaystyle c}$ toifadir va ${ displaystyle displaystyle x}$ bitta vizual so'z. Tasvirning ma'lum bir sinfda bo'lish ehtimoli quyidagicha:

${ displaystyle displaystyle P (I | c) = prod _ {i} sum _ {j} P (x_ {i} | z_ {j}, c) P (z_ {j} | c)}$

Bu har bir takrorlanadigan har bir yangi nomzod tasviri uchun hisoblanadi. Rasm eng yuqori ehtimollik bilan toifaga tegishli deb tasniflanadi.

Ma'lumotlar to'plamiga qo'shimcha va "kesh to'plami"

Ma'lumotlar to'plamiga qo'shilish uchun, rasm yanada kuchli shartni qondirishi kerak:

${ displaystyle displaystyle { frac {P (I | c_ {f})} {P (I | c_ {b})}}> { frac { lambda _ {Ac_ {b}} - lambda _ { Rc_ {b}}} { lambda _ {Rc_ {f}} - lambda _ {Ac_ {f}}}} { frac {P (c_ {b})} {P (c_ {f})}} }$

Qaerda ${ displaystyle displaystyle c_ {f}}$ va ${ displaystyle displaystyle c_ {b}}$ navbati bilan oldingi (ob'ekt) va fon toifalari bo'lib, konstantalarning nisbati noto'g'ri ijobiy va noto'g'ri negativlarni qabul qilish xavfini tavsiflaydi. Ular har bir takrorlashda avtomatik ravishda o'rnatiladi, soxta ijobiy to'plam qiymati noto'g'ri salbiydan yuqori. Bu yaxshiroq ma'lumotlar to'plamini to'plashni ta'minlaydi.

Rasm yuqoridagi mezonga muvofiq qabul qilinib, ma'lumotlar bazasiga kiritilgandan so'ng, u o'qitish uchun ishlatiladigan rasmlar to'plamiga before og'riq majmuasiga kiritilishidan oldin yana bir mezonga javob berishi kerak. Ushbu to'plam qabul qilingan tasvirlar to'plamining xilma-xil pastki qismi bo'lishi uchun mo'ljallangan. Agar model barcha qabul qilingan tasvirlar bo'yicha o'qitilgan bo'lsa, u tobora ko'proq ixtisoslashishi mumkin, faqat avvalgisiga o'xshash rasmlarni qabul qiladi.

Ishlash

OPTIMOL uslubining ishlashi uchta omil bilan belgilanadi:

Rasmlarni yig'ish qobiliyati: OPTIMOL, topilgan, avtomatik ravishda veb-saytdan juda ko'p yaxshi rasmlarni to'plashi mumkin. OPTIMOL-olingan rasm to'plamlarining kattaligi xuddi shu toifalar uchun, masalan, Caltech 101.
Tasnifning aniqligi: Tasniflashning aniqligi, avval muhokama qilingan pLSA usullari tomonidan berilgan tasniflagich tomonidan ko'rsatilgan aniqlik bilan taqqoslandi. OPTIMOL 72,0% bilan taqqoslaganda 7 ta ob'ekt toifalari bo'yicha 74,8% aniqlikka ega bo'lib, biroz yuqori aniqlikka erishgani aniqlandi.
Partiyalarni o'rganish bilan taqqoslash: OPTIMOL-ning bosqichma-bosqich o'rganishi, modelga oid hamma narsa doimiy ravishda saqlanib turganda, an'anaviy o'qitish usullaridan ustunlik beradimi yoki yo'qmi, bu muhim savol. Tasniflovchi bosqichma-bosqich o'rganganda, avvalgisidan o'rgangan narsalari asosida keyingi rasmlarni tanlash orqali uchta muhim natijalar kuzatiladi:
- Qo'shimcha o'rganish OPTIMOL-ga yaxshiroq ma'lumotlar to'plamini yig'ish imkonini beradi
- Qo'shimcha o'rganish OPTIMOL-ga tezroq o'rganishga imkon beradi (ahamiyatsiz rasmlarni tashlash orqali)
- Qo'shimcha o'rganish bu salbiy ta'sir ko'rsatmaydi ROC egri chizig'i klassifikatorning; aslida bosqichma-bosqich o'rganish yaxshilanishga olib keldi

Kontentga asoslangan tasvirni qidirishda ob'ektlarni toifalash

Odatda, rasmni qidirishda faqat rasm bilan bog'liq bo'lgan matndan foydalaniladi. Muammo kontentga asoslangan tasvirni qidirish bu rasmlarning o'zida joylashgan vizual ma'lumotni hisobga olgan holda qidiruv natijalarini yaxshilashdir. Qidiruvni takomillashtirish uchun bir nechta CBIR usullari tasvirni qidirish natijalari bo'yicha o'qitilgan klassifikatorlardan foydalanadi. Boshqacha qilib aytganda, tasvirni qidirishdan ob'ektlarni tasniflash tizimning tarkibiy qismlaridan biridir. Masalan, OPTIMOL, qaytarilgan ma'lumotlar to'plami uchun qo'shimcha rasmlarni tanlash uchun avvalgi takrorlash paytida to'plangan rasmlarda o'rganilgan klassifikatordan foydalanadi.

Ob'ekt toifalarini rasmlarni qidirishdan modellashtirishga qaratilgan CBIR usullariga misollar:

Fergus va boshq., 2004 ^[5]
Berg va Forsit, 2006 yil ^[6]
Yanai va Barnard, 2006 yil ^[7]

Adabiyotlar

^ ^a ^b ^v ^d ^e Fergus, R .; Fey-Fey, L.; Perona, P .; Zisserman, A. (2005). "Ob'ektlar toifalarini Google-dan o'rganish - rasm qidirish" (PDF). Proc. IEEE Xalqaro Kompyuter Vizyoni Konferentsiyasi.
^ Hofmann, Tomas (1999). "Ehtimoliy yashirin semantik tahlil" (PDF). Sun'iy intellektdagi noaniqlik. Arxivlandi asl nusxasi (PDF) 2007-07-10.
^ Li, Li-Jia; Vang, to'da; Fei-Fei, Li (2007). "OPTIMOL: Qo'shimcha MOdel Learning orqali avtomatik ravishda onlayn rasmlar to'plami" (PDF). Proc. IEEE konferentsiyasi, kompyuterni ko'rish va naqshni aniqlash.
^ Teh, Yw; Iordaniya, MI; Beal, MJ; Blei, Devid (2006). "Ierarxik Dirichlet jarayonlari" (PDF). Amerika Statistik Uyushmasi jurnali. 101 (476): 1566. CiteSeerX 10.1.1.5.9094. doi:10.1198/016214506000000302.
^ Fergus, R .; Perona, P .; Zisserman, A. (2004). "Google rasmlari uchun vizual toifadagi filtr" (PDF). Proc. 8-Evropa Konf. Computer Vision-da.
^ Berg, T .; Forsit, D. (2006). "Internetdagi hayvonlar". Proc. Kompyuterni ko'rish va naqshni aniqlash. doi:10.1109 / CVPR.2006.57.
^ Yanai, K; Barnard, K. (2005). "Tasvirlarni ehtimoliy tarzda yig'ish". Multimedia ma'lumotlarini olish bo'yicha ACM SIGMM seminari.

Tashqi havolalar

Shuningdek qarang

[fergus-1] v ^d ^e Fergus, R .; Fey-Fey, L.; Perona, P .; Zisserman, A. (2005). "Ob'ektlar toifalarini Google-dan o'rganish - rasm qidirish" (PDF). Proc. IEEE Xalqaro Kompyuter Vizyoni Konferentsiyasi.

[hofmann-2] Hofmann, Tomas (1999). "Ehtimoliy yashirin semantik tahlil" (PDF). Sun'iy intellektdagi noaniqlik. Arxivlandi asl nusxasi (PDF) 2007-07-10.

[li-3] Li, Li-Jia; Vang, to'da; Fei-Fei, Li (2007). "OPTIMOL: Qo'shimcha MOdel Learning orqali avtomatik ravishda onlayn rasmlar to'plami" (PDF). Proc. IEEE konferentsiyasi, kompyuterni ko'rish va naqshni aniqlash.

[teh-4] Teh, Yw; Iordaniya, MI; Beal, MJ; Blei, Devid (2006). "Ierarxik Dirichlet jarayonlari" (PDF). Amerika Statistik Uyushmasi jurnali. 101 (476): 1566. CiteSeerX 10.1.1.5.9094. doi:10.1198/016214506000000302.

[5] Fergus, R .; Perona, P .; Zisserman, A. (2004). "Google rasmlari uchun vizual toifadagi filtr" (PDF). Proc. 8-Evropa Konf. Computer Vision-da.

[6] Berg, T .; Forsit, D. (2006). "Internetdagi hayvonlar". Proc. Kompyuterni ko'rish va naqshni aniqlash. doi:10.1109 / CVPR.2006.57.

[7] Yanai, K; Barnard, K. (2005). "Tasvirlarni ehtimoliy tarzda yig'ish". Multimedia ma'lumotlarini olish bo'yicha ACM SIGMM seminari.

[1]

[2]

[3]

[4]

[5]

[6]

[7]