Bağıl Özellikler

Original article https://www.cc.gatech.edu/~parikh/relative.html

Bağıl Özellikler

Marr Ödülü (En İyi Makale Ödülü) Birincisi, ICCV 2011

Devi Parikh ve Kristen Grauman

"Gökkuşağındaki kim menekşe tonunun bittiği ve turuncu renk tonunun başladığı çizgiyi çizebilir? Belirgin bir şekilde renklerin farkını görüyoruz, ancak biri tam olarak diğerine harmanlanarak diğerine giriyor mu? Yani akıl sağlığı ve delilik ile."

- Herman Melville, Billy Budd

Soyut

İnsana uygun görsel "nitelikler" çeşitli tanıma görevlerine yarar sağlayabilir. Bununla birlikte, mevcut teknikler bu özellikleri kategorik etiketlerle sınırlar (örneğin, bir kişi 'gülümsüyor' ya da değil, bir sahne 'kuru' ya da değil) ve bu nedenle daha genel anlamsal ilişkileri yakalayamıyor. Göreli özellikleri modellemeyi öneriyoruz. Nesne / sahne kategorilerinin farklı özelliklere göre nasıl ilişkilendiğini gösteren eğitim verileri göz önüne alındığında, özellik başına bir sıralama işlevi öğreniriz. Öğrenilen sıralama fonksiyonları, yeni görüntülerdeki her bir özelliğin göreceli gücünü tahmin eder. Daha sonra öznitelik sıralaması çıktılarının ortak alanı üzerinde üretken bir model oluşturuyoruz ve süpervizörün görünmeyen nesne kategorisini öznitelikler aracılığıyla daha önce görülmemiş nesnelerle ilişkilendirdiği yeni bir sıfır vuruş öğrenme biçimi öneriyoruz (örneğin, 'ayılar zürafalardan daha tüylüdür) '). Ayrıca, önerilen göreceli niteliklerin, pratikte insan yorumu için daha kesin olan yeni görüntüler için daha zengin metinsel açıklamaları nasıl mümkün kıldığını gösteririz. Yüzlerin ve doğal sahnelerin veri kümelerinde yaklaşımı gösteririz ve bu yeni görevler için geleneksel ikili özellik tahminine göre açık avantajlarını gösteririz.

Motivasyon

İkili özellikler kısıtlayıcıdır ve doğal olmayabilir. Yukarıdaki örneklerde, kişi sol üst ve sağ üstteki görüntüyü sırasıyla doğal ve insan yapımı olarak karakterize edebilirken, üst merkezdeki görüntüyü ne olarak tanımlarsınız? Karakterize etmenin tek anlamlı yolu diğer görüntülere göre: soldaki görüntüden daha az doğal, ancak sağdaki görüntüden daha doğal.

öneri

Bu çalışmada göreceli özellikleri modellemeyi öneriyoruz. Bir özniteliğin varlığını tahmin etmenin aksine, göreceli bir öznitelik, bir görüntüdeki özniteliğin diğer görüntülere göre gücünü gösterir. Daha doğal olmanın yanı sıra, göreceli özellikler daha zengin bir iletişim modu sunarak daha ayrıntılı insan denetimine (ve dolayısıyla potansiyel olarak daha yüksek tanıma doğruluğuna) erişimin yanı sıra yeni görüntülerin daha bilgilendirici açıklamalarını üretme yeteneğine de izin verir.

Her bir özellik için bir sıralama işlevi öğrenen, örnek çiftleri üzerindeki göreli benzerlik kısıtlamaları (veya daha genel olarak bazı örneklerde kısmi bir sıralama) verilen bir yaklaşım geliştiriyoruz. Öğrenilen sıralama işlevi, görüntülerdeki öznitelik varlığının göreceli gücünü gösteren görüntüler için gerçek değerli bir sıra tahmin edebilir.

Göreceli nitelik tahminlerinden yararlanan sıfır vuruşlu öğrenme ve görüntü tanımlamanın yeni biçimlerini sunuyoruz.

Yaklaşmak

Göreli özellikleri öğrenme: Her göreceli özellik, aşağıda gösterildiği gibi karşılaştırmalı denetim verildiğinde formülasyonu sıralamayı öğrenerek öğrenilir:

Eğitim noktalarında (1-6) istenen sıralamayı uygulayan geniş marjlı sıralama işlevini (sağda) ve yalnızca iki sınıfı (+ ve -) ayıran ve bunu yapan geniş marjlı bir ikili sınıflayıcıyı (sol) öğrenme arasındaki ayrım noktalarda istenen bir sırayı korumak zorunda değilsiniz aşağıda gösterilmiştir:

Yeni sıfır vuruşlu öğrenme: Aşağıdaki kurulumu inceliyoruz

Toplam toplam kategori: Görülen kategoriler (ilgili görseller mevcuttur) + Görünmeyen kategoriler (bu kategoriler için hiçbir görsel yok)

Görülen kategoriler, öznitelikler yoluyla birbirine göre tanımlanır (tüm kategori çiftlerinin tüm öznitelikler için ilişkili olması gerekmez)

Görünmeyen kategoriler, (bir alt küme) öznitelikleri açısından görülen kategorilere (bir alt küme) göre tanımlanır.

İlk olarak, göreli kategorilerde sağlanan denetimi kullanarak bir dizi göreceli özellik eğitiyoruz. Bu nitelikler harici verilerden de önceden eğitilebilir. Daha sonra, görülen kategorilerdeki görüntülere ilişkin göreceli özelliklerin yanıtlarını kullanarak, her görülen kategori için üretken bir model (Gauss) oluştururuz. Daha sonra, görülmeyen kategorilere ilişkin göreceli açıklamalarını kullanarak görünmeyen bakirelerin üretken modellerinin parametrelerini çıkarıyoruz. Bunun için kullandığımız basit yaklaşımın bir görselleştirmesi aşağıda gösterilmiştir:

Kategoriye maksimum olasılıkla bir test görüntüsü atanır.

Görüntülerin göreli metinsel açıklamalarını otomatik olarak oluşturma: Açıklanacak bir görüntü verildiğinde, I üzerinde öğrenilen tüm sıralama işlevlerini değerlendiririz. Her öznitelik için, I'nin her iki tarafında yatan iki referans görüntüsünü belirleriz ve çok uzak veya çok yakın değildir Görüntü I daha sonra aşağıda gösterildiği gibi bu iki referans görüntüye göre açıklanmaktadır:

Yukarıda görüldüğü gibi, bir görüntüyü diğer görüntülere göre tarif etmenin yanı sıra, yaklaşımımız diğer kategorilere göre bir görüntüyü de tanımlayarak tamamen metinsel bir tanımla sonuçlanabilir. Açıkça göreceli açıklamalar, geleneksel ikili açıklamadan daha kesin ve bilgilendiricidir.

Deneyler ve Sonuçlar

İki veri kümesi üzerinde deneyler yapıyoruz:

(1) 8 kategoriden 2688 görüntü içeren Açık Hava Sahnesi Tanıma (OSR): sahil C, orman F, H otoyolu, şehir içi I, dağ M, açık ülke O, sokak S ve yüksek bina T. görüntüleri temsil etmek.

(2) 8 kategoriden 772 görüntü içeren Halk Figürleri Yüz Veritabanı'nın (PubFig) bir alt kümesi: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V ve Zac Efron Z. Görüntüleri temsil etmek için sıralı gist ve ve renk özelliklerini kullanıyoruz.

Her veri kümesi için kullanılan özniteliklerin listesi, ikili ve göreli öznitelik ek açıklamaları ile birlikte aşağıda gösterilmiştir:

Sıfır vuruşlu öğrenme:

Önerilen yaklaşımımızı iki temel çizgiyle karşılaştırıyoruz. Birincisi, Puan Tabanlı Göreli Özellikler (SRA). Bu taban çizgisi yaklaşımımızla aynıdır, ancak bir sıralama işlevinin puanları yerine ikili bir sınıflandırıcının (ikili nitelikler) puanlarını kullanır. Bu taban çizgisi, göreli nitelikleri en iyi şekilde modellemek için bir sıralama işlevine duyulan ihtiyacın değerlendirilmesine yardımcı olur. İkinci temelimiz, Lampert ve ark. Tarafından sunulan Doğrudan Özellik Tahmini (DAP) modelidir. Bu taban çizgisi, kategoriklerin aksine, niteliklerin göreceli tedavisinin faydalarının değerlendirilmesine yardımcı olur. Bu yaklaşımları değişen sayıda görünmeyen kategori, nitelikleri eğitmek için kullanılan veri miktarları, görünmeyen kategorileri tanımlamak için kullanılan değişken nitelikleri ve görünmeyen kategorilerin açıklamasında değişen 'gevşeklik düzeyleri' için değerlendiriyoruz. Deney düzeneğinin ayrıntıları makalemizde bulunabilir. Sonuçlar aşağıda gösterilmiştir:

Otomatik oluşturulan resim açıklamaları:

İkili meslektaşlarına ilişkin göreceli görüntü açıklamalarımızın kalitesini değerlendirmek için bir insan çalışması yaptık. Yaklaşımımızı ve temel ikili özellikleri kullanarak bir görüntünün açıklamasını oluşturduk. Konulara bu tanımla birlikte üç görüntü sunduk. Üç görüntüden biri açıklanan görüntüdür. Deneklerin görevi, üç resmi, hangisinin daha çok tanımlandığını düşündüklerine göre sıralamaktı. Tanım ne kadar kesin olursa, öznelerin doğru görüntüyü tanımlama şansı o kadar artar. Konulara sunulan bir görevin bir örneği aşağıda gösterilmiştir:

Çalışmanın sonuçları aşağıda gösterilmiştir. Denekler, ikili özniteliklere kıyasla, önerilen göreli özniteliklerimizi kullanarak doğru görüntüyü daha doğru bir şekilde tanımlayabilir.

Görüntülerin örnek ikili açıklamaları ve kategorilere ilişkin açıklamalar aşağıda gösterilmiştir:

görüntü İkili açıklamalar Göreli açıklamalar

doğal değil

açık değil

perspektif

yüksek binadan daha doğal, ormandan daha az doğal

yüksek binadan daha açık, maliyetten daha az açık

yüksek binadan daha perspektif

doğal değil

açık değil

perspektif

sinsellikten daha doğal, otoyoldan daha az doğal

caddeden daha açık, maliyetten daha az açık

otoyoldan daha fazla perspektif, şehrin içinden daha az perspektif

doğal

açık

perspektif

yüksek binadan daha doğal, dağdan daha az doğal

dağdan daha açık

açık ülkeden daha az perspektif

Beyaz

gülümsemiyor

Görünür Alın

Alex Rodriguez'den daha beyaz

JaredLeto'dan daha fazla gülümsüyor, Zac Efron'dan daha az gülümsüyor

Jared Leto'dan daha Görünür Alın, Miley Cyrus'tan daha az Görünür Alın

Beyaz

gülümsemiyor

Görünmez Alın

Alex Rodriguez'den daha beyaz, Miley Cyrus'tan daha az beyaz

Hugh Laurie'den daha az gülümsüyor

Zac Efron'dan daha Görünür Alın, Miley Cyrus'tan daha az Görünür Alın

genç değil

Gür kaşları

Yuvarlak yüz

Clive Owen'dan daha genç, Scarlett'den daha genç

ZacEfron'dan daha gür kaşlar, Alex Rodriguez'den daha az gür kaşlar

Clive Owen'dan daha fazla RoundFace, ZacEfron'dan daha az Round Face

Makalemizde kullanılan iki veri kümesi için öğrenilmiş göreceli öznitelikleri ve tahminlerini sunuyoruz: Açık Hava Sahnesi Tanıma (OSR) ve Genel Figürler Yüz Veritabanı'nın (PubFig) bir alt kümesi.

BENİOKU

İndir (v2)

Göreli Yüz Nitelikleri Veri Kümesi. Halka Açık Şekiller Yüz Veritabanı'ndan (PubFig) 60 kategorideki 29 göreli öznitelik için ek açıklamalar içerir.

kod

Olivier Chappelle'nin RankSVM uygulamasını, benzerlik kısıtlamalarına sahip göreceli nitelikler geliştirmek üzere değiştirdik. Değiştirilmiş kodumuzu burada bulabilirsiniz.

Kodumuzu kullanırsanız, lütfen aşağıdaki makaleyi belirtin:

D. Parikh ve K. Grauman

Bağıl Özellikler

Uluslararası Bilgisayarlı Görme Konferansı (ICCV), 2011.

Demos

Göreli niteliklerin çeşitli uygulamalarının demoları burada bulunabilir. Bu uygulamaların bir açıklaması buradaki makalelerde bulunabilir.

Please turn the phone horizontally for better use