Science for all






Original article:https://www.cc.gatech.edu/~parikh/relative.html

Відносні атрибути

 

Премія Марра (Краща премія) Переможець, ICCV 2011

Деві Паріх і Крістен Грейман

 

"Хто в веселці може намалювати лінію, де закінчується фіолетовий відтінок і починається помаранчевий відтінок? Ясно, що ми бачимо різницю кольорів, але де саме вперше входить один в інший? Отже, з розумом і божевіллям". 

- Герман Мелвілл, Біллі Бадд


https://www.cc.gatech.edu/~parikh/relative_attributes/relative_motivation.png


Анотація


Візуальні "атрибути" з іменем людини можуть приносити користь різним завданням розпізнавання. Проте, існуючі методи обмежують ці властивості категоріальними мітками (наприклад, людина «посміхається» чи ні, сцена «суха» чи ні) і, таким чином, не здатна захопити більше загальних семантичних відносин. Ми пропонуємо моделювати відносні атрибути. Дані тренувальних даних про те, як об'єкт / сцена категорій відносяться до різних атрибутів, ми дізнаємося функцію ранжирування за атрибутом. Вивчені функції ранжирування передбачають відносну силу кожної властивості у нових образах. Потім ми побудуємо генеративну модель над спільним простором результатів ранжирування атрибутів і запропонуємо нову форму навчання з нульовим пострілом, в якому керівник зв'язує невидиму категорію об'єкта з раніше побаченими об'єктами через атрибути (наприклад, «ведмеді курять, ніж жирафи '). Далі ми покажемо, як пропоновані відносні атрибути дають багатші текстові описи нових образів, які на практиці більш точні для людської інтерпретації. Ми демонструємо підхід до наборів даних облич і природних сцен і показуємо його явні переваги перед традиційним прогнозуванням бінарних атрибутів для цих нових завдань. 


Мотивація


Двійкові атрибути є обмежувальними і можуть бути неприродними. У наведених вище прикладах, хоча можна охарактеризувати зображення на верхньому лівому і верхньому правому, як природний і створений людиною, відповідно, що б ви описали зображення у верхньому центрі як? Єдиний змістовний спосіб його охарактеризувати по відношенню до інших зображень: він менш природний, ніж зображення зліва, але більше, ніж зображення праворуч.


Пропозиція


У цій роботі ми пропонуємо моделювати відносні атрибути. На відміну від передбачення присутності атрибута, відносний атрибут вказує на міцність атрибута у зображенні щодо інших зображень. Окрім того, що вони є більш природними, відносні атрибути пропонують більш насичений спосіб спілкування, що дозволяє отримати більш детальне спостереження за людьми (і, таким чином, потенційно більш високу точність розпізнавання), а також здатність генерувати більш інформативні описи нових зображень.

Ми розробляємо підхід, який вивчає функцію ранжирування для кожного атрибута, враховуючи обмеження відносної подібності на парах прикладів (або більш загально часткове упорядкування на деяких прикладах). Вивчена функція ранжирування може оцінити реальне значення для зображень, що вказують відносну силу присутності атрибута в них.

Ми вводимо нові форми навчання з нульовим пострілом і опис зображень, які використовують передбачення відносних атрибутів.

  


Підхід


 

Вивчення відносних атрибутів: кожен відносний атрибут вивчається за допомогою навчання для визначення рейтингу, з урахуванням порівняльного нагляду, як показано нижче:

https://www.cc.gatech.edu/~parikh/relative_attributes/learning_to_rank.png

Розрізнення між вивченням функції ранжирування з широким полем (праворуч), що забезпечує необхідне упорядкування на пунктах навчання (1-6), і широкомасштабний двійковий класифікатор (ліворуч), який відокремлює лише два класи (+ та -), і не обов'язково зберігати бажане впорядкування на пунктах, показаних нижче:

https://www.cc.gatech.edu/~parikh/relative_attributes/classifier_vs_ranking_fn.png

Нове навчання без нуля : Ми вивчаємо наступну структуру

·         Усього категорій: S видимих категорій (доступні пов'язані зображення) + невидимих категорій (для цих категорій немає доступних зображень)

·         Розглянуті категорії S описуються один з одним за допомогою атрибутів (не всі пари категорій мають бути пов'язані з усіма атрибутами)

·         U невидимі категорії описуються щодо (підмножини) видимих ​​категорій в термінах (підмножини) атрибутів.

Спочатку тренуємо набір відносних атрибутів, використовуючи спостереження, надане на видимих категоріях. Ці атрибути також можуть бути попередньо підготовлені з зовнішніх даних. Потім побудуємо генеративну модель (Gaussian) для кожної розглянутої категорії, використовуючи відповіді відносних атрибутів до зображень з видимих категорій. Потім ми виводимо параметри генеративних моделей невидимих класів, використовуючи їх відносні описи щодо видимихкатегорій. Візуалізація простого підходу, який ми використовуємо для цього, показано нижче:


https://www.cc.gatech.edu/~parikh/relative_attributes/zero-shot.png

 

Тестове зображення призначається категорії з максимальною правдоподібністю.

   

Автоматично генерує відносні текстові описи зображень: Враховуючи зображення I, яке ми опишемо, ми оцінюємо всі вчені функції ранжирування на I. Для кожного атрибута ми виділяємо два еталонних зображення, що лежать на будь-якій стороні I, і не надто далеко або занадто близькі до I. відносно цих двох опорних зображень, як показано нижче: 

https://www.cc.gatech.edu/~parikh/relative_attributes/img_description.png

Як видно вище, крім опису зображення щодо інших зображень, наш підхід також може описувати зображення щодо інших категорій, що призводить до чисто текстового опису. Очевидно, що відносні описи є більш точними та інформативними, ніж звичайні двійкові описи.

 


Експерименти та результати


Ми проводимо експерименти на двох наборах даних:

(1) Розпізнавання сцен на відкритому повітрі (OSR), що містить 2688 зображень з 8 категорій: узбережжя C, ліс F, шосе H, всередині міста I, гора M, відкрита країна O, вулиця S і висотна будівля T. зображення.

(2) Підмножина бази даних осіб у публічних фігурах (PubFig), що містить 772 зображення з 8 категорій: Алекс Родрігес А, Клайв Оуен С, Х'ю Лорі Х, Джаред Лето J, Майлі Сайрус М, Скарлет Йохансон S, Вігго Мортенсен V і Зак Efron Z. Ми використовуємо об'єднані суть і кольорові особливості для представлення зображень.

Нижче наведено список атрибутів, які використовуються для кожного набору даних, а також двійкові та відносні анотації атрибутів:

   

https://www.cc.gatech.edu/~parikh/relative_attributes/att_table.png

 

 

Навчання без нуля:

Ми порівняємо запропонований нами підхід до двох базових рівнів. Перший - це відносні атрибути на основі балів (SRA). Ця базова лінія є такою ж, як у нашого підходу, за винятком того, що вона використовує бали бінарного класифікатора (бінарних атрибутів) замість оцінки рейтингової функції. Ця базова лінія допомагає оцінити необхідність функції ранжування для кращих відносних атрибутів моделі. Нашою другою базовою базою є модель прямої атрибуції (DAP), представлена ​​компанією Lampert та ін. у базовому сценарії CVPR 2009. Ця базова допомога оцінює переваги відносної обробки атрибутів, на відміну від категоричних. Ми оцінюємо ці підходи для різної кількості невидимих ​​категорій, різної кількості даних, що використовуються для підготовки атрибутів, різної кількості атрибутів, що використовуються для опису невидимих ​​категорій, і різних рівнів «розслабленості» в описі невидимих ​​категорій. Деталі експериментальної установки можна знайти в нашому документі. Результати наведені нижче:

 

https://www.cc.gatech.edu/~parikh/relative_attributes/zero_shot_results.png



Автоматично створені описи зображень:

Для того, щоб оцінити якість наших відносних описів зображень до бінарних аналогів, ми провели дослідження людини. Ми створили опис зображення, використовуючи наш підхід, а також базові двійкові атрибути. Ми представили суб'єктів з цим описом, разом з трьома зображеннями. Одним з трьох зображень було описане зображення. Завданням суб'єктів було ранжування трьох зображень, на основі яких, на їхню думку, найімовірніше описувалося одне. Чим точніше опис, тим краще шанси у суб'єктів виявити правильний образ. Ілюстрація завдання, представленого суб'єктам, показано нижче:

https://www.cc.gatech.edu/~parikh/relative_attributes/human_study.png

Результати дослідження наведені нижче. Ми бачимо, що суб'єкти можуть ідентифікувати правильне зображення більш точно, використовуючи наші пропоновані відносні атрибути порівняно з бінарними атрибутами.

https://www.cc.gatech.edu/~parikh/relative_attributes/human_study_results.png

Приклади двійкових описів зображень, а також описів щодо категорій показано нижче:

  

        

Зображення

Двійкові описи

Відносні описи

https://www.cc.gatech.edu/~parikh/relative_attributes/im1.png

не природно 
не відкрито
 
перспективи

більш природний, ніж високийбудівництво, менш природний, ніж ліс 
Б
ільш відкритий, ніж високийбудівництво, менш відкритий, ніж узбережжя
більш перспективним, ніж високийбудівництво
 

https://www.cc.gatech.edu/~parikh/relative_attributes/im2.png

не природно 
не відкрито
 
перспективи
 

більш природний, ніж усередині міста, менш природний, ніж шосе 
Б
ільш відкрита, ніж вулиця, менш відкрита, ніж узбережжя 
Більш перспективним, ніж шосе, менш перспективним, ніж усередині міста

https://www.cc.gatech.edu/~parikh/relative_attributes/im3.png

природний 
відчинено
 
перспективи

більш природний, ніж високийбудівництво, менш природний, ніж гора 
більш відкрита, ніж гора
 
менш перспективним, ніж відкритакраїна
 

https://www.cc.gatech.edu/~parikh/relative_attributes/im4.png

Білий 
не посміхаючись
 
VisibleForehead

більш білий, ніж AlexRodriguez 
більше посміхається, ніж JaredLeto , менше посміхається, ніж ZacEfron
 
більше VisibleForehead ніж
 JaredLeto , менш VisibleForehead ніж ​​MileyCyrus

https://www.cc.gatech.edu/~parikh/relative_attributes/im5.png

Білий 
не посміхаючись
 
не VisibleForehead

більш білий, ніж AlexRodriguez , менш білий, ніж MileyCyrus 
Менше посміхається, ніж ХьюЛаурі 
Б
ільш VisibleForehead, ніж ZacEfron , менш VisibleForehead, ніж MileyCyrus

https://www.cc.gatech.edu/~parikh/relative_attributes/im6.png

не Янг 
Густі брови
 
RoundFace

більше молодих, ніж КлайвОвен , менш молодий, ніж Скарлетт Йоханссон 
більше буших брови, ніж
 ZacEfron , менш бушіпорох, ніж AlexRodriguez 
більше RoundFace, ніж CliveOwen , менше RoundFace, ніж ZacEfron


Дані


Ми пропонуємо ознайомитись з відповідними атрибутами та їхніми прогнозами для двох наборів даних, що використовуються в нашому документі: Відкрите розпізнавання сцени (OSR) і підмножина бази даних облич громадських фігур (PubFig).

 

README

Завантажити (v2)

Відносний набір даних атрибутів обличчя . Він містить анотації для 29 відносних атрибутів на 60 категоріях з бази даних обличчя публічних фігур (PubFig).


Код


Ми модифікували реалізацію Olivier Chappelle RankSVM для підготовки відносних атрибутів з обмеженнями подібності. Наш змінений код можна знайти тут .

Якщо ви використовуєте наш код, процитуйте наступний документ:

Д. Парих і К. Грауман

Відносні атрибути

Міжнародна конференція з комп'ютерного бачення (ICCV), 2011.


Демос


Демонстрації різних додатків відносних атрибутів можна знайти тут . Опис цих додатків можна знайти тут .