Дата публикации: 20 июля 2021
Исследователи из Университета Южной Калифорнии (USC, США) разработали метод, благодаря которому искусственный интеллект может представить в своём «воображении» объект, который никогда не видел прежде, – как человек. Новость появилась на сайте USC. Результаты работы опубликованы в журнале International Conference on Learning Representations.
Представьте себе рыжего кота. А теперь представьте того же кота, но с угольно-черной шерстью. А теперь представьте кошку, идущую вдоль Великой Китайской стены. При этом в результате быстрой серии активаций нейронов в вашем мозгу возникнут вариации представленной картины, основанные на ваших предыдущих знаниях о мире.
Другими словами, людям легко представить себе объект с разными признаками. Компьютеры таким навыками сегодня еще не владеют, несмотря на достижения в области глубоких нейронных сетей, которые соответствуют или превосходят человеческие возможности в определенных задачах, отмечают авторы работы.
«Люди могут разделить полученные знания по признакам – например, форме, позе, положению, цвету – а затем рекомбинировать их, чтобы представить новый объект. В нашей работе делается попытка смоделировать этот процесс с помощью нейронных сетей», – говорит ведущий автор исследования Юнхао Ге.
В чем основная сложность? Например, предположим, что вы хотите создать систему искусственного интеллекта, которая генерирует изображения автомобилей. В идеале вы должны предоставить алгоритму несколько изображений автомобиля, и он сможет сгенерировать множество типов автомобилей – от Porsche до Pontiacs и пикапов – любого цвета и под разными углами.
Это одна из долгожданных целей ИИ: создание моделей, которые можно экстраполировать. Это означает, что с учетом нескольких примеров модель должна уметь извлекать базовые правила и применять их к огромному количеству новых примеров, которых она раньше не видела. Но машины чаще всего обучаются на типовых особенностях, без учета признаков объекта.
В новом исследовании ученые пытаются преодолеть это ограничение. Машина изучает сразу группу образцов изображений – а не по одному образцу за раз, как это делали традиционные алгоритмы – и обнаруживает сходство между ними. Затем ИИ рекомбинирует эти знания, чтобы синтезировать новое изображение (грубо это можно назвать процессом воображения).
«Возьмем, скажем, фильм "Трансформеры" в качестве примера, – сказал Ге. – Он может иметь форму автомобиля Мегатрона, цвет желтого автомобиля Шмеля и фон Таймс-сквер в Нью-Йорке. В результате получится окрашенный в желтый автомобиль Мегатрон, проезжающий по Таймс-сквер, даже если такой образец не был засвидетельствован во время тренировки».
Это похоже на то, как мы, люди, экстраполируем: когда человек видит цвет одного объекта, мы можем легко применить его к любому другому объекту, заменив исходный цвет новым. Используя свою технику, группа создала новый набор данных, содержащий 1,56 миллиона изображений, которые могут помочь в будущих исследованиях в этой области.
Где искусственному интеллекту может понадобится воображение? Например, в медицине. Это могло бы помочь врачам и биологам открыть более полезные лекарства, отделив функцию лекарства от других свойств, а затем рекомбинировать их для синтеза нового лекарства. «Машинное воображение» также может помочь в создании более безопасного ИИ, например, позволяя автономным транспортным средствам воображать и избегать опасных сценариев, которые во время обучения ему не встречались.