ImageBind AI на Мета може да имитира човечка перцепција

Мета го објавува кодот во вештачката интелигенција со отворен пристап под името ImageBind, кој предвидува односи меѓу податоците слични на тоа како луѓето ја перципираат или замислуваат нивната околина. Додека генераторите на слики како Midjourney, Stable Diffusion и DALL-E 2 ги врзуваат зборовите за сликите, овозможувајќи ви да креирате визуелни сцени само врз основа на текстуален опис, ImageBind оди подалеку од тоа. Може да поврзе текст, слики или видео, аудио, 3D мерења, податоци за температурата и податоци за движење - и тоа го прави без потреба од пред-тренинг во секоја прилика. Ова е рана фаза на рамка која на крајот ќе може да генерира сложени околини од едноставни влезови, како што е текстуално известување, слика или аудио (или нивна комбинација).

Проект Метаверс

Може да помислите на ImageBind како приближување на машинското учење со човечкото учење. На пример, ако стоите во динамично опкружување, како што е прометна градска улица, вашиот мозок (најчесто несвесно) апсорбира глетки, звуци и други сетилни сензации за да добие информации за автомобили кои поминуваат, високи згради, времето и многу повеќе. . Луѓето и другите животни еволуирале за да ги обработуваат овие податоци за нашите генетски предности: преживување и пренесување на нашата ДНК. (Колку повеќе знаете за вашата околина, толку повеќе можете да избегнете опасност и да се прилагодите на вашата околина за подобро да преживеете и да напредувате). Како што компјутерите се поблиску до имитирање на мултисензорните врски на животните, тие можат да ги користат тие врски за да генерираат целосно реализирани сцени врз основа на само ограничени податоци.

Така, додека можете да го користите Midjourney за да создадете „басет пес во костим на Гандалф кој балансира на топка на плажа“ и да добиете релативно реална фотографија од таа чудна сцена, мултимодална алатка за вештачка интелигенција како ImageBind може да заврши со создавање видео со кучето со релевантни звуци, вклучувајќи детална дневна соба, собна температура и точната локација на кучето и сите останати на сцената. „Ова создава одлична можност да се креираат анимации од статични слики со нивно комбинирање со аудио сигнали“, забележуваат истражувачите на Мета во нивниот блог ориентиран кон развивачите. „На пример, креаторот може да комбинира слика со будилник и петел што пее и да користи аудио знак за да го сегментира петелот или звукот на будилникот за да го сегментира часовникот и да ги анимира и двете во видео секвенца“.

мета

Што се однесува до тоа што друго може да се направи со оваа нова играчка, таа јасно укажува на една од основните амбиции на Мета: VR, мешана реалност и метапростор. На пример, замислете идна слушалка која може да создаде целосно реализирани 3D сцени (со звук, движење, итн.) во лет. Или, пак, развивачите на виртуелни игри на крајот би можеле да ја искористат за да заштедат значаен дел од макотрпната работа во процесот на дизајнирање. Слично на тоа, креаторите на содржини би можеле да создаваат извонредни видеа со реални саундтракови и движења базирани само на текст, слики или аудио. Исто така, лесно е да се замисли како алатка како ImageBind отвора нови врати во пристапноста со генерирање мултимедијални описи во реално време за да им помогне на луѓето со оштетен вид или слух подобро да ја разберат својата околина.

Исто така интересно: Најдобрите алатки засновани на вештачка интелигенција

„Во типичните системи со вештачка интелигенција, постои специфично вградување (т.е. вектори на броеви кои можат да претставуваат податоци и нивните односи во машинското учење) за секој релевантен модалитет“, вели Мета. „ImageBind покажува дека е можно да се создаде заеднички простор за вградување на повеќе модалитети без да се обучуваат податоци со секоја поединечна комбинација на модалитети. Ова е важно затоа што истражувачите не можат да создадат збирки на податоци со примероци што содржат, на пример, аудио податоци и термички податоци од прометна градска улица или податоци за длабочина и текстуален опис на карпа на морето“.

Мета верува дека оваа технологија на крајот ќе ги надмине сегашните шест „сетила“, така да се каже. „Иако истражувавме шест модалитети во нашата сегашна студија, веруваме дека воведувањето нови модалитети кои поврзуваат што е можно повеќе сетила – како што се допирот, говорот, мирисот и мозочните сигнали на fMRI – ќе овозможи побогати модели на вештачка интелигенција насочени кон човекот“. Програмерите заинтересирани да го истражуваат овој нов песок може да започнат со нуркање во кодот со отворен код на Мета.

Прочитајте исто така:

JereloEngadget

Пријавете се

0 коментари

Вградени критики

Прикажи ги сите коментари

Други статии

ImageBind AI на Мета може да имитира човечка перцепција

Неодамнешни коментари