Zuckerberg preist Metas neueste Video-Vision-KI mit Nvidia-CEO Jensen Huang an

Meta hatte im letzten Jahr mit Segment Anything einen spürbaren Erfolg, einem maschinellen Lernmodell, das schnell und zuverlässig fast alles in einem Bild identifizieren und umreißen konnte. Die Fortsetzung, die CEO Mark Zuckerberg am Montag auf der Bühne bei SIGGRAPH präsentierte, führt das Modell in den Videobereich und zeigt, wie schnell sich das Feld bewegt.

Segmentierung ist der Fachbegriff dafür, wenn ein Vision-Modell ein Bild betrachtet und die Teile auswählt: "das ist ein Hund, das ist ein Baum hinter dem Hund" hoffentlich und nicht "das ist ein Baum, der aus einem Hund wächst." Dies geschieht seit Jahrzehnten, aber in letzter Zeit ist es viel besser und schneller geworden, wobei Segment Anything ein großer Schritt nach vorne war.

Segment Anything 2 (SA2) ist eine natürliche Fortsetzung, da es sich nativ auf Videos und nicht nur auf Standbilder anwenden lässt. Obwohl Sie natürlich das erste Modell auf jedem Einzelbild eines Videos ausführen könnten, ist es nicht der effizienteste Workflow.

"Wissenschaftler verwenden diese Art von Technologie, um Korallenriffe, natürliche Lebensräume und ähnliches zu untersuchen. Aber die Fähigkeit, dies in einem Video zu tun und es nullschrittig zu machen und ihm zu sagen, was Sie wollen, ist ziemlich cool", sagte Zuckerberg in einem Gespräch mit Nvidia-CEO Jensen Huang.

Die Verarbeitung von Videos ist natürlich wesentlich rechenintensiver, und es zeugt von den Fortschritten, die in der gesamten Branche gemacht wurden, dass SA2 ohne Schmelzen des Rechenzentrums läuft. Natürlich handelt es sich immer noch um ein riesiges Modell, das ernsthafte Hardware benötigt, um zu funktionieren, aber schnelle, flexible Segmentierung war vor einem Jahr praktisch unmöglich.

Bildnachweis: Meta

Das Modell wird, wie das erste, offen und kostenlos zu verwenden sein, und es gibt kein Wort über eine gehostete Version, die diese KI-Unternehmen manchmal anbieten. Aber es gibt eine kostenlose Demo.

Natürlich benötigt ein solches Modell eine Menge Daten für das Training, und Meta veröffentlicht auch eine große, annotierte Datenbank mit 50.000 Videos, die extra für diesen Zweck erstellt wurden. Im Papier, das SA2 beschreibt, wurde außerdem eine Datenbank mit über 100.000 "intern verfügbaren" Videos für das Training verwendet, die nicht öffentlich gemacht wird - ich habe Meta um weitere Informationen dazu gebeten, was das ist und warum es nicht veröffentlicht wird. (Unsere Vermutung wäre, dass sie aus öffentlichen Instagram- und Facebook-Profilen stammen.)

Beispiele für beschriftete Trainingsdaten.
Bildnachweis: Meta

Meta ist seit ein paar Jahren ein Vorreiter im Bereich der "offenen" KI, obwohl es tatsächlich (wie Zuckerberg in dem Gespräch äußerte) schon seit langer Zeit mit Werkzeugen wie PyTorch arbeitet. Aber in letzter Zeit sind LLaMa, Segment Anything und ein paar andere Modelle, die es frei veröffentlicht hat, zu einer relativ zugänglichen Messlatte für die Leistung von KI in diesen Bereichen geworden, auch wenn ihre "Offenheit" Gegenstand von Diskussionen ist.

Zuckerberg erwähnte, dass die Offenheit bei Meta nicht ganz aus reiner Güte ihrer Herzen geschieht, aber das bedeutet nicht, dass ihre Absichten unrein sind:

"Dies ist nicht einfach nur eine Software, die Sie bauen können - Sie benötigen ein Ökosystem darum herum. Es würde fast nicht einmal so gut funktionieren, wenn wir es nicht quelloffen machen würden, oder? Wir tun das nicht, weil wir altruistische Menschen sind, obwohl ich denke, dass dies für das Ökosystem hilfreich sein wird - wir tun es, weil wir denken, dass dies das Ding, das wir bauen, am besten machen wird."

Es wird sicherlich gut genutzt werden. Schauen Sie sich hier das GitHub an.