Feature: Stem Separation Teil 1

An diesem Artikel habe ich länger gearbeitet als an jedem anderen zuvor. Die vielen Algorithmen, Modelle und Tools sowie die unzähligen Online-Anbieter, Desktop-Versionen, Apps und VST-Plug-Ins haben mir ordentlich zu schaffen gemacht. Ich ging erst von den fünf oder sechs mir bekannten Tools aus, mit der Zeit wuchs die Zahl in meiner Excel-Tabelle aber auf etwa 40 bis 50 an. Je länger ich daran arbeitete, desto uferloser wurde es, denn außer den Audiofirmen gibt es inzwischen unzählige Online-Dienste. Diese Angebote zu verstehen, einzusortieren und dann wieder auszusortieren war sehr zeitintensiv. Oft ist der Einstieg bei den Online-Anbietern kostenlos und es werden zusätzlich zwei bis drei verschiedene kostenpflichtige Pakete oder Versionen angeboten. Zudem gibt es verschiedene Arbeitsweisen: Online, Desktop, App und Plug-In. Damit wäre meine Tabelle locker auf über 200 Einträge angewachsen. Nachdem ich die Deadline für diesen Artikel bereits um fünf Tage überschritten hatte (bei Fertigstellung heute sind es schon neun), gab ich das Vorhaben auf, einen umfassenden Überblick zu geben. Ich musste mir eingestehen, dass dies nicht möglich ist.

Um die Übersichtlichkeit zu verbessern, habe ich kleinteilige Differenzierungen und schlechte Anbieter wieder entfernt. Einige mittelmäßige habe ich drin gelassen, da sie kostenlos sind. Viele Online-Angebote, auch kostenpflichtige, sind qualitativ oft nur mittelmäßig, insbesondere, wenn die Stem-Trennung nur ein zusätzliches Gimmick ist. Doch leider gilt das nicht grundsätzlich: Manchmal ist das zusätzliche Gimmick auch sehr gut. Deshalb war dieser umfangreiche Test doch nötig, um die Spreu vom Weizen zu trennen. In diesem Bereich und bei KI allgemein geht es allerdings so schnell voran, dass schon nächste Woche ein neues, großartiges Tool und mehrere weniger gute Tools auftauchen können. Mir ist bewusst, dass diese sehr umfangreiche Marktübersicht relativ bald wieder veraltet sein wird. Doch wer diese Tools braucht, braucht sie jetzt – für all jene, mich selbst eingeschlossen: Bitte sehr!

 

Karaoke war über viele Jahre hinweg ein riesiger Hype und auch ich habe oft und gerne Karaoke gesungen. Als ich ein eigenes Studio hatte, wurde ich häufig gefragt: 'Kannst du die Stimme rausmachen, damit ich dazu singen kann?'. Die meiste Zeit meiner Karriere musste ich diese Frage leider mit Nein beantworten. Zwar hat man früher vieles probiert, beispielsweise hat man versucht, mit frequenzselektiver Phasenauslöschung die Stimme aus der Mitte herauszufiltern, doch die Ergebnisse waren meist ziemlich schlecht. Die Stimme blieb im Hall und in den Delay-Effekten oft weiterhin hörbar. Andere Instrumente in der Mitte wie Kick, Snare und Bass wurden dadurch ebenfalls stark beeinträchtigt und es entstanden deutlich hörbare Artefakte. Mal ganz davon abgesehen, dass es illegal ist, die Originalaufnahmen in dieser Weise zu bearbeiten und weiter zu verwerten. Aus diesem Grund entstand eine Nische in der Musikproduktion, die in industriellem Maßstab und mit wenig Geld Karaoke-Versionen der größten Hits in durchwachsener Qualität nachproduziert hat. Später begegnete mir dieselbe Frage wieder, wobei das Wort ‚Karaoke‘ von Rappern durch das Wort ‚Beat‘ ersetzt wurde.

Mit der Zeit gelang es aber immer besser, die Stimme herauszufiltern: zuerst durch spektrale Signaltrennung, später durch Machine Learning und heute durch künstliche Intelligenz und die Kombination verschiedener Technologien. Vor wenigen Jahren begann dann die Zeit der Stem Separation, da den einschlägigen Firmen klar wurde, dass sich mit dieser Technologie nicht nur die Stimme, sondern auch einzelne Instrumente entfernen ließen. Indem man sie nicht nur entfernt, sondern aufteilt und einzeln verfügbar macht, gibt man dem Anwender ein viel größeres Spektrum an Einsatzmöglichkeiten. Welche das sind, schauen wir uns im Folgenden an.