Eine technische Beschreibung von Martin Maurer (prodyTel Vertriebsingenieur) über sprachgesteuertes Kameratracking.
Durch die erweiterten Funktionen im Biamp Parlé TCM-X und TTM-X Beamtracking Mikrofon können Kameras direkt über eine IP oder RS232 Verbindung durch Tesira DSP Systeme ohne zusätzliche Mediensteuerung angesteuert werden.


Das erspart den zusätzlichen Controller und eine weitere Programmier-Ebene. Die folgenden Beispiele sind mit AVer CAM 520 Pro POE aufgebaut. Hier ist es ganz einfach, eine Session mit der Kamera mittels IP Befehlen einzurichten.
Hier liegt der Vorteil insbesondere darin, dass mehrere Kameras im gleichen Netzwerk, also im IP Segment der Biamp Steuerebene, verbunden und unabhängig voneinander angesteuert werden können. Zusätzlich übernimmt der POE Netzwerkswitch hier auch gleichzeitig die Stromversorgung der Kameras.
Genau hier setzt ein speziell von mir kreiertes File mit einer Auswertung der Personenbewegung im Raum an.
Der patentierte Biamp–Sprach-Silben-Erkennungs-Algorithmus (SpeechSense™) ist hier das zentrale Element.
So verhindern wir, dass Artefakte, Klopfen, Tassengeräusche o.ä. Nebengeräusche zur ungewollten Auslösung der Kamera Position führen können.
Hier die logische Vorgehensweise, um einen „validen“ Kamerabefehl ausgeben zu können:


Wir bekommen vom Parlé ( TTM oder TCM-X ) Block die Aussage, ob Sprache erkannt wurde, und ob das Signal so stabil ist, dass es erfolgreich die Gateschwelle des Automatikmischers passieren konnte.
Diese Informationen stehen an den Logikausgängen des Parlé Blockes unten als Logik High / Low Wert pro Mikrofon bereit. Damit erhalten wir bereits eine grobe Ortung, z.B. Vorne-Hinten, in einem Raum. Um jetzt genauer die Kameraposition bestimmen zu können, benötigen wir den Erweiterungsblock des TTM / TCM Mikrofones.
Dieser ist mit Aufruf der Eigenschaften eines Parlé Mikrofones anwählbar > Checkbox > Use Parlé Beam Block aktivieren.
Dann sehen wir folgende Struktur:

“Hier wird nun detektiert, aus welcher Richtung der Sprecher aufgenommen wird, und ob es unterschiedliche Stimmen sind. Diese Information erfassen wir erneut als Logikausgabe in High / Low Werten und entzerren die Ausgabe noch mit einem Logik Delay.
Eine Verlängerung der Schalthysterese um 1000 ms dient der besseren Befehlsausgabe beim Sprecher, da die AGC Detektion nur kurz mit Erkennung der Sprache frequentiert aufleuchtet.
Nun werden beide Informationen aus der groben Verortung und der Richtung vereint. Dabei ist wichtig, dass die hauptauslösende Ebene am Parlé Beamtracking-Block nur Sprache aus dem eigenen Raum berücksichtigt. Also nicht die aus den Lautsprechern im Raum vorhandenen Sprecher einer Konferenzverbindung aus dem Far End, da diese im AEC Algorithmus aus dem detektierten Mikrofonsignal bereits durch Konvertierung entfernt wurden.
Die richtig eingestellten Zeitwerte sind enorm wichtig für ein sinnvolle Kameraführung!
Daher ist es spätestens an dieser Stelle empfehlenswert, diese Aufgabe nicht in einer externen Mediensteuerung auf zu bauen, sondern mit der Boolschen Logik in der Biamp DSP umzusetzen, weil es übersichtlicher und schneller anpassbar ist. Jetzt werden Logik-Schleifen durchlaufen, welche erst einmal zwischen “Sprecher AKTIV” und “NICHT Sprechen” zu einer grundlegenden Entscheidung hinsichtlich der Kamera-Presets führen. Also Totale oder eben eine Near GO Preset.
Dazu das Schaubild aus dem File:

Gut sortiert können wir treffsicher auswählen
Der rechte Block in der Logik gibt uns die Gewichtung vor, von welchem Mikrofon Richtungswerte als erlaubt weiterkommen dürfen. Erst wenn das logisch UND komplettiert ist, geht es weiter.
Hier werden erneut mit Logik Delay Gliedern Zeitverläufe optimiert, um ein zu unruhiges Kameraschwenken zu vermeiden. Hier sei auch erwähnt, dass durch die Raumachsen hier bei zu viel Motor-Stepper-Weg eben auch die Notwendigkeit eine weitere Kamera mit Umschaltung der Video Signalwege einzusetzen, die bessere Lösung darstellt. Um eine unnötige Wiederholung der IP Kommandos und eben auch ein zu unruhiges Wechseln zu verhindern, müssen nun die aufbereiteten Befehle durch eine Schleuse, ähnlich dem Zugangskreuz einer „Personenvereinzelungsanlage“.
Nur einer kann gewinnen: Highlander Block mit Logic Select > Steuerung
Dadurch wird immer nur ein Befehl jeweils an eine Kamera gesendet. Der nächste Befehl kommt, weil eine Änderung anliegt. Dadurch fluten wir nicht den Buffer in der Kameramotor-Steuerung.

Hier im Beispiel gewinnt das hintere Mikrofon mit Near Go Preset 1, also hinten Vorne Links. ( Hier sei erwähnt, dass für eine sinnvolle Struktur die Tisch/Deckenmikrofone auf 0° Azimuthwinkel kalibriert ausgerichtet sein sollten ). Dies ist einfach an der Position des Biamp Logos am Mikrofonrand zu entdecken. Im Biamp Tesira Compiler ist diese symbolisch durch ein kleines Dreieck als Marker im Kreisel am Boden dargestellt.
Biamp Logo in gleicher Richtung im Raum ausrichten

Jetzt werden die einzelnen Befehle mit den Network Command String Blöcken verbunden.
Sind mehrere Kameras im Betrieb, dann müssen die Steuerleitung der jeweiligen Kamerazugehörigkeit zu den entsprechenden Blöcken verbunden werden.
Hierzu ein Beispiel aus einem Hörsaal mit 3 Kameras und 10 TCM-X Mikrofonen:

Im Command String Block werden auch die Rückmeldungen empfangen und können als fremder, nicht Tesira-Text-Protokoll-Befehl ebenfalls zu internen Schalt-/ Szenen- / Steuervorgängen ausgewertet werden.
Im Betrieb erkennen wir die korrekte Verbindung mit den Kameras an einer grün leuchtenden LED im Command String Block. Hier werden auch die Befehle für die Presets hinterlegt.
Nun muss nur noch die IP Verbindung mit der IP Adresse eingetragen werden:
Command String Block > Eigenschaften > DSP Properties:

Im erweiterten Menü hat man in einer Putty Session Zugriff und Kontrolle über die Rückmeldung der Kamera.
Hier zum Beispiel dir Antwort bei erfolgreicher Ausführung eines Befehles:

Die Kommandozentrale : Der Command String Block

Nun sind wir auf der Biamp Seite soweit fertig.
Damit die angesprochenen Presets auch sinnvolle Positionen einnehmen, muss das nun mit der Kamera angelernt werden. Hierzu eignet sich die Infrarot-Fernbedienung oder besser und schneller mit der hier bei AVer sehr gut nutzbaren AVer PTZ App 2, welche im Internet Browser eine komfortable Bedieneroberfläche bietet.
Um bei laufendem Betrieb hier in Ruhe ein Near Go Preset Position anfahren zu können, sind in der Befehlsleitunglogik Schalter eingesetzt, um temporär die Ausgabe der Befehle EIN / AUS schalten zu können.

So kann man in Ruhe die finale Position auf die Preset-Taste in der Oberfläche ablegen.
Soll in der Umsetzung die Auflösung der Verortung genauer werden, so muss in einer Session mit einem externen Controller mittels Subscriber die Winkelgradbewegung der Mikrofone im Azimuth Kreisel sowie die Verstärkung des Sprechersignales übersetzt in die Entfernung permanent in einer Debugger Liste als Befehlsgebung an den PTZ Antrieb gesendet werden.
In den meisten Fällen ist eine so präzise Verfolgung nicht notwendig. Hier ein Beispiel aus der Kommunikation:
- TCM1Mic1 subscribe segmentsActive 1
- TCM1Mic1 subscribe audioSources 1
Beispiel aus einer PuTTY Verbindung:


Aber: Mit der direkten Kopplung geht es einfacher und schneller, sowie ergibt sich in der Praxis auch der Vorteil, dass die Qualität einer ruhigen Bildwechselsequenz mit weniger Kameramotorfahrt bedeutender als genau eine Person im Bild zu halten ist.
Es kann geradezu aufdringlich wirken, wenn mit max. Zoom einzelne Teilnehmer im Bild übermächtig gegenüber dem Rest der Gruppe übertragen werden.
Zumal eben ein Zoomweg auch eine gewisse Verweildauer einer Bildunschärfe darstellt.
Das Ergebnis:
Durch unsere DSP-Struktur minimieren wir den Aufwand einer korrekten Kamerakopplung mit klarer Indikation explizit NUR auf Sprache zu reagieren.
Der Raumimpuls und die Nebengeräusche werden in der Auslösung konsequent ausgeschlossen.
Grundsätzlich ist aber ein wichtiger Zusammenhang bei Raummodi durch große Glasflächen hier gegeben. In diesem Fall werden mit TCM_X Deckenmikrofonen bessere Ergebnisse als mit den TTM-X Tischmikrofonen erzielt. Eine direkte Reflektion kann die klare Auswertung eines TTM-X durchaus behindern, von der Decke nach unten gerichtet kommt hier ein TCM-X leichter zum korrekten Ergebnis.
Forderung zur Berücksichtigung der DIN 18041 sind hier also auch angebracht.
Live-Webcast am 14.04.2021 von 10:30 bis 12:00 Uhr
Die sprechende Person automatisch im Bild zu haben ist der Wunsch vieler Webkonferenzteilnehmer. Mit den Parlè Mikrofonen der Microsoft Teams zertifizierten Audio-Raumlösungen von biamp ist das möglich. Ohne weiteren Hardwareaufwand kann/können eine oder mehrere Kameras im Besprechungsraum gesteuert werden.
In diesem prodyTel Webcast stellt Ihnen unser Vertriebsingenieur Martin Maurer die Kombination zwischen biamp Tesira und einer AVer CAM520 Pro live vor. Wie ist das technische Zusammenspiel? Wie sieht die Biamp DSP Programmierung aus? Warum reagiert das Kameratracking nicht auf Störgeräusche sondern nur auf Sprache? Wie verhindert man eine zu große Dynamik bei mehreren Sprechern im Raum? Diese und viele weitere Fragen beantwortet Martin in seiner Präsentation.

Nehmen Sie an diesem prodyTel Live Webcast teil und erhalten sie als Biamp Tesira zertifizierter Systemhauspartner die vorgestellte Referenzprogrammierung für Projekte zur Verfügung gestellt. Wir senden live aus der prodyTel AKADEMIE und nutzen die vorgestellte Technik live während der Veranstaltung. Am Ende können per Chat Fragen gestellt werden.
Veranstaltungstyp: Online Live Webcast
Veranstaltungskategorie: vertriebliche / technische Veranstaltung
Zielgruppe: Vertriebsmitarbeiter, Projektleiter, Nutzer, Fachplaner, Audiotechniker, Programmierer
Voraussetzungen: keine erforderlich
Sprache: Deutsch
Mindestteilnehmerzahl: 2
Kosten pro Teilnehmer: keine
Anmeldeschluss: 30 min vor Start
Referent: Martin Maurer, Vertriebsingenieur, prodyTel Distribution GmbH
Besten Dank für Ihr Interesse
Ihr Martin Maurer
