+49-911-98 81 89-0 info@prodytel.de

Grundlagen zur Videoübertragung im Netzwerk

Farbraum:

Der Farbraum ist auch besser bekannt als eine Farbskala, die bei der Kodierung eines Farbsignals verwendet wird. Diese beschreibt, wie ein Pixel in Farbdaten dargestellt wird. Es gibt im digitalen Bereich zwei gängige Formate: RGB und YUV (auch YCrCb). Diese beiden Begriffe sind im Laufe der Jahre verschmolzen, technisch sind diese jedoch grundverschieden.

RGB repräsentiert die drei Grundfarben Rot, Grün und Blau. Diese werden zusammenaddiert um eine Farbe darzustellen.

Die YUV-Kodierung unterscheidet die Luminanz oder „Helligkeitskomponente“ von zwei Chroma oder „Farb-Komponenten“ (rot & blau). U und V sind dabei die Rot & Blau-Farbunterschiede (Cr und Cb).

YCrCb ist ein von YUV abgeleitetes digitales Format.

Das folgende Beispiel zeigt die visuellen Unterschiede zwischen der Darstellung von Bildern in RGB und YUV.

 

Wir möchten diese Beispiele aufzeigen, da es mehrere Möglichkeiten gibt, das „Rohbild“ zu enkodieren. Es gibt noch mehr Ableitungen von YUV. YUV und YCrCb sind eng miteinander verwandt und können schnell miteinander verwechselt werden. TesiraLUX von Biamp verwendet ausschließlich den Farbraum YUV. Der Farbraum an sich beeinflusst nicht direkt die benötigte Bandbreite.

Das Umwandeln von RGB in YUV erleichtert das Einsparen von Bandbreite beim Chroma Subsampling.

Chroma Subsampling:

Chroma Subsampling ist eine Methode zum Verringern der erforderlichen Farbinformationen. Die Verwendung von weniger Bits pro Pixel hat jedoch den Nebeneffekt, daß die Bildqualität und/oder die Qualität des Farbraums schlechter werden. Chroma Subsampling wird als dreistelliges Verhältnis dargestellt und wird über einen 2×4 Pixelblock angewendet. Beispiele dieser Verhältnisse sind:

4:2:0, 4:4:4 oder auch 4:1:1. Sehen wir uns am Beispiel einer 4:2:2-Kodierung, die Pixelabbildung im YUV-Farbraum an:

Die Y-„Luminanz-Komponente“ wird durch die „4“ (bei 4:2:2 Ratio) repräsentiert. Dies bedeutet, dass alle 4 Pixel je Pixelblock-Zeile erhalten bleiben. Mit anderen Worten, es findet keine Datenreduktion bei der Luminanz statt.

Die beiden weiteren Ziffern „2:2“ (bei 4:2:2 Ratio) bedeuten für die beiden Farb-Komponenten „U“ und „V“eine Datenreduktion von 4 auf 2 Pixel (50%) je Pixelblock-Zeile.

Dies hat nur eine kleine Auswirkung auf die Bilddetails, aber halbiert die Datenmenge für die Farbinformation pro Bild signifikant.

Hier ein visuelles Beispiel dafür, wie diese Verhältnisse angewandt werden:


Bedenken Sie, daß das Subsampling über ein komplettes Bild mit Millionen von Pixeln angewendet wird. Eine Bildauflösung von 4K-UHD enthält mehr als 8 Mio. Pixel in jedem Frame. Ein 4K UHD 60Hz Bild zeigt also fast 500Mio. Punkte pro Sekunde. Da das menschliche Auge empfindlicher auf Helligkeitsänderungen als auf Farbunterschiede reagiert und die Luminanz (Y-Kanal) nicht reduziert wird, kann ein optisch verlustloses Bild erzeugt werden. Gleichzeitig wird aber auch erheblich an Bandbreite eingespart. Tatsächlich erzeugen UHD-BluRays die als Standard nur mit 4:2:0 kodiert sind, eine immense Bildqualität.

Für die meisten Video-Auflösungen verwendet TesiraLUX das 4:2:2 Subsampling.

Farbtiefe:

Die Farbtiefe ist eine Binärzahl, welche die Gesamtanzahl der Werte für jeden einzelnen Farbkanal abbildet. Ähnlich wie bei digitalem Audio, je mehr Bits, desto größer ist die Signaltiefe/-Präzision (Beispiel: 10Bit, 12Bit). Beachten Sie, dass sich die Farbtiefen-Binärzahl jeweils auf die Auflösung für nur einen der drei Kanäle (Y-U-V) bezieht, aus denen sich der gesamte Farbraum zusammensetzt. Häufig sieht man jedoch nur eine einzige Farbtiefen-Angabe (24Bit-True Color oder 36Bit-Deep Color), die sich auf die Summe aus den 3 Farb-Komponenten bezieht.

24Bit True Color =          8Bit (Y)    +       8Bit (U)   +       8Bit (V)
36 Bit Deep Color =       12Bit (Y)  +       12Bit (U) +       12BIT (V)

PC-Grafikkarten verwenden 4 Farbkanäle und geben eine 32Bit-Farbtiefe an. Diese ist jedoch optisch identisch mit 24Bit-True Color, da bei Computergrafikkarten zusätzlich 8Bit als α-Kanal (Durchsichtigkeitswerte) oder einfach gar nicht verwendet werden. Auf die eigentliche Bilddarstellung hat dieser Wert keinen Einfluss. Die Farbtiefe wird oft in Bits pro Pixel (bbp), Bits pro Farbkomponente oder Bits pro Farbkanal angegeben. Mehr oder weniger meinen diese Begriffe alle das gleiche.

Die UHD-BluRay Spezifikation ermöglicht eine 10Bit-Auflösung pro YUV-Kanal also ein 30Bit Bild. Dies wird als „High-Dynamic-Range“ (HDR) oder auch „Wide Gamut Rec2020“ bezeichnet. Da das Auge empfindlicher auf Helligkeit reagiert, erzeugt HDR + höhere Farbtiefenauflösung ein brillanteres Bild, als eine simple Erhöhung der Bildauflösung. TesiraLUX unterstützt HDR mit einer YUV-Farbtiefe von bis zu 16Bit pro Farbkanal.

Bandbreite und Auflösung:

Bei einem netzwerkbasierenden System ist es natürlich unumgänglich, sich das Thema Auflösung und Bandbreite näher anzusehen. Bei fixen Matrizen war dies natürlich nicht der Fall, da hier die Videosignale lediglich über fixe HDMI-Strecken übertragen werden.

Mit diesen einfachen Beispielen möchten wir aufzeigen, warum es so viel Datenmenge notwendig ist um hochauflösende Signale zu übertragen.

Beispiel:

1080p, 60Hz, YUV 4:2:2, 10Bit = 2,49 Gbps

setzt sich zusammen aus

1920 x 1080 (bei 1080p) = 2.073.600 Bildpixel

multipliziert mit der Bildwiederholfrequenz

2.073.600 x 60Hz = 124.416.000 Gesamtpixel

Dies ist die Menge der Pixel die pro Sekunde auf dem Display wiedergegeben wird.

Da ein Bild, bei einer bestimmten Auflösung (Bildtiefe) immer aus 3 Komponenten und Farbblöcken mit 8 Pixeln/Block besteht, ergibt sich bei einem Chroma-Subsampling von 4:2:2 (dieses Verhältnis ergibt sich im YUV-Farbraum aus 3 Blöcken mit jeweils einem 2×4 Pixelblock also 8 Pixel/Block) die Gesamtzahl der Pixelblöcke wie folgt:

124.416.000 : 8 Pixel (in der 2×4 Zeile) = 15.552.000 Blöcke aus 8 Pixeln

Als nächstes berechnen wir, was wir aus dem Chroma-Subsampling wissen, und wenden es auf den  YUV-Block für eine Auflösung mit 10-Bit Farbtiefe pro Komponente an.

04_yuv

Nun addiert man alle Bits zusammen und multipliziert das Ergebnis mit der Anzahl der Blöcke, um schließlich die benötigte Datenmenge für das Videosignal zu errechnen.

160 Bits/YUV-Block x 15.552.000 Blöcke = 2.488.320.000 Bits/Sek Video. Oder » 2,49Gbps

Wen das noch nicht von der riesigen Datenmenge eines 4K UHD Videosignals nicht überzeugt, dann sollte man sich diese Datenmenge auf digitale Audiodaten verteilt betrachten

24-Bit, 48KHz für digitale Audiodaten z.B. in Biamp Tesira

24 x 48000 = 1,15 MB für eine Sekunde Audio. Die Videodatenmenge pro Sekunde eines 4K-UHD Videos entspricht der Datenmenge von 216(!) Audiokanälen pro Sekunde.

Digitales Video und Bandbreitenbedarf:

Ändert man jetzt ein paar Parameter des Beispielsignals, kann man sehen, wie sich dies auf die benötigte Datenmenge auswirkt. Wir überspringen die Langform der Mathematik und kommen direkt zum Ergebnis.

1080p, 60 Hz, YUV 4:2:0, 10Bit    = 1.87 Gbps

1080p, 60 Hz, YUV 4:4:4, 10Bit    =  3.73 Gbps

1080p, 60 Hz, RGB 4:4:4, 10Bit   =  3.73 Gbps

1080p, 60 Hz, YUV 4:2:2, 8Bit      =   1.99 Gbps

1080p, 30 Hz, YUV 4:2:2, 10Bit    =   1.24 Gbps

2160p, 60 Hz, YUV 4:2:2, 10Bit   = 9.95 Gbps

Mit jeder Änderung eines Parameters kann ein großer Unterschied der Datenmenge (Gbps) erreicht werden. Selbst ein Full-HD-Signal mit 1080p benötigt im MJPEG Format mehr als 1Gbps. Dies bedeutet, daß jedes dieser oben genannten Signale eine Ethernet-Verbindung >1Gbit benötigt.

Die folgende Tabelle zeigt eine Reihe verschiedener Videoformate und die benötigte Datenmenge.

Video-Kompression:

Wie kann man der riesigen Datenmenge Herr werden kann? Eine weitere Komponente kann uns hier helfen. Tatsächlich haben wir noch ein weiteres Werkzeug zur Verfügung:

Die Videokompression

TesiraLUX verwendet den Motion-JPEG Codec (M-JPEG) für die Kompression. JPEG (.jpeg) ist bei Kameras und im Internet das am häufigsten verwendete Bildformat. Man begegnet JPEG-komprimierten Bildern also regelmäßig im Alltag. Es ist aber nur eines von vielen Bild-Formaten, welches eine variable Bildkomprimierung ermöglicht.

Im M-JPEG Format wird jeder Bildausschnitt als Einzelbild komprimiert. Diese komprimierten Bildausschnitte werden anschließend zu einem Videosignal zusammengesetzt. Einer der Gründe warum Tesira LUX den MJPEG Algorithmus nutzt, ist die sehr schnelle Komprimierung.

Andere Komprimierungsformate (MPEG4, h.264) verwenden „Bewegungsdifferenz-Frames“, um den Bandbreitenverbrauch noch weiter zu reduzieren. MPEG4 und H264 benötigen jedoch eine größere Rechenkapazität (Prozessorbelastung) was zu einer höheren Systemlatenz führt. Wenn darüber hinaus einer der Keyframes bei der Übertragung verloren geht, wird das Bild über mehrere Frames hinweg fehlerhaft dargestellt. Dieses Phänomen sieht man regelmäßig in Internet Videos oder bei Kabel-TV. Hier äußert sich die Komprimierung bei MPEG4 oder H264 durch Artefakte, d.h. das Bild springt von einer klaren, zu einer schlechten Bildqualität und umgekehrt. Im Gegensatz dazu  hat M-JPEG eine geringe Latenz und erzeugt keine sogenannten „Multi-Frame-Artefakte“. Aus diesem Grund verwendet Biamp Systems das MJPEG-Format für das Videosystem Tesira LUX.

Die Videokompression wird in einem Verhältnis ausgedrückt. Die Optionen reichen von 2:1 bis z.B. 20:1. Aber im Gegensatz zur Audiokomprimierung, die den Audiopegel aufgrund eines Verhältnisses reduziert, führt die Videokomprimierung fast immer zu einem Kompromiss aus Videoqualität und erforderlicher Bandbreite. J-PEG Bilder können noch in höheren Verhältnissen komprimiert werden, jedoch nur auf Kosten der Bildqualität. Dies ist einer der Gründe warum die MJPEG Komprimierung in Tesira LUX auf 20:1 begrenzt ist. JPEG Video kann auch in anderen Varianten komprimiert werden, hier werden meist Werte von 0-100 ausgewählt, wobei 100 im Wesentlichen unkomprimiert ist, während 0 die maximal mögliche Kompression ist.

Beispiel anhand des bekannten „Lena Söderberg“-Bildes. Dieses Bild wird als Standard Testbild für den Vergleich von Bildformaten und Komprimierung verwendet.

Bild (a) ist unkomprimiert und zeigt das originale Foto.
Bild (b) hat eine Kompression von 10:1.
Bild (c) mit 30:1 Kompression bleibt als Bild gut „lesbar“ jedoch mit Artefakten.
Bild (d) zeigt das Bild (c) mit 5x Zoom. Hier werden die Artefakte offensichtlich. Dies ist ein typisches JPEG-Merkmal.

Je nach Videoinhalt kann die Kompression nach Bedarf angepasst werden. Eine 20:1 Kompression wird ohne merkliche Artefakte dargestellt. Die Artefakte, welche bei einer JPEG-Komprimierung auftreten, sind maßgeblich vom wiederzugebenden der Materialinhalt des Originals abhängig. Im Allgemeinen werden Fotos und andere natürliche Bilder meist besser dargestellt als digital erstellte Inhalte, wie z.B. Schriften, Diagramme oder Tabellen.