Connect with us

Wie man

NVIDIAs GPUs der RTX 3000-Serie: Das ist neu

NVIDIAs GPUs der RTX 3000-Serie: Das ist neu

NVIDIA

Am 1. September 2020 hat NVIDIA seine neue Reihe von Gaming-GPUs vorgestellt: die RTX 3000-Serie, basierend auf ihrer Ampere-Architektur. Wir besprechen, was es Neues gibt, die dazugehörige KI-gestützte Software und alle Details, die diese Generation wirklich großartig machen.

Lernen Sie die GPUs der RTX 3000-Serie kennen

RTX 3000 GPU-ReiheNVIDIA

Die Hauptankündigung von NVIDIA waren die glänzenden neuen GPUs, die alle auf einem benutzerdefinierten 8-nm-Fertigungsprozess basieren und die sowohl die Rasterisierung als auch die Raytracing-Leistung erheblich beschleunigen.

Am unteren Ende der Aufstellung gibt es die RTX 3070, was 499 US-Dollar kostet. Es ist ein bisschen teuer für die billigste Karte, die NVIDIA bei der ersten Ankündigung vorgestellt hat, aber es ist ein absolutes Schnäppchen, wenn man erfährt, dass es die bestehende RTX 2080 Ti übertrifft, eine Top-of-the-Line-Karte, die regelmäßig für über 1400 US-Dollar verkauft wurde. Nach der Ankündigung von NVIDIA sank der Verkaufspreis für Drittanbieter jedoch, wobei eine große Anzahl von ihnen panisch bei eBay für unter 600 US-Dollar verkauft wurde.

Zum Zeitpunkt der Ankündigung gibt es keine soliden Benchmarks, daher ist unklar, ob die Karte objektiv „besser“ als eine 2080 Ti ist oder ob NVIDIA das Marketing etwas verdreht. Die ausgeführten Benchmarks waren 4K und hatten wahrscheinlich RTX, was die Lücke möglicherweise größer erscheinen lässt als bei rein gerasterten Spielen, da die auf Ampere basierende 3000er-Serie beim Raytracing mehr als doppelt so gut abschneidet als bei Turing. Aber da Raytracing jetzt etwas ist, das der Leistung nicht viel schadet und in der neuesten Konsolengeneration unterstützt wird, ist es ein wichtiges Verkaufsargument, dass es für fast ein Drittel des Preises so schnell wie das Flaggschiff der letzten Generation läuft.

Unklar ist auch, ob der Preis so bleibt. Designs von Drittanbietern erhöhen den Preis regelmäßig um mindestens 50 US-Dollar, und bei der wahrscheinlich hohen Nachfrage wird es nicht überraschen, dass es im Oktober 2020 für 600 US-Dollar verkauft wird.

Direkt darüber ist die RTX 3080 bei 699 US-Dollar, was doppelt so schnell sein sollte wie die RTX 2080 und etwa 25-30% schneller als die 3080.

Dann, am oberen Ende, ist das neue Flaggschiff die RTX 3090, die komisch groß ist. NVIDIA ist sich dessen bewusst und bezeichnet es als „BFGPU“, was nach Angaben des Unternehmens für „Big Ferocious GPU“ steht.

RTX 3090-GPUNVIDIA

NVIDIA zeigte keine direkten Leistungskennzahlen, aber das Unternehmen zeigte, dass es 8K-Spiele mit 60 FPS ausführt, was wirklich beeindruckend ist. Zugegeben, NVIDIA verwendet mit ziemlicher Sicherheit DLSS, um diese Marke zu erreichen, aber 8K-Spiele sind 8K-Spiele.

Natürlich wird es irgendwann eine 3060 und andere Variationen von eher budgetorientierten Karten geben, aber diese kommen normalerweise später.

Um die Dinger tatsächlich zu kühlen, benötigte NVIDIA ein überarbeitetes Kühlerdesign. Der 3080 ist für 320 Watt ausgelegt, was ziemlich hoch ist, daher hat sich NVIDIA für ein Dual-Lüfter-Design entschieden, aber anstatt beide Lüfter vwinf unten zu platzieren, hat NVIDIA einen Lüfter am oberen Ende platziert, wo normalerweise die Rückplatte hingehört. Der Lüfter leitet die Luft nach oben zum CPU-Kühler und zur Oberseite des Gehäuses.

nach oben gerichteter Lüfter auf der GPU führt zu einem besseren GehäuseluftstromNVIDIA

Gemessen daran, wie stark die Leistung in einem Gehäuse durch einen schlechten Airflow beeinträchtigt werden kann, macht dies durchaus Sinn. Dadurch ist die Platine jedoch sehr eng, was sich wahrscheinlich auf die Verkaufspreise von Drittanbietern auswirken wird.

DLSS: Ein Software-Vorteil

Raytracing ist nicht der einzige Vorteil dieser neuen Karten. Wirklich, es ist alles ein bisschen ein Hack – die RTX 2000-Serie und 3000-Serie ist im Vergleich zu älteren Kartengenerationen nicht viel besser beim tatsächlichen Raytracing. Das Raytracing einer vollständigen Szene in 3D-Software wie Blender dauert normalerweise ein paar Sekunden oder sogar Minuten pro Bild, so dass es nicht in Frage kommt, es in weniger als 10 Millisekunden zu erzwingen.

Natürlich gibt es dedizierte Hardware für die Ausführung von Ray-Berechnungen, die als RT-Kerne bezeichnet werden, aber im Wesentlichen hat sich NVIDIA für einen anderen Ansatz entschieden. NVIDIA hat die Rauschunterdrückungsalgorithmen verbessert, die es den GPUs ermöglichen, einen sehr billigen Single-Pass zu rendern, der schrecklich aussieht, und ihn irgendwie – durch KI-Magie – in etwas verwandeln, das ein Spieler sehen möchte. In Kombination mit traditionellen rasterisierungsbasierten Techniken sorgt es für ein angenehmes Erlebnis, das durch Raytracing-Effekte verstärkt wird.

verrauschtes Bild mit NVIDIA Denoiser geglättetNVIDIA

Um dies jedoch schnell zu tun, hat NVIDIA KI-spezifische Verarbeitungskerne namens Tensor-Kerne hinzugefügt. Diese verarbeiten die gesamte Mathematik, die zum Ausführen von Modellen für maschinelles Lernen erforderlich ist, und dies sehr schnell. Sie sind insgesamt Game-Changer für KI im Cloud-Server-Bereich, da KI von vielen Unternehmen ausgiebig genutzt wird.

Neben der Rauschunterdrückung wird die Hauptanwendung der Tensor-Kerne für Gamer als DLSS oder Deep Learning Super Sampling bezeichnet. Es nimmt einen minderwertigen Rahmen auf und skaliert ihn auf volle native Qualität. Dies bedeutet im Wesentlichen, dass Sie mit 1080p-Frameraten spielen können, während Sie ein 4K-Bild betrachten.

Dies hilft auch bei der Raytracing-Leistung ziemlich –Benchmarks von PCMag zeige eine RTX 2080 Super, die in Ultra-Qualität läuft, wobei alle Raytracing-Einstellungen auf das Maximum eingestellt sind. Bei 4K kämpft es mit nur 19 FPS, aber mit aktiviertem DLSS erreicht es viel bessere 54 FPS. DLSS ist kostenlose Leistung für NVIDIA, ermöglicht durch die Tensor-Kerne auf Turing und Ampere. Jedes Spiel, das dies unterstützt und GPU-begrenzt ist, kann allein durch die Software erhebliche Beschleunigungen verzeichnen.

DLSS ist nicht neu und wurde als Feature angekündigt, als die RTX 2000-Serie vor zwei Jahren auf den Markt kam. Zu dieser Zeit wurde es von nur sehr wenigen Spielen unterstützt, da NVIDIA für jedes einzelne Spiel ein Machine-Learning-Modell trainieren und abstimmen musste.

In dieser Zeit hat NVIDIA es jedoch komplett neu geschrieben und die neue Version DLSS 2.0 genannt. Es ist eine Allzweck-API, was bedeutet, dass jeder Entwickler sie implementieren kann, und sie wird bereits von den meisten Hauptversionen übernommen. Anstatt an einem Frame zu arbeiten, nimmt es Bewegungsvektordaten aus dem vorherigen Frame auf, ähnlich wie bei TAA. Das Ergebnis ist viel schärfer als DLSS 1.0 und sieht in einigen Fällen sogar schärfer aus als die native Auflösung, sodass es nicht viel Grund gibt, es nicht einzuschalten.

Es gibt einen Haken: Beim vollständigen Wechseln von Szenen, wie in Zwischensequenzen, muss DLSS 2.0 den allerersten Frame mit 50 % Qualität rendern, während auf die Bewegungsvektordaten gewartet wird. Dies kann für einige Millisekunden zu einem winzigen Qualitätsabfall führen. Aber 99% von allem, was Sie sich ansehen, wird richtig gerendert, und die meisten Leute bemerken es in der Praxis nicht.

Ampere-Architektur: Gebaut für KI

Ampere ist schnell. Ernsthaft schnell, vor allem bei KI-Berechnungen. Der RT-Kern ist 1,7-mal schneller als Turing und der neue Tensor-Kern ist 2,7-mal schneller als Turing. Die Kombination aus beidem ist ein echter Generationssprung in der Raytracing-Leistung.

RT- und Tensor-KernverbesserungenNVIDIA

Anfang Mai, NVIDIA hat die Ampere A100 GPU veröffentlicht, eine Rechenzentrums-GPU, die für die Ausführung von KI entwickelt wurde. Damit haben sie viel detaillierter beschrieben, was Ampere so viel schneller macht. Für Rechenzentrums- und Hochleistungs-Computing-Workloads ist Ampere im Allgemeinen etwa 1,7-mal schneller als Turing. Beim KI-Training ist es bis zu 6-mal schneller.

HPC-LeistungsverbesserungenNVIDIA

Mit Ampere verwendet NVIDIA ein neues Zahlenformat, das den Industriestandard „Floating-Point 32“ oder FP32 in einigen Workloads ersetzen soll. Unter der Haube benötigt jede Zahl, die Ihr Computer verarbeitet, eine vordefinierte Anzahl von Bits im Speicher, egal ob 8 Bit, 16 Bit, 32, 64 oder noch mehr. Größere Zahlen sind schwieriger zu verarbeiten. Wenn Sie also eine kleinere Größe verwenden können, müssen Sie weniger knirschen.

FP32 speichert eine 32-Bit-Dezimalzahl und verwendet 8 Bit für den Bereich der Zahl (wie groß oder klein sie sein kann) und 23 Bit für die Genauigkeit. NVIDIAs Behauptung ist, dass diese 23 Präzisionsbits für viele KI-Workloads nicht unbedingt erforderlich sind und Sie mit nur 10 davon ähnliche Ergebnisse und eine viel bessere Leistung erzielen können. Die Reduzierung der Größe auf nur 19 Bit statt 32 macht bei vielen Berechnungen einen großen Unterschied.

Dieses neue Format heißt Tensor Float 32, und die Tensor-Cores im A100 sind für das seltsam große Format optimiert. Dies ist, zusätzlich zu den Schrumpfungen und der Erhöhung der Kernanzahl, wie sie die massive 6-fache Beschleunigung im KI-Training erhalten.

Neue ZahlenformateNVIDIA

Zusätzlich zu dem neuen Zahlenformat sieht Ampere bei bestimmten Berechnungen wie FP32 und FP64 erhebliche Leistungssteigerungen. Diese bedeuten nicht direkt mehr FPS für den Laien, aber sie sind Teil dessen, was es bei Tensor-Operationen insgesamt fast dreimal schneller macht.

Leistungsverbesserungen des TensorkernsNVIDIA

Um die Berechnungen noch weiter zu beschleunigen, haben sie das Konzept von . eingeführt feinkörniger strukturierter Sparsity, was ein sehr schickes Wort für ein ziemlich einfaches Konzept ist. Neuronale Netze arbeiten mit großen Zahlenlisten, sogenannten Gewichten, die die endgültige Ausgabe beeinflussen. Je mehr Zahlen zu knacken sind, desto langsamer wird es.

Allerdings sind nicht alle diese Zahlen wirklich nützlich. Einige von ihnen sind buchstäblich nur null und können im Grunde weggeworfen werden, was zu massiven Beschleunigungen führt, wenn Sie mehr Zahlen gleichzeitig verarbeiten können. Sparsity komprimiert die Zahlen im Wesentlichen, was weniger Rechenaufwand erfordert. Der neue „Sparse Tensor Core“ ist für den Betrieb mit komprimierten Daten ausgelegt.

Trotz der Änderungen, sagt NVIDIA, sollte dies die Genauigkeit trainierter Modelle überhaupt nicht beeinträchtigen.

spärliche Daten werden komprimiertNVIDIA

Bei Sparse INT8-Berechnungen, einem der kleinsten Zahlenformate, liegt die Spitzenleistung einer einzelnen A100-GPU bei über 1,25 PetaFLOPs, eine erstaunlich hohe Zahl. Natürlich nur, wenn Sie eine bestimmte Art von Zahl knacken, aber es ist trotzdem beeindruckend.

Continue Reading
Click to comment

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Tendencia