El misterioso «GPU-N» de NVIDIA podría ser el Hopper GH100 de próxima generación disfrazado con 134 SM, 8576 núcleos y 2.68 TB / s de ancho de banda, y se muestra un rendimiento simulado

Una misteriosa GPU NVIDIA conocida como GPU-N, que puede ser el primer vistazo del chip Hopper GH100 de próxima generación, ha sido revelada en un nuevo artículo de investigación publicado por Green Team (descubierto por el usuario de Twitter Redfire).

El artículo de investigación de NVIDIA habla de «GPU-N» con diseño MCM y 8.576 núcleos, ¿podría ser el Hopper GH100 de próxima generación?

El artículo de investigación «Especialización en el dominio de la GPU a través de la arquitectura componible en el paquete» presenta un diseño de GPU de próxima generación como la solución más práctica para maximizar el rendimiento matemático matricial de baja precisión para mejorar el rendimiento del aprendizaje profundo. Se discutieron la «GPU-N» y sus respectivos diseños COPA, junto con sus posibles especificaciones y resultados de rendimiento simulados.

NVIDIA GeForce RTX 3080 12GB y RTX 3070 Ti supuestamente vencidas, RTX 3090 Ti presentado en CES 2022 todavía en el cronograma

La «GPU-N» contendría 134 unidades SM (en comparación con las 104 unidades SM del A100). Esto representa un total de 8.576 núcleos, un aumento del 24% con respecto a la solución Ampere A100 actual. El chip se midió a 1,4 GHz, la misma velocidad de reloj teórica que el Ampere A100 y Volta V100 (que no debe confundirse con los relojes finales). Otras especificaciones incluyen una caché L2 de 60 MB, un aumento del 50% sobre el Ampere A100 y un ancho de banda DRAM de 2.68TB / s de hasta 6.3TB / s. La capacidad de la DRAM HBM2e es de 100 GB y se puede ampliar hasta 233 GB con implementaciones COPA. Está configurado alrededor de una interfaz de bus de 6144 bits con una velocidad de reloj de 3,5 Gbps.

ConfiguraciónNVIDIA V100NVIDIA A100GPU-N
SMS80108134
Frecuencia de GPU (GHz)1.41.41.4
FP32 (TFLOPS)15,719,524,2
FP16 (TFLOPS)125312779
Caché L2 (MB)64060
DRAM BW (GB / s)9001,5552.687
Capacidad de DRAM (GB)dieciséis40100

Cuando se trata de números de rendimiento, la «GPU-N» (presumiblemente Hopper GH100) produce 24.2 TFLOP de FP32 (aumento del 24% en A100) y 779 TFLOP FP16 (aumento de 2.5x en A100). ad A100), que suena muy cerca de las ganancias de 3x que se dijeron para GH100 en el A100. En comparación con la GPU CDNA 2 «Aldebaran» de AMD en el acelerador Instinct MI250X, el rendimiento del FP32 es menos de la mitad (95,7 TFLOP frente a 24,2 TFLOP), pero el rendimiento del FP16 es 2,15 veces mejor.

Leer más:  Destiny 2: rangos de gloria y requisitos: cómo ganar gloria en el crisol

A partir de la información anterior, sabemos que el acelerador H100 de NVIDIA se basaría en una solución MCM y utilizaría el nodo de proceso de 5 nm de TSMC. Se espera que Hopper tenga dos módulos GPU de próxima generación, por lo que estamos viendo 288 unidades SM en total. No podemos dar una descripción general de la cantidad de núcleos todavía porque no sabemos la cantidad de núcleos presentes en cada SM, pero si tiene que ceñirse a 64 núcleos por SM, obtenemos 18,432 núcleos, que es 2,25 veces más. que la configuración completa de GPU GA100. NVIDIA también podría aprovechar más núcleos FP64, FP16 y Tensor en su GPU Hopper, lo que aumentaría considerablemente el rendimiento. Y esto será una necesidad para competir con el Ponte Vecchio de Intel, que se espera que cuente con FP64 1: 1.

Es probable que la configuración final incluya 134 de las 144 unidades SM habilitadas en cada módulo GPU, por lo que es probable que imaginemos un solo dado GH100 en acción. Pero es poco probable que NVIDIA obtenga los mismos fracasos FP32 o FP64 que los MI200 sin usar GPU Sparsity.

Granja de minas sospechosa con NVIDIA GeForce RTX 4090 Ti y AMD Radeon RX 7000 detectada, tasa de hash efectiva superior a 3 TH / s

Pero NVIDIA probablemente podría tener un arma secreta bajo la manga y esa sería la implementación de Hopper de la GPU basada en COPA. NVIDIA habla de dos COPA-GPU especializadas en el campo basadas en una arquitectura de próxima generación, una para HPC y la otra para el segmento DL. La variante HPC presenta un enfoque muy estándar que consiste en un diseño de GPU MCM y los respectivos chips HBM / MC + HBM (IO), pero la variante DL es donde las cosas comienzan a ponerse interesantes. La variante DL alberga un enorme caché en un dado completamente separado que está interconectado con los módulos de la GPU.

Leer más:  Cyberpunk 2077 recibe un nuevo parche que agrega mejoras para simplificar la experiencia y el desarrollo
ArquitecturaCapacidad LLCDRAM BWCapacidad DRAM
Configuración(Lun)(TB / i)(GB)
GPU-N602,7100
COPA-GPU-19602,7100
COPA-GPU-29604.5167
COPA-GPU-31.9202,7100
COPA-GPU-41.9204.5167
COPA-GPU-51.9206.3233
Perfecto L2infinitoinfinitoinfinito

Se han descrito varias variantes con hasta 960/1920 GB de caché de último nivel (LLC), capacidades de DRAM HBM2e de hasta 233 GB y ancho de banda de hasta 6,3 TB / s. Todo esto es discutible, pero dado que NVIDIA lo ha discutido ahora, probablemente podamos ver una variante de Hopper con tal diseño durante la presentación completa en GTC 2022.

NVIDIA Hopper GH100 «Especificaciones preliminares»:

Tarjeta gráfica NVIDIA TeslaTesla K40 (PCI Express)Tesla M40 (PCI Express)Tesla P100 (PCI Express)Tesla P100 (SXM2)Tesla V100 (SXM2)NVIDIA A100 (SXM4)NVIDIA H100 (SMX4?)
GPUGK110 (Kepler)GM200 (Maxwell)GP100 (Pascal)GP100 (Pascal)GV100 (bóveda)GA100 (amperio)GH100 (tolva)
Nodo de proceso28 millas náuticas28 millas náuticas16 millas náuticas16 millas náuticas12 millas náuticas7 millas náuticas5 millas náuticas
transistor7.1 mil millones8 mil millones15,3 mil millones15,3 mil millones21,1 mil millones54,2 mil millonesSer determinado
Tamaño de la matriz de GPU551 mm2601 mm2610 mm2610 mm2815 mm2826 mm²Ser determinado
SMS1524565680108134 (por módulo)
TPC152428284054Ser determinado
Núcleo CUDA FP32 de SM1921286464646464?
Núcleo CUDA FP64 / SM6443232323232?
Núcleo CUDA FP322880307235843584512069128576 (por módulo) 17152 (completo)
Núcleo CUDA FP649609617921792256034564288 (por módulo)? 8576 (completo)?
Núcleos tensoresN / AN / AN / AN / A640432Ser determinado
Unidad de trama240192224224320432Ser determinado
Actualiza el reloj875 MHz1114 MHz1329 MHz1480 MHz1530 MHz1410 MHz~ 1400 MHz
ARRIBA (DNN / AI)N / AN / AN / AN / A125 TOP1248 TOP 2496 TOP con moderaciónSer determinado
FP16 CalcularN / AN / A18,7 TFLOP21.2 TFLOP30,4 TFLOP312 TFLOP 624 TFLOP con moderación779 TFLOP (por módulo)? 1558 TFLOP con moderación (por módulo)?
Cálculo FP325.04 TFLOP6.8 TFLOP10.0 TFLOP10.6 TFLOP15,7 TFLOP19.4 TFLOP156 TFLOP con moderación24.2 TFLOP (por módulo)? 193.6 TFLOP con moderación?
Cálculo FP641,68 TFLOP0,2 TFLOP4.7 TFLOP5.30 TFLOP7.80 TFLOP19,5 TFLOP (9,7 TFLOP estándar)24.2 TFLOP (por módulo)? (12.1 TFLOP estándar)?
Interfaz de memoriaGDDR5 de 384 bitsGDDR5 de 384 bitsHBM2 4096 pocoHBM2 4096 pocoHBM2 4096 pocoHBM2e 6144 pocoHBM2e 6144 poco
Tamaño de la memoria12 GB de GDDR5 a 288 GB / s24 GB de GDDR5 a 288 GB / sHBM2 de 16GB a 732GB / s HBM2 de 12GB a 549GB / sHBM2 de 16GB a 732GB / segHBM2 de 16 GB a 900 GB / sHasta 40 GB HBM2 a 1,6 TB / s Hasta 80 GB HBM2 a 1,6 TB / sHasta 100 GB HBM2e a 3,5 Gbit / s
Tamaño de caché L21536 KB3072 KB4096 KB4096 KB6144 KB40960 KB81920 KB
TDP235W250W250W300W300W400W~ 450-500 W
Leer más:  Prueba gratuita de Funimation: todo lo que necesita saber en 2021

Deja un comentario

Armada Gamer