Antes del despliegue de Frontier este año, 1.5 Cabinet 'Crusher' sirve a la ciencia
Por Tiffany Trader
28 de marzo de 2022
La supercomputadora Frontier se instaló en el Laboratorio Nacional Oak Ridge del Departamento de Energía en 2021, y el gabinete final se colocó en su lugar en octubre. Mientras continúa la reorganización del sistema pico completo de 2 exaflops (hemos escuchado extraoficialmente sobre problemas con la tecnología de interconexión), el proyecto Frontier se está ejecutando con un sistema de banco de pruebas más pequeño del mismo diseño central.
Con una velocidad máxima de aproximadamente 40 petaflops de doble precisión, "Crusher" es una iteración de 1,5 gabinetes de la supercomputadora Cray EX Frontier. Crusher atenderá a los primeros usuarios de la ciencia mientras continúa la integración y las pruebas del sistema Frontier completo de 74 gabinetes. El sistema Frontier está en camino de ser el primer sistema de exaescala de los Estados Unidos en algún momento de este año, y entrará en operaciones de usuario completo el 1 de enero de 2023, según el Laboratorio Nacional de Oak Ridge.
Crusher consta de 192 nodos HPE Cray EX, cada uno con una CPU AMD "Trento" 7A53 Epyc y cuatro GPU AMD Instinct MI250X (para un total de 768 GPU). Trento usa los mismos núcleos Zen-3 que Milan, optimizados para mejorar la eficiencia de la memoria. Los nodos están conectados mediante la interconexión Slingshot-11 de HPE. Cada nodo tiene memoria DDR4 de 512 GiB en la CPU y HMB2e de 512 GiB (128 GiB por GPU) con memoria coherente en todo el nodo.
Por el contrario, el Frontier de tamaño completo está programado para ofrecer 2 exaflops de rendimiento máximo de doble precisión en 74 gabinetes dentro de una envolvente de potencia de 29MW. Ocupando un espacio de 372 m2 en Oak Ridge Leadership Computing Facility (OLCF), Frontier abarca 9408 nodos que agregan 9,2 petabytes de memoria (4,6 petabytes de DDR4 y 4,6 petabytes de HBM2e). Recuento total de GPU: 37.632. Hay 37 petabytes de almacenamiento local en el nodo y acceso a 716 petabytes de almacenamiento en todo el centro.
Los bastidores HPE Olympus utilizados en la arquitectura Frontier tienen refrigeración líquida en su totalidad, incluidos los DIMM y las NIC. Cada gabinete (cuando está seco) pesa 3.630 kilogramos. El sistema Frontier completo tiene un total de 81.000 cables.
Crusher, dijo Oak Ridge, está listo para "aplastar" la ciencia, aunque sospechamos que el nombre también podría ser un guiño al director médico de la serie de televisión Star Trek: The Next Generation. Por extensión, la configuración completa sería la "Frontera final".
Cuatro proyectos ya han tenido sus códigos optimizados con éxito para Crusher y, por lo tanto, también para Frontier. Son el proyecto CANcer Distributed Learning Environment, o CANDLE; el proyecto Cholla, Hidrodinámica computacional sobre arquitecturas ∥ (paralelas); el proyecto de Dispersión Múltiple Autoconsistente Localmente, o LSMS, por sus siglas en inglés; y el proyecto Nuclear Coupled-Cluster Oak Ridge, o NuCCOR. Algunos de estos códigos se remontan al primer sistema de arquitectura híbrida de OLCF, la supercomputadora Cray XK7 Titan de 27 petaflop fuera de servicio que también empleaba nodos CPU+GPU y que se puso de pie en 2012.
Aspectos destacados de los primeros resultados:
"Crusher es el último de una larga línea de sistemas de prueba y desarrollo que hemos implementado para los primeros usuarios de las plataformas OLCF y es fácilmente el más poderoso de estos que hemos proporcionado", dijo Bronson Messer de ORNL, director científico de OLCF. "Los resultados que estos equipos de código están logrando en la máquina son muy alentadores a medida que miramos hacia el comienzo de la era de la exaescala con Frontier".
"Crusher ocupa solo 44 pies cuadrados de espacio en el piso, es 1/100 del tamaño de la supercomputadora Titan anterior, pero es más rápida que todo el sistema de 4,352 pies cuadrados, con un impacto informático masivo para su pequeño tamaño", informó además el Anuncio de Oak Ridge.
Originalmente, Frontier estaba programado para implementarse en la segunda mitad de 2021 y se aceptó en 2022. Los retrasos de uno u otro tipo son típicos con los sistemas de supercomputación de este alcance y escala, y Frontier es la primera implementación de la arquitectura AMD A+A además a ser una de las primeras máquinas a exaescala del mundo. Queda por ver si Frontier estará listo a tiempo para la lista Top500 de finales de mayo (no de junio de este año) como se había anticipado ampliamente (dado que el sistema estaba completamente instalado antes del lanzamiento de la lista de noviembre de 2021). Oak Ridge no ofreció un cronograma preciso para el despliegue y la aceptación de Frontier, aparte de indicar que sucederá en 2022, seguido de operaciones completas que comenzarán el 1 de enero de 2023.
Un desafío que Oak Ridge y sus socios proveedores ya han superado se refiere a la escasez de la cadena de suministro provocada por Covid. Hablando en SCA22 a principios de este mes, ORNL Corporate Research Fellow Al Geist dijo que de los 59 millones de piezas de Frontier, había alrededor de 2 millones de piezas que los fabricantes regulares no podían suministrar. "Hubo un esfuerzo heroico por parte de los equipos de HPE y AMD llamando a los almacenes de electrónica y [...] a otros fabricantes y [obteniendo las piezas faltantes]".
Una instalación de clase líder (está en el nombre), OLCF es el hogar de Summit, otro sistema CPU-GPU heterogéneo que debutó en 2018. Con 149 petaflops Linpack, la máquina construida por IBM es actualmente el sistema número dos en el doble lista anual Top500 de computadoras más rápidas. El título de la supercomputadora más rápida del mundo lo ostenta oficialmente el sistema Fujitsu basado en Riken Arm (pico de 442 petaflops), pero se cree que China tiene dos sistemas de exaescala que no fueron incluidos en la lista por razones políticas.
Otros dos sistemas de exaescala están en cubierta en los Estados Unidos: Aurora en el Laboratorio Nacional de Argonne y El Capitán en el Laboratorio Nacional de Livermore. Aurora, después de haber tenido varios reinicios y contratiempos, está programada para presentarse en el Laboratorio Nacional de Argonne a finales de este año. La colaboración Intel-HPE ahora tiene como objetivo un rendimiento máximo de más de 2 exaflops. A primera vista, el lanzamiento lento de Frontier posiblemente podría poner esos plazos en disputa; sin embargo, Frontier ya está en el piso y Aurora no. La GPU Ponte Vecchio para la supercomputadora Aurora no se entregará hasta finales de este año, informó Intel recientemente. Mientras tanto, la preparación para El Capitán está en marcha en Livermore; el sistema, que será construido por HPE utilizando una arquitectura similar a la de Frontier, está programado para entregarse en 2023, prometiendo un rendimiento máximo superior a 2 exaflops.
Leer el OLCFpresione soltarpara obtener más detalles sobre los códigos científicos que se ejecutan en Crusher.
presione soltar