GPU NVIDIA Blackwell B200 có thể tiêu thụ tới 1200W điện, kiến trúc hoàn toàn khác với Hopper

GPU Blackwell B200 của NVIDIA sử dụng kiến trúc hoàn toàn mới so với Hopper, mang đến nhiều lợi thế, nhưng cũng tiêu thụ điện năng gần như gấp đôi.

Khi Giám đốc điều hành của NVIDIA, Jensen Huang, chính thức công bố ra mắt nền tảng GPU Blackwell trên sân khấu sự kiện GTC 2024, chưa có quá nhiều thông tin kỹ thuật và kiến trúc được vị CEO nhắc tới. Trong vài ngày tiếp theo của GTC, NVIDIA đã chia sẻ thêm khá nhiều thông tin thú vị, nhưng vẫn không đi chi tiết vào phần kỹ thuật chuyên sâu mà tất cả đang chờ đợi.

Phải đến hôm nay, hai nhân sự quan trọng của công ty – Jonah Albe (phó chủ tịch cấp cao về kỹ thuật GPU) và Ian Buck (Tổng giám đốc phụ trách mảng kinh doanh máy tính Hyperscale và HPC) – mới chính thức có nhưng tiết lộ đáng chú ý hơn về kiến trúc GPU đang rất được mong chờ của NVIDIA.

GPU Blackwell – Được thiết kế cho kỷ nguyên AI với kiến trúc hoàn toàn mới

Đầu tiên, chúng ta đều biết rằng Blackwell sẽ là một bản nâng cấp lớn về kiến trúc so với Hopper, và có vẻ như thực tế còn hơn thế nữa khi Jonah nói rằng Blackwell sử dụng một kiến trúc vi mô thậm chí hoàn toàn khác Hopper.

Như đã biết, Blackwell sẽ được tích hợp công nghệ Transformer Engine thế hệ thứ 2, bổ sung các định dạng tính toán FP4 và FP6. Sự góp mặt của những định dạng này cũng như khả năng tối ưu hóa phần mềm mới là những yếu tố góp phần khiến Blackwell trở thành một trong những nền tảng chip AI nhanh trong ngành. Thế nhưng nâng cấp này lại có phần gây tiêu cực cho FP64 tiêu chuẩn của nó, vốn chỉ tăng 32% so với Hopper. Lý do rất rõ ràng và đơn giản, Blackwell trước hết là chip AI, và đây là thị trường mục tiêu chính mà NVIDIA hướng tới. FP64 không quan trọng lắm từ góc độ AI, ở mức thấp thì khả năng suy luận và đào tạo càng nhanh.

Ngoài ra, lý do để đi theo con đường chiplet (MCM) là do nhu cầu cải thiện hiệu suất tổng thể hơn là cải thiện năng suất. Sẽ rất thú vị khi xem cách tiếp cận MCM đầu tiên của NVIDIA hoạt động như thế nào trong lĩnh vực này, vì chúng ta đang nói về hai GPU chạy trên cùng một gói. Người ta đề cập rằng CUDA thực hiện khá tốt việc xử lý hai GPU và kiến trúc khác nhau, không yêu cầu thực hiện thay đổi lớn nào đối với các lập trình viên.

GPU GB200 là biến thể cao nhất của dòng Blackwell, công suất cao hơn 500W so với Hopper

Trong quá trình ra mắt, NVIDIA đã gây ra một sự khó hiệu xung quanh tất cả các biến thể nền tảng và GPU của Blackwell. CEO Jensen Huang tuyên bố rằng Blackwell không phải GPU mà là toàn bộ nền tảng, và nền tảng này chứa đựng nhiều loại sản phẩm nhưng chúng vẫn dựa trên GPU.

Tính đến thời điểm hiện tại, NVIDIA đã công bố ba biến thể GPU Blackwell chính thức, trong đó có biến thể B200 đầu bảng, sở hữu thông số kỹ thuật đầy đủ được phát triển trên nền tảng Superchip GB200. Con chip này sở hữu khả năng tính toán được đánh giá cao nhất và có TDP tối đa 1200W. Mức công suất này cao hơn 500 Watts so với Hopper H100 có TDP 700W. Toàn bộ Superchip được trang bị hai GPU B200 này và một CPU Grace cho công suất lên tới 2700W (1200W x 2 cho B200 + 300W CPU/IO).

Tiếp theo là phiên bản Blackwell B200 sử dụng trên nền tảng DGX & HGX, được tối ưu hóa khoảng 1000W và cung cấp gần 90% hiệu suất của biến thể thông số kỹ thuật đầy đủ. Không rõ liệu biến thể này chỉ có TDP thấp hơn hay đi kèm với thông số kỹ thuật bị cắt giảm so với cấu hình đầy đủ, hay còn thua kém thêm ở khía cạnh nào khác nữa.

Cuối cùng là Blackwell B100, một biến thể được tùy chỉnh với TDP 700W. Biến thể này cung cấp khoảng 80% hiệu suất của B200 (1000W) và 70% hiệu suất của B200 (1200W).

Nhiều khả năng sẽ có thêm một biến thể GPU Blackwell một khuôn, đặc biệt dành cho nền tảng PCIe trong tương lai. Kiến trúc GPU Blackwell đã được tích hợp trong các nền tảng RTX & AI dành cho người tiêu dùng như Drive Thor và dòng GeForce trong tương lai. GPU Blackwell GB200 của NVIDIA sẽ bắt đầu được giao hàng vào cuối năm nay cho các đối tác AI lớn của công ty.


Posted

in

by

Tags:

Comments

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *