Đào tạo mô hình quy mô lớn: Đột phá huấn luyện AI quy mô lớn trên GPU/TPU - Kinh nghiệm từ thực tiễn

featured-image

Ở những ngành có yêu cầu cao như tài chính, ngân hàng và viễn thông, cuộc đua đưa các mô hình AI tinh vi vào vận hành diễn ra rất quyết liệt. Lợi thế cạnh tranh thường phụ thuộc vào tốc độ và chi phí để huấn luyện, thử nghiệm và triển khai mô hình mới. Tại BnK Solution, chúng tôi chuyên đào tạo các mô hình khổng lồ, chuyên sâu theo từng lĩnh vực, từ các LLM cho ngân hàng đến các VLM tùy chỉnh cho ngành bảo hiểm. Kinh nghiệm này đã mang lại một nhận định quan trọng: không phải một đột phá phần mềm nào đã thay đổi cuộc chơi, mà chính sự tiến hoá “vũ bão” về phần cứng, đặc biệt là băng thông liên kết mới đang tái định nghĩa cách chúng ta mở rộng mô hình.

Con đường truyền thống: Cái nhìn sâu hơn về Parallelism

Để hiểu sự thay đổi hiện tại, chúng ta cần nhìn lại con đường đã đưa chúng ta đến đây. Phân phối việc đào tạo một mô hình với hàng tỷ tham số là một sự phối hợp phức tạp giữa ba kỹ thuật cơ bản.

  • Data Parallelism (DP): Đây là "ngựa chiến" của việc đào tạo phân tán. Toàn bộ mô hình được sao chép trên mỗi "worker" (ví dụ: một GPU), và mỗi worker xử lý một phần dữ liệu khác nhau. Sau khi các gradient cục bộ được tính toán qua backpropagation, một thao tác giao tiếp chung - thường là All-Reduce - sẽ tính trung bình các gradient này trên tất cả các worker. Các trọng số được cập nhật sau đó sẽ được phân phối trở lại, đảm bảo tất cả các bản sao mô hình được đồng bộ. Tuy đơn giản về mặt khái niệm, khả năng mở rộng của DP rất nhạy cảm với chi phí của bước giao tiếp DP này. Trên các cụm mạng có độ trễ cao, thao tác All-Reduce có thể trở thành nút thắt cổ chai lớn, vì toàn bộ hệ thống phải chờ worker chậm nhất hoàn thành giao tiếp.

  • Tensor Parallelism (TP): Khi ngay cả một layer của mô hình cũng quá lớn đối với bộ nhớ của một thiết bị, TP trở nên cần thiết. Nó chia các ma trận trọng số khổng lồ trong các layer trên nhiều thiết bị, thường là trong một node duy nhất, được kết nối chặt chẽ bằng một giao tiếp tốc độ cực cao như NVIDIA's NVLink. Trong quá trình forward và backward, các thiết bị này phải trao đổi kết quả trung gian (activations và gradients) với độ trễ cực thấp. TP là một công cụ mạnh mẽ để "mở rộng" một đơn vị tính toán logic duy nhất nhưng không mở rộng hiệu quả trên mạng lưới rộng hơn, chậm hơn giữa các node.

  • Pipeline Parallelism (PP): Đây là bước đột phá cho phép các mô hình nghìn tỷ tham số ra đời. Mô hình được cắt theo chiều dọc thành các giai đoạn tuần tự (ví dụ: layer 1-8 trên Giai đoạn 1, layer 9-16 trên Giai đoạn 2, v.v.). Một batch dữ liệu được chia thành các "micro-batch" nhỏ hơn, được đưa vào giai đoạn đầu tiên. Ngay khi Giai đoạn 1 xử lý xong một micro-batch, nó sẽ chuyển đầu ra activations sang Giai đoạn 2 và ngay lập tức bắt đầu micro-batch tiếp theo. Điều này tạo ra một "đường ống" tính toán, về mặt lý thuyết giữ cho tất cả các giai đoạn luôn bận rộn. PP là giải pháp khả thi duy nhất cho các mô hình quá lớn ngay cả đối với một node đã được TP mở rộng, vì vậy cộng đồng đã đầu tư mạnh vào các bộ lập lịch phức tạp để làm cho nó hoạt động.

Những cái giá phải trả: nơi Pipelining bộc lộ điểm yếu

Trong khi PP mở ra một quy mô AI mới, kinh nghiệm thực tế của chúng tôi cho thấy nó đi kèm với một cái giá đắt đỏ về hiệu quả và sự phức tạp, một cái giá thường bị đánh giá thấp.

Chi phí rõ ràng nhất là "pipeline bubble". Giống như một dây chuyền lắp ráp vật lý, đường ống cần thời gian để lấp đầy ở đầu và rút cạn ở cuối, trong thời gian đó nhiều chip tăng tốc đắt tiền hoàn toàn không hoạt động. Điều này làm giảm trực tiếp Model FLOPs Utilization (MFU) - chỉ số chính của chúng tôi về hiệu quả đào tạo. Một MFU là 45% trên một mô hình được pipelined lớn thường được coi là chấp nhận được, điều đó có nghĩa là chúng ta đang lãng phí hơn một nửa ngân sách tính toán của mình.

Các vấn đề trở nên sâu sắc hơn với các kiến trúc mô hình tinh vi hơn. Trong công việc của chúng tôi về các mô hình tài chính, việc ổn định quá trình đào tạo các mạng sâu đòi hỏi các hàm mất mát phụ trợ. Đây là các hàm mất mát bổ sung được gắn vào các layer trung gian cung cấp thêm tín hiệu gradient trong quá trình backpropagation, ngăn chặn vấn đề vanishing gradient đáng sợ. Trong một thiết lập pipelined, đây là một cơn ác mộng. Để tính toán một hàm mất mát phụ trợ, đường ống phải được làm sạch hoàn toàn cho đến điểm đó - một mô hình đồng bộ hóa thường được gọi là "all f all b" (tất cả forward, tất cả backward). Điều này buộc tất cả các micro-batch đang hoạt động phải hoàn thành lượt forward của chúng trước khi hàm mất mát có thể được tính toán và lượt backward có thể bắt đầu. Điều này không chỉ tạo lại bubble giữa chừng đào tạo mà còn gây ra sự tăng vọt lớn trong mức sử dụng bộ nhớ đỉnh, vì activations từ mọi micro-batch phải được lưu trữ cho đến khi lượt backward được kích hoạt.

Hơn nữa, còn có thách thức về cân bằng tải. Việc chia các layer một cách đơn giản có thể dẫn đến việc một giai đoạn có nhiều công việc hơn đáng kể so với các giai đoạn khác. "Đường ống dài" này sẽ quyết định tốc độ tổng thể, khiến các giai đoạn khác bị nhàn rỗi. Các kỹ thuật tiên tiến như PPVP (Pipeline Parallelism with Variable Partitioning) cố gắng giải quyết vấn đề này bằng cách phân tích phức tạp biểu đồ tính toán, nhưng điều này lại thêm một lớp phức tạp khác. Việc gỡ lỗi một mô hình sử dụng kết hợp DP, TP và PPVP cực kỳ khó khăn, làm chậm quá trình nghiên cứu và phát triển - một nút thắt cổ chai quan trọng trong các ngành phát triển nhanh như viễn thông và tài chính.

Thay đổi mô hình: Khi băng thông trở thành giải pháp

Lý do cốt lõi để chấp nhận tất cả sự phức tạp của PP là giả định rằng thao tác All-Reduce trong DP quá chậm và không thể mở rộng. Giả định đó giờ đã lỗi thời.

Cơ sở hạ tầng hiện đại, dù là các TPU pods của Google hay các hệ thống doanh nghiệp được xây dựng trên nền tảng NVIDIA's NVL72, đều có băng thông kết nối liên tục phi thường. Đây không chỉ là những cải tiến gia tăng; chúng là những bước nhảy vọt về cấp độ, thay đổi cơ bản phân tích chi phí-lợi ích của parallelism.

So sánh tốt nhất là về logistics. Nếu vận chuyển một container đi khắp đất nước mất một tháng, bạn sẽ xây dựng các nhà kho và hệ thống xử lý phức tạp (Pipeline Parallelism) để quản lý dòng chảy. Nhưng nếu một công nghệ mới cho phép bạn dịch chuyển tức thời container đó, bạn sẽ loại bỏ hệ thống kho bãi phức tạp và chỉ gửi mọi thứ trực tiếp (Data Parallelism). Kết nối tốc độ cao chính là công nghệ dịch chuyển tức thời đó cho dữ liệu.

Tại BnK, đây là một yếu tố thay đổi cuộc chơi. Khi đào tạo các mô hình ngôn ngữ lớn trên dữ liệu khách hàng ngân hàng cho các ứng dụng agentic AI quan trọng, chiến lược của chúng tôi hiện được quyết định bởi cấu trúc phần cứng.

Trên các cụm băng thông cao của chúng tôi, chúng tôi đã đào tạo thành công các mô hình với hàng trăm tỷ tham số bằng cách gần như hoàn toàn tránh PP. Chiến lược ưu tiên của chúng tôi hiện nay là sử dụng TP để chứa một bản sao mô hình trong một node tốc độ cao, và sau đó mở rộng cấu hình đó ra hàng trăm node bằng cách sử dụng một domain DP khổng lồ. Thao tác All-Reduce vẫn đòi hỏi nhiều giao tiếp, nhưng trên một mạng lưới được thiết kế tốt, giờ đây nó nhanh hơn và hiệu quả hơn so với sự lãng phí được đảm bảo từ các "bubble" và tắc nghẽn của một đường ống phức tạp.

Kết quả rất rõ ràng. Chúng tôi liên tục đạt được MFU cao hơn 60%, và đôi khi còn cao hơn nữa. Đối với khách hàng của chúng tôi, điều này trực tiếp mang lại lợi thế cạnh tranh: tốc độ lặp lại mô hình nhanh hơn, thời gian đưa ra thị trường nhanh hơn cho các tính năng mới được hỗ trợ bởi AI và tổng chi phí đào tạo thấp hơn đáng kể.

Kết luận: Kỷ nguyên mới của AI "nhận thức" phần cứng

Hành trình mở rộng AI đã đưa chúng ta từ sự đơn giản của Data Parallelism đến sự phức tạp tất yếu của Pipeline Parallelism. Giờ đây, những tiến bộ trong phần cứng đang dẫn chúng ta trở lại một sự đơn giản mạnh mẽ, hiệu quả và thanh lịch hơn. Tương lai của kỹ thuật AI ưu tú không nằm ở việc làm chủ thuật toán lập lịch phức tạp nhất, mà ở việc thấu hiểu sâu sắc sự tương tác giữa mô hình, hệ thống phần mềm và phần cứng vật lý.

Từ kinh nghiệm trong các ngành đòi hỏi khắt khe, chúng tôi tin rằng đổi mới thực sự trong AI đến từ sự đồng thiết kế hệ thống có ý thức về phần cứng. Đôi khi, thuật toán mạnh nhất không phải là một hàm tối ưu hóa mới, mà chính là hàng terabits mỗi giây băng thông đang âm thầm luân chuyển giữa các bộ xử lý của bạn. Bằng cách tận dụng sức mạnh đó, chúng ta có thể xây dựng thế hệ AI tiếp theo thông minh hơn, nhanh hơn và hiệu quả hơn, biến sức mạnh tính toán thô thành giá trị kinh doanh thực sự.

 

How can we help you? Contacts Us