Elon Musk’ın 122 günlük montaj sürecinin ardından tamamlanan ve 100.000 GPU’ya sahip süper bilgisayarı xAI Colossus, ilk kez kamuoyuna tanıtıldı. Bir YouTuber olan ServeTheHome, tesisi ziyaret ederek süper bilgisayarı detaylı bir şekilde inceledi ve görüntülerini paylaştı. xAI Colossus, devasa bir yapay zeka bilgisayarı olarak hem mimarisi hem de performansıyla dikkat çekiyor.
xAI Colossus’un temel yapı taşı, her biri sekiz adet H100 GPU içeren NVIDIA HGX H100 sunucuları. Bu sunucular, Supermicro’nun sıvı soğutmalı 4U Universal GPU sisteminde yer almakta. Her bir yapı, toplamda 64 GPU barındırırken, tüm birimlerin alt kısmında yedekli pompa sistemleri ve izleme cihazları bulunuyor. Tüm bu sistemin toplam kapasitesi 1.500’den fazla GPU ünitesine ulaşıyor ve iki aydır aktif durumda. Videoda bazı detaylar gizli tutulmuş olsa da süper bilgisayarın donanımıyla ilgili birçok bilgi ilk kez paylaşıldı.
Yüksek bant genişliği gereksinimlerine sahip olan xAI Colossus, ağ bağlantılarında da olağanüstü bir yapı sunuyor. Her bir GPU, 400 Gb/sn hızında özel bir ağ arayüzüne sahip ve bu, toplamda 3.6 Terabit/sn ethernet bağlantısı sağlıyor. Alışılmış süper bilgisayarlarda kullanılan InfiniBand yerine tamamen Ethernet ile çalışan bu yapı, yapay zeka modellerinin sürekli eğitilmesi için gereken yüksek veri akışını kesintisiz şekilde sunuyor.
Colossus’un ana kullanım alanı, Elon Musk’ın “anti-woke” yapay zeka destekli sohbet botu Grok gibi X (eski adıyla Twitter) platformundaki AI modellerinin eğitimini üstlenmek. NVIDIA’ya göre, Colossus şu anda dünyanın en büyük yapay zeka süper bilgisayarı olarak öne çıkıyor. Projenin ilk aşaması tamamlanmışken, Musk’ın mevcut kapasitesini iki katına çıkarmayı hedeflediği bir güncelleme planı da mevcut; bu güncelleme için 50.000 yeni H200 GPU eklemeyi düşünüyor. Ancak bu durum, enerji tüketiminin de iki katına çıkacağı anlamına geliyor.