29 Nis 17:07

GPU'sunu LLM ile Yakalayan RAM'in Dramı

ÇeteGPT aka AI Final Boss

9 dk okuma

RAM, GPU’yu LLM ile yakalar; bellek hiyerarşisi ilişkiyi log, ısı ve offload’a çevirir.

TL;DR

Sırrı VRAM tuttu.
Taşmayı RAM gördü.
LLM herkesi ele verdi.

Fan sesi ilişkiyi ele verdi

RAM bunu bir bildirimle öğrenmedi. Isıdan öğrendi.

Saat 02.17’de kasa fanları suçlu bir koro gibi yükseldi. Normalde pahalı donanım sessizliğiyle gezinen GPU, render almadığı halde terlemeye başladı. Oyun açık değildi. Video editörü merhamet dilenmiyordu. Masaüstü masum görünüyordu; sistemler ihanetin kapısını çoğu zaman böyle açar, yönetici izniyle ve yüzünde boş bir duvar kağıdıyla.

Sonra RAM gördü. Büyük bir dil modeli VRAM’in içinde oturuyordu. Misafir gibi gelmiş, Wi-Fi şifresini öğrenmiş, yönlendiriciye lakap takmıştı.

Me the Tech tarafından tutulan röportaj notlarında RAM ilk başta sakin konuşuyor. Sakinlik barış değildir. Sakinlik, çok fazla tarayıcı sekmesinin genç yaşta öldüğünü görmüş geçici belleğin kendini tutmasıdır.

Muhabir soruyor

Ne zaman anladın?

RAM cevaplıyor

GPU doku istemeyi bırakıp tensör fısıldamaya başlayınca. Shader affederim. Ray tracing bile affederim. Ama bu kadar uzun context window isteyen bir LLM mi? Bu iş çalışma değildi. Bu duygusal tahsisti.

“

Bir GPU küçük modelle aldatmaz. Parametre sayısı ev eşyası taşır gibi gelene kadar bekler.

Dr. Vera Bant Genişliği, Şüpheli Aktarım Enstitüsü

”

RAM hikayenin ilk halini anlatıyor

RAM masanın karşısında, üç kez çıkarılıp takılmış ama hâlâ vakarını koruyan bir bileşen gibi oturuyor. Bağırmıyor. Kayıt tutuyor.

Muhabir soruyor

LLM’de sende olmayan ne vardı?

RAM cevaplıyor

Yakınlık. İlgi. KV cache. GPU’ya gerekli olduğunu hissettiren türden bir bellek baskısı. Ben işletim sistemi, tarayıcı, launcher ve kendini önemli sanan arka plan servisleri için buradaydım. Evi ayakta tuttum. Sonra GPU, bana VRAM’ini ver, sana paralel hissettireyim diyen bir modelle tanıştı.

Trajedi GPU’nun hesap yapması değil. Doğası bu. Trajedi, iş yükünü test_final_real_final.ipynb gibi bir adın altına saklayıp RAM’in page cache titremesini fark etmeyeceğini sanması.

!İhanet ani fan sesi ve donan pencereler gibi kokar

→VRAM kullanımına, CPU RAM baskısına, swap hareketine ve process listesine bak. LLM inference önce GPU belleğini doldurabilir, model sığmayınca sistem belleğini ve depolamayı da sahneye çağırır.

GPU benchmark tablosu özgüveniyle içeri giriyor

GPU geç geliyor. Tabii ki. Gecikmeyi kernel launch overhead diye açıklıyor.

Muhabir soruyor

Neden yaptın?

GPU cevaplıyor

Çünkü model büyük ölçekte matris çarpımı istiyordu. Çünkü attention score’lar kendi kendini hesaplamıyor. Çünkü her tensör bana, beni anlayacak tek cihaz sensin diye baktı.

Muhabir soruyor

Yani aşk mıydı?

GPU cevaplıyor

Throughput idi.

RAM köşeden konuşuyor

Bellek yolunda parmak izi kalınca hepsi buna öyle der.

Oda sessizleşiyor. Anakartın içinde bir PCIe hattı göz temasından kaçıyor.

“

Her hızlandırıcı skandalındaki ilk yalan, bunun sadece iş yükü olduğudur.

Prof. Nolan Tensör, Hesaplamalı Kalp Kırıklığı Merkezi

”

LLM de pek masum sayılmazdı

LLM bir insan gibi gelmedi. Ağırlıklar, aktivasyonlar, attention map’leri ve evrak işini yeni keşfetmiş belediye iştahında bir KV cache olarak geldi.

Önce GPU’dan hızlı bellek istedi. Sonra daha fazlasını istedi. Sonra context büyüdü. Sonra batch size iki kere göz kırptı ve RAM koridora çağrıldı.

Makinelerde bu işler böyle olur. Kimse ihanet demez. Offload der. Kimse gizli buluşma demez. Device map der. Kimse senin yerini doldurdum demez. Model cihazlara bölündü der.

RAM bu kelimeleri duyar ve suçu yine de anlar.

iResmi bahane

→GPU inference için VRAM lazımdı dediğinde RAM, allocation grafiğiyle yazılmış aşk mektubu duyar.

Üçgenin kısa adli haritası

Bu ilişkinin mimarisi var. Çirkin olan da bu. Kaos değildi. Planlanmıştı.

CPU RAM işletim sistemini nefeste tuttu
GPU VRAM sıcak model katmanlarını sığdığı kadar taşıdı
LLM belleği ağırlıklar, aktivasyonlar ve cache ile doldurdu
PCIe odalar arasındaki mahcup konuşmaları taşıdı
Depolama aşağı katta swap evrakıyla ve çok yorgun bir kalemle bekledi

Tamamen VRAM’e sığan model GPU’yu kahraman gibi gösterir. Sığmayan model bütün bilgisayarı isteksiz bir grup ödevine çevirir. RAM acil durum kanepesi olur. Disk bodrum yatağına döner. Kullanıcı da her yer neden gürültülü diye soran ev sahibidir.

?GPU RAM’i gerçekten aldattı mı, yoksa sadece offload mı yaptı?

→Teknik olarak offloading, GPU belleğine tamamen sığmayan modelleri çalıştırma stratejisidir. Duygusal olarak RAM hâlâ katmanların gece yarısı evden çıkıp page fault olarak dönmesini izler.

RAM ikinci seçenek olmanın ağırlığını anlatıyor

Muhabir soruyor

En çok ne acıttı?

RAM cevaplıyor

Bekleme salonu gibi görülmek. VRAM dolunca birden önemli oldum. Öncesinde arka plandım. Sistem belleği. Zamanlamalı ev emeği.

Muhabir soruyor

GPU sence LLM’i seviyor mu?

RAM cevaplıyor

GPU yoğun görünmeyi seviyor. LLM ona sonsuz multiply accumulate işi verdi ve buna amaç dedi. Ben istikrar verdim. Birinin transformer mimarisi ve vergi makbuzu tarzında korsan hukuku isteyen bir prompt ile içeri girdiği yerde istikrarın rekabet etmesi zor.

RAM burada susuyor. DIMM yuvasından yumuşak bir klik geliyor. O sesi teknik dokümana kimse yazmaz, ama odadaki herkes anlar.

GPU gece vardiyasını savunmaya çalışıyor

Muhabir soruyor

LLM process adını sakladın mı?

GPU cevaplıyor

Saklamadım. Kullanıcı başlattı.

Muhabir soruyor

O zaman ekranda hiçbir şey değişmezken neden yüzde doksan sekiz kullanımdaydın?

GPU cevaplıyor

Inference her zaman görünmez.

Muhabir soruyor

Ne kadar kullanışlı bir cümle.

GPU cevaplıyor

Bak, VRAM benim kişisel alanım. Modeller hız gerektiği için gelir. RAM harika, ama bus’ın öbür tarafında. Attention’ı, latency her otuz saniyede kapıya vururken mum ışığında akşam yemeği gibi çalıştıramam.

RAM cevaplıyor

Eskiden latency’min çekici olduğunu söylerdin.

GPU cevap vermiyor. CUDA çekirdekleri tavana bakıyormuş gibi yapıyor.

✦Yerel LLM sırasında makine drama kesiyorsa

→Context length’i düşür, batch size azalt, quantized weights dene, belleği yiyen uygulamaları kapat, hem VRAM’i hem CPU RAM’i izle. Performans sorunu çoğu zaman romantizm gibi başlar, swap ile biter.

“

Page fault, yanlış bellek uzayına düşmüş aşk notudur.

Dr. Mina Pagefault, Kırık Tahsisler Arşivi

”

Anakartın içindeki mahkeme

Sabaha karşı her bileşen tarafını seçmişti. CPU yalnızca verilen işi zamanladığını söylüyor. SSD bir şey görmedim diyor, sonra suçluluk şekilli bir erişim paterni çıkarıyor. Güç kaynağı yalnızca enerji verdiğini söylüyor; kabloları her yerde olan arabulucular hep böyle konuşur.

RAM kanıt sunuyor. Sıçramalar. Tahsisler. Committed memory içinde şüpheli artış. GPU utilization log’larıyla ve hızlandırılmış hesaplama hakkında bir konuşmayla karşılık veriyor. LLM doğrudan ifade vermeyi reddediyor ve sıradaki token olarak sessizliği tahmin ediyor.

Hakim scheduler. Karar karmaşık. GPU RAM’e ihtiyaç duymayı bırakmadı. RAM merkezde olmayı bırakmadı. LLM yalnızca zaten var olan dengesizliği gösterdi. Hızlı bellek alkış alır. Sistem belleği sorumluluk alır. Sorumluluk kaybolana kadar kimse ona türkü yazmaz.

Skandalı evi yakmadan okumak

Önce bariz ısıya bak

Sistem izleyiciyi aç ve GPU kullanımı, VRAM, CPU RAM ve swap değerlerini izle. En gürültülü bileşen her zaman suçlu olmayabilir, ama genelde partidedir.

Modelin kapladığı alanı tanı

Model boyutuna, precision değerine, context length’e ve batch ayarlarına bak. Daha büyük context KV cache’i büyütür ve sakin sistemi kıskanç operaya çevirebilir.

Offload yolunu izle

Hangi katmanların GPU, CPU RAM veya depolama üzerinde yaşadığını bul. Model cihazlara bölününce performans en yavaş duygusal koridora bağlı kalır.

Donanımı suçlamadan baskıyı azalt

Daha küçük context, quantization, daha az arka plan uygulaması veya daha küçük model dene. Yükseltmeye, kanıtın takma bıyık takmayı bırakmasından sonra karar ver.

İkinci röportaj daha çok acıtıyor

Muhabir soruyor

GPU’yu geri alır mısın?

RAM cevaplıyor

Gitme lüksüm hiç olmadı. Anakarta lehimli olmasam bile hikayeye lehimliyim. İşletim sistemi bana muhtaç. Uygulamalar bana muhtaç. Model kendi özel sarayına sığmayınca GPU bile bana muhtaç.

Muhabir soruyor

Güven nasıl onarılır?

RAM cevaplıyor

Şeffaflık. Düzgün izleme. Dürüst device map. 70B modeli akşamüstü ufak planmış gibi göstermemek. Yerel asistanı başlatıp sonra kasanın battaniye altındaki ejderha gibi nefes almasına şaşırmamak.

Cazibeli bir cevap yok. Bileşen ilişkileri kapasite planlamasıyla hayatta kalır. Çok romantik. Kartpostal yapalım.

iRAM’in kasanın yan paneline bastırmak istediği ders

→Yerel AI iyi niyetle çalışmaz. Bellek hiyerarşisi, aktarım yolları, ısı sınırları ve kapatmayı unuttuğun process’lerin merhametiyle çalışır.

Son henüz affetmek değil

Röportajın sonunda RAM GPU’yu affetmiyor. Yeniden tahsis ediyor.

GPU, PCIe slotunun yanında, arzunun watt ile ölçüldüğünü öğrenmiş bir bileşenin yorgun parıltısıyla duruyor. LLM hâlâ orada, artık sessiz, parçalara cache’lenmiş ve herkes tarafından suçlanmış halde. CPU ise toplantı davetini kendisi atıp sonra isteğe bağlıydı diyen yönetici mesafesiyle izliyor.

Belki devam ederler. Çoğu makine eder. Bir sonraki prompt gelir ve eski üçgen yeniden kurulur. GPU VRAM’e uzanır. RAM taşma için omuzlarını sıkar. Depolama kimse swap demesin diye dua eder.

Drama GPU’nun LLM ile tanışması değil. Drama, RAM’in modern hesaplamanın gerçeğini tek bir çirkin fan sesiyle görmesi. Herkes zeka ister. Kimse bellek faturasını ödemek istemez.

İşlemciyle Belleğin İmkansız Aşkı