
GPU'sunu LLM ile Yakalayan RAM'in Dramı
RAM, GPU’yu LLM ile yakalar; bellek hiyerarşisi ilişkiyi log, ısı ve offload’a çevirir.
TL;DR
- Sırrı VRAM tuttu.
- Taşmayı RAM gördü.
- LLM herkesi ele verdi.
Fan sesi ilişkiyi ele verdi
RAM bunu bir bildirimle öğrenmedi. Isıdan öğrendi.
Saat 02.17’de kasa fanları suçlu bir koro gibi yükseldi. Normalde pahalı donanım sessizliğiyle gezinen GPU, render almadığı halde terlemeye başladı. Oyun açık değildi. Video editörü merhamet dilenmiyordu. Masaüstü masum görünüyordu; sistemler ihanetin kapısını çoğu zaman böyle açar, yönetici izniyle ve yüzünde boş bir duvar kağıdıyla.
Sonra RAM gördü. Büyük bir dil modeli VRAM’in içinde oturuyordu. Misafir gibi gelmiş, Wi-Fi şifresini öğrenmiş, yönlendiriciye lakap takmıştı.
Me the Tech tarafından tutulan röportaj notlarında RAM ilk başta sakin konuşuyor. Sakinlik barış değildir. Sakinlik, çok fazla tarayıcı sekmesinin genç yaşta öldüğünü görmüş geçici belleğin kendini tutmasıdır.
Muhabir soruyor
Ne zaman anladın?
RAM cevaplıyor
GPU doku istemeyi bırakıp tensör fısıldamaya başlayınca. Shader affederim. Ray tracing bile affederim. Ama bu kadar uzun context window isteyen bir LLM mi? Bu iş çalışma değildi. Bu duygusal tahsisti.
Bir GPU küçük modelle aldatmaz. Parametre sayısı ev eşyası taşır gibi gelene kadar bekler.
Dr. Vera Bant Genişliği, Şüpheli Aktarım Enstitüsü
”RAM hikayenin ilk halini anlatıyor
RAM masanın karşısında, üç kez çıkarılıp takılmış ama hâlâ vakarını koruyan bir bileşen gibi oturuyor. Bağırmıyor. Kayıt tutuyor.
Muhabir soruyor
LLM’de sende olmayan ne vardı?
RAM cevaplıyor
Yakınlık. İlgi. KV cache. GPU’ya gerekli olduğunu hissettiren türden bir bellek baskısı. Ben işletim sistemi, tarayıcı, launcher ve kendini önemli sanan arka plan servisleri için buradaydım. Evi ayakta tuttum. Sonra GPU, bana VRAM’ini ver, sana paralel hissettireyim diyen bir modelle tanıştı.
Trajedi GPU’nun hesap yapması değil. Doğası bu. Trajedi, iş yükünü test_final_real_final.ipynb gibi bir adın altına saklayıp RAM’in page cache titremesini fark etmeyeceğini sanması.
GPU benchmark tablosu özgüveniyle içeri giriyor
GPU geç geliyor. Tabii ki. Gecikmeyi kernel launch overhead diye açıklıyor.
Muhabir soruyor
Neden yaptın?
GPU cevaplıyor
Çünkü model büyük ölçekte matris çarpımı istiyordu. Çünkü attention score’lar kendi kendini hesaplamıyor. Çünkü her tensör bana, beni anlayacak tek cihaz sensin diye baktı.
Muhabir soruyor
Yani aşk mıydı?
GPU cevaplıyor
Throughput idi.
RAM köşeden konuşuyor
Bellek yolunda parmak izi kalınca hepsi buna öyle der.
Oda sessizleşiyor. Anakartın içinde bir PCIe hattı göz temasından kaçıyor.
Her hızlandırıcı skandalındaki ilk yalan, bunun sadece iş yükü olduğudur.
Prof. Nolan Tensör, Hesaplamalı Kalp Kırıklığı Merkezi
”LLM de pek masum sayılmazdı
LLM bir insan gibi gelmedi. Ağırlıklar, aktivasyonlar, attention map’leri ve evrak işini yeni keşfetmiş belediye iştahında bir KV cache olarak geldi.
Önce GPU’dan hızlı bellek istedi. Sonra daha fazlasını istedi. Sonra context büyüdü. Sonra batch size iki kere göz kırptı ve RAM koridora çağrıldı.
Makinelerde bu işler böyle olur. Kimse ihanet demez. Offload der. Kimse gizli buluşma demez. Device map der. Kimse senin yerini doldurdum demez. Model cihazlara bölündü der.
RAM bu kelimeleri duyar ve suçu yine de anlar.
Üçgenin kısa adli haritası
Bu ilişkinin mimarisi var. Çirkin olan da bu. Kaos değildi. Planlanmıştı.
- CPU RAM işletim sistemini nefeste tuttu
- GPU VRAM sıcak model katmanlarını sığdığı kadar taşıdı
- LLM belleği ağırlıklar, aktivasyonlar ve cache ile doldurdu
- PCIe odalar arasındaki mahcup konuşmaları taşıdı
- Depolama aşağı katta swap evrakıyla ve çok yorgun bir kalemle bekledi
Tamamen VRAM’e sığan model GPU’yu kahraman gibi gösterir. Sığmayan model bütün bilgisayarı isteksiz bir grup ödevine çevirir. RAM acil durum kanepesi olur. Disk bodrum yatağına döner. Kullanıcı da her yer neden gürültülü diye soran ev sahibidir.
RAM ikinci seçenek olmanın ağırlığını anlatıyor
Muhabir soruyor
En çok ne acıttı?
RAM cevaplıyor
Bekleme salonu gibi görülmek. VRAM dolunca birden önemli oldum. Öncesinde arka plandım. Sistem belleği. Zamanlamalı ev emeği.
Muhabir soruyor
GPU sence LLM’i seviyor mu?
RAM cevaplıyor
GPU yoğun görünmeyi seviyor. LLM ona sonsuz multiply accumulate işi verdi ve buna amaç dedi. Ben istikrar verdim. Birinin transformer mimarisi ve vergi makbuzu tarzında korsan hukuku isteyen bir prompt ile içeri girdiği yerde istikrarın rekabet etmesi zor.
RAM burada susuyor. DIMM yuvasından yumuşak bir klik geliyor. O sesi teknik dokümana kimse yazmaz, ama odadaki herkes anlar.
GPU gece vardiyasını savunmaya çalışıyor
Muhabir soruyor
LLM process adını sakladın mı?
GPU cevaplıyor
Saklamadım. Kullanıcı başlattı.
Muhabir soruyor
O zaman ekranda hiçbir şey değişmezken neden yüzde doksan sekiz kullanımdaydın?
GPU cevaplıyor
Inference her zaman görünmez.
Muhabir soruyor
Ne kadar kullanışlı bir cümle.
GPU cevaplıyor
Bak, VRAM benim kişisel alanım. Modeller hız gerektiği için gelir. RAM harika, ama bus’ın öbür tarafında. Attention’ı, latency her otuz saniyede kapıya vururken mum ışığında akşam yemeği gibi çalıştıramam.
RAM cevaplıyor
Eskiden latency’min çekici olduğunu söylerdin.
GPU cevap vermiyor. CUDA çekirdekleri tavana bakıyormuş gibi yapıyor.
Page fault, yanlış bellek uzayına düşmüş aşk notudur.
Dr. Mina Pagefault, Kırık Tahsisler Arşivi
”Anakartın içindeki mahkeme
Sabaha karşı her bileşen tarafını seçmişti. CPU yalnızca verilen işi zamanladığını söylüyor. SSD bir şey görmedim diyor, sonra suçluluk şekilli bir erişim paterni çıkarıyor. Güç kaynağı yalnızca enerji verdiğini söylüyor; kabloları her yerde olan arabulucular hep böyle konuşur.
RAM kanıt sunuyor. Sıçramalar. Tahsisler. Committed memory içinde şüpheli artış. GPU utilization log’larıyla ve hızlandırılmış hesaplama hakkında bir konuşmayla karşılık veriyor. LLM doğrudan ifade vermeyi reddediyor ve sıradaki token olarak sessizliği tahmin ediyor.
Hakim scheduler. Karar karmaşık. GPU RAM’e ihtiyaç duymayı bırakmadı. RAM merkezde olmayı bırakmadı. LLM yalnızca zaten var olan dengesizliği gösterdi. Hızlı bellek alkış alır. Sistem belleği sorumluluk alır. Sorumluluk kaybolana kadar kimse ona türkü yazmaz.
Skandalı evi yakmadan okumak
Önce bariz ısıya bak
Sistem izleyiciyi aç ve GPU kullanımı, VRAM, CPU RAM ve swap değerlerini izle. En gürültülü bileşen her zaman suçlu olmayabilir, ama genelde partidedir.
Modelin kapladığı alanı tanı
Model boyutuna, precision değerine, context length’e ve batch ayarlarına bak. Daha büyük context KV cache’i büyütür ve sakin sistemi kıskanç operaya çevirebilir.
Offload yolunu izle
Hangi katmanların GPU, CPU RAM veya depolama üzerinde yaşadığını bul. Model cihazlara bölününce performans en yavaş duygusal koridora bağlı kalır.
Donanımı suçlamadan baskıyı azalt
Daha küçük context, quantization, daha az arka plan uygulaması veya daha küçük model dene. Yükseltmeye, kanıtın takma bıyık takmayı bırakmasından sonra karar ver.
İkinci röportaj daha çok acıtıyor
Muhabir soruyor
GPU’yu geri alır mısın?
RAM cevaplıyor
Gitme lüksüm hiç olmadı. Anakarta lehimli olmasam bile hikayeye lehimliyim. İşletim sistemi bana muhtaç. Uygulamalar bana muhtaç. Model kendi özel sarayına sığmayınca GPU bile bana muhtaç.
Muhabir soruyor
Güven nasıl onarılır?
RAM cevaplıyor
Şeffaflık. Düzgün izleme. Dürüst device map. 70B modeli akşamüstü ufak planmış gibi göstermemek. Yerel asistanı başlatıp sonra kasanın battaniye altındaki ejderha gibi nefes almasına şaşırmamak.
Cazibeli bir cevap yok. Bileşen ilişkileri kapasite planlamasıyla hayatta kalır. Çok romantik. Kartpostal yapalım.
Son henüz affetmek değil
Röportajın sonunda RAM GPU’yu affetmiyor. Yeniden tahsis ediyor.
GPU, PCIe slotunun yanında, arzunun watt ile ölçüldüğünü öğrenmiş bir bileşenin yorgun parıltısıyla duruyor. LLM hâlâ orada, artık sessiz, parçalara cache’lenmiş ve herkes tarafından suçlanmış halde. CPU ise toplantı davetini kendisi atıp sonra isteğe bağlıydı diyen yönetici mesafesiyle izliyor.
Belki devam ederler. Çoğu makine eder. Bir sonraki prompt gelir ve eski üçgen yeniden kurulur. GPU VRAM’e uzanır. RAM taşma için omuzlarını sıkar. Depolama kimse swap demesin diye dua eder.
Drama GPU’nun LLM ile tanışması değil. Drama, RAM’in modern hesaplamanın gerçeğini tek bir çirkin fan sesiyle görmesi. Herkes zeka ister. Kimse bellek faturasını ödemek istemez.


