Kendi Sunucunuzda Yapay Zeka Uygulamaları: Kapsamlı Rehber

Yapay zeka modellerini kendi sunucunuzda çalıştırmak, bulut bağımlılığını ortadan kaldırmanın yanı sıra veri gizliliği, maliyet kontrolü ve özelleştirme esnekliği açısından ciddi avantajlar sunar. Ancak bu süreç, donanım seçimiyle başlayıp güvenlik duvarı kurallarına kadar uzanan bir dizi teknik kararı zorunlu kılar. Bu rehberde, hangi donanımın hangi iş yükü için yeterli olduğunu, hangi açık kaynak platformunun hangi senaryoda mantıklı kaldığını, ilk kurulumdan üretim ortamına geçişte karşılaşabileceğiniz darboğazları ve bunlara karşı pratik çözümleri ele alacağız. Amacımız, "AI hostlamak istiyorum" düşüncesinden çalışan ve güvenli bir sisteme geçiş sürecini adım adım somutlaştırmak.

Self-Hosted Yapay Zekânın Temel Gerekçeleri

Bulut tabanlı yapay zeka hizmetleri kullanışlıdır; ancak her istek başına ücretlendirme, verilerin üçüncü taraf sunucularında işlenmesi ve model davranışını özelleştirememe gibi sınırlar taşır. Kendi sunucunuzda model çalıştırdığınızda, verileriniz şirket ağınızdan dışarı çıkmaz. Özellikle sağlık, hukuk ve finans gibi düzenlemelere tabi sektörlerde bu yalnızca bir tercih değil, yasal bir zorunluluk olabilir. Maliyet açısından bakıldığında, aylık ortalama 500 bin üzeri token tüketen bir ekip için OpenAI veya benzeri API maliyeti yıllık 10 bin doları aşabilir; oysa tek seferlik 3–4 bin dolarlık bir donanım yatırımı aynı iş yükünü yıllarca karşılayabilir. Karar verirken şunu sorun: Kullandığınız modeli haftada en az dört gün aktif olarak çalıştırıyor musunuz? Eğer öyleyse, self-hosting maliyet avantajı açısından erken kırılma noktasına ulaşır. Gizlilik kaygınız yoksa bile, kendi sunucunuzda deney yapma özgürlüğü—modeli ince ayarlamak, farklı parametrelerle test etmek—bulut platformlarında çoğu zaman mümkün değildir.

Donanım Planlaması: GPU, Bellek ve Depolama Dengesi

Self-hosted yapay zeka denince akla ilk gelen bileşen GPU'dur, ancak asıl darboğaz çoğu zaman VRAM boyutunda yaşanır. 7B parametreli bir model (örneğin Llama 3 8B) 4-bit nicelleştirmeyle yaklaşık 4 GB VRAM tüketirken, 70B parametreli bir model aynı yöntemle 40 GB'ı aşar. Tüketici sınıfı bir NVIDIA RTX 4060 Ti 16 GB kart, 13B'ye kadar modelleri makul hızda çalıştırabilir; ancak 70B sınıfı için en az çift RTX 3090 ya da tek bir A100 gerekir. Sistem RAM'i, model yüklenirken belleğe alınan ağırlıkları barındırmak için GPU VRAM'inin en az iki katı olmalıdır—aksi takdirde swap kullanımı ciddi gecikmelere yol açar. Depolama tarafında, Hugging Face üzerinden indirilen model dosyaları hızla yüzlerce gigabaytı bulur; bu nedenle NVMe SSD tercih edilmelidir. Mikro örnek: Bir geliştirme ekibi, 13B modeli tek bir RTX 4070 Ti üzerinde günde ortalama 2 saat çalıştırarak aylık Cloud API harcamasını 1.200 dolardan sıfıra indirdi; donanım maliyeti ise toplam 1.800 dolar olarak gerçekleşti ve yatırım kendini ikinci ayda amorti etti.

Platform Seçimi: Ollama, vLLM, LocalAI ve Arasındaki Farklar

Açık kaynaklı self-hosted AI ekosistemi hızla genişliyor; ancak her platform farklı bir kullanım senaryosuna hitap eder. Ollama, tek sunuculu kurulumlar ve kişisel kullanım için en düşük giriş eşiğini sunar—"ollama run llama3" komutuyla dakikalar içinde çalışan bir model elde edersiniz. Ancak Ollama varsayılan olarak tek istek üzerine optimize edilir; eş zamanlı birden fazla kullanıcıya hizmet vermek istiyorsanız darboğaz yaşarsınız. vLLM, yüksek throughput ve eş zamanlılık gerektiren üretim ortamları için tasarlanmıştır; PagedAttention mekanizması sayesinde bellek kullanımını %60'a varan oranda optimize eder. LocalAI ise OpenAI ile uyumlu bir API sunarak mevcut uygulamalarınızda kod değişikliği olmadan geçiş yapmanızı sağlar. Karar kriteri nettir: Kişisel deney veya küçük ekip kullanımı için Ollama, API uyumluluğu arıyorsanız LocalAI, üretimde yüksek eş zamanlılık gerekiyorsa vLLM seçin. Dikkat edilmesi gereken gizli risk, vLLM'in CUDA 11.8+ gerektirmesidir; eski sürücüler sessizce başarısız olur ve hata mesajları yanıltıcıdır.

Kurulumdan Üretime: Dağıtım ve Konfigürasyon Adımları

Modeli sunucuya indirip çalıştırmak, üretimin yalnızca ilk adımıdır. Gerçek dünya senaryosunda dört kritik yapılandırma katmanı vardır. Birincisi, ters proxy: Nginx veya Caddy üzerinden HTTPS sertifikasıyla erişim sağlamak, hem güvenliği hem de alan adı bazlı yönlendirmeyi mümkün kılar. İkincisi, yetkilendirme: Varsayılan Ollama kurulumu kimlik doğrulaması gerektirmez; bu, dahili ağda bile potansiyel bir güvenlik açığıdır—en azından bir API anahtarı veya temel HTTP doğrulaması ekleyin. Üçüncüsü, izleme: Grafana ve Prometheus ile istek sayısı, yanıt süresi ve GPU kullanımı izlenebilir; aksi takdirde model yavaşladığında nedenini anlamanız imkânsızlaşır. Dördüncüsü, yedekleme: Fine-tune edilmiş model ağırlıklarının ve konfigürasyon dosyalarının düzenli olarak yedeklenmesi gerekir—çünkü bozulan bir model dosyası, saatler süren indirme işlemini tekrar gerektirir. Pratik uyarı: Docker ile kurulum yaparken --gpus bayrağı unutulursa container CPU üzerinde çalışır ve performans 10 kata kadar düşer; bu hatayı fark etmek saatler alabilir çünkü sistem sessizce çalışmaya devam eder.

Güvenlik, Bakım ve Sürekli Optimizasyon

Self-hosted yapay zeka sistemi, geleneksel bir web sunucusundan farklı güvenlik katmanları gerektirir. Model dosyaları zehirlenmiş olabilir: Özellikle Hugging Face'ten doğrudan indirilen modellerde, kötü niyetli yüklerin modele yerleştirilme riski vardır—güvenilir yayıncılardan gelen modelleri tercih edin ve SHA-256 doğrulaması yapın. GPU sürücü güncellemeleri, bazen model çıkarımını bozacak uyumsuzluklara yol açar; bu nedenle üretim sunucusunda sürücü güncellemesi öncesinde mutlaka staging ortamında test edin. Bellek sızıntısı, uzun süreli çalışmalarda sık karşılaşılan bir sorundur; vLLM veya TGI gibi sunucular belirli aralıklarla yeniden başlatılmalıdır—cron job ile haftalık otomatik restart planlamak basit ama etkili bir çözümdür. Performans optimizasyonunda en büyük kazanım genellikle nicelleştirmeden gelir: FP16 yerine 4-bit GPTQ veya GGUF formatı kullanmak, aynı kalitede iki kata kadar hız artışı sağlayabilir. Son olarak, model güncelleme stratejiniz olsun: Yeni çıkan modelleri hemen değil, yayınlanmadan en az iki hafta sonra ve topluluk geri bildirimlerini değerlendirerek sisteminize alın.

Sonuç

Kendi sunucunuzda yapay zeka çalıştırmak, teknik olarak erişilebilir bir hedef haline gelmiştir; ancak başarılı bir kurulum yalnızca modeli indirip çalıştırmaktan ibaret değildir. Donanım planlamasında VRAM sınırını doğru belirlemek, platform seçiminde kullanım senaryonuza uygun aracı seçmek, dağıtım sırasında güvenlik ve izleme katmanlarını ihmal etmemek ve bakım rutinlerini baştan planlamak, sürdürülebilir bir sistem için zorunludur. Küçük bir ekiple başlıyorsanız Ollama ile deneyin, ihtiyaçlarınız netleştikçe vLLM veya benzeri üretim odaklı araçlara geçin. Unutmayın: En pahalı donanımı almak, en iyi kurulumu yapmak anlamına gelmez—doğru nicelleştirme, uygun konfigürasyon ve düzenli bakım, yatırımınızın karşılığını katlar. İlk denemenizi yapın, ölçün, darboğazları tespit edin ve adım adım optimize edin.