AI Girişimi İçin Doğru Altyapı Seçimi: Adım Adım Rehber

Yapay zeka tabanlı bir girişim kurarken altyapı kararı, ürününüzün hızını, maliyet yapısını ve ölçeklenebilirliğini doğrudan belirler. Doğru GPU seçimi, bulut ile özel sunucu dengesi, veri depolama mimarisi ve güvenlik katmanları birbiriyle uyumlu çalışmadığında hem bütçeniz erir hem de geliştirme süreciniz aksar. Bu yazıda bir AI girişiminin karşılaşacağı beş kritik altyapı kararını somut örnekler, maliyet karşılaştırmaları ve pratik ipuçlarıyla ele alıyoruz. Hangi hesaplama kaynağını ne zaman seçeceğinizi, bulut mu özel sunucu mu kullanacağınızı, veri boru hattınızı nasıl kuracağınızı, maliyetleri nasıl optimize edeceğinizi ve güvenlik uyumluluğunu nasıl sağlayacağınızı adım adım göreceksiniz. Her bölümde sektörden gerçek senaryolar ve karar verme kuralları bulacaksınız.

İş Yüküne Uygun Hesaplama Kaynağını Belirleme

AI altyapısı seçiminin ilk adımı, iş yükünüzün hesaplama profilini doğru tanımlamaktır. Bir büyük dil modeli (LLM) ince ayarı yapmakla bir görüntü sınıflandırma modeli eğitmek arasında ihtiyaç duyulan GPU belleği, hesaplama süresi ve paralel işlem kapasitesi açısından dramatik farklar vardır. Örneğin, 7B parametreli bir modeli LoRA ile ince ayara almak tek bir NVIDIA A100 80GB ile yapılabilirken, aynı modelin tam fine-tuning'i için dört veya sekiz GPU'lu bir küme gerekebilir.

Görülmez ama kritik bir risk, inference (çıkarım) aşamasında yaşanır. Eğitimde GPU'nuz yeterliyken, canlı ortamda eşzamanlı istekler artınca bellek darboğazına girersiz. Bu yüzden eğitim ve inference iş yüklerini ayrı planlayın. Pratik bir kural: eğitim için seçtiğiniz GPU, inference'da en az 2-3 kat fazla kapasite sunabilmelidir.

Modelinizin boyutu ve veri kümenizin büyüklüğü, hangi GPU mimarisinin uygun olduğunu belirler. Küçük modeller (< 1B parametre) için T4 veya L4 yeterli olabilirken, orta ölçekli modellerde A10G veya A100, büyük modellerde ise H100 veya H200 tercih edilmelidir. Karar verirken yalnızca bellek miktarına değil, tensor çekirdek performansı ve NVLink bant genişliğine de bakın. İki adet A100 almak yerine tek bir H100 almak, hem maliyeti düşürür hem de haberleşme darboğazını ortadan kaldırır.

Bulut, Özel Sunucu ve Hibrit Modeller Arasındaki Gerçek Farklar

Birçok girişim varsayılan olarak bulut seçer; ancak bu her zaman en uygun seçenek değildir. Bulutun en büyük avantajı, ölçekleme esnekliğidir. Eğitim döneminde 16 GPU'ya çıkıp inference'da 2 GPU'ya inebilirsiniz. Ancak sürekli yüksek GPU kullanımı gerektiren bir iş modeliniz varsa (örneğin 7/24 model eğitimi yapan bir MLOps şirketi), aylık bulut faturası birkaç ay içinde özel sunucu maliyetini geçer.

Gerçek bir senaryoyla açıklamak gerekirse: İstanbul'daki bir AI girişimi, sekiz A100 GPU'lu bir kümeyi 18 ay boyunca AWS'de kullandı. Aylık ortalama fatura 45.000 doları buldu. Aynı donanımı kendi veri merkezinde kurduklarında başlangıç yatırım maliyeti 180.000 dolar oldu ama aylık işletme maliyeti 6.000 dolara düştü. Yatırımın geri dönüş süresi beş ayı buldu.

Hibrit model ise en dengeli seçenek olabilir. Eğitim ve büyük ölçekli deneyleri bulutta, inference ve hassas veri işleme aşamalarını kendi sunucularınızda çalıştırabilirsiniz. Karar verme kuralı: GPU kullanım oranınız ayda %65'in üzerindeyse özel sunucuyu ciddi şekilde değerlendirin. Altındaysa bulut esnekliğinden faydalanın ve spot instance (anlık kapasite) seçeneklerini mutlaka inceleyin.

Veri Altyapısı ve Depolama Mimarisi

AI girişimlerinin en sık hafife aldığı konu veri altyapısıdır. Modelinizin başarısı doğrudan veri kalitesine ve veriye erişim hızına bağlıdır. Eğitim verileriniz dağınık dosya sistemlerinde, farklı formatlarda ve etiketleme tutarsızlıklarıyla doluysa, en güçlü GPU'lar bile işe yaramaz. ETL (Extract-Transform-Load) boru hattınızı projenin en başında kurun, model eğitimi başladıktan sonra değil.

Depolama seçimi de ayrı bir karar noktasıdır. Yüksek hızlı eğitim veri setleri için NVMe tabanlı yerel disk veya yüksek IOPS'lu bulut depolama (örneğin AWS EBS io2) gerekirken, arşiv ve soğuk veri için S3 veya Glacier benzeri çözümler maliyeti düşürür. Günde 10 TB veri işleyen bir görüntü tanıma girişimi, eğitim boru hattında NVMe kullanmadığında epoch süresi %40'a varan oranda uzar.

Veri sürümleme (versioning) de ihmal edilmemesi gereken bir alandır. DVC veya LakeFS gibi araçlar, hangi modelin hangi veri setiyle eğitildiğini izlemenizi sağlar. Bu olmadan, bir modelin neden kötü performans gösterdiğini anlamak için haftalarınızı harcayabilirsiniz. Karar kuralı: veri boru hattı otomasyonunuz yoksa model eğitmeye başlamayın.

Maliyet Optimizasyonu ve Ölçeklenebilirlik Planlaması

AI altyapısı maliyetleri tahmin ettiğinizden çok daha hızlı şişebilir. Bir LLM fine-tuning deneyi 48 saat sürebilir ve tek bir deney 2.000-5.000 dolar maliyet çıkarabilir. Bu nedenle maliyet yönetimi stratejik bir konu, teknik bir detay değildir.

Spot instance kullanmak maliyeti %60-70'e varan oranda düşürebilir. Ancak spot instance'lar kesintiye uğrayabilir. Kontrol noktaları (checkpoint) doğru yapılandırılmamışsa saatlerce süren eğitiminiz sıfırlanır. Her 15-30 dakikada bir checkpoint kaydeden bir eğitim döngüsü kurun. Bu, spot instance riskini yönetmenin en etkili yoludur.

Ölçekleme planlamasında yatay ve dikey ölçekleme ayrımı kritiktir. Yatay ölçekleme (daha fazla GPU eklemek) inference tarafında işe yarar; ancak eğitimde iletişim gecikmesi nedeniyle verim düşebilir. Dikey ölçekleme (daha güçlü GPU'ya geçmek) eğitimde daha etkilidir ancak donanım sınırlarına çabuk ulaşırsınız. Küçük bir örnek: 100 eşzamanlı kullanıcıya hizmet veren bir chatbot servisi, dört adet L4 GPU'lu yatay ölçeklemeyle, tek bir A100'den daha düşük maliyetle ve daha yüksek kullanılabilirlikle çalışabilir. Karar kuralı: maliyet modelinizi aylık değil, senaryo bazlı oluşturun. En kötü durum senaryosuyla planlayın.

Güvenlik, Uyumluluk ve Operasyonel Hazırlık

AI altyapısı güvenlik katmanı, özellikle düzenlemeye tabi sektörlerde (sağlık, finans, savunma) projenizin hayatta kalıp kalmayacağını belirler. GDPR, KVKK ve sektörel uyumluluk gereksinimleri, verilerinizin nerede işlendiğini, kimin erişebildiğini ve nasıl şifrelendiğini belgelemenizi zorunlu kılar.

Operasyonel hazırlık, sıklıkla göz ardı edilen ama pahalıya patlayan bir konudur. GPU sunucularının soğutma, elektrik kesintisi yedekleme ve ağ bant genişliği gibi fiziksel altyapı gereksinimleri vardır. Küçük bir veri merkezinde sekiz H100 GPU'lu bir küme, dakikada 10 kW'ı aşkın güç tüketebilir. Bunu hesaba katmadan donanım yatırımına başlayan girişimler, fatura şokuyla karşılaşır.

Model güvenliği de yeni bir risk alanı oluşturuyor. Model kaynak kodunuzun ve ağırlıklarının sızması, rakiplerinizin doğrudan kopyalamasına yol açar. Model ağırlıklarını şifreli depolama alanlarında tutun, erişim denetimlerini katmanlı uygulayın ve API katmanında hız sınırlama (rate limiting) ile girdi doğrulama mutlaka ekleyin. Karar kuralı: altyapı seçiminizi yalnızca performans ve maliyet üzerinden yapmayın; düzenleyici gereksinimler ve operasyonel riskleri de eşit ağırlıkta değerlendirin.

Sonuç

AI girişiminiz için altyapı seçimi, tek bir doğru cevabı olmayan çok boyutlu bir karardır. İş yükü profilinizi doğru tanımlayarak başlayın; GPU seçiminizi model boyutu ve kullanım senaryonuza göre yapın. Bulut, özel sunucu ve hibrit modelleri kullanım oranlarınıza göre değerlendirin. Veri altyapınızı model eğitiminden önce otomatikleştirin. Maliyetleri senaryo bazlı planlayın ve spot instance gibi fırsatları kontrollü kullanın. Güvenlik ve uyumluluk gereksinimlerini projenin en başından itibaren altyapıya dahil edin.

Unutmayın: yanlış bir altyapı kararı, geri dönüşü maliyetli ve zaman alıcı bir hatadır. Küçük başlayın, ölçün, optimize edin ve ölçekleyin. En iyi altyapı, bugününüzü değil yarınızı da taşıyabilen altyapıdır.