Verilerinizi üçüncü taraf bulut servislerine emanet etmek yerine kendi sunucunuzda çalıştırmak, son birkaç yılda ciddi bir avantaj hâline geldi. Gerek gizlilik endişeleri, gerek maliyet kontrolü, gerekse özelleştirme ihtiyacı olsun; kendi kendine barındırılan yapay zekâ ve otomasyon araçları artık amatör bir hobi değil, kurumsal ölçekte bile tercih edilen bir altyapı yaklaşımı. Bu yazıda hangi aracın hangi ihtiyacı karşıladığını, kaynak tüketiminden entegrasyon esnekliğine kadar gerçek karar kriterlerini ve her birinin pratikte karşılaşılan sorunlarını ele alacağız. Model sunucusundan iş akışı otomasyonuna, arayüz seçiminden doküman işlemeye kadar beş kategoride en güçlü seçenekleri karşılaştıracağız.
Model Sunucu Altyapısı: Ollama, LocalAI ve vLLM Arasındaki Temel Farklar
Kendi sunucunuzda büyük dil modelleri çalıştırmaya karar verdiğinizde karşınıza çıkan ilk soru hangi model sunucu motorunu kullanacağınızdır. Ollama, tek komutla model indirip çalıştıran minimalist yaklaşımıyla öne çıkar; Docker tabanlı kurulumu beş dakikayı geçmez ve llama.cpp altyapısı sayesinde CPU üzerinde bile çalışabilir. Ancak Ollama'nın üretim ortamında sınırlı kaldığı nokta eşzamanlı istek yönetimidir — aynı anda onlarca kullanıcıya hizmet vermek istediğinizde darboğaz yaşarsınız. LocalAI ise Ollama'ya benzer bir deneyim sunarken OpenAI uyumlu API uç noktaları sağladığı için mevcut OpenAI tabanlı uygulamaları minimum kod değişikliğiyle kendi sunucunuza yönlendirmenizi sağlar. vLLM ise tamamen farklı bir ligdedir: PagedAttention mekanizması sayesinde GPU belleğini son derece verimli kullanır ve yüksek eşzamanlılık gerektiren üretim ortamları için tasarlanmıştır. Bir start-up'ın müşteri destek botu için tek bir NVIDIA RTX 4090 kartıyla vLLM üzerinde Llama 3 70B quantize modelini saniyede 30-40 token hızla sunabildiği örnekler mevcuttur. Karar kuralınız şudur: Tek kişilik veya küçük ekip kullanımıysa Ollama yeterli; mevcut OpenAI tabanlı kodu taşımak istiyorsanız LocalAI; yüksek trafikli bir servis kuruyorsanız vLLM tercih edin.
İş Akışı Otomasyonu: n8n, Activepieces ve Huginn
Yapay zekâ modellerini çalıştırmak tek başına yeterli değildir; asıl değer bu modelleri iş süreçlerine bağladığınızda ortaya çıkar. n8n, açık kaynaklı iş akışı otomasyonunda şu an en olgun seçenek konumundadır. 400'ün üzerinde hazır entegrasyon düğümü, görsel sürükle-bırak arayüzü ve kendi sunucunuzda tam kontrol imkânı sunar. Ücretsiz topluluk sürümü tek kullanıcı için yeterlidir; kurumsal destek ve SSO gibi özellikler ise ücretli plandadır. Activepieces ise n8n'in en yakın rakibi olarak özellikle kolay self-hosted kurulumu ve daha modern arayüzüyle dikkat çeker; ancak hazır entegrasyon sayısı henüz n8n'in gerisindedir. Huginn ise tamamen farklı bir felsefeye sahiptir: olay tabanlı ajanlar oluşturursunuz, her ajan belirli bir kaynaktan veri çeker, işler ve başka bir ajana aktarır. Esnekliği muazzamdır ama öğrenme eğriği dikdir. Pratik bir uyarı: n8n'in self-hosted sürümünde SQLite varsayılan veritabanıdır ve günde birkaç bin iş akışının ötesinde PostgreSQL'e geçmeniz gerekir. Bu geçişi yapmadığınızda veritabanı dosyası bozulabilir ve haftalık iş akışlarınız kaybolabilir. Karar kuralınız: Hazır entegrasyon sayısı kritikse n8n, minimalist ve modern bir arayüz istiyorsanız Activepieces, olay tabanlı veri toplama ağı kurmak istiyorsanız Huginn seçin.
LLM Arayüzleri: Open WebUI ve LibreChat
Modelinizi kurdunuz, API sunucusu çalışıyor — peki kullanıcılar bu modele nasıl erişecek? Open WebUI (eski adıyla Ollama WebUI), ChatGPT benzeri bir sohbet arayüzünü kendi sunucunuzda sunan en popüler çözümdür. Ollama ile yerel entegrasyonu vardır; tek bir Docker Compose dosyasıyla hem Ollama hem Open WebUI'ı aynı anda ayağa kaldırabilirsiniz. Kullanıcı yönetimi, sohbet geçmişi, dosya yükleme ve hatta temel RAG (Retrieval-Augmented Generation) desteği kutudan çıkar. LibreChat ise daha çok OpenAI API, Anthropic, Google ve özel modelleri tek bir arayüzde birleştirmek isteyen kullanıcılar için tasarlanmıştır. Plugin desteği ve çoklu model karşılaştırma özelliği onu farklılaştırır. Ancak dikkat edilmesi gereken bir nokta var: Open WebUI varsayılan olarak tüm kullanıcı sohbetlerini PostgreSQL veritabanında şifresiz biçimde saklar. İçeride hassas veriler işleniyorsa veritabanı seviyesinde şifreleme veya disk şifreleme (LUKS gibi) mutlaka uygulanmalıdır. Küçük bir ekipte beş kişinin aynı anda sohbet ettiği senaryoda Open WebUI, 16 GB RAM'li bir sunucuda bile sorunsuz çalışır; LibreChat ise Node.js tabanlı olduğu için bellek tüketimi biraz daha yüksektir. Karar kuralınız: Tek modelle basit bir sohbet arayüzü istiyorsanız Open WebUI, çoklu model karşılaştırma ve plugin ekosistemi istiyorsanız LibreChat tercih edin.
Doküman İşleme ve RAG: AnythingLLM ile Flowise
Yapay zekânın gerçek kurumsal değeri, şirket içi dokümanları sorgulayabildiğinizde ortaya çıkar. AnythingLLM, kendi sunucunuzda çalışan en eksiksiz RAG platformlarından biridir. PDF, DOCX, CSV ve hatta web sayfalarını yükleyip vektör veritabanına indeksler; ardından seçtiğiniz LLM ile bu dokümanlar üzerinden doğal dilde soru-cevap yapmanızı sağlar. LanceDB, Pinecone, ChromaDB ve Weaviate gibi çoklu vektör deposu desteği sunar; bu da mevcut altyapınıza uyum sağlamasını kolaylaştırır. Flowise ise daha çok görsel bir iş akışı oluşturucusudur: sürükle-bırak arayüzüyle LLM zincirleri, ajanlar ve RAG boru hattı tasarlarsınız. LangChain ve LlamaIndex kütüphanelerinin grafiksel ön yüzü gibi düşünebilirsiniz. Ancak burada kritik bir uyarı var: AnythingLLM'in varsayılan embedding modeli küçük boyutlu bir modeldir ve Türkçe dokümanlarda anlamlı düşüşlere neden olabilir. Türkçe ağırlıklı bir kullanım için multilingual-e5-large veya BGE-M3 gibi çok dilli embedding modellerini harici olarak bağlamanız gerekir. Bir hukuk firmasının sözleşme arşivinde AnythingLLM'i Türkçe embedding modeliyle yapılandırarak avukatların doğal dilde sözleşme araması yapabildiği bir sistem kurduğu örnek mevcuttur. Karar kuralınız: Hazır, kutudan çıkan bir doküman sorgulama sistemi istiyorsanız AnythingLLM; esnek, özelleştirilebilir LLM boru hatları kurmak istiyorsanız Flowise seçin.
Altyapı ve Orkestrasyon: Docker Compose, GPU Paylaşımı ve İzleme
Tüm bu araçları kurduktan sonra karşılaşacağınız en büyük zorluk altyapı yönetimidir. Docker Compose, tek sunuculu ortamlar için yeterli bir başlangıç noktasıdır; ancak birden fazla GPU'nuz varsa NVIDIA Container Toolkit ile konteynerlere GPU ataması yapmanız gerekir. Burada sık yapılan bir hata, birden fazla konteynere aynı GPU'yu paylaştırmaya çalışmaktır. NVIDIA'nın MPS (Multi-Process Service) veya MIG (Multi-Instance GPU) teknolojileri bu sorunu çözer; ancak MIG sadece A100 ve H100 gibi veri merkezi kartlarında desteklenir. Tüketici kartlarında (RTX serisi) GPU belleğini konteyner bazlı izole etmek mümkün değildir, bu yüzden her modele ayrı bir GPU atamak en güvenli yoldur. İzleme tarafında Prometheus ve Grafana kombinasyonu standarttır: Ollama ve vLLM ikisi de /metrics uç noktası sunar; n8n ise kendi execução istatistiklerini API üzerinden dışa aktarabilir. Unutmamanız gereken bir detay daha var: Self-hosted araçlarda otomatik güncelleme mekanizması genellikle yoktur. Docker image'larını manuel güncellemek ve güncellemelerden önce veritabanı yedekleri almak rutin bir alışkanlık hâline gelmelidir. Aksi hâlde bir n8n güncellemesi veritabanı şemasını değiştirebilir ve geri dönüşü olmayan veri kayıpları yaşanabilir. Karar kuralınız: Tek sunucu, tek GPU ise Docker Compose yeterli; çok sunuculu veya yüksek kullanılabilirlik gerekiyorsa Kubernetes'e geçin; mutlaka Prometheus tabanlı izleme kurun ve haftalık Docker image güncellemesi takvimi oluşturun.
Sonuç
Kendi sunucunuzda yapay zekâ ve otomasyon araçları çalıştırmak, bulut bağımlılığını azaltmanın ötesinde veri gizliliği, maliyet kontrolü ve tam özelleştirme imkânı sunar. Ancak bu özgürlük beraberinde sorumluluk getirir: model sunucu seçiminizden GPU paylaşım stratejinize, veritabanı yedekleme rutinlerinizden embedding modeli kalibrasyonuna kadar her karar doğrudan sisteminizin güvenilirliğini etkiler. Ollama ile başlayıp n8n ve Open WebUI ile ekosistemi tamamlamak çoğu küçük ekip için en düşük sürtünmeli yoldur. Ölçek büyüdükçe vLLM, Kubernetes ve Prometheus tabanlı izleme kaçınılmaz hâle gelir. Önemli olan, araçları değil sorunu önce tanımlamak; ardından o soruna en uygun aracın hangi kombinasyonla çözüleceğine karar vermektir. Self-hosted yapay zekâ artık sadece meraklılarının değil, verisini sahiplenmek isteyen herkesin ulaşabileceği bir altyapı seçeneğidir.