Ağın ucundaki yapay zeka nadiren yalnızca çıkarım anlamına gelir. Gerçek dünyadaki dağıtım genellikle yüksek hızlı giriş/çıkış (G/Ç), sinyal koşullandırma ve gerçek zamanlı kontrol döngülerini içerir ve bunların tümü eş zamanlı olarak yürütülür. Bu çok işlevli iş yükleri, sıkı bir koordinasyon ve yüksek kesinlik gerektirir ve tasarımcılar, bu gereksinimleri ana akım yapay zeka donanımını kullanarak karşılamayı zor bulmuşlardır.
İki faktör bu sorunu daha da karmaşık hale getiriyor. Öncelikle yapay zeka modelleri şaşırtıcı bir hızla gelişiyor ve tasarımcıları hızlı algoritma güncellemelerini destekleyen platformları benimsemeye teşvik ediyor. Bu arada, birçok uç sistem on yıla kadar veya daha uzun süredir sahada kullanılıyor ve bu da uzun vadeli uyarlanabilirliğin sağlanmasını zorlaştırıyor. İkinci olarak, iyi eğitilmiş modellerden sistem kurulumu ve uygulamasına giden yol hala parçalıdır. Veri bilimcileri PyTorch ve TensorFlow'u kullanırken gömülü ekipler tamamen farklı araç zincirleri kullanıyor, bu da devir işlemi sırasında sürtünme yaratıyor ve üretim hızını yavaşlatıyor.
Bu zorlukların üstesinden gelmek için platformların, yüksek verimli yapay zeka işlemeyi deterministik davranış, esnek I/O ve uzun vadeli uyarlanabilirlik ile birleştirebilmesi gerekir; bunların tümü, sınırlı uç dağıtımının tipik güç tüketimi aralığında elde edilmelidir.
Bu makale, tasarımcıları yeni uç yapay zeka mimarilerini keşfetmeye zorlayan uygulama senaryolarına ve ilgili gereksinimlere odaklanmaktadır. Ardından Altera'nın uç yapay zekayı destekleyen sahada programlanabilir kapı dizisi (FPGA) cihazları ve yazılım araçları tanıtıldı ve bu uygulamaların çeşitli performans ve güç gereksinimlerini karşılamak için bunların nasıl kullanılacağı gösterildi.
Uç yapay zekanın evrimi mimari yenilik gerektirir
Uç sistemler, anormallik tespiti için klasik makine öğrenimi (ML), algılama için evrişimli sinir ağları (CNN) ve büyük dil modelleri (LLM) için dönüştürücüler dahil olmak üzere çeşitli yapay zeka teknolojilerini giderek daha fazla benimsiyor. Hesaplama açısından yoğun olan bu algoritmalar genellikle sinyal işleme, ağ iletişimi ve gerçek zamanlı kontrol gibi yapay zeka dışı zorlu işlevlerle bir arada bulunur.
Otonom sistemler buna iyi bir örnektir. Genellikle video, ses, radar, LiDAR ve hareket/konum geri bildirimi gibi çoklu sensör yöntemlerinden veri yakalamaları, bu veri akışlarını yüksek verimle önceden işlemeleri, karmaşık yapay zeka kullanarak sonuçları analiz etmeleri ve ardından yüksek hassasiyetli kontrol döngülerini yönetmeleri gerekir; bunların tümü güvenilir bir kararlılık gerektirir.
Endüstriyel otomasyon, tıbbi görüntüleme, savunma ve telekomünikasyon uygulamalarında buna benzer pek çok örnek bulunmaktadır. Karşılaştıkları ortak zorluk, geleneksel mimarilerin sürekli birleşen iş yüklerine uyum sağlamanın zor olmasıdır.
FPGA neden özellikle uç yapay zeka için uygundur?
Aksine, bu gereksinimler FPGA'nın işlevselliği ile tamamen uyumludur. FPGA'nın özü, zamanlama davranışının çalışma zamanında dalgalanmak yerine tasarım zamanında gömülü olmasıyla, işlemleri gerçekten paralel bir şekilde gerçekleştirmek için yapılandırılabilir mantık sağlamaktır. Bu mimari, uç yapay zeka için çok önemli olan düşük gecikme süreli determinizme ulaşabilir. Esnek mantık aynı zamanda güçlü G/Ç'yi de kullanabilir: FPGA'ler genellikle yapay zeka işlemeyle sıkı bağlantı sağlamak için çeşitli sensörlere ve aktüatörlere bağlanabilen çok sayıda yüksek hızlı G/Ç sağlar.
FPGA ayrıca, üzerinde çalışan mantık tarafından verilere erişilmesini sağlayan dağıtılmış dahili belleği de içerir. Bu, işlemci tabanlı mimarilerde yaygın bir sınırlama olan, paylaşılan bellek veriyoluna erişmek için birden fazla işlem aşamasının rekabet etmesi gerektiğinde ortaya çıkan darboğazı azaltır.
Birçok FPGA ayrıca özel dijital sinyal işleme (DSP) donanımını da entegre eder. Geleneksel yapılarla karşılaştırıldığında bu geliştirilmiş devreler, sinyal işleme iş yükleri için daha yüksek performans ve daha iyi enerji verimliliği sağlar. Bazı FPGA'ler ayrıca standart yazılım yığınlarını (Linux dahil) çalıştırabilen kablolu işlemci sistemlerini de entegre ederek ağ oluşturma, cihaz yönetimi ve kullanıcı arayüzü gibi görevler için geleneksel yazılım geliştirmeyi mümkün kılar.
Kısacası, tek bir FPGA, aksi durumda ayrı G/Ç yongaları, yapay zeka hızlandırıcıları, DSP'ler ve kontrol düzlemi işlemcileri gerektirebilecek işlevleri entegre edebilir. Bu, Malzeme Listesini (BOM) azaltabilir, devre kartı alanını daraltabilir, güç tüketimini azaltabilir ve aynı zamanda uç yapay zeka uygulamaları için gereken düşük gecikmeyi ve kesinliği koruyabilir.
Yapay zeka tensör bloklarının eklenmesiyle yeni olanaklar nasıl açılır?
Geleneksel FPGA DSP donanımı zaten birçok uç iş yükü için çok uygundur ancak yapay zeka çıkarımı genellikle yoğun ancak düşük hassasiyetli çarpma işlemlerine dayanır. Bu sorunu çözmek için Altera'nın Agilex 3 ve Agilex 5 cihazları, AI tensör bloklarına sahip gelişmiş DSP'ler kullanıyor. Bu, yapay zeka hesaplama grafiklerinde tekrar tekrar görülen, matris matrisi ve vektör matris çarpımı için özel bir donanımdır.
Bu yöntemin temelinde skaler çarpım ve toplayıcı/akümülatör motoru bulunmaktadır (Şekil 1). Tensör modunda, donanımla bağlantılı nokta motoru, 10 öğeli bir nokta çarpımı gerçekleştirmek için 8 bitlik giriş ve önceden yüklenmiş 8 bitlik ağırlıklar kullanır. Dinamik aralığı genişletmek amacıyla veri yolu, yapay zeka çıkarımının genellikle yüksek dinamik aralık ancak düşük doğruluk gerektirdiği tipik senaryolarla başa çıkmak amacıyla blok kayan nokta ölçeklendirmesi için paylaşılan bir "ortak dizin" kullanabilir.

