Jakarta, Mediaprofesi.id – F5 (NASDAQ: FFIV), pemimpin global dalam delivery dan pengamanan setiap aplikasi dan API, baru-baru ini mengumumkan perluasan kemampuan untuk mempercepat dan mengoptimalkan infrastruktur inferensi AI, melalui kolaborasi berkelanjutannya dengan NVIDIA.
Integrasi yang makin luas ini mengombinasikan F5 BIG-IP Next for Kubernetes dengan NVIDIA BlueField-3 DPU, untuk menciptakan lapisan infrastruktur cerdas berbasis telemetri yang mampu meningkatkan token throughput melalui pemanfaatan GPU yang lebih optimal, mengurangi latensi, serta memungkinkan platform AI multi-tenant yang aman dalam skala besar.
Dalam sistem AI, token merupakan unit output yang terukur, berupa kata, simbol, atau fragmen data yang dihasilkan dan diproses selama inferensi. Volume dan kecepatan produksi token pada akhirnya menentukan pengalaman pengguna, efisiensi infrastruktur, hingga potensi pendapatan dari setiap akselerator.
Seiring perusahaan dan penyedia GPU-as-a-Service berlomba-lomba untuk memonetisasi AI dan beralih dari fase eksperimen AI ke fase penyediaan layanan yang menghasilkan pendapatan, efisiensi infrastruktur telah menjadi metrik yang menentukan. Keberhasilan kini tidak lagi diukur dari kapasitas GPU yang tersedia, namun dari ‘ekonomi’ token, throughput token yang berkelanjutan, time to first token (TTFT), biaya per token, hingga pendapatan per akselerator GPU. Solusi gabungan F5 dan NVIDIA ini dirancang untuk menjawab langsung metrik-metrik tersebut.
Mengoptimalkan tokenomics melalui infrastruktur AI cerdas
Peralihan dari inferensi berbasis aplikasi ke alur kerja AI berbasis agen menuntut pendekatan arsitektur baru untuk mengoptimalkan token throughput dan mengurangi biaya. BIG-IP Next for Kubernetes kini memanfaatkan statistik NVIDIA NIM, sinyal runtime Dynamo, serta data telemetri GPU untuk membuat keputusan routing berbasis inferensi sebelum eksekusi. Dengan mencocokkan beban kerja ke akselerator yang paling tepat secara real time, solusi tersebut meningkatkan utilisasi GPU secara berkelanjutan sekaligus menurunkan latensi dan kebutuhan komputasi ulang.
“Infrastruktur AI bukan hanya tentang akses ke GPU atau peningkatan skala implementasinya. Ia telah berevolusi menjadi upaya memaksimalkan output ekonomi per akselerator,” kata Kunal Anand, Chief Product Officer, F5.
Menurut Kunal Anand, bersama dengan NVIDIA, kami membuat AI factory memperlakukan produksi token sebagai metrik bisnis yang terukur. BIG-IP Next for Kubernetes menyediakan intelligence dan tata kelola yang dibutuhkan untuk meningkatkan GPU yield, mengurangi biaya per token dan mengembangkan platform AI bersama dengan lebih percaya diri.

Efisiensi infrastruktur yang telah tervalidasi: Peningkatan struktural
Dalam pengujian yang divalidasi oleh The Tolly Group, BIG-IP Next for Kubernetes yang dipercepat oleh NVIDIA BlueField-3 DPU mampu menghadirkan hingga 40% peningkatan dalam token throughput, 61% lebih cepat dalam time to first token (TTFT), dan penurunan latensi permintaan secara keseluruhan hingga 34%. Dengan ini, hasil akhir dari pengujian menekankan pembuktian akan kemampuan yang ditingkatkan.
Ini bukan sekadar peningkatan bertahap. Dengan mengalihkan fungsi seperti networking, TLS/encryption, load balancing berbasis AI, dan manajemen trafik ke NVIDIA BlueField-3 DPU, BIG-IP Next for Kubernetes mampu mempertahankan kapasitas host CPU dan membebaskan GPU untuk menjalankan fungsi utamanya yaitu: inferensi berkelanjutan dengan throughput tinggi dalam skala besar.
Hasilnya adalah peningkatan utilisasi GPU, berkurangnya antrian dalam pengaksesan data, serta meningkatnya token yield, yang pada akhirnya menurunkan biaya per token dalam jejak infrastruktur yang sama. Yang krusial, semua peningkatan ini tidak memerlukan modifikasi model, sehingga dapat langsung diterapkan pada seluruh infrastruktur AI factory yang sudah ada. Bagi perusahaan dan penyedia NeoCloud yang bersaing dalam ekonomi token, ini menjadi pembeda antara infrastruktur yang membatasi output AI dan infrastruktur yang benar-benar mampu mempercepatnya.
“Infrastruktur komputasi terakselerasi dari NVIDIA yang dipadukan dengan Application Delivery and Security Platform berbasis AI dari F5 membuka potensi ‘tokenomics’ AI factory, yakni menghadirkan inferensi yang skalabel dan hemat biaya tanpa perlu melakukan perubahan apa pun pada model,” kata Kevin Deierling, SVP, Networking, NVIDIA. “F5 dan NVIDIA bersama-sama memberdayakan perusahaan untuk meningkatkan skala inferensi pada AI factory secara efisien dan ekonomis.”
Siap untuk AI berbasis agen dan platform AI multi-tenant
Beban kerja AI modern kini semakin berbasis agen, persisten, dan sadar konteks. Mereka membutuhkan kontrol trafik yang lebih cerdas dibandingkan load balancing tradisional. Solusi BIG-IP Next for Kubernetes yang ditingkatkan tersebut kini dapat mendukung:
- Routing berbasis inferensi untuk alur kerja agentic AI
- Integrasi dengan NVIDIA DOCA Platform Framework (DPF) untuk memudahkan implementasi dan manajemen lifecycle NVIDIA BlueField DPU
- EVPN-VXLAN dengan VRF yang dinamis untuk mengamankan multi tenancy di level jaringan
- Keamanan, tata kelola token, dan kemampuan observability yang terintegrasi dalam lingkungan Kubernetes AI.
Kemampuan ini memungkinkan perusahaan dan penyedia NeoCloud berbagi infrastruktur GPU secara aman antar unit bisnis ataupun pelanggan eksternal, tanpa mengorbankan isolasi performa serta tingkat layanan yang terprediksi.
Control plane untuk ekonomi AI factory
F5 dan NVIDIA menyediakan berbagai tools yang telah tervalidasi serta praktik terbaik bagi perusahaan untuk mengoptimalkan arsitektur inferensi. Dengan berbagai peningkatan tersebut, BIG-IP Next for Kubernetes diposisikan sebagai control plane yang strategis bagi ekonomi AI factory, mengelola konsumsi token, mengoptimalkan alur trafik, dan memaksimalkan return on investment infrastruktur.
Alih-alih melakukan overprovisioning untuk menutupi inefisiensi, organisasi kini dapat meraih value ekonomi yang lebih besar dari setiap GPU yang sudah berada dalam proses produksi. Hasilnya adalah peningkatan pendapatan per GPU, penurunan biaya operasional, serta layanan AI yang skalabel untuk mendukung pertumbuhan jangka panjang.
Dengan menggabungkan data telemetri infrastruktur dan akselerasi DPU dari NVIDIA dengan traffic intelligence dan kemampuan keamanan dari F5, kedua perusahaan membantu organisasi mentransformasi AI factory menjadi platform yang efisien, dapat dimonetisasi, dan siap menghadapi era agentic AI. * (Syam)





