Kebanyakan diskusi infrastruktur AI mengerucut pada topik yang sama: kluster GPU, beban pendinginan yang tinggi, dan daya di level megawatt. Gambaran tersebut sebetulnya akurat, tetapi hanya untuk satu fase dalam siklus AI—yakni pelatihan (training). Namun, hal itu tidak menggambarkan bagaimana wujud nyata sebagian besar infrastruktur AI dalam tahap produksi.
Training dan inference adalah dua beban kerja yang berbeda. Profil daya, kebutuhan kepadatan (density), batasan jaringan, dan struktur biaya keduanya juga berbeda. Memahami perbedaan ini akan menentukan di mana Anda membangun infrastruktur, berapa banyak yang Anda belanjakan, dan apakah penerapan (deployment) Anda tetap berada dalam batas-batas regulasi Indonesia.
Apa yang Sebenarnya Terlibat dalam Training dan Inference
AI training adalah proses membangun sebuah model. Jaringan saraf sintetis atau neural network memproses kumpulan data (dataset) yang besar dan menyesuaikan miliaran parameter internal untuk menguatkan kemampuan prediksinya. Untuk model bahasa besar (large language models), proses ini membutuhkan ribuan GPU selama berminggu-minggu atau berbulan-bulan—sebuah permintaan komputasi besar yang terus-menerus dan sangat sensitif terhadap kecepatan komunikasi antar-GPU.
AI inference adalah apa yang terjadi setelah training: model yang sudah selesai melayani permintaan dari pengguna. Misal, ketika kita bercakap dengan ChatGPT atau Claude. Setiap prompt akan memicu inference. Setiap permintaan inference secara komputasi jauh lebih ringan daripada training, tetapi inference berjalan terus-menerus dalam skala besar pada jutaan permintaan setiap harinya karena penggunanya begitu banyak.
Menurut laporan Energi dan AI dari Badan Energi Internasional (IEA), inference telah menyumbang porsi komputasi AI yang lebih besar daripada training di banyak sistem yang diterapkan saat ini. Pada tahun 2026, inference diproyeksikan mewakili sekitar dua pertiga dari total komputasi AI secara global—naik dari sepertiga pada tahun 2023. Oleh karena itu, arah pembicaraan mengenai infrastruktur pun telah bergeser.
Daya dan Kepadatan (Density): Perbedaan Training dan Inference
Infrastruktur training didefinisikan oleh kepadatannya. Satu rak perangkat keras akselerator GPU NVIDIA H100 atau generasi Blackwell dapat menarik daya 40–140 kW atau lebih, sehingga membutuhkan pendingin cair langsung ke chip (direct-to-chip liquid cooling) yang tidak dapat ditandingi oleh sistem pendingin udara. Seiring konsumsi listrik data center global yang merangkak naik menuju 1.050 TWh setiap tahunnya, beban kerja training mendorong dibangunnya fasilitas dengan kepadatan tertinggi saat ini. Permintaannya juga bersifat melonjak sesaat. Setelah sebuah model selesai dilatih, GPU tersebut dikerahkan kembali ke tugas lain atau dibiarkan menganggur.
Inference memiliki profil daya yang berbeda—biasanya 10–30 kW per rak, masih dalam kisaran yang dapat ditangani oleh direct-to-chip liquid cooling atau sistem udara kelas atas. Hal yang dituntut oleh inference adalah konsistensi: daya yang stabil dengan jaminan SLA, karena inference selalu aktif (always-on). Pemadaman selama 30 menit di kluster training tidak berdampak besar. Namun, pemadaman 30 menit di kluster inference merupakan gangguan layanan yang berdampak langsung pada pengguna.
Latensi Adalah Batasan Penentu untuk Inference
Training dibatasi oleh throughput—tujuannya adalah operasi komputasi maksimum per unit waktu, dan tidak ada pengguna yang menunggu pekerjaan training selesai.
Inference dibatasi oleh latensi. Sebuah model deteksi penipuan harus memberikan keputusan sebelum batas waktu pembayaran habis (timeout). Sebuah chatbot harus merespons cukup cepat agar terasa seperti sebuah percakapan. Kelayakan komersial dari sebuah aplikasi AI terikat langsung dengan latensi jaringan antara server inference dan pengguna akhir.
Oleh karena itu, faktor geografis menjadi penting untuk inference, yang mana hal ini tidak berlaku pada training. Jarak fisik menambah latensi yang tidak dapat dihindari. Penerapan inference yang di-host di luar negeri (offshore) dan diakses melalui internet publik akan memberikan waktu respons yang terukur lebih buruk daripada yang di-host secara lokal di dalam fasilitas yang terkoneksi dengan baik. Untuk aplikasi yang melayani pengguna Indonesia, ini berarti infrastruktur tersebut harus berada di dalam negeri, di fasilitas yang memiliki banyak opsi operator dan peering—atau didistribusikan lebih jauh ke edge data center untuk beban kerja yang paling sensitif terhadap latensi.
Seperti Apa Wujud Infrastruktur yang Dioptimalkan untuk Inference
| Kebutuhan | Training | Inference |
|---|---|---|
| Kepadatan daya per rak | 40–140+ kW | Umumnya 10–30 kW |
| Jenis pendingin | Liquid (direct-to-chip atau celup/immersion) | Udara atau hybrid liquid |
| Prioritas jaringan | Bandwidth antar-GPU (InfiniBand) | Konektivitas latensi rendah ke pengguna dan cloud |
| Pola permintaan | Bursty (berminggu-minggu, lalu menganggur) | Berkelanjutan, selalu aktif (always-on) |
| Prioritas SLA | Throughput maksimum selama berjalan | Uptime daya dan konektivitas |
Penerapan inference sering kali menggunakan arsitektur hibrida (hybrid): bobot model (model weights) dan infrastruktur pelayanan berada di colocation, dengan pipeline data dan logging yang terhubung ke penyimpanan cloud melalui konektivitas cloud exchange. Fasilitas inference memerlukan akses privat langsung ke penyedia cloud—bukan sekadar konektivitas, melainkan jalur khusus yang memotong variabilitas internet publik. Horizontal scaling (penskalaan horizontal) adalah model pertumbuhan yang standar, sehingga fasilitas tersebut harus mendukung ekspansi bertahap dengan waktu penyediaan (lead time) yang dapat diprediksi.
Biaya Colocation untuk Skala Inference
Cloud adalah titik awal alami untuk penerapan AI—API yang dikelola, penskalaan otomatis (auto-scaling), dan ketiadaan biaya perangkat keras di awal sangat masuk akal selama tahap eksperimentasi. Namun, pada volume produksi, ekonomi biayanya akan berubah.
Inference di cloud ditagihkan berdasarkan waktu komputasi dan transfer data. Biaya egress—yang dikenakan saat data keluar dari jaringan penyedia—berlipat ganda pada skala besar. Aplikasi yang melayani jutaan permintaan per hari menghasilkan transfer data keluar yang signifikan; dalam setahun, biaya egress ini sering kali melebihi biaya infrastruktur colocation yang setara.
Analisis komputasi AI dari Deloitte memproyeksikan bahwa porsi investasi infrastruktur yang disalurkan ke inference akan terus tumbuh secara stabil seiring dengan bergesernya fokus industri dari sekadar membangun teknologi AI menjadi implementasi.
Colocation menghilangkan biaya egress untuk lalu lintas yang tetap berada di dalam fasilitas atau bergerak melalui interkoneksi privat. Perusahaan yang menjalankan inference di colocation dan terhubung ke penyimpanan cloud melalui akses privat (private exchange) hanya membayar untuk layanan cloud yang digunakan—bukan untuk setiap byte yang melewati batas jaringan penyedia.
Kesimpulan
Training menuntut komputasi yang padat dan masif dalam jangka waktu tertentu. Sementara itu, inference menuntut uptime yang konsisten, latensi rendah, dan penskalaan yang hemat biaya pada volume produksi—persyaratan yang mengarah pada penggunaan colocation di dalam pasar yang Anda layani.
Sinyal paling jelas bahwa suatu penerapan telah memasuki skala inference adalah ketika pertanyaannya bergeser dari “berapa banyak GPU yang bisa kita tumpuk” menjadi “seberapa cepat pengguna dapat mengakses model tersebut, dan berapa biaya per permintaannya.” Pada saat itulah kedekatan lokasi (proximity), pilihan operator jaringan, dan cakupan SLA menjadi lebih penting daripada sekadar kepadatan daya mentah.
Jika Anda sedang mengevaluasi infrastruktur colocation untuk beban kerja AI inference di Indonesia, silakan bicarakan dengan tim Digital Edge mengenai kepadatan daya, opsi konektivitas, dan perencanaan kapasitas di AI-ready data center EDGE2 kami.





