Jalankan LLM 120 Miliar Parameter di Laptop Nvidia N1X (RTX Spark) menghadirkan kemampuan AI yang sebelumnya hanya ada di server data center langsung ke laptop Windows — 1.000 TOPS performa inferensi, RAM 128 GB untuk LLM terbesar, dan ekosistem CUDA yang sudah dikenal jutaan developer AI di seluruh dunia
Selama bertahun-tahun, menjalankan model AI yang benar-benar besar secara lokal membutuhkan server dengan beberapa GPU bernilai ratusan juta rupiah. Kini untuk pertama kalinya, Nvidia membalikkan persamaan itu: dengan N1X (RTX Spark), sebuah laptop tipis bisa menjalankan LLM 120 miliar parameter secara penuh di memori lokal — tanpa internet, tanpa biaya cloud per token, tanpa membocorkan data sensitif ke server pihak ketiga.
Ini bukan sekadar peningkatan inkremental. Lompatan dari 40–50 TOPS ke 1.000 TOPS adalah peningkatan 20x dalam satu generasi — bukan dari satu chip ke chip berikutnya, tapi dari kategori “AI PC gimmick” ke “AI workstation sungguhan”. Artikel ini mengupas tuntas angka-angka itu, apa artinya dalam praktik, dan apa yang masih perlu dipahami dengan jujur.
di format FP4 ≡ 1 PetaFLOP
AI PC sebelumnya vs Intel/AMD 40-50 TOPS
bisa dijalankan lokal Setara GPT-OSS 120B
dari GPU mobile sebelumnya Idle < 4W
untuk workload presisi tinggi Lewati banyak GPU desktop
yang bisa diproses sekaligus Seluruh buku di satu prompt
TOPS N1X dihitung dari GPU Blackwell menggunakan FP4 (4-bit floating point) dengan sparsity — bukan dari NPU dedicated seperti Intel, Qualcomm, atau Apple. GPU memang bisa melakukan lebih banyak operasi per detik dari NPU, tapi juga mengonsumsi daya lebih banyak. Yang penting: untuk inferensi LLM, GPU dengan CUDA jauh lebih praktis karena framework AI utama (PyTorch, HuggingFace, VLLM, SGLang) sudah dioptimalkan untuk CUDA — sementara NPU membutuhkan konversi model khusus.
Ada satu fakta yang sering terlewat di balik headline “1 PetaFLOP”: untuk menjalankan LLM besar secara lokal, bottleneck utamanya bukan kecepatan komputasi — tapi kapasitas memori. Model 70B parameter di quantisasi 4-bit membutuhkan sekitar 35–40 GB hanya untuk menyimpan weight-nya. Model 120B di Q4 butuh 60–70 GB. Laptop biasa dengan GPU discrete 24 GB VRAM tidak bisa memuat model ini sama sekali.
💡 Unified Memory — Keunggulan Arsitektur yang Sering Disalahpahami
- →CPU dan GPU berbagi memori yang sama persis — tidak ada salinan data antara “sistem RAM” dan “VRAM”. Model AI yang dimuat berada di satu alamat memori yang bisa diakses CPU dan GPU secara langsung melalui NVLink C2C dengan bandwidth 600 GB/s
- →Tidak ada penalti PCIe transfer. GPU discrete harus mentransfer data model dari RAM sistem ke VRAM via PCIe (bandwidth ~64 GB/s). Saat model overflow VRAM, setiap inferensi jadi lambat karena transfer bolak-balik. N1X tidak mengalami ini
- →Context window 1 juta token bisa dimuat sepenuhnya di memori — ini memungkinkan pemrosesan seluruh buku, codebase besar, atau riwayat conversation panjang tanpa truncation
- →Trade-off: bandwidth vs GPU discrete. LPDDR5X di N1X (~300 GB/s) lebih lambat dari GDDR7 RTX 5090 (1.792 GB/s). Untuk model kecil yang muat di VRAM, GPU discrete menang. Untuk model besar (70B+), N1X menang mutlak
RTX Spark laptop belum tersedia (rilis fall 2026). Benchmark di bawah berasal dari DGX Spark yang menggunakan chip GB10 — secara hardware identik dengan N1X. Perbedaan: DGX Spark berjalan di Linux + SGLang/Ollama dalam kondisi server; N1X laptop Windows akan memiliki overhead OS berbeda dan kemungkinan TDP yang lebih rendah. Anggap ini sebagai ceiling performance — laptop asli bisa sedikit di bawah angka ini tergantung konfigurasi thermal dan driver.
Satu-satunya consumer hardware yang bisa memuat 120B model sepenuhnya di memori. Prefill sangat cepat (dokumen panjang diproses kilat). Decode 46–52 tok/s dari SGLang — nyaman untuk single-user chat.
Workhorse LLM paling populer untuk lokal. N1X memuat seluruh model tanpa offloading. Decode 35–45 tok/s vs RTX 5090 yang hanya 14–22 tok/s (karena 70B Q4 overflow VRAM 32 GB).
Sweet spot terbaik di N1X — model dengan kualitas setara GPT-4 class tapi ukuran lebih efisien. Decode 70–90 tok/s terasa sangat responsif untuk chat dan coding assistance.
Untuk model kecil, N1X terasa seperti turbo. 130–200 tok/s jauh melampaui kecepatan baca manusia. Ideal untuk chatbot, coding copilot, dan automasi real-time.
| Metrik | N1X · RTX Spark | Apple M4 Max | AMD Strix Halo | RTX 5090 Laptop |
|---|---|---|---|---|
| 🔢 Compute Capacity | ||||
| AI TOPS (FP4/INT4) | 1.000 TOPS TERBAIK | ~40 TOPS | ~50 TOPS NPU | ~900 TOPS* |
| AI TFLOPS (FP16) | ~250 TFLOPS TOP | ~35 TFLOPS | ~80 TFLOPS | ~200 TFLOPS |
| Framework AI Support | CUDA Native ✓ | MLX (baik) | ROCm (terbatas) | CUDA Native ✓ |
| 💾 Memory — Faktor Terpenting LLM | ||||
| RAM Maksimum | 128 GB SAMA BESAR | 128 GB M4 Max | 128 GB | 24 GB VRAM ✗ |
| Tipe Memori | Unified LPDDR5X | Unified LPDDR5X | Unified LPDDR5X | GDDR7 (discrete) |
| Memory Bandwidth | ~300 GB/s | ~300 GB/s | ~256 GB/s | 1.792 GB/s ✓ |
| LLM 70B Tanpa Offload | ✓ Penuh | ✓ Penuh | ✓ Penuh | ✗ Overflow VRAM |
| LLM 120B Tanpa Offload | ✓ Penuh ✓ | ✓ (128 GB config) | ✓ (128 GB config) | ✗ Tidak mungkin |
| 🤖 LLM Inference Speed (70B Q4) | ||||
| Decode tok/s (70B Q4) | 35–45 tok/s | 25–32 tok/s | ~30–40 tok/s | 14–22 tok/s ✗ |
| Prefill tok/s (120B) | ~1.700 tok/s TERCEPAT | ~500 tok/s | ~340 tok/s | N/A (tidak muat) |
| 🔒 Privacy & Kontrol Data | ||||
| 100% Lokal / Offline | ✓ Sepenuhnya | ✓ Sepenuhnya | ✓ Sepenuhnya | ✓ Sepenuhnya |
| Ekosistem Framework AI | CUDA (terlengkap) BEST | MLX (baik utk Mac) | ROCm (terbatas) | CUDA (terlengkap) |
| 💡 Efisiensi Daya | ||||
| TDP Chip | 45–80W | ~30–40W | ~55–120W | ~100–175W |
| Idle Power | < 4W SANGAT EFISIEN | ~2W | ~8W | ~15W+ |
⚠️ Bandwidth Bottleneck — Kenapa Decode Speed Tidak Secepat yang Diharapkan
- →Decode LLM adalah memory-bandwidth-bound, bukan compute-bound. Untuk setiap token yang di-generate, seluruh weight model perlu di-load dari memori. Model 120B di FP8 punya ukuran ~60 GB — setiap token butuh read sebagian besar dari 60 GB ini
- →LPDDR5X 300 GB/s vs GDDR7 1.792 GB/s. RTX 5090 dengan GDDR7 punya bandwidth ~6x lebih tinggi, tapi tidak bisa muat model besar. Untuk model yang bisa dimuat (7B, 13B), RTX 5090 decode jauh lebih cepat dari N1X. N1X menang hanya saat model terlalu besar untuk VRAM
- →Untuk chat real-time, 35–45 tok/s sudah sangat nyaman. Kecepatan baca manusia rata-rata ~4–6 tok/s — jadi bahkan decode 10 tok/s sudah terasa instan untuk chat. Yang penting adalah ceiling: bisa jalankan 120B sama sekali, vs tidak bisa
- →Prefill adalah kekuatan N1X. Untuk aplikasi yang memproses dokumen panjang sebelum generate (RAG, summarization, code analysis), prefill 1.700 tok/s sangat menguntungkan — dokumen 100 halaman diproses dalam detik
🔮 Kapan Cloud Inference Masih Lebih Baik dari N1X Lokal?
- →Untuk produksi multi-user dengan load tinggi. N1X adalah single-chip — kalau kamu serve ratusan concurrent user, cloud dengan cluster H100 tetap lebih skalabel dan cost-effective per token
- →Untuk model frontier terbaru (GPT-4o, Claude Opus, Gemini Ultra). Model proprietary dan frontier terbesar tidak tersedia lokal — untuk akses model frontier paling mutakhir, API cloud tetap diperlukan
- →Untuk fine-tuning model besar secara intensif. Training LLM dari scratch atau fine-tuning skala besar tetap membutuhkan cluster GPU dedicated — N1X lebih cocok untuk inferensi dan fine-tuning ringan
- →Jika budget adalah prioritas. Laptop N1X ~$2.900+ — biaya per token cloud model GPT-4o bisa jauh lebih murah untuk pengguna yang tidak menggunakan AI setiap hari secara intensif
Ya dan tidak — tergantung model mana yang dimaksud. ChatGPT (GPT-4, GPT-4o) adalah model proprietary yang tidak tersedia secara lokal. Namun ada model open-weight yang performanya sangat kompetitif: GPT-OSS 120B (model open-weight pertama OpenAI yang dirilis Agustus 2025) bisa berjalan penuh di N1X dengan 128 GB RAM — ini adalah model yang paling mendekati GPT-4 class yang bisa dijalankan lokal. Alternatif lain: Llama 4 70B, Qwen 2.5 72B, dan DeepSeek V3 tersedia sebagai open-weight dan bisa dijalankan penuh di N1X. Untuk Claude, belum ada model open-weight dari Anthropic saat ini.
Angka TOPS dari Intel (48 TOPS), Qualcomm (45 TOPS), dan AMD (50 TOPS) mengacu pada performa NPU (Neural Processing Unit) dedicated mereka — chip kecil khusus untuk operasi AI tertentu. Angka ini jauh lebih kecil dari GPU, tapi efisien untuk task spesifik seperti background blur atau noise reduction. N1X “1.000 TOPS” berasal dari GPU Blackwell menggunakan presisi FP4 — GPU yang jauh lebih besar dan powerful. Untuk inferensi LLM, GPU dengan CUDA jauh lebih berguna dari NPU karena semua framework utama (PyTorch, vLLM, dll) dioptimalkan untuk GPU. Kesimpulan: 1.000 TOPS N1X secara praktis jauh lebih berguna dari 50 TOPS NPU, terutama untuk LLM dan generative AI.
Estimasi biaya listrik N1X saat inferensi LLM (45–80W penuh): sekitar 45–80 Watt jam per jam operasi. Di tarif listrik Indonesia ~Rp 1.500/kWh, ini sekitar Rp 67–120 per jam. Untuk perbandingan: API GPT-4o dikenakan ~$0.005 per 1K token output (~Rp 80 per 1K token). Jika kamu menggunakan 1.000 token per jam, biaya cloud ~Rp 80/jam — hampir sama dengan listrik. Tapi jika kamu generate 100.000 token per jam (penggunaan intensif), cloud cost Rp 8.000/jam vs listrik N1X tetap Rp 67–120/jam. Break-even point: semakin intensif penggunaan, N1X semakin menghemat biaya. Untuk penggunaan sangat intensif, N1X bisa balik modal dalam hitungan bulan.
Ya, untuk fine-tuning skala kecil dan menengah. N1X dengan 128 GB unified memory bisa melakukan QLoRA fine-tuning pada model hingga 70B parameter — teknik yang menggunakan quantization untuk mengurangi kebutuhan memori selama training. Untuk fine-tuning model 7B–13B, N1X lebih dari memadai dan bisa selesai dalam waktu yang reasonable. Untuk full fine-tuning (bukan QLoRA) pada model 70B+, atau pre-training dari scratch, N1X tidak cukup — kamu butuh cluster GPU H100/A100. Namun untuk kebanyakan use case enterprise (domain-specific fine-tuning, instruction tuning, RLHF sederhana), N1X memberikan kemampuan yang sebelumnya hanya ada di workstation berharga puluhan juta rupiah.
Keduanya bisa memuat dan menjalankan LLM besar dengan 128 GB RAM. Perbedaan utama: (1) Raw AI compute: N1X unggul signifikan (1.000 TOPS vs ~40 TOPS Neural Engine Apple). Untuk workload yang membutuhkan CUDA, N1X lebih cepat secara substansial; (2) Ekosistem: CUDA ekosistem N1X lebih luas — PyTorch, vLLM, ComfyUI semua CUDA-first. Apple unggul di MLX untuk model yang dioptimalkan MLX, tapi MLX tidak se-mature CUDA; (3) Decode LLM 70B: keduanya sekitar 25–45 tok/s, kompetitif; (4) Prefill LLM: N1X menang besar (~1.700 vs ~500 tok/s) karena compute power lebih tinggi; (5) Ekosistem software: macOS lebih matang, Windows ARM masih berkembang; (6) Harga: MacBook Pro M4 Max 128 GB ~$4.000+. Untuk AI developer yang membutuhkan CUDA, N1X lebih compelling. Untuk kreator yang sudah dalam ekosistem Apple, M4 Max tetap excellent.
Nvidia N1X — Mengubah Definisi “AI PC” Secara Fundamental
Selama bertahun-tahun, “AI PC” hanya berarti laptop dengan NPU 40–50 TOPS yang bisa melakukan background blur dan noise reduction. Nvidia N1X mengubah definisi itu sepenuhnya: 1.000 TOPS FP4, 128 GB unified memory, ekosistem CUDA terlengkap di dunia — ini adalah workstation AI yang dikemas dalam laptop tipis 14mm.
Yang paling fundamental bukan angka TOPS-nya, tapi fakta bahwa untuk pertama kalinya, model LLM 120 miliar parameter bisa dijalankan sepenuhnya di memori laptop — tanpa cloud, tanpa biaya per token, tanpa membocorkan data. Ini mengubah cara developer, peneliti, profesional enterprise, dan kreator konten bekerja dengan AI secara mendasar.
Dengan catatan yang jujur: laptop RTX Spark baru tersedia fall 2026, semua angka adalah vendor claims yang perlu diverifikasi benchmark independen, dan Windows on ARM masih berkembang. Tapi arahnya jelas — jika benchmark terbukti sesuai klaim, N1X adalah lompatan terbesar dalam sejarah AI personal computing sejak GPU consumer pertama.





