LIBRISTO
LIBROAMANTO
obligatoriu
Faceți parte dintr-o comunitate de iubitori de cărți din întreaga lume și beneficiați de o mulțime de avantaje Creați-vă un cont gratuit
0
Transport gratuit la punctele de livrare Pick Up peste 349.00 lei
Packeta 15.00 lei Cargus 28.00 lei Easybox 20.00 lei FAN 20.00 lei Punct FAN 16.00 lei Punct DPD 17.00 lei Curier Sameday 24.00 lei Curier DPD 25.00 lei

Livrare gratuită pentru comenzile peste 349,00 lei.

Local LLM Inference Optimization

A Comprehensive Guide to Quantization, Hardware Acceleration, and Efficient Private AI Deployment

Limba englezăengleză
Carte Carte broșată
Carte Local LLM Inference Optimization Thomas O. Greene
Codul Libristo: 52120727
Editura Independently published, aprilie 2026
Stop Renting Intelligence. Start Optimizing Your Own.Do you want to run 70B parameter models on a si... Descrierea completă
? points 42 b Nou Nou
91.50 lei
În depozitul extern Expediem în 9-15 zile

30 de zile pentru retur bunuri

Stop Renting Intelligence. Start Optimizing Your Own.
Do you want to run 70B parameter models on a single consumer GPU? Are you tired of high API costs, network latency, and the privacy risks of cloud-based AI?
The "Local LLM Revolution" is here, but running Large Language Models (LLMs) privately is only half the battle. To make them truly useful, you must master Inference Optimization.
In Local LLM Inference Optimization, you will move beyond basic "out-of-the-box" setups and dive into the high-performance engineering required to squeeze every drop of power from your hardware. Whether you are using NVIDIA CUDA, Apple Silicon (MLX), or AMD ROCm, this comprehensive guide provides the technical blueprint for the sovereign engineer.

What You Will Master:

  • The Quantization Deep-Dive: Learn to navigate the "Quantization Tax" using GGUF, EXL2, AWQ, and GPTQ. Move from FP32 to 4-bit and even 1.58-bit (BitNet) without losing the model's "mind."
  • Advanced Memory Management: Defeat "Out of Memory" (OOM) errors by mastering KV Cache Management, PagedAttention, and FlashAttention 2 & 3.
  • The Speed Multipliers: Double your Tokens Per Second (TPS) using Speculative Decoding, Continuous Batching, and Lookahead Heuristics.
  • Hardware Architecture: Architect high-performance local servers using Multi-GPU Pipeline Parallelism and CPU/GPU offloading strategies.
  • Context Window Expansion: Use RoPE Scaling, YaRN, and LongRoPE to push 8k models to 128k+ context on consumer hardware.
  • The Full Local Stack: Step-by-step guides for Llama.cpp, Ollama, vLLM, and TGI (Text Generation Inference).
  • Security & Privacy: Deploy Air-Gapped AI environments and secure your infrastructure using Safetensors and local sandboxing.
Why This Book?
This book focuses on Deployment and Efficiency. It is written for the Lead Engineer, the Privacy-Conscious CTO, and the Prosumer Hobbyist who demands low Time to First Token (TTFT) and maximum Perf/Watt.
Stop paying for tokens. Own your weights. Optimize your future.

Actriță & Poliglotă
EWA KASP pentru
Redă videoclipul
Ewa Kasp
Libristo are cea mai mare selecție de literatură în limbi străine. De aceea îmi cumpăr cărțile de aici.

Informații despre carte

Titlu complet Local LLM Inference Optimization
Limba engleză
Legare Carte - Carte broșată
Data publicării 2026
Număr pagini 170
EAN 9798258375193
Codul Libristo 52120727
Greutatea 237
Dimensiuni 152 x 229 x 9
Dăruiește această carte chiar astăzi
Este foarte ușor
1 Adaugă cartea în coș și selectează Livrează ca un cadou 2 Îți vom trimite un voucher în schimb 3 Cartea va ajunge direct la adresa destinatarului

Logare

Conectare la contul de utilizator Încă nu ai un cont Libristo? Crează acum!

 
obligatoriu
obligatoriu

Nu ai un cont? Beneficii cu contul Libristo!

Datorită contului Libristo, vei avea totul sub control.

Creare cont Libristo
Consilier de cărți Libroamiko
Bună ziua, sunt Libroamiko, vă pot ajuta?