LIBRISTO
LIBROAMANTO
obligatoriu
Faceți parte dintr-o comunitate de iubitori de cărți din întreaga lume și beneficiați de o mulțime de avantaje Creați-vă un cont gratuit
0
Transport gratuit la punctele de livrare Pick Up peste 349.00 lei
Packeta 15.00 lei Cargus 28.00 lei Easybox 20.00 lei FAN 20.00 lei Punct FAN 16.00 lei Punct DPD 17.00 lei Curier Sameday 24.00 lei Curier DPD 25.00 lei

Livrare gratuită pentru comenzile peste 349,00 lei.

AI Inference Optimization Engineering

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

Limba englezăengleză
Carte Carte broșată
Carte AI Inference Optimization Engineering ChatVariety Team
Codul Libristo: 52770465
Editura Independently published, iunie 2026
Slash LLM Deployment Costs and LatencyDeploying Large Language Models (LLMs) in production is a mass... Descrierea completă
? points 26 b Curând Curând Nou Nou
56.72 lei
Așteptăm intrarea în stoc Ediția 07. 06. 2026

30 de zile pentru retur bunuri

Slash LLM Deployment Costs and Latency

Deploying Large Language Models (LLMs) in production is a massive economic and engineering hurdle. AI Inference Optimization Engineering is your comprehensive, hands-on guide to mastering the full stack of modern LLM optimization techniques. From memory-bandwidth solutions to hardware-specific compilation, this book bridges the gap between research-level models and enterprise-grade execution.

What you will master inside this book:
  • Hardware-Aware Optimization: Dive deep into KV cache mechanics, autoregressive decoding, and GPU memory hierarchies to eliminate latency bottlenecks.
  • State-of-the-Art Quantization: Apply GPTQ, AWQ, and GGUF compression algorithms to scale down massive neural networks without sacrificing model accuracy.
  • Advanced Acceleration Methods: Implement speculative decoding with draft models (like Medusa and Eagle), PagedAttention, and FlashAttention to boost throughput by 2-3x.
  • Production-Grade Serving: Build ultra-low-latency deployment infrastructures using vLLM, Triton Inference Server, and continuous batching.
  • Cross-Platform Deployment: Optimize models for specific target hardware, including NVIDIA H100 (TensorRT-LLM), Apple Silicon (llama.cpp/Metal), and Qualcomm mobile/edge accelerators.

Whether you are an ML infrastructure engineer, an AI platform architect, or a technical leader looking to scale LLMs cost-effectively, this book provides the production-ready code, equations, and architectural patterns you need to build hyper-efficient AI pipelines.

Actriță & Poliglotă
EWA KASP pentru
Redă videoclipul
Ewa Kasp
Libristo are cea mai mare selecție de literatură în limbi străine. De aceea îmi cumpăr cărțile de aici.

Informații despre carte

Titlu complet AI Inference Optimization Engineering
Limba engleză
Legare Carte - Carte broșată
Data publicării 2026
Număr pagini 96
EAN 9798199720021
Codul Libristo 52770465
Greutatea 142
Dimensiuni 152 x 229 x 5
Dăruiește această carte chiar astăzi
Este foarte ușor
1 Adaugă cartea în coș și selectează Livrează ca un cadou 2 Îți vom trimite un voucher în schimb 3 Cartea va ajunge direct la adresa destinatarului

Logare

Conectare la contul de utilizator Încă nu ai un cont Libristo? Crează acum!

 
obligatoriu
obligatoriu

Nu ai un cont? Beneficii cu contul Libristo!

Datorită contului Libristo, vei avea totul sub control.

Creare cont Libristo