๋๊ท๋ชจ ์ ์กฐ ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ๋ณด๊ณ ์ ์์ฑ์ ์ํ Agentic AI ์์คํ
์์
LLM ์ปดํจํ
๋น์ฉ๊ณผ ์๋ต ์ง์ฐ(latency) ์ ์ฃผ์ ๋ฌธ์ ์ด๋ค.
๋ค์ ์ฌํญ์ ํฌํจํ์ฌ ํจ์จํ ์ ๋ต์ ์ ์ํ์์ค.
1. ๋ชจ๋ธ ์๋น ๋ฐ ์บ์ฑ ์ ๋ต (vLLM, Triton, TensorRT ๋ฑ)
2. ํ ํฐ ๋จ์ ์ต์ ํ (Prompt/Response Caching, Prefix Tuning ๋ฑ)
3. ๋ชจ๋ธ ์์ถ ๋ฐ ๋ถ์ฐ ์๋น ์ ๋ต (Quantization, Sharding, Mixture-of-Experts ๋ฑ)
โ ๋ฌธ์ ์ธ์
- ์ ์กฐ ํ์ฅ์ ๋๋ ๋ณด๊ณ ์(์์ฒ๊ฑด/์ผ) ์์ฑ ์๊ตฌ → LLM ํธ์ถ ๋น์ฉ·์ง์ฐ์ด ๊ธ์ฆ.
- ๋ฐ๋ผ์ LLM์ ์ปดํจํ ํจ์จํ(Serving + Token + Storage) ๊ฐ ํต์ฌ์ด๋ค.
โก ๋ชจ๋ธ ์๋น ์ต์ ํ
| vLLM | Continuous batching + PagedAttention | ์ฌ๋ฌ ์์ฒญ์ ํ ๋ฒ์ ์ฒ๋ฆฌํ์ฌ GPU ํ์ฉ๋ฅ ๊ทน๋ํ |
| Triton Server | Multi-model serving | LLM + ML๋ชจ๋ธ + RAG ์ธํผ๋ฐ์ค ํตํฉ ์๋น |
| TensorRT-LLM | FP8 quant + graph fusion | GPU inference latency 30~40% ๋จ์ถ |
| Async Queue | Redis + asyncio | ๋์ ์์ฒญ์ ๋น๋๊ธฐ๋ก ํ์ |
์์ ๊ตฌ์กฐ:
โข ํ ํฐ ํจ์จํ ์ ๋ต
| Prompt Caching | ๋์ผ ์ง์ ํ๋กฌํํธ ํด์ ์ ์ฅ | ๋ฐ๋ณต ๋ณด๊ณ ์ ์ฌ์ฌ์ฉ |
| Prefix Tuning | ๊ณต์ ๋ณ ํนํ prefix๋ง ๋ฏธ์ธ์กฐ์ | ํ๋ผ๋ฏธํฐ ์ ๊ฐ์(0.3~1%) |
| Response Caching | “query+context hash” ์บ์ ํค๋ก ์ ์ฅ | RAG ๋ฐ๋ณต ํธ์ถ ๊ฐ์ |
| Streaming Output | ์ฆ์ ์๋ต ์คํธ๋ฆผ ์ ๋ฌ | UX ๊ฐ์ , ์ง์ฐ ์ฒด๊ฐ ๊ฐ์ |
โฃ ๋ชจ๋ธ ์์ถ ๋ฐ ๋ถ์ฐ ์๋น
| Quantization (4bit/8bit) | ์ ๋ฐ๋ ๋ฎ์ถฐ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ | 70% GPU VRAM ์ ๊ฐ |
| Sharding / ZeRO | ๋ํ ๋ชจ๋ธ์ GPU๊ฐ ๋ถํ | ๋๊ท๋ชจ LLM ์๋น ๊ฐ๋ฅ |
| MoE (Mixture of Experts) | ์์ฒญ๋ณ๋ก ์ผ๋ถ ์ ๋ฌธ๊ฐ ๋ ์ด์ด๋ง ํ์ฑ | ํ๊ท ์ฐ์ฐ๋ 20~40% ๊ฐ์ |
โค ์ค๋ฌด ์๋๋ฆฌ์ค
- 13B ๋ชจ๋ธ(vLLM) 3๊ฐ → GPU 4์ฅ(48GB)
- PromptCache ํ์ฑํ → ๋ฐ๋ณต ์ง์ ์๋ต ์๋ 3๋ฐฐ ๊ฐ์
- FP8 TensorRT ๋ณํ → ๋จ์ผ ๋ณด๊ณ ์ ์๋ต์๊ฐ 9.8s → 4.3s
- ๋น์ฉ ์ ๊ฐ: GPU ์ฌ์ฉ๋ฅ 35% ↓, ์ $3,000 ์ ์ฝ
โฅ ํ๊ฐ ํฌ์ธํธ
- ๋ชจ๋ธ ์๋น ๊ตฌ์กฐ(vLLM/Triton)์ ํ ํฐ ์ต์ ํ๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ์ธ๊ธํ๋๊ฐ
- Quantization/MoE ๊ฐ์ ์ปดํจํ ์ ๊ฐ ๊ธฐ์ ์ ์๋ฆฌ๋ฅผ ์ค๋ช ํ๋๊ฐ
- ์ค์ ์ด์ ํจ๊ณผ(์๋·๋น์ฉ ๊ฐ์ )๋ฅผ ์์น๋ก ์ ์ํ๋๊ฐ