'Agentic AI' 카테고리의 글 목록

Agentic AI

18. Prompt Compiler 및 Template Registry 설계 2025.10.29
17. LLM 컴퓨팅 효율화 및 비용 최적화 전략 2025.10.29
16. Root Cause Reasoning Chain 설계 2025.10.29
15. Knowledge Graph + RAG 통합 추론 구조 2025.10.29

18. Prompt Compiler 및 Template Registry 설계

2025. 10. 29. 12:59

17. LLM 컴퓨팅 효율화 및 비용 최적화 전략

프로비아 2025. 10. 29. 12:58

2025. 10. 29. 12:58

대규모 제조 데이터 분석 및 보고서 생성을 위한 Agentic AI 시스템에서
LLM 컴퓨팅 비용과 응답 지연(latency) 은 주요 문제이다.

다음 사항을 포함하여 효율화 전략을 제시하시오.

1. 모델 서빙 및 캐싱 전략 (vLLM, Triton, TensorRT 등)

2. 토큰 단위 최적화 (Prompt/Response Caching, Prefix Tuning 등)

3. 모델 압축 및 분산 서빙 전략 (Quantization, Sharding, Mixture-of-Experts 등)

① 문제 인식

제조 현장은 대량 보고서(수천건/일) 생성 요구 → LLM 호출 비용·지연이 급증.
따라서 LLM의 컴퓨팅 효율화(Serving + Token + Storage) 가 핵심이다.

② 모델 서빙 최적화

전략기술설명

vLLM	Continuous batching + PagedAttention	여러 요청을 한 번에 처리하여 GPU 활용률 극대화
Triton Server	Multi-model serving	LLM + ML모델 + RAG 인퍼런스 통합 서빙
TensorRT-LLM	FP8 quant + graph fusion	GPU inference latency 30~40% 단축
Async Queue	Redis + asyncio	동시 요청을 비동기로 큐잉

예시 구조:

Client → API Gateway → vLLM → Cache → Report Agent

③ 토큰 효율화 전략

방법설명기대효과

Prompt Caching	동일 질의 프롬프트 해시 저장	반복 보고서 재사용
Prefix Tuning	공정별 특화 prefix만 미세조정	파라미터 수 감소(0.3~1%)
Response Caching	“query+context hash” 캐시 키로 저장	RAG 반복 호출 감소
Streaming Output	즉시 응답 스트림 전달	UX 개선, 지연 체감 감소

④ 모델 압축 및 분산 서빙

기술내용장점

Quantization (4bit/8bit)	정밀도 낮춰 메모리 절약	70% GPU VRAM 절감
Sharding / ZeRO	대형 모델을 GPU간 분할	대규모 LLM 서빙 가능
MoE (Mixture of Experts)	요청별로 일부 전문가 레이어만 활성	평균 연산량 20~40% 감소

⑤ 실무 시나리오

13B 모델(vLLM) 3개 → GPU 4장(48GB)
PromptCache 활성화 → 반복 질의 응답 속도 3배 개선
FP8 TensorRT 변환 → 단일 보고서 응답시간 9.8s → 4.3s
비용 절감: GPU 사용률 35% ↓, 월 $3,000 절약

⑥ 평가 포인트

모델 서빙 구조(vLLM/Triton)와 토큰 최적화를 구체적으로 언급했는가
Quantization/MoE 같은 컴퓨팅 절감 기술의 원리를 설명했는가
실제 운영 효과(속도·비용 개선)를 수치로 제시했는가

16. Root Cause Reasoning Chain 설계

프로비아 2025. 10. 29. 12:57

2025. 10. 29. 12:57

제조공정의 불량 원인 분석(Anomaly Root Cause Analysis)을 자동화하기 위해
Reasoning Chain 기반 Agentic AI 구조를 설계하려 한다.

데이터를 통한 “이상 탐지 → 원인 추론 → 근거 문헌 인용 → 조치 제안” 과정을
Agent Chain 형태로 구성하고, 각 단계의 입력·출력 구조를 설계하시오.

① 목적

제조 불량의 원인은 단일 변수가 아닌 다수의 상호작용 변수에 의해 발생.
LLM이 데이터를 근거로 논리적 Reasoning Chain을 따라가며
원인을 설명하고 근거 문서를 인용해야 함.

② 전체 구조

[Sensor Data] ──> Anomaly-Agent
                    ↓
                RootCause-Agent
                    ↓
                RAG-Agent
                    ↓
                Action-Agent
                    ↓
                Report-Agent

③ 단계별 역할

Agent입력처리 로직출력

Anomaly-Agent	시계열 데이터	Isolation Forest / TCN	이상 구간 (time range, variables)
RootCause-Agent	이상 구간 데이터	상관분석, SHAP, Causal Inference	주요 변수·영향도
RAG-Agent	변수명, 공정명	문헌·SOP 검색	관련 절차/허용범위
Action-Agent	원인+SOP 내용	조치 제안 생성	조치 텍스트
Report-Agent	모든 결과	리포트 통합	PDF/DOCX 보고서

④ 예시 시나리오

입력: 2025-10-18 라인2 수율 급락

Anomaly-Agent: OvenTemp(±8℃), Speed(1.1m/s) 감지
RootCause-Agent: Corr(Temp,Yield)=−0.81 → 주요원인 Temp
RAG-Agent: SOP-HT-221 §3.2 인용 (허용 ±5℃)
Action-Agent: “온도 PID 재튜닝 및 센서 점검”
Report-Agent: 근거 포함 보고서 완성

⑤ LangGraph 워크플로 예시

nodes:
  - anomaly_agent
  - rootcause_agent
  - rag_agent
  - action_agent
  - report_agent
edges:
  - anomaly_agent -> rootcause_agent
  - rootcause_agent -> rag_agent
  - rag_agent -> action_agent
  - action_agent -> report_agent

각 노드의 출력은 JSON 형태로 전달:

{
  "variable": "OvenTemp",
  "deviation": 8,
  "impact": 0.81,
  "sop_reference": "SOP-HT-221 §3.2",
  "recommended_action": "Adjust PID controller"
}

⑥ 기술적 포인트

영역기술설명

이상탐지	IsolationForest / TCN	실시간 이상 감지
원인추론	SHAP, CausalImpact	변수 영향도 추정
근거검색	BM25+pgvector RAG	SOP/WI 인용
조치생성	LLM (Instruction-tuned)	자연어 조치 생성
체인관리	LangGraph	플로우 및 재시도 관리

⑦ 평가 포인트

단계별 입력/출력 구조를 명확히 제시했는가
RootCause-Agent가 수치적/문헌적 근거를 결합하는 구조를 설명했는가
최종 리포트 생성까지의 Reasoning Chain을 논리적으로 구성했는가① 목적
- 제조 불량의 원인은 단일 변수가 아닌 다수의 상호작용 변수에 의해 발생.
- LLM이 데이터를 근거로 논리적 Reasoning Chain을 따라가며
  원인을 설명하고 근거 문서를 인용해야 함.
② 전체 구조
③ 단계별 역할
④ 예시 시나리오
⑤ LangGraph 워크플로 예시
- 각 노드의 출력은 JSON 형태로 전달:
```
{
  "variable": "OvenTemp",
  "deviation": 8,
  "impact": 0.81,
  "sop_reference": "SOP-HT-221 §3.2",
  "recommended_action": "Adjust PID controller"
}
```
⑥ 기술적 포인트
⑦ 평가 포인트
- 단계별 입력/출력 구조를 명확히 제시했는가
- RootCause-Agent가 수치적/문헌적 근거를 결합하는 구조를 설명했는가
- 최종 리포트 생성까지의 Reasoning Chain을 논리적으로 구성했는가

영역기술설명

이상탐지	IsolationForest / TCN	실시간 이상 감지
원인추론	SHAP, CausalImpact	변수 영향도 추정
근거검색	BM25+pgvector RAG	SOP/WI 인용
조치생성	LLM (Instruction-tuned)	자연어 조치 생성
체인관리	LangGraph	플로우 및 재시도 관리

nodes:
  - anomaly_agent
  - rootcause_agent
  - rag_agent
  - action_agent
  - report_agent
edges:
  - anomaly_agent -> rootcause_agent
  - rootcause_agent -> rag_agent
  - rag_agent -> action_agent
  - action_agent -> report_agent

입력: 2025-10-18 라인2 수율 급락
Anomaly-Agent: OvenTemp(±8℃), Speed(1.1m/s) 감지
RootCause-Agent: Corr(Temp,Yield)=−0.81 → 주요원인 Temp
RAG-Agent: SOP-HT-221 §3.2 인용 (허용 ±5℃)
Action-Agent: “온도 PID 재튜닝 및 센서 점검”
Report-Agent: 근거 포함 보고서 완성

Agent입력처리 로직출력

Anomaly-Agent	시계열 데이터	Isolation Forest / TCN	이상 구간 (time range, variables)
RootCause-Agent	이상 구간 데이터	상관분석, SHAP, Causal Inference	주요 변수·영향도
RAG-Agent	변수명, 공정명	문헌·SOP 검색	관련 절차/허용범위
Action-Agent	원인+SOP 내용	조치 제안 생성	조치 텍스트
Report-Agent	모든 결과	리포트 통합	PDF/DOCX 보고서

[Sensor Data] ──> Anomaly-Agent
                    ↓
                RootCause-Agent
                    ↓
                RAG-Agent
                    ↓
                Action-Agent
                    ↓
                Report-Agent

15. Knowledge Graph + RAG 통합 추론 구조

프로비아 2025. 10. 29. 12:56

2025. 10. 29. 12:56

제조공정의 문서와 데이터 간 관계를 체계적으로 관리하기 위해
Knowledge Graph (KG) 와 RAG 를 결합한 지식 기반 Agentic AI를 구축하려 한다.

두 시스템의 역할을 비교하고,
KG 기반 RAG Retrieval 구조 및 추론 흐름을 설계하여 설명하시오.

① 개념 비교

항목RAGKnowledge Graph

목적	문서 기반 의미 검색	엔티티 간 관계 추론
단위	문장/문단	노드/엣지(엔티티 관계)
장점	빠른 검색·요약	논리적 관계 기반 추론
한계	문맥 단절	대규모 구축 비용

→ 결합 시 “검색 + 추론”이 동시에 가능.

② 통합 구조 개요

[문서/DB] → [Chunking + Embedding] → RAG Index(OpenSearch + pgvector)
[지식맵] → [Entity/Relation 추출] → Knowledge Graph (Neo4j)
       ↓
   KG-RAG Fusion Retriever
       ↓
  Reasoning LLM (LangGraph Agent)
       ↓
  인용 + 관계기반 보고서 생성

③ Fusion Retrieval 원리

Query를 Entity 및 Relation으로 파싱 (예: “온도 편차가 수율에 미치는 영향”)
KG에서 연결된 엔티티 탐색:
MATCH (p:Parameter)-[:AFFECTS]->(k:KPI {name:'Yield'}) RETURN p.name, p.importance
연관 엔티티 키워드를 RAG 검색어에 추가:
query_terms = ["temperature deviation", "yield loss", "oven parameter"]
하이브리드 검색(BM25+Vector) 수행 → 근거 문단 수집.
LLM이 KG 관계 + 문서 근거를 함께 인용하여 답변 생성.

④ 예시 응답 구조

질문: 오븐 온도 편차가 수율에 미치는 영향은?
RAG 인용: “SOP-HT-221 §3.2: ±5℃ 초과 시 품질 저하 발생.”
KG 관계: (TemperatureDeviation)–AFFECTS–(YieldLoss) weight=0.86
AI 답변: “온도 편차는 수율 저하의 주요 원인(상관도 0.86)으로 SOP-HT-221에서 허용범위를 ±5℃로 제한하고 있다.”

⑤ 기술 구성요소

모듈기술설명

Entity Extractor	spaCy, Llama3 NER	KPI·Parameter·Equipment 추출
Graph DB	Neo4j, ArangoDB	관계 저장·탐색
KG-RAG Fusion	Custom Retriever	KG 기반 Query Expansion
Agent	LangGraph	RAG + KG 병합 추론
Visualization	NeoDash, Grafana	관계 시각화

⑥ 실무효과

항목기존 RAGKG+RAG

인용 품질	문장 기반	관계 기반 근거 보강
도메인 이해	약함	엔티티 관계 기반 심화
재현성	중간	높음
확장성	문서 증가 영향 큼	엔티티 관계만 추가로 확장 용이

⑦ 평가 포인트

RAG와 KG의 차이를 명확히 설명했는가
KG 기반 Query Expansion 구조를 구체화했는가
Fusion Retriever의 추론 절차를 단계별로 제시했는가

PREV 이전 1 2 3 4 ···13 NEXT 다음

딥러닝 🐍

Agentic AI

18. Prompt Compiler 및 Template Registry 설계

17. LLM 컴퓨팅 효율화 및 비용 최적화 전략

① 문제 인식

② 모델 서빙 최적화

③ 토큰 효율화 전략

④ 모델 압축 및 분산 서빙

⑤ 실무 시나리오

⑥ 평가 포인트

16. Root Cause Reasoning Chain 설계

① 목적

② 전체 구조

③ 단계별 역할

④ 예시 시나리오

⑤ LangGraph 워크플로 예시

⑥ 기술적 포인트

⑦ 평가 포인트

15. Knowledge Graph + RAG 통합 추론 구조

① 개념 비교

② 통합 구조 개요

③ Fusion Retrieval 원리

④ 예시 응답 구조

⑤ 기술 구성요소

⑥ 실무효과

⑦ 평가 포인트

+ Recent posts

티스토리툴바