로봇 GPT 응답 지연 줄이기: 컨텍스트 계층화와 임베딩 캐시 운영 기준

2022년 10월 20일 · ◷ 2분

로봇 대화 시스템에서는 “답을 잘 만드는 것"만큼 답을 제때 만드는 것이 중요하다.

이 글은 상태 기반 로봇 대화에서 컨텍스트 설계와 캐싱으로 지연을 줄인 방법을 정리한다.

문제 정의

다음 구성으로 계층을 분리했다.

핵심은 모든 것을 매번 새로 계산하지 않는 것이다.

이 분리를 하지 않으면 프롬프트 길이는 늘어나는데 품질은 오히려 흔들린다.

cache_key = hash(intent, locale, profile, context_version)

이 정도의 단순한 키 규칙만 있어도 캐시 오염을 크게 줄일 수 있다.

속도 지표만 보면 잘못된 최적화를 하게 된다. context_mismatch_rate를 반드시 같이 본다.

따라서 캐시 최적화는 항상 latency와 quality를 같이 본다. 한쪽만 최적화하면 운영 품질이 불안정해진다.

참고: RAG 연구는 장기 지식을 프롬프트 외부 검색으로 분리해 품질/비용 균형을 맞추는 접근을 제시한다. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

참고: OpenAI 지연 최적화 가이드는 응답 지연을 줄이기 위한 프롬프트/시스템 설계 전략을 다룬다. Latency optimization

참고: DynamoDB는 상태 저장 계층의 저지연 키-값 접근 패턴에 적합한 관리형 데이터베이스다. What is Amazon DynamoDB?