[운영#5] 비용 최적화 & 모델 선택 전략(o4-mini, GPT-4.1, 임베딩, 캐싱, 요청 구조)

한줄 요약:
자동화가 제대로 돌아가기 시작하면 가장 먼저 눈에 띄는 문제는 “비용”.
👉 모델 선택, 프롬프트 최적화, 배치 전략, 캐싱만 잘 하면 비용 70~95% 절감이 가능하다.

1. 비용 구조를 이해해야 절감이 가능하다

LLM 비용은 이 3개로 결정된다:

입력 토큰(Input tokens)
출력 토큰(Output tokens)
호출 횟수(API calls)

즉,

입력을 짧게 하고
출력을 최소화하고
호출 횟수를 줄이면
비용은 기하급수적으로 줄어든다.

2. 모델 선택 전략 — 저렴한 모델을 기본값으로

모델	추천 용도	장점	비용
o4-mini	요약·초안·추출	빠름·저렴·충분히 우수	최저 비용
GPT-4.1-mini	구조화·태그 생성	문법/품질 좋음	중간
GPT-4.1 / 4.1-pro	최종 보고서	인간급 품질	고가

전략:

요약/키워드/초안 → o4-mini
최종 1회 포맷팅 → GPT-4.1-mini
정말 중요한 공식 보고서만 GPT-4.1-pro

👉 이렇게만 해도 전체 비용 50% 절감

3. 배치(Batch) 처리 — “5개씩 묶어 보내기”

URL 50개를 50번 호출하면 비싸다.
➡️ 5개씩 묶어서 10번 호출
➡️ 동일 품질에 90% 비용 절감

batch_size = 5
batches = [
    urls[i:i+batch_size]
    for i in range(0, len(urls), batch_size)
]

LLM 입력도 동일.

4. 프롬프트 압축 — 입력 길이를 반으로 줄이면 바로 비용도 반값

일반 프롬프트:

다음 1,000단어의 기사를 요약해줘:

압축 프롬프트:

다음 내용을 5문장 핵심 bullet만 추출해줘:

효과:

입력 토큰 ↓
출력 토큰 ↓
속도 ↑

적절 프롬프트 패턴:
✔ “핵심 bullet 5개”
✔ “카테고리만 추출”
✔ “요약 500자 제한”
✔ “표준 포맷으로만 작성”

5. 캐시(Cache) 전략 — 비용 폭발 방지의 핵심

일일 뉴스 자동화 시스템의 가장 큰 낭비는 “중복 기사 요약”.

캐시 전략 2단계

① URL 캐싱

같은 URL → 스킵

② 텍스트 해시 캐싱

본문 MD5가 이전과 같으면 → 스킵

➡️ “바뀐 부분만 LLM 호출”

효과:

월간 비용 50% 이상 절약
LLM 호출량 절반 감소

6. LLM 호출 내부 구조 튜닝

✔ 출력 길이 제한

output_limit = "응답은 500자 이내로 작성"

✔ 생성 모드 줄이기

불필요한 “창의적 모드” → “정확 모드”로 전환
→ 비용, 속도 절감

✔ JSON 모드 사용

모델에 “JSON 모드”를 사용하면

“장황한 글” 방지
토큰 절감
포스트 프로세싱 비용 감소

7. 임베딩(Embeddings) 활용 — LLM 호출 횟수 대폭 축소

LLM을 매번 불러서 “키워드 추출/요약”하는 대신,
임베딩으로 문서 특징을 수치화 →
동일한 주제끼리 묶어서 한 번에 요약 가능.

예)

기사 20개 → 코사인 유사도 분류 → 5그룹  
→ 그룹당 1번 요약 → LLM 5번 호출로 끝

20 → 5
즉시 75% 비용 절감.

8. 오케스트레이터 레벨 최적화

orchestrator.py 에 비용 감시 코드를 붙이면
일일 비용 한도 초과 시 자동으로 “저가 모델 모드”로 전환 가능.

if COST.estimate_usd() > 0.50:   # 하루 50센트 넘으면
    USE_CHEAP_MODE = True
else:
    USE_CHEAP_MODE = False

9. 비용 절감 사례 시뮬레이션

가정:

하루 URL: 100개
LLM 호출: 100회
평균 입력: 3k tokens
평균 출력: 1k tokens
모델: GPT-4.1-mini

비용 (원본)

100 * (3k input + 1k output) = 400k tokens
→ 약 $2.0~3.0 / day
→ 약 $60~90 / month

최적화 후

Batch 5개씩 → 20회 호출
Short prompt → input 1k, output 300
캐시 적용 → 중복 30% 제거
최종 리포트 1개만 GPT-4.1-mini

20 * (1k+300) = 26k tokens
→ 하루 $0.10~0.15
→ 월 $3~5

절감률 90~95%

10. 체크리스트

o4-mini 기본값으로 변경
요약·키워드 batch 처리
출력 길이 제한
캐시(md5) 적용
중복 기사 스킵
임베딩 기반 그룹화
오케스트레이터에 비용 제한 로직 추가

🎯 요약 한 줄

모델 선택 + Batch + 캐시 + 프롬프트 축소
이 4개만 지키면 LLM 자동화 비용은 진짜로 90% 이상 절감된다.

이전 강좌 👈 [운영#4] 성능 튜닝 & 확장 (멀티스레드/비동기/큐 기반 처리)
다음 강좌 👉 [실전#1] 완성형 프로젝트 폴더 구조 & CI/CD 자동 배포 구축(전체 코드 정리)