CHAT 방식으로 사용하는 경우

방법1

  • 웹을 통한 수동 관리

방법2

  • LLM 모델을 통합으로 사용해볼 수 있는 LibreCHAT프로젝트를 활용
  • LibreCHAT에서는 개별 계정에서 사용할 토큰 양을 설정할 수 있음.

정해야 할 부분

할당량

  • 수업 일정에 맞게 할당?
  • 일 별 일정하게 할당?

모델 선택

Chat model
  • 일반 대화목적의 범용 모델
  • 현재 3.5 터보 모델은 무료로 사용할 수 있으므로 API로 굳이 사용할 필요 없이 본인의 계정으로 진행해도 상관없음.
  • 1개의 토큰은 의미있는 단어의 단위. 영단어 기준으로 보통 하나의 단어 크기
  • 100만개의 토큰은 영어 기준 600만 글자 한글 기준 300~400만 글자
ModelInputOutput
gpt-4-turbo-2024-04-09$10.00 / 1M tokens$30.00 / 1M tokens
gpt-3.5-turbo-0125$0.50 / 1M tokens$1.50 / 1M tokens
Assistant API
  • 파일을 업로드해서 해당 내용을 기반으로 대화할 수 있는 모델
ToolInput
Code interpreter$0.03 / session
File Search$0.10 / GB of vector-storage per day (1 GB free)

API를 프로그램 내에서 직접 사용하는 경우

openAI API를 사용

  • API key를 직접 사용하는 경우 openAI에서는 사용자 개별 사용량 모니터링은 가능하지만 제어는 어려울 것으로 보여짐.
  • 별도의 강의장 공용 계정을 생성하고 충전하는 형식으로 사용?

Google Gemini API를 활용

  • 현재 무료로 제공되고 있으며, 추후 유료로 전환 될 수 있음.
Model기능비율 제한
Gemini 1.5 Pro (미리보기 전용)입력: 오디오, 이미지, 텍스트
출력: 텍스트
분당 쿼리 2회, 일일 1,000개 쿼리
Gemini Pro입력: 텍스트
출력: 텍스트
분당 요청 60개
Gemini 1.0 Pro Vision입력: 텍스트 및 이미지
출력: 텍스트
분당 요청 60개

openrouter API 활용

  • openrouter는 다양한 LLM 모델을 선택 사용해볼 수 있는 플랫폼.
  • 크래딧을 충전해서 필요한 경우 키마다 제한량을 정해줄 수 있음.
  • 해당 플랫폼은 오픈소스 LLM이나 또는 유료 LLM 모델들도 사용할 수 있음.
  • 동일 모델을 호스팅하는 업체가 여럿 있을 수 있으며, 이 때 업체 별 가격이나 성능에서 차이가 있음.
  • 오픈소스의 경우 현재 Meta의 Llama3 정도를 제외하면 유료 모델인 GPT4, Gemini, Claude에 비해 추론 성능이 떨어짐.
  • API는 표준화가 되어 모든 모델을 사용할 수 있음.

로컬 LLM 모델을 PC에서 직접 구동

  • 오픈소스 기반의 LLM 모델을 로컬로 구동.
  • 별도의 비용이 발생하지 않으나 필요 연산에 높은 수준의 하드웨어 사양을 요구함.
  • GPU가 아닌 CPU를 사용하는 경우 작은 모델에서도 성능이 좋지 않을 것으로 예상 됨.
  • 작은 모델이나 높은 양자화가 진행된 모델은 내장그래픽카드에서도 돌아갈 정도로 사양이 낮아지지만 결과의 수준이 좋지 않음.
  • 윈도우의 경우 GPU의 vram으로 구동하기 때문에 고사양의 그래픽카드가 필요함.
  • 맥에서는 시스템과 그래픽 메모리가 통합관리되기 때문에 메모리만 충분하다면 구동에 문제가 없음. (상대적으로 저렴)

로컬 LLM 모델을 클라우드에서 구동

  • LLM의 사용료는 발생하지 않으나 클라우드 사용료가 발생