CHAT 방식으로 사용하는 경우

방법1

웹을 통한 수동 관리

방법2

LLM 모델을 통합으로 사용해볼 수 있는 LibreCHAT프로젝트를 활용
LibreCHAT에서는 개별 계정에서 사용할 토큰 양을 설정할 수 있음.

정해야 할 부분

할당량

수업 일정에 맞게 할당?
일 별 일정하게 할당?

모델 선택

Chat model

일반 대화목적의 범용 모델
현재 3.5 터보 모델은 무료로 사용할 수 있으므로 API로 굳이 사용할 필요 없이 본인의 계정으로 진행해도 상관없음.
1개의 토큰은 의미있는 단어의 단위. 영단어 기준으로 보통 하나의 단어 크기
100만개의 토큰은 영어 기준 600만 글자 한글 기준 300~400만 글자

Model	Input	Output
gpt-4-turbo-2024-04-09	$10.00 / 1M tokens	$30.00 / 1M tokens
gpt-3.5-turbo-0125	$0.50 / 1M tokens	$1.50 / 1M tokens

Assistant API

파일을 업로드해서 해당 내용을 기반으로 대화할 수 있는 모델

Tool	Input
Code interpreter	$0.03 / session
File Search	$0.10 / GB of vector-storage per day (1 GB free)

API를 프로그램 내에서 직접 사용하는 경우

openAI API를 사용

API key를 직접 사용하는 경우 openAI에서는 사용자 개별 사용량 모니터링은 가능하지만 제어는 어려울 것으로 보여짐.
별도의 강의장 공용 계정을 생성하고 충전하는 형식으로 사용?

Google Gemini API를 활용

현재 무료로 제공되고 있으며, 추후 유료로 전환 될 수 있음.

Model	기능	비율 제한
Gemini 1.5 Pro (미리보기 전용)	입력: 오디오, 이미지, 텍스트 출력: 텍스트	분당 쿼리 2회, 일일 1,000개 쿼리
Gemini Pro	입력: 텍스트 출력: 텍스트	분당 요청 60개
Gemini 1.0 Pro Vision	입력: 텍스트 및 이미지 출력: 텍스트	분당 요청 60개

openrouter API 활용

openrouter는 다양한 LLM 모델을 선택 사용해볼 수 있는 플랫폼.
크래딧을 충전해서 필요한 경우 키마다 제한량을 정해줄 수 있음.
해당 플랫폼은 오픈소스 LLM이나 또는 유료 LLM 모델들도 사용할 수 있음.
동일 모델을 호스팅하는 업체가 여럿 있을 수 있으며, 이 때 업체 별 가격이나 성능에서 차이가 있음.
오픈소스의 경우 현재 Meta의 Llama3 정도를 제외하면 유료 모델인 GPT4, Gemini, Claude에 비해 추론 성능이 떨어짐.
API는 표준화가 되어 모든 모델을 사용할 수 있음.

로컬 LLM 모델을 PC에서 직접 구동

오픈소스 기반의 LLM 모델을 로컬로 구동.
별도의 비용이 발생하지 않으나 필요 연산에 높은 수준의 하드웨어 사양을 요구함.
GPU가 아닌 CPU를 사용하는 경우 작은 모델에서도 성능이 좋지 않을 것으로 예상 됨.
작은 모델이나 높은 양자화가 진행된 모델은 내장그래픽카드에서도 돌아갈 정도로 사양이 낮아지지만 결과의 수준이 좋지 않음.
윈도우의 경우 GPU의 vram으로 구동하기 때문에 고사양의 그래픽카드가 필요함.
맥에서는 시스템과 그래픽 메모리가 통합관리되기 때문에 메모리만 충분하다면 구동에 문제가 없음. (상대적으로 저렴)

로컬 LLM 모델을 클라우드에서 구동

LLM의 사용료는 발생하지 않으나 클라우드 사용료가 발생