CHAT 방식으로 사용하는 경우
방법1
- 웹을 통한 수동 관리
방법2
- LLM 모델을 통합으로 사용해볼 수 있는 LibreCHAT프로젝트를 활용
- LibreCHAT에서는 개별 계정에서 사용할 토큰 양을 설정할 수 있음.
정해야 할 부분
할당량
- 수업 일정에 맞게 할당?
- 일 별 일정하게 할당?
모델 선택
Chat model
- 일반 대화목적의 범용 모델
- 현재 3.5 터보 모델은 무료로 사용할 수 있으므로 API로 굳이 사용할 필요 없이 본인의 계정으로 진행해도 상관없음.
- 1개의 토큰은 의미있는 단어의 단위. 영단어 기준으로 보통 하나의 단어 크기
- 100만개의 토큰은 영어 기준 600만 글자 한글 기준 300~400만 글자
| Model | Input | Output |
|---|---|---|
| gpt-4-turbo-2024-04-09 | $10.00 / 1M tokens | $30.00 / 1M tokens |
| gpt-3.5-turbo-0125 | $0.50 / 1M tokens | $1.50 / 1M tokens |
Assistant API
- 파일을 업로드해서 해당 내용을 기반으로 대화할 수 있는 모델
| Tool | Input |
|---|---|
| Code interpreter | $0.03 / session |
| File Search | $0.10 / GB of vector-storage per day (1 GB free) |
API를 프로그램 내에서 직접 사용하는 경우
openAI API를 사용
- API key를 직접 사용하는 경우 openAI에서는 사용자 개별 사용량 모니터링은 가능하지만 제어는 어려울 것으로 보여짐.
- 별도의 강의장 공용 계정을 생성하고 충전하는 형식으로 사용?
Google Gemini API를 활용
- 현재 무료로 제공되고 있으며, 추후 유료로 전환 될 수 있음.
| Model | 기능 | 비율 제한 |
|---|---|---|
| Gemini 1.5 Pro (미리보기 전용) | 입력: 오디오, 이미지, 텍스트 출력: 텍스트 | 분당 쿼리 2회, 일일 1,000개 쿼리 |
| Gemini Pro | 입력: 텍스트 출력: 텍스트 | 분당 요청 60개 |
| Gemini 1.0 Pro Vision | 입력: 텍스트 및 이미지 출력: 텍스트 | 분당 요청 60개 |
openrouter API 활용
- openrouter는 다양한 LLM 모델을 선택 사용해볼 수 있는 플랫폼.
- 크래딧을 충전해서 필요한 경우 키마다 제한량을 정해줄 수 있음.
- 해당 플랫폼은 오픈소스 LLM이나 또는 유료 LLM 모델들도 사용할 수 있음.
- 동일 모델을 호스팅하는 업체가 여럿 있을 수 있으며, 이 때 업체 별 가격이나 성능에서 차이가 있음.
- 오픈소스의 경우 현재 Meta의 Llama3 정도를 제외하면 유료 모델인 GPT4, Gemini, Claude에 비해 추론 성능이 떨어짐.
- API는 표준화가 되어 모든 모델을 사용할 수 있음.
로컬 LLM 모델을 PC에서 직접 구동
- 오픈소스 기반의 LLM 모델을 로컬로 구동.
- 별도의 비용이 발생하지 않으나 필요 연산에 높은 수준의 하드웨어 사양을 요구함.
- GPU가 아닌 CPU를 사용하는 경우 작은 모델에서도 성능이 좋지 않을 것으로 예상 됨.
- 작은 모델이나 높은 양자화가 진행된 모델은 내장그래픽카드에서도 돌아갈 정도로 사양이 낮아지지만 결과의 수준이 좋지 않음.
- 윈도우의 경우 GPU의 vram으로 구동하기 때문에 고사양의 그래픽카드가 필요함.
- 맥에서는 시스템과 그래픽 메모리가 통합관리되기 때문에 메모리만 충분하다면 구동에 문제가 없음. (상대적으로 저렴)
로컬 LLM 모델을 클라우드에서 구동
- LLM의 사용료는 발생하지 않으나 클라우드 사용료가 발생