Ollama/Llama3/Llama-Index 사용 방법

올라마(Ollama)는 로컬 환경에서 여러 대규모 언어 모델(LLM)을 실행할 수 있도록 지원하는 오프소스 도구이다. REST API로 모델을 서빙할 수도 있다. 확장 기능을 사용하면 챗GPT와 유사한 웹 UI를 구현해 사용할 수도 있다. 윈도우 환경에서 올라마를 설치하고 라마3(llama3 모델을 실행하는 방법에 대해 알아보자.

올라마(Ollama) 설치

올라마 다운로드 페이지에 접속 후 윈도우 프리뷰(Windows Preview)를 다운로드한다.

라마3(llama3) 모델 실행

올라마 모델 페이지에 접속해 사용할 모델을 선택할 수 있다. 라마3(llama3) 모델을 사용해보자. 다른 모델도 실행 방법이 동일하다. CMD에서 다음 명령어를 입력하면 라마3 모델을 자동으로 다운로드 후 이를 실행한다. 다운로드 된 모델 파일은 ‘C:/Users/사용자명/.ollama’ 경로에 위치한다.

  • 라마3 모델 실행
ollama run llama3
  • 라마3 모델 종료
/bye

모델을 API로 서빙

올라마 API 문서 페이지에 접속하면 위에서 실행한 라마3 모델을 REST API로 사용하는 방법에 대해 자세히 확인할 수 있다. 외부에서 API를 사용할 수 있도록 설정하는 방법과 Generate과 Chat API 사용 방법을 살펴보자.

외부 접속 허용 설정

시스템 속성 – 환경 변수 – 시스템 변수 – 새로 만들기 클릭 후 변수 이름에 ‘OLLAMA_HOST’를 입력하고, 변수 값에 ‘0.0.0.0’을 입력하고 확인을 클릭한다.

작업 표시줄에서 올라마 아이콘 우클릭 후 Quit Ollama를 클릭하여 실행 중인 Ollama를 종료한다.

CMD를 열어 다시 모델을 실행한다. 이렇게 하면 외부 환경에서도 API를 사용할 수 있다.

ollama run llama3

Generate API 테스트

아래 조건으로 API를 호출하면 질문에 대한 응답을 얻을 수 있다.

  • Method: POST
  • Host: http://localhost:11434/api/generate
  • Headers
    • Content-Type : application/json
  • Body – raw
{
  "model": "phi3",
  "prompt": "Why is the sky blue?",
  "stream": false
}

Chat API 테스트

아래 조건으로 API를 호출하면 질문에 대한 응답을 얻을 수 있다.

  • Method: POST
  • Host: http://localhost:11434/api/chat
  • Headers
    • Content-Type : application/json
  • Body – raw
{
  "model": "phi3",
  "stream": false,
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}

Llama-Index로 Ollama 모델 사용

파이썬 Llama-Index 프레임워크를 이용해 Ollama로 서빙하고 있는 모델을 사용할 수 있다.

Llama-Index 설치

CMD에서 다음 명령으로 llama-index를 설치한다.

pip install llama-index

Llama-Index Ollama 확장 설치

CMD에서 다음 명령으로 llama-index Ollama 확장을 설치한다.

pip install llama-index-llms-ollama

QA 테스트

Leave a Comment