Chat GPT-4 o mini의 API를 이용해 채팅 서비스를 구현하고 지난 포스팅에도 관련 글을 등록 했었다.

시간을 좀 가지고 진행하려 했는데 궁금증이 폭발하다 보니 바로 Ollama 3.1을 라즈베리파이에 다운하여 확인 들어가기 시작했다.

결론부터 요약하자면,

llama 3.1 중 가장 작은 8B모델을 다운로드하였음에도 API를 이용한 채팅 서비스에는 무리가 있다고 판단을 내렸다.

CLI 환경에서는 아주 느리지만 그래도 대화가 된다. 그래도 llama 3.0보다는 한글이 처리가 좀 더 잘 되는 것 같았지만 그래도 뜬금없는 영문이 튀어나오곤 했다.

이때, 라즈베리파이의 메모리는 8MB에 육박하게 된다. 이를 API로 호출할 때마다는 또 다른 상황인 것 같다. 매번 메모리에서 로드하다 보니 더 많은 메모리 부족 현상으로 대화 자체가 진행되지 않았다. 이로 인해 swap도 4G까지 늘려보기도 했는데 결론은 ‘안된다!’로 마무리했다.

이로 인해 phi3나 gemma2와 같은 더 작은 모델로도 시도해보았으나 이건 한글이 처리가 아주 취약하고 인식도 제대로 안되는지 전혀 다른 소리를 하는 경우가 빈번했다.

허깅페이스에 공유된 라즈베리파이용 3.1 모델을 다운로드하여 실행도 해보았는데 내 취향이 아니다.

https://huggingface.co/Mozilla/Meta-Llama-3.1-8B-Instruct-llamafile

일단, 생성성 웹 서비스를 라즈베리파이에서 구동한다는 건 칭찬하겠는데 CLI환경과 동일한 느려터진 속도가 마치 몇 개월 전 Chat GPT 4를 보는 느낌이다.

결정적으로 삼천포로 빠지는 답변에 삭제!

그리하여 Chat GPT-4o mini API로 회귀했지만 아쉬웠다.

그러던 중 Groq를 API를 통한 llama 3.1 API를 무료로 사용할 수 있다는 걸 알게 되었다.

https://groq.com

무료로 이런 서비스를 제공하다니! (세상엔 공짜 점심은 없다지만…)

아무튼 API를 훑어보고 예제코드를 보며, 기존에 Chat GPT 4 기반의 코드를 수정하여 보았다.

결론은?!

llama3.1 70B모델을 사용하였으며, Chat GPT-4o mini와 거의 같은 속도로 응답하고 있다.

아래는 속도 등을 참고할 수 있게 채팅 화면을 영상으로 만들어 보았다.

영상을 보다 보니 소스코드에 대한 들여 쓰기 쓰기 같은 걸 개선해야겠다는 게 보인다.

아무튼! 내부에 라마를 품는 건 아직까진 아닌 것 같지만 대안은 생겼으니 만족한다.

By voka

2 thoughts on “라즈베리파이5에 라마3.1 로 채팅 서버 구현하기 (Ollama 3.1 70B)”

답글 남기기