Ollama로 로컬 LLM 돌려본 후기

로컬에서 AI를 돌리고 싶었다

ChatGPT, Claude 같은 클라우드 서비스를 쓰다 보면 한 가지 꺼림칙한 게 있다. 내 코드를 외부 서버로 보내야 한다는 거다.

개인 프로젝트야 상관없는데, 클라이언트 코드나 회사 기밀이 포함된 작업을 할 때는 좀 찝찝하다. “데이터를 학습에 사용하지 않습니다”라고 하지만 그래도.

그래서 로컬에서 LLM을 돌려보기로 했다. Ollama가 설치도 간단하고 모델 관리도 편하다고 해서 선택했다.

# macOS
brew install ollama

# 서비스 시작
ollama serve

# 모델 다운로드 및 실행
ollama run llama3.1

이게 끝이다. 정말 3줄이면 로컬에서 LLM이 돌아간다. Docker 설정이니 GPU 드라이버니 복잡한 거 하나도 없다.

모델도 다양하다. Llama 3.1, CodeLlama, Mistral, Gemma 등 오픈소스 모델들을 ollama pull 한 줄로 받을 수 있다.

코드 작성 보조 — CodeLlama를 돌려봤다. 간단한 함수 작성이나 코드 설명은 괜찮은데, 복잡한 리팩토링이나 아키텍처 수준의 제안은 GPT-4나 Claude에 비하면 많이 부족하다.

문서 요약 — Llama 3.1로 문서 요약을 시켜봤다. 영문 문서는 꽤 괜찮은데, 한국어는 아직 약하다. 한국어 이해력이 클라우드 모델 대비 확연히 떨어진다.

속도 — M4 맥미니에서 돌렸는데, 7B 모델은 체감 속도가 나쁘지 않다. 근데 70B급 모델은 토큰 생성 속도가 너무 느려서 실용적이지 않다. GPU 메모리가 관건이다.

이것저것 써보고 내린 결론은 이렇다.

로컬 LLM이 적합한 경우:

클라우드 LLM이 나은 경우:

결국 “용도에 따라 다르다”라는 뻔한 결론이긴 한데, 실제로 써보니까 이 “용도”의 경계가 명확해졌다. 로컬 LLM이 클라우드를 대체하는 게 아니라 보완하는 관계인 거다.

업무용으로는 아직 Claude나 GPT를 주력으로 쓰되, 보안이 필요한 작업에서만 Ollama를 쓰는 게 현실적인 것 같다. 오픈소스 모델이 빠르게 발전하고 있으니까 앞으로는 달라질 수도 있지만.