GeForce RTX 3090でGemma3:27bをUbuntuで動かす

はじめに

近年、大規模言語モデル（LLM）のローカル実行が注目を集めています。クラウド環境に依存せず、オフライン環境でもLLMを利用できるメリットは大きく、特にプライバシーやセキュリティを重視するユーザーにとって魅力的な選択肢です。本記事では、高性能GPUであるGeForce RTX 3090を搭載したUbuntu環境で、Gemma3:27bというオープンソースのLLMをOllamaとOpenWebUIを用いて実行する方法を解説します。

GeForce RTX 3090とローカルLLM

ローカルLLMのパフォーマンスは、GPUの性能に大きく依存します。GeForce RTX 3090は、24GBのVRAMを搭載しており、Gemma3:27bのような大規模モデルを扱うのに十分な性能を備えています。VRAMの容量が大きいほど、より大きなモデルを扱ったり、より大きなバッチサイズで推論を実行したりすることが可能になります。これにより、応答速度の向上や、より複雑なタスクの実行が可能になります。

Ubuntu環境の構築

ローカルLLMを実行する前に、Ubuntu環境を構築する必要があります。Ubuntu Desktop 22.04 LTSを推奨します。インストール後、NVIDIAドライバをインストールし、CUDAツールキットをインストールする必要があります。NVIDIAの公式ドキュメントを参照して、適切なドライバとCUDAツールキットをインストールしてください。

sudo apt update
sudo apt upgrade
sudo apt install nvidia-driver-535
sudo apt install nvidia-cuda-toolkit

Ollamaのインストールと設定

Ollamaは、LLMのダウンロード、実行、管理を簡素化するツールです。以下のコマンドを使用して、Ollamaをインストールします。

curl -fsSL https://ollama.com/install.sh | sh

インストール後、Ollamaを起動し、Gemma3:27bをダウンロードします。

ollama run gemma3:27b

初回実行時には、モデルのダウンロードに時間がかかる場合があります。

OpenWebUIのインストールと設定

OpenWebUIは、Ollamaと連携して、WebブラウザからLLMにアクセスできるWebインターフェースを提供します。以下のコマンドを使用して、OpenWebUIをインストールします。

docker run -d -p 8080:8080 --name openwebui --restart always ghcr.io/open-webui/open-webui:latest

インストール後、Webブラウザでhttp://localhost:8080にアクセスすると、OpenWebUIのインターフェースが表示されます。OpenWebUIの設定画面で、OllamaのAPIエンドポイントを設定します。デフォルトでは、Ollamaはhttp://localhost:11434でAPIを提供しています。

Gemma3:27bの実行とテスト

OpenWebUIのインターフェースから、Gemma3:27bを選択し、プロンプトを入力して推論を実行します。応答速度や精度を確認し、必要に応じてパラメータを調整します。Gemma3:27bは、テキスト生成、翻訳、質問応答など、さまざまなタスクを実行できます。

パフォーマンスチューニング

GeForce RTX 3090の性能を最大限に引き出すために、いくつかのパフォーマンスチューニングを行うことができます。例えば、CUDAのコンパイルオプションを調整したり、バッチサイズを調整したり、量子化などの手法を使用したりすることができます。これらの手法を使用することで、応答速度を向上させたり、VRAMの使用量を削減したりすることができます。

まとめ

本記事では、GeForce RTX 3090を搭載したUbuntu環境で、OllamaとOpenWebUIを用いてGemma3:27bをローカルで実行する方法を解説しました。ローカルLLMは、クラウド環境に依存せず、オフライン環境でもLLMを利用できるメリットがあり、プライバシーやセキュリティを重視するユーザーにとって魅力的な選択肢です。本記事を参考に、ローカルLLM環境を構築し、さまざまなタスクに活用してください。

このブログを検索

一生ヘタレプログラマ