Meta 的 Llama3 大语言模型开源以后,Ollama做了整合3B版本,可以很方便的部署使用,7B就算了,实在用不起。
0x00 硬件要求
GPU 最好使用 NVIDIA RTX4060 以上级别的显卡,响应速度流畅。
CPU Intel 12代以上,纯 CPU 模式响应度很慢。
0x01 官方支持
https://ollama.com/
https://hub.docker.com/r/ollama/ollama
0x11 部署服务
CPU 模式
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
GPU 模式
Nvidia GPU 需安装 NVIDIA Container Toolkit:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \
| sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
| sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \
| sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
安装 NVIDIA Container Toolkit packages:
sudo apt-get install -y nvidia-container-toolkit
Yum 或 Dnf 安装:
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo \
| sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
安装 NVIDIA Container Toolkit packages:
sudo yum install -y nvidia-container-toolkit
配置 Docker 使用 Nvidia driver:
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
启动容器:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
AMD GPU 安装:
docker run -d --device /dev/kfd --device /dev/dri -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:rocm
0x12 安装 API
docker exec -it ollama ollama run llama3
0x13 部署 WEB UI
CPU 模式:
docker run -d -p 8090:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
GPU 模式:
docker run -d -p 8090:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama
0x14 登录 WEB
http://IP:8090