Kubernetes部署deepseek

2025-04-12

字数统计: 1.7k字 | 阅读时长≈ 8分

用kubernetes部署deepseek

建议用阿里云GPU服务器（冲个几十块钱玩两天释放掉），当然本机的CPU虚拟机也可以搭建，运行卡顿，效果比较差

1. 用OLLMA / LLMA 方案

以olama为例:

下载安装

1
2
3

# https://github.com/ollama/ollama/blob/main/docs/linux.md
# curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollamalinux-amd64.tgz
# sudo tar -C /usr -xzf ollama-linux-amd64.tgz

创建 Ollama 专用用户：

useradd ollama

创建 Ollama 模型存储目录：

1 2	# mkdir /data/ollama/models # chown -R ollama.ollama /data/ollama/

创建 Ollama 启动 Service：

# cat /etc/systemd/system/ollama.service 
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama/models"
[Install]
WantedBy=default.target

启动 Ollama 服务：

1 2	# systemctl daemon-reload # systemctl enable --now ollama

查看启动状态：

systemctl status ollama

端口测试

curl 127.0.0.1:11434

下载模型（选择最小的7b，不过数据较少优点智障）

1 2	ollama pull deepseek-r1:7b

启动模型

ollama run deepseek-r1:7b

访问大模型

curl http://127.0.0.1:11434/v1/chat/completions -H "Content-Type: 
application/json" -d '{
 "model": "deepseek-r1:7b",
 "messages": [
 {
 "role": "user",
 "content": "东方觉主"
 }
 ]
}'

ollama WebUi

mkdir -p /data/ollama/webui

docker run -d -p 3000:8080 -e ENABLE_OPENAI_API=false -e 
OLLAMA_BASE_URL=http://[OLLAMA]_HOST]:11434 -e HF_HUB_OFFLINE=1 -v 
/data/ollama/models:/root/.ollama -v /data/ollama/webui:/app/backend/data --
name open-webui --restart always ghcr.io/open-webui/open-webui:main

访问主机：3000端口，具体web操作这里不做介绍

常用命令几乎和 docker 一样

ollama pull deepseek-r1:1.5b
ollama list
ollama show deepseek-r1:1.5b
ollama run deepseek-r1:1.5b
ollama ps
ollama stop deepseek-r1:1.5b
ollama server
ollama ls
ollama rm deepseek-r1:1.5b

使用其它接口

OLLAMA_HOST=0.0.0.0:11435 ollama serve

Ollama 常用环境变量：


 OLLAMA_DEBUG：启用调试模式，设置为 1 表示开启
 OLLAMA_HOST：指定 Ollama 服务绑定的 IP 地址和端口，默认 127.0.0.1:11434
 OLLAMA_KEEP_ALIVE：设置模型在内存中保持加载的时间，默认 5m
 OLLAMA_MAX_LOADED_MODELS：限制每块 GPU 上同时加载的最大的模型数量
 OLLAMA_MAX_QUEUE：设置请求队列的最大长度，如果请求超过此限制，新的请
求会被拒绝
OLLAMA_MODELS ： 指 定 模 型 文 件 存 储 的 目 录 路 径 ， 默 认 值 家 目 录 下
的.ollama/models 文件夹
OLLAMA_NUM_PARALLEL：限制同时处理的最大并行请求数
OLLAMA_NOPRUNE：禁用启动时，模型清理操作
OLLAMA_ORIGINS：指定允许跨域访问的来源列表（逗号分隔）
OLLAMA_SCHED_SPREAD：强制将模型调度到所有可用的 GPU 上，默认情况下，
Ollama 可能会根据负载动态分配模型到 GPU，设置此变量后，模型会尽量均匀分布在
所有 GPU 上
 OLLAMA_FLASH_ATTENTION：启用 Flash Attention 技术，如果硬件不支持 Flash 
Attention，启用此选项可能导致错误
 OLLAMA_KV_CACHE_TYPE：指定 K/V 缓存的量化类型，默认值为 f16（FP16），
也可以设置为 f32 或其他量化类型
 OLLAMA_GPU_OVERHEAD：预留显存可以防止其他进程因显存不足而崩溃

bash:
export OLLAMA_NUM_THREAD=8
export OLLAMA_KEEP_ALIVE=30
ollama serve

CPG的限制
# cat /etc/systemd/system/ollama.service 
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama/models"
Environment="CUDA_VISIBLE_DEVICES=0,1"  // 只能使用 0 1 两个CUP
[Install]
WantedBy=default.target
接下来重启 Ollama 即可：
# systemctl daemon-reload
# systemctl restart ollama

kubernetes 部署deepseek

首先要部署kubernetes集群，这里我不做介绍，参见http://www.charon193.com/2023/06/02/k8s1.28/

GPU Operator 部署

helm安装

官方安装文档：https://helm.sh/docs/intro/install/

Helm 安装包：https://github.com/helm/helm/releases


# 首先下载安装包：
# mkdir helm
# cd helm
# wget https://get.helm.sh/helm-v3.16.2-linux-amd64.tar.gz
# ls
helm-v3.16.2-linux-amd64.tar.gz
# tar xf helm-v3.16.2-linux-amd64.tar.gz
# mv linux-amd64/helm /usr/local/bin/
# helm version
version.BuildInfo{Version:"v3.16.2",
GitCommit:"13654a52f7c70a143b1dd51416d633e1071faffb", 
GitTreeState:"clean",
GoVersion:"go1.22.7"}
#//创建 Namespace：
kubectl create ns gpu-operator

部署 GPU Operator

添加仓库

1 2	# helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \ && helm repo update

下载安装包

1
2
3

# helm pull nvidia/gpu-operator
# tar xf gpu-operator-v24.9.2.tgz 
# cd gpu-operator/

1	# helm install gpu-operator -n gpu-operator --create-namespace .

查看pod状态

1 2	kubectl get po -n gpu-operator kubectl describe node \| grep Allocatable: -A 10

创建 GPU 测试服务

vim test.yaml


kind: Pod
metadata:
 name: cuda-vectoradd
spec:
 restartPolicy: OnFailure
 containers:
 - name: cuda-vectoradd
 image: "nvcr.io/nvidia/k8s/cuda-sample:vectoradd-cuda11.7.1-
ubuntu20.04"
 resources:
 limits:
 nvidia.com/gpu: 1

1 2	kubectl create -f test.yaml kubectl logs cuda-vectoradd

Local Path Storage 部署：

kubectl create -f localpath.yaml
//查看pod状态
kubectl get po -n local-path-storage
// 查看 StorageClass：
kubectl get sc local-path

// 创建 PVC 测试：

vim pvc-test.yaml

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
 name: local-path-pvc
spec:
 accessModes:
 - ReadWriteOnce
 storageClassName: local-path
 resources:
 requests:
 storage: 128Mi

创建 Pod：cat pod.yaml

apiVersion: v1
kind: Pod
metadata:
 name: volume-test
spec:
 containers:
 - name: volume-test
 image: registry.cn-beijing.aliyuncs.com/dotbalo/redis:v7.0.15 
 imagePullPolicy: IfNotPresent
 volumeMounts:
 - name: volv
 mountPath: /data
 ports:
 - containerPort: 80
 volumes:
 - name: volv
 persistentVolumeClaim:
 claimName: local-path-pvc

查看 Pod 和 PVC

1 2	# kubectl get po volume-test kubectl get pvc local-path-pvc

Ollama Operator 部署

官网：https://ollama-operator.ayaka.io/

首先部署 Ollama Operator：

kubectl create -f install.yaml

查看部署状态：

1	# kubectl get po -n ollama-operator-system

客户端工具下载：https://github.com/nekomeowww/ollama-operator/releases/

下载后上传至服务，然后解压即可：

1	# ./kollama --help

K8s 部署大模型

在 K8s 上部署大模型，可以直接用 Ollama Operator 的 CRD Model 部署，比如部署一个 deepseek-r1

的模型：

cat phi.yaml

apiVersion: ollama.ayaka.io/v1
kind: Model
metadata:
 name: phi
 namespace: ollama-llms
spec:
 image: phi
 storageClassName: local-path
 replicas: 1
 imagePullPolicy: IfNotPresent

kubectl create -f phi.yaml

它会创建一个 ollama 服务

kubectl get po -n ollama-llms
kubectl exec -ti ollama-models-store-0 -n ollama-llms --
bash

kubectl get svc -n ollama-llms

测试：

# curl http://192.168.116.100:11434/v1/chat/completions \
-H "Content-Type: application/json" -d '{
 "model": "phi",
 "messages": [
 {
 "role": "user",
 "content": "Hello! 你是什么模型？参数量有多大？"
 }
 ]
 }'

使用 Kollama 在 K8s 部署大模型

除了使用自定义资源部署，还可以使用 Kollama 工具进行部署。

./kollama deploy phi --image=phi --storage-class local-path -n ollama-llms

kubectl get po -n ollama-llms
// 接下来使用 expose 指令暴露服务：
./kollama expose phi -n ollama-llms

测试：

curl http://192.168.181.134:32678/v1/chat/completions -H "Content-Type: 
application/json" -d '{
 "model": "phi",
 "messages": [
 {
 "role": "user",
 "content": "Hello!"
 }
 ]
 }'.

./kollama undeploy phi -n ollama-llms

在 K8s 一键部署 Deepseek R1 模型

cat deepseek-r1-1.5b.yaml

apiVersion: ollama.ayaka.io/v1
kind: Model
metadata:
 name: deepseek-r1
 namespace: ollama-llms
spec:
 image: deepseek-r1:1.5b
 storageClassName: local-path 
 replicas: 1
 imagePullPolicy: IfNotPresent

创建模型：

1
2
3

kubectl create -f deepseek-r1-1.5b.yaml -n ollama-llms
kubectl get po -n ollama-llms
kubectl get svc -n ollama-llms

测试：

# curl http://192.168.160.8:11434/v1/chat/completions -H "Content-Type: 
application/json" -d '{
 "model": "deepseek-r1:1.5b",
 "messages": [
 {
 "role": "user",
 "content": "Hello! 你是什么模型？参数量有多大？"
 }
 ]
 }'

本文作者： 东方觉主
本文链接： http://www.charon193.com/2025/04/12/olamak8s/
版权声明： 本博客所有文章除特别声明外，均采用 MIT 许可协议。转载请注明出处！