K8S
AI
模型训练与微调
安装 Training Operator

安装 Training Operator

本文档描述了如何使用 Helm 部署 Training Operator 到 Kubernetes 集群。

Training Operator 内置 MPI Operator

前提条件

安装

  1. 添加 Paratera Helm 仓库:

    helm repo add paratera https://helm.zw1.paratera.com/
    helm repo update

    基于上游 training-operator 替换 mpijob/v1mpijob/v2beta1

  2. 安装 Training Operator:

    helm install training-operator paratera/training-operator --namespace kubeflow --create-namespace
  3. 验证安装:

    kubectl get pods -n kubeflow

    您应该能看到 training-operator 和 mpi-operator 的 pod 正在运行。

卸载

要卸载 Training Operator,请运行以下命令:

helm uninstall training-operator -n kubeflow