安装

快速安装天枢深度学习框架

操作系统: Ubuntu 16.04 及以上
安装方式: pip
Python版本: Python3.5 及以上

通过以下命令,安装深度学习框架稳定发布版

python3 -m pip install --find-links https://release.oneflow.info/ oneflow_cu102 --user

对于无法升级驱动版本的用户,可以安装集成了 cuda 10.1(要求驱动版本 >= 418.39)或 cuda 10.0(要求驱动版本 410.48)的包:

python3 -m pip install --find-links https://release.oneflow.info/ oneflow_cu101 --user
python3 -m pip install --find-links https://release.oneflow.info/ oneflow_cu100 --user

对于其他低版本cuda环境,也通过以下命令安装:

python3 -m pip install --find-links https://release.oneflow.info/ oneflow_cu92 --user
python3 -m pip install --find-links https://release.oneflow.info/ oneflow_cu91 --user
python3 -m pip install --find-links https://release.oneflow.info/ oneflow_cu90 --user

快速部署平台

硬件支持

最低配置

• 单master节点 kubernetes 服务:
– 4 core CPU/ 16G 内存/100G 存储/训练型 GPU (可选,没有则不能跑GPU训练)
注:由于是只有master节点,依照 部署 Kubernetes 集群 文档安装完成后,需要运行以下命令。
kubectl taint node k8s-master node-role.kubernetes.io/master-

• 数据集服务(提供自动标注、目标跟踪、增强等):
– 1台计算节点:4 core CPU/ 16G 内存/ 2*推理型 GPU/ 100G 存储
• 辅助服务:
– nfs/minio/harbor/前后端/可视化服务:4 core CPU/ 16G 内存/ 300G 存储

推荐配置

• 搭建 kubernetes 集群:
– 1个 master 节点:16 core CPU/ 64G 内存/ 100G 存储
– 3个 node 节点: 16 core CPU/ 128G 内存/ 8*训练型 GPU/ 200G 存储
训练型GPU推荐:Tesla V100 或 P100
• 数据集服务(提供自动标注、目标跟踪、增强等):
– 1台计算节点:4 core CPU/ 16G 内存/ 1*推理型 GPU/ 100G 存储
推理型GPU推荐:Tesla T4 或 P4
• 辅助服务:
– nfs/minio 存储服务:4 core CPU/ 16G 内存/ 2T 存储
– Harbor 服务:4 core CPU/ 16G 内存/ 300G 存储
– 前后端服务:8 core CPU/ 32G 内存/ 100G 存储

部署步骤

1、部署 kubernetes 集群

       • 安装英伟达显卡驱动

       • 部署 kubernetes 集群

       • 安装 NFS

       • 部署 kubernetes NFS 动态存储

       • 部署 ingress-nginx

       • 管理集群日志

       • 部署 metrics-server

       • 部署 prometheus 和 grafana 监控 Pod 指标信息

2、部署 Harbor 私有云仓库

3、部署数据集服务算法

4、部署项目前后端服务


详情参考:平台部署手册