由于超算无法连接到网上环境,通过pip 或者conda 的直接下载包的方式失效。以下提供几种方式。主流的方式应该是在本地docker 创建一个镜像,直接在超算运行镜像环境,这种方法是运行环境最稳定的,缺点是docker的安装和学习 需要一些成本,同时docker hub的国内链接受到网络环境影响,很难下载镜像,在2024.11.7我曾试图在超算上下载image自己改环境,在下载到5gb大小的时候失败,应该是超算做了下载文件大小的限制(2025.3更新,可以通过使用终端命令来上传和下载文件,没有文件大小限制)。
本内容仅针对pytorch和JAX环境的超算使用和安装,tensorflow用户可以借鉴使用(因为tensorflow往往要cuda和tf版本一一对应,有些时候可能不是环境安装问题而是版本对应问题),其他大语言模型机器学习包(例如libcuda.so)可能对cuda的版本和cuda driver的版本有要求,请联系管理员更新cuda和cuda driver。