H:首先使用top和nvidia-smi命令分别查看CPU和GPU的使用率。如果CPU一直为100%且GPU无占用,那么大概率卡在了GPU调用上,那么请看上一个问题的答案。如果不是上述原因,那么需要进行代码Debug,推荐在关键代码行上print日志,然后执行程序定位程序卡在了哪一行代码语句上,根据定位的代码谷歌确认原因,这类情况也与代码本身有关,需具体原因具体分析,切忌不看代码只猜。
H: 第一种方式:可以使用无卡模式开机,将实例中重要的数据下载等。
Q: 主机的配置不足以支持深度学习模型的训练,如何解决
H: 可以通过选择升级实例服务器的配置来解决,例如增加CPU、内存等。