原因: 因为集群的一个节点主机,硬件有问题;时间长了温度过高系统会死机(因为有算法程序装了个比较牛皮的显卡); 需要卸掉网卡重新安装pve;
准备:
1、备份虚拟机配置与虚拟机;
tar zxcf pve2-qemu-server.tar.gz /etc/pve/nodes/pve2/qemu-server
注意: 首先得备份虚拟机数据存储;下面是存储盘的文件目录;
root@pve1:/data/kvm/sde1# ls
dump images lost+found private snippets template #这些是自己勾选可存储的类型
root@pve1:/data/kvm/sde1/images# ls #虚拟机列表
105 108 110 112
root@pve1:/data/kvm/sde1/images/105# ls #虚拟机镜像
vm-105-disk-0.qcow2
2、在master节点删除节点信息
pvecm delnode US02-5038ML-041-12 #删除节点名称为US02-5038ML-041-12节点
某节点挂了,需要重装
使用 pvecm delnode oldnodename 删除节点,但是会报错,或者删除了,使用pvecm nodes 查看已经没有那个节点,但是web端还有,可以输入以下命令,减少仲裁数量
pvecm expected 1
在一次执行 pvecm delnode oldnodename 进行删除,这样web端就已经把那个旧节点给剔除了,重装的节点也可以使用原来的名字加入集群
3、查看配置信息
root@pve1:/etc/pve/nodes/pve2# cat /etc/corosync/corosync.conf |grep name
name: pve1
name: pve3
cluster_name: keya-pvecluster
#这里已经去掉了pve2节点信息;
4、在重新安全pve2节点的系统,然后可以在集群模块重新加入集群了;
5、恢复主机;
将之前备份的qemu-server信息,拷贝至/etc/pve/nodes/pve2/qemu-server
6、这样基本就完成操作了,可以直接重启虚拟机;
Proxmox VE退出集群模式
有2台PVE集群,一台突然当机了,然后一时半会也弄不好,这时候操作虚拟机重启的话会导致联系不到集群服务器导致虚拟机起不来,快速解决方法就是将集群服务停止。
通过SSH连上PVE主机,直接输入下面的命令就可以完全退出集群服务
停止cluster 服务
systemctl stop pve-cluster.service systemctl stop corosync.service
设置本地模式
pmxcfs -l
删除corosync 配置文件
rm /etc/pve/corosync.conf rm -rf /etc/corosync/*
重启cluster集群服务
killall pmxcfssystemctl start pve-cluster.service
发表评论