1. 前言

在日常对 kubernetes 集群运行维护的过程中，您可能需要临时的关闭或者是重启 kubernetes 集群，对集群进行维护，本文将介绍如何去安全的关闭 k8s 集群以及如何重新启动集群。

2. 日常节点运维方式

关闭k8s集群是个危险的操作！在关闭集群之前，您必须完全了解这个操作所带来的后果。首先，我们要对集群内的应用、客户定义资源 CRD和 etcd 进行备份，然后再进行重启或关闭集群的操作。在通常运维的情况下，建议您驱逐维护节点，而非重启整个集群，在这里呢我们也把驱逐维护节点命令也放在下面供您参考。

首先，确定想要清空的节点的名称。可以用以下命令列出集群中的所有节点:

kubectl get nodes

接下来，告诉 Kubernetes 清空节点：

kubectl drain <node name>

一旦它返回（没有报错），你就可以下线此节点（或者等价地，如果在云平台上，删除支持该节点的虚拟机）。如果要在维护操作期间将节点留在集群中，则需要运行：

kubectl uncordon <node name>

然后告诉 Kubernetes，它可以继续在此节点上调度新的 Pods。

3. 在进行集群关闭前的准备工作

备份是最最重要的准备工作，以应用可以重新服务为目的各种操作都是有用的，做一个你自己的清单，在重要的步骤之前看一眼。

主机之间已经设置 SSH 免密登录
群集内应用的备份
群集内客户自定义资源的备份
群集内 etcd 的备份

参考链接
Kasten 实战系列备份K8S云原生应用
 Kasten k10 提高系列 02 - 用 Kasten 备份 kubernates etcd 数据库

4. 关闭 kubernetes 集群

再次提示
在关闭集群前，请您务按照我们推荐的方法备份集群的数据与应用，以便在重新启动集群时如果遇到任何问题，可以通过备份还原集群与应用。
使用本教程中的方法可以平稳关闭集群，但数据损坏的可能性仍然存在。

首先，我们要获取节点列表

marsk8snodes=$(kubectl get nodes -o name)

然后,我们就要关闭节点了，您可以可一台一台的关，或运行以下脚本关闭节点
，注意前提条件是主机之间已经设置 SSH 免密登录。

for node in ${marsk8snodes[@]}
do
    echo "==== Shut down $node ===="
    ssh $node sudo shutdown -h 1
done

此时，您就可以关闭其他的集群依赖项，对集群进行维护操作啦。

5. kubernetes 集群重启

在重启后，我们需要仔细检查所有节点和核心组件的状态，并确保一切就绪。

$ kubectl get nodes -o wide
NAME        STATUS   ROLES                  AGE   VERSION   INTERNAL-IP    EXTERNAL-IP   OS-IMAGE             KERNEL-VERSION      CONTAINER-RUNTIME
mars-k8s1   Ready    control-plane,master   17d   v1.21.0   172.16.60.60   <none>        Ubuntu 20.04.1 LTS   5.11.0-40-generic   docker://20.10.10
mars-k8s2   Ready    <none>                 17d   v1.21.0   172.16.60.61   <none>        Ubuntu 20.04.1 LTS   5.11.0-40-generic   docker://20.10.10
mars-k8s3   Ready    <none>                 17d   v1.21.0   172.16.60.62   <none>        Ubuntu 20.04.1 LTS   5.11.0-40-generic   docker://20.10.10

$ kubectl get svc -n kube-system
NAME             TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)                  AGE
kube-dns         ClusterIP   10.96.0.10       <none>        53/UDP,53/TCP,9153/TCP   17d
metrics-server   ClusterIP   10.111.227.248   <none>        443/TCP                  17d

$ kubectl get pod -n kube-system
NAME                                READY   STATUS    RESTARTS   AGE
coredns-558bd4d5db-h7jqc            1/1     Running   2          17d
coredns-558bd4d5db-wj4bn            1/1     Running   2          17d
etcd-mars-k8s1                      1/1     Running   2          17d
kube-apiserver-mars-k8s1            1/1     Running   3          17d
kube-controller-manager-mars-k8s1   1/1     Running   2          17d
kube-flannel-ds-677dg               1/1     Running   2          17d
kube-flannel-ds-bxhx6               1/1     Running   3          17d
kube-flannel-ds-r5pqf               1/1     Running   2          17d
kube-proxy-6w52h                    1/1     Running   2          17d
kube-proxy-p8zfp                    1/1     Running   2          17d
kube-proxy-v8t7j                    1/1     Running   2          17d
kube-scheduler-mars-k8s1            1/1     Running   2          17d
metrics-server-5f9459b95c-dtzbf     1/1     Running   2          17d

5. kubernetes 集群重启维护避坑指南

说点儿心里话，运维有时要看运气，这不是开玩笑，在我的职业生涯中看到了也学到了很多，在过去我有幸支持了多个国家的数据灾备业务。包括：韩国，日本，中港台，及东南亚各个Region的客户公司，在运维做 IT 架构变更的时候，买烧猪祭奠关二爷有时真的需要，我们不了解的事情还有很多，要保持敬畏。所以备份吧，多备份几次！！！

在我们这个国家人定胜天的神迹比比皆是。但是所谓割接，割下来，接不上的情况也屡见不鲜。通常情况下，重新启动 Kubernetes 集群后就可以继续正常使用，但是由于意外情况，该集群可能不可用。例如：

关闭集群过程中 etcd 数据损坏或是节点故障，这在 bare metal K8S node 上很常见。
网络错误，这就需要检查所有集群依赖项的状态，一定用好监控工具，一步一步的查，别怕麻烦，要确保所有集群依赖项均已就绪。
应用的问题，节点是启动了，K8S也好好的，应用不能对外提供服务，这时一系列的排错是最考验人的，所以备份恢复吧。这样可以确保 RTO。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Kubernetes 集群的关闭与重启

1. 前言

2. 日常节点运维方式

3. 在进行集群关闭前的准备工作

4. 关闭 kubernetes 集群

5. kubernetes 集群重启

5. kubernetes 集群重启维护避坑指南

发表回复取消回复

1. 前言

2. 日常节点运维方式

3. 在进行集群关闭前的准备工作

4. 关闭 kubernetes 集群

5. kubernetes 集群重启

5. kubernetes 集群重启维护避坑指南

发表回复 取消回复

发表回复取消回复