堡垒机这种东西,是企业中极为常见的。但当你从一个不负责的工程师那里以无交接的形式接受之后。针对出现的一些事情,会怎么处理?如何才能在自己心里有这种架构图?
怎么知道堡垒机的网络架构,物理部署位置,业务流程,和公司内部平台的结合?这些都是需要考虑的地方。
比如说其中最开始接触到堡垒机的时候,是没有人告知中间还有一层代理结构。也不知道办公网和生产网间的一些依赖。所以再从头回顾一下,应该怎么样去进行?
- 了解其网络架构,以及相关的对接人员。 (例如IT生产网和办公网的网络段)
- 了解其物理部署架构,以及相关的对接人员。 (例如当机器出现故障,迅速通知机房人员去重启机器,通知对接人员办理厂商的准入,通知厂商人员进入机房,了解依赖设施的部署位置,数据中心的机房,办公基础设施的机房等以及灾备VPN的位置等)
- 了解系统间的依赖。(例如和企业自身的计算力交付部门的系统集成,提供的自助申请系统,VPN和LDAP的相关架构和物理部署等等)
- 了解堡垒机内部组件,运作模式。(了解机器是否有带外管理卡,是否是多网卡,是否自助开启api服务,数据备份策略等等)
一般来讲,能做到这个程度的实在不多。所以当你脑海中有这么个架构的时候,你会发现所谓的堡垒机问题,并不一定是堡垒机本身引起的。也可能是网络问题,依赖设施的问题等等。那么我们再来看看到底有哪些东西会导致“堡垒机故障”?
- 网络问题(代理问题,IP网段的冲突问题,段间的依赖问题,DNS调整问题,办公网路由问题等等都有可能导致)
- 堡垒机主机问题(光纤网卡,电源管理策略,数据备份策略,数据同步问题,内核模块的问题,软件模块等等,这个问题算是真正的堡垒机问题,但是厂商交付的产品一般是较为可靠的,注意也不能全部相信,所以要保证架构高可用)
- 用户问题(准确来说,用户问题才是真正的堡垒机问题,你写的文档无论如何通俗易懂,他都不看。这个涉及到人性,以及工程师水平的问题了。)
除去这三种直接问题,堡垒机的整个依赖的架构中,还需要注意的点是(或者说通用的架构设计中的问题所在),尽量避免使用push操作,改用pull的方式。另外一点就是针对堡垒机的依赖系统中,出现的问题怎么能够及时修复,和范围收拢。当然,研发可能面临资源不足的问题,那么像这种关键设施的关键点怎么能够及时修复其实是个极为严峻的问题。有时候就不得不站在策略管理的角度进行施压和资源调度。
其他
没啥想说的,很累。成年人应该对自己的行为负责。有时候我在想不仅成年人,未成年人也应该为自己的行为负责。后来我想可能只有你意识到了这点你才是个成年人。