二级存储库的简介
什么是二级存储?
二级存储也称为辅助存储,通常用来存储不经常访问的数据。我们经常把存储按照访问的频率分成在线、近线和离线,而二级存储显然就是近线的存储设备。在存储的基础架构建设过程中,在线存储通常是用来供给生产所需要的应用使用,在线存储拥有更高的性能,相比之下,辅助存储则适合备份与容灾数据、更长期的数据保留、归档等应用使用,因此二级存储的基础架构也比较经济,通常在性能较低的设备上运行。通过存储分层规划,企业用户会按照数据的生命周期将不常用的数据备份、归档到访问频率较低的二级存储设备,或者说我们通过存储分层的方式去释放主存储的空间,提高主存储设备的性能,降低储存成本。
二级存储的应用
现代企业管理中,数据已经成为企业的重要资产。如果在存储后不可以被即时利用,那么这些数据就成为了拖累企业的垃圾,这称为“暗数据”。那么如何发挥数据的价值,就成为了企业最重要的战略之一。衡量数据是否可以被及时提供,或是数据管理平台,从收到用户的数据需求,到把数据表达出来提供数据服务的时间,就成为了衡量二级存储服务优劣的标准。Veeam的数据即时利用功能称为vPower是一个专利技术,此项服务帮助用户快速的得到并利用备份数据,无论是做虚拟机的转换或是通过 Mount Server 提取文件都是非常方便的。在新的版本中,Veeam还加入了数据库发布以及数据集成API的技术。用户可以利用这些技术,让数据为企业服务,使用数据成为企业最重要的资产。
二级存储的架构设计要点
区分于二级存储上的不同的应用,在架构设计时通常会有以下架构要点
-
冗余架构
由于二级存储上的数据通常是用来做备份还原和灾难恢复的,这些数据可能是企业用户在系统发生自然灾害,用户错误,恶意攻击,而造成的丢失数据时的保命的安全还原手段,那么在设计时,就要保证其架构是冗余的,而且不会造成数据丢失情况,在设计的过程中我们推荐按照3-2-1-0的黄金法则进行设计,保证异质、异地的进行数据副本存放。 -
分层架构
在二级存储架构设计时,应该考虑通过数据的生命周期进行存储分层。举例说明,在进行数据备份与归档过程中,通常将最近要用的数据和不经常访问的数据作区分,分别放置在不同的存储层上,最近要使用的数据,主要用于数据的恢复和再利用,需要存储到性能较高的存储上,而远期数据,则要分层归档到更为经济的存储上,比如云中的对象存储。 -
间隙架构
间隙备份与磁带即服务是数据长期保留的重要使用场景,在有间隙的备份架构中。二层存储在后端由服务商提供的磁带即服务,可以保证用户的数据离线。或是通过保留删除数据的时间,通常以天数进行设定,比如,如果由于人为的破坏,备份数据也可能受到威胁,而间隙架构备份架构则可以让用户有一个周期性的不可接触的数据保留区,从而达成数据安全存放的目的。
备份存储库关键服务及组件
在开篇时我们曾经介绍过 VBR 的核心组件是由备份服务器、备份代理以及备份存储库,三个核心组件组成的,为了帮助您更好的理解备份存储库的工作原理与连接启动流程。我们通过如下图进行说明。
Data Mover 服务说明
1, 在初始化阶段,VBR 将准备备份作业所需的资源。初始化备份作业后,将在Veeam备份服务器上启动Veeam Backup Manager进程。
2, Veeam Backup Manager 从 Veeam Backup 配置数据库读取作业设置,并创建要进行数据处理的虚拟机任务列表,此时一个任务代表一个VM磁盘。
3, Veeam 备份管理器连接到 Veeam 备份服务。Veeam备份服务包括一个资源调度组件,用于管理备份基础架构中的所有任务和资源。资源调度程序检查哪些资源可用,并分配备份代理和存储库以使用Veeam的负载均衡机制处理该作业任务。
4, 在分配了必要的备份基础架构资源之后,Veeam 备份管理器将连接到目标存储库和备份代理上的传输服务,运输服务将启动 Veeam Mover服务。此时在备份代理上,将为每个进程将启动一个新的Veeam Mover 服务。
5, Veeam Backup Manager 在备份存储库和备份代理上与Veeam Data Movers建立连接,并设置许多数据传输规则(例如网络流量限制规则等)。
6, 备份代理和存储库上的Veeam Data Movers相互建立连接以进行数据传输。
7, Veeam Backup Manager 将与 vCenter Server 或 ESXi 主机建立连接,并收集有关参与备份过程的VM和主机的元数据。
通过上述流程的描述,您已经了解Data Mover是如何工作的,以及它们是在那里启动的。从定义上来看,Veeam Data Mover 是一个代表 VBR 执行数据处理任务的组件,它在 VBR架构组件中的备份代理和存储库之间建立或是通过网关服务器在备份存储库之间传输数据。它的操作包括,检索源端虚拟机的数据,在目标存储上执行重复数据删除和压缩以及将备份的数据存储在备份存储上等操作。
Gateway Server 使用说明
网关服务器是辅助备份基础架构组件,它负责“桥接”备份服务器和备份存储库。如果在备份基础架构中部署以下类型的备份存储库,就一定要使用网关服务器:
- 基于共享文件夹备份存储库
- Dell EMC Data Domain 重复数据删除存储设备
- HPE StoreOnce重复数据删除存储设备
相信从上文中提到的备份过程中您已经有了理解了,上面列举的这三个备份目标端是无法承载 Data Mover 服务的,所以 VBR 就要使用网关服务器来托管目标端的Veeam Data Mover 服务,从而完成数据的传输。
文章可扩展说明
https://helpcenter.veeam.com/docs/backup/vsphere/gateway_server.html?ver=100
5.2.3 Mount Server 使用说明
如果需要将虚拟机的客户机操作系统的文件和应用程序细粒度的进行还原或执行安全还原操作,则需要 Mount Server。Mount Server 可让您以最佳方式来路由进出VM流量,减少网络负载并加快还原过程。
在执行文件级,应用程序项或安全还原时,VBR需要将备份文件的内容装载到 Staging Server(或原始VM上,以还原 Microsoft SQL Server和Oracle VM)。挂载VM备份集后,VBR将会通过此挂载服务器或VM将文件或项目复制到其目标位置。
Staging Server必须与存储备份文件的备份存储库位于同一站点中。在这种情况下,您将能够将VM流量保持在一个站点中。如果Staging Server位于其他站点,则数据将需要在站点之间的网络上传输。
5.2.4 vPower NFS 服务介绍
VBR 从V5版本就引入了 vPower 服务,简而言之,它允许直接从备份文件运行虚拟机。我们可以将其用于即时VM恢复,以实现最快的恢复时间。另外,基于“数据实验室”,我们可以利用vPower 进行备份作业的验证,细粒度恢复,或是按需沙盒等操作。vPower所需的网络通信端口如下图所示:
vPower技术的关键结构是vPower NFS服务。vPower NFS服务是一种 Microsoft Windows服务,可在 Microsoft Windows 计算机上运行,并使该计算机充当 NFS服务器。
vPower技术具有以下功能:
- 恢复验证
- 即时VM恢复
- 即时VM磁盘恢复
- 分阶段还原
- 通用应用程序项恢复(U-AIR)
- 多操作系统文件级还原
在vPower NFS服务器上,Veeam备份和复制创建一个特殊目录-vPower NFS数据存储。从备份启动VM或VM磁盘时,Veeam备份和复制会通过备份在 vPower NFS 数据存储上“发布” VM的VMDK文件。从技术上讲,Veeam备份和复制可模拟vPower NFS数据存储上VMDK文件的存在-VMDK文件本身仍位于备份存储库的备份文件中。
然后,将vPower NFS 数据存储挂载到ESXi主机。此时ESXi主机可以在vPower NFS数据存储的作用下“查看”备份的VM映像,并与常规VMDK文件一样使用它们。
常见的备份存储库
由于VBR是一个纯软件部署的数据管理架构体系,在存储库的选上支持多种存储库类型,每种存储库都提供一组特定功能。因此,在决定存储库存储时,您可能需要考虑以下因素:
- 存储容量
- 读写性能
- 数据密度
- 安全合规
- 利用效率
作为存储库架构设计的基本准则,存储库应该具有很高的弹性特征,因为它托管着客户数据,有可能需要随时进行容量的伸缩,以允许备份需求的增长。组织策略可能要求具有不同保留期限的备份存储在不同的存储类型上。在这种情况下,您可以配置两个或多个备份存储库,如 Veeam 的SOBR 横向扩展存储库通常就有两种类型的存储库组成:
- 高性能的存储库,可容纳多个最近的保留点,用于即时还原和其他快速操作
- 具有更大容量但使用较便宜和较慢的存储的存储库,可以存储长期保留点
您可以通过在第一个存储库到第二个存储库之间建立备份复制作业来使用这两个层,或者在许可的情况下利用横向扩展备份存储库。
直连存储库 (DAS)
您可以将具有本地存储或直接存储的 Windows 或是 Linux服务器用作备份存储库。 该存储可以是本地磁盘,直接连接的基于磁盘的存储,如:硬盘驱动器,iSCSI 或是 FC SAN LUN。
选择物理机还是虚拟机 ?
您可以将虚拟机用作存储库服务器,但在设计与规划时,应该考虑存储和相关联的传输路径将被大规模的占用。推荐使用性能较高的外置存储如:FC SAN 或是 iSCSI,也可以通过RDM (Raw Device Mapping)的方式直接访问存储资源。我们推荐使用与虚拟化基础架构不同的存储资源,以避免因单点故障而造成的数据数据副本丢失。我们建议尽可能使用物理机作为存储库,以最大程度地提高存储库性能,并在生产环境与备份存储之间建立清晰的隔离机制。
Windows 还是 Linux ?
Windows和Linux在Veeam存储库方面的主要区别在于它们处理NAS共享的方式的不同,我们可以概括为在NFS和SMB之间进行选择。 这取决于您的IT基础架构考虑与安全性,那一个选择才是更好的管理和维护。
选择NTFS还是ReFS
Veeam 支持这两种文件系统作为Veeam存储库的文件系统,两种文件系统在不同备份情况下的行为都不同。
- 关于 NTFS:
使用 NTFS时,请确保NTFS卷以 64KB 的块大小格式化。同时,在涉及合成全备份操作时, NTFS 将在合成全备操作期间读取和写入所有块,这将导致很高的IO负载和存储列。其中设置了独立每个VM备份模式下的Forever Forward Incremental或是 Reverse Incremental Backup的增量合并操作对磁盘队列长度的影响最大。
- 关于 ReFS:
由于 ReFS 使用了链接克隆技术,这非常适合于执行合成全备份操作,并且在合并或创建合成填充等操作期间将节省大量的IO和吞吐量。使用ReFS时,请注意如下事项:- 请确保该卷以64KB的块大小格式化
- 在存储端,LUN上配置 256KB块大小
- 存储空间的预估时,不要将链接克隆空间的节省带入所需
- 切勿在ReFS和Veeam存储库中使用共享LUN
- 检查现有的ReFS驱动程序版本。最小值应从ReFS.sys 10.0.14393.2097开始
- ReFS 将在合成全备过程中会非常快速地将元数据刷新到磁盘。这些元数据刷新基于4KB块。所以应该关注存储的性能。
检查https://docs.microsoft.com/en-us/windows-server/storage/refs/refs-overview
网络附加存储库 (NAS)
利用 SMB 与 NFS文件共享做存储库
您可以将CIFS(SMB)与 NFS 共享用作备份存储库。为了与CIFS(SMB)或是 NFS 备份存储库进行通信,VBR会使用两个Data Mover服务来处理和传输数据,它们会分别部署在Backup Proxy 与 网关服务器。
网关服务器上的Veeam Data Mover
由于 SMB 或 NFS 共享存储无法托管 Veeam Data Mover 服务 因此,要与SMB共享进行通信,您需要部署网关服务器。Veeam备份和复制将自动在此网关服务器上部署Veeam数据移动器。有关更多信息,请参见网关服务器。当任何作业访问SMB备份存储库时,网关服务器上的Data Mover服务将与备份代理上的Data Mover服务建立连接,从而实现通过LAN或WAN的高效数据传输。如果计划通过WAN链接将VM数据传输到容灾中心的SMB存储库,建议您在远程站点中靠近SMB存储库的位置部署网关服务器。
使用SMB共享作为目标时,请检查以下几点:
-
存储供应商或是用于SMB服务提供的Windows Server必须完全支持SMB 3.x.x版本,推荐使用Windows Server 2016 以上的版本做为SMB服务器
-
若要提高性能并减少延迟带来的影响,可以使用Windows Server提供的SMB Direct直接提供的RDMA:功能,如RoCE或iWarp。远程直接内存访问(RDMA)是从一台计算机的内存到另一台计算机的内存的直接内存访问,而无需涉操作系统层级的操作。这将有助于为用户打造高吞吐量,低延迟的联网环境。有关 RDMA的更多信息请参考如下连接。
-
推荐在源端与存储库之间使用 10Gbit/s 的高速连接,如果我们存储库的写性能更高的话,甚至可以考虑使用40Gbit/s 每秒的高速连接。
-
尽量避免在源和Veeam存储库之间存在多个网络路由点,这会增加延迟并降低性能
-
请注意,当应用程序使用 WinAPI 将数据写入 SMB 共享时,在将相应的数据放入 Microsoft SMB 客户机的发送队列之后, 应用程序就会获得此 I/O 操作的成功提示。但是如果随后共享的连接丢失——那么队列将保留在内存中,SMB客户端将等待共享可用,以尝试并完成写入缓存的数据。但是,如果与共享的连接不能及时恢复,队列的内容将永久丢失。
Windows File Server and SMB Direct
https://docs.microsoft.com/en-us/windows-server/storage/file-server/smb-direct
NFS网关服务器的要求
NFS网关服务器角色的计算机必须满足以下要求:
- 网关服务器的角色可以分配给Microsoft Windows或Linux计算机,无论是物理机还是虚拟机,网关服务器通过 VBR 控制台进行统一管理。
- Linux网关服务器必须安装NFS客户端软件包。
- 使用Linux网关服务器进行身份验证的凭据必须具有root权限或提升到root权限。
- Veeam Backup&Replication 使用网关和存储库支持的最高NFS协议版本。例如,如果Linux网关服务器支持NFS协议版本2和3,并且NFS存储库支持NFS协议版本3和4.1,则NFS存储库将使用NFS协议版本3连接到网关服务器。
去重设备(Dedup Appliance)
在云数据管理中,数据的高速增长与容量管理一直是用户关心的问题。想要长期存放大量的数据,就要借助备份设备。由于在备份环境中总是充斥着大量的冗余数据,去重设备的应用解决这个问题,并节省更多的空间,帮助客户实现了更长期的数据保留。采用重复数据删除技术,可以将备份的数据缩减为原来的几十分之一,从而节省出更多的数据备份空间,这不仅可以让数据在磁盘上保留更长的时间,还可以节约数据备份到存储设备时所需要的大量带宽,缩减备份时间窗口。
应该注意的是,在对去重设备进行随机读取的数据的过程中,在去重设备端I/O的操作有可能是需要进行数据重组的,这个过程通常称之为重新注水的过程,数据在这个过程还原成标准的格式而被读取。因此,我们建议将去重设备作辅助备份目标。
去重设备的应用
在打造云数据管理平台时,我们应该尽量考虑存储无关性,在去重设备的使用上也不例外。VBR 可以在不同的用例中将任何重复数据删除设备用作:主备份存储库、备份副本存储库和虚拟磁带库(VTL)容器。
去重设备作为主备份存储库
除非您在 Dell EMC DataDomain 存储上使用 DDBoost 协议,或者在 HPE StoreOnce 上使用Catalyst ,否则应为活动增量式完整备份配置正向增量的主要作业-因为要进行转换的作业需要先在块上进行“脱水”,然后再进行“重新脱水”存储。此类操作需要大量时间和I / O。
否则您应该将主要备份作业配置成为带有自动全备(Active Full)的向前增量备份, 因为合成全备份作业,将需要将去重设备上的数据块“de-hydration”再 "re-hydration"这样的操作将需要大量的时间与频繁的I/O来完成。
另外,在进行即时VM恢复时,从去重设备读取备份文件,可能不如预期的那样快速,除非去重设备为还原操作操作提供最新的还原点,如ExaGrid就可以提供这样的功能,这将使快速还原成为可能。
当设置成为活动全备份的缺点就是需要每周或每月传输全部虚拟机的数据。这可能导致长时间的快照提交占用,因此需要仔细计划这个备份模式。如果客户选择使用去重设备作为主要备份目标,则不建议设置主要的备份作业的使用合成备份操作。
去重设备作为备份副本存储库
在默认情况下,备份副本作业 Backup Copy Job 将触发备份链的转换,这将在去重设备上导致合成或者转换的操作,此操作将需要去重设备上的数据块进行“de-hydration” 再 "re-hydration"以至于需要大量的时间与频繁的I/O来完成。我们推荐使用与Veeam 集成 的去重设备,这样进行备份链转换时,这些操作就会在去重设备本身来完成,如果使用的并非集成的去重设备,那么就一定要在备份作业中启用活动全备(Active Full)选项。
去重设备作为VTL
当使用去重设备作为VTL时,应注意不要在并内部内部再设置任何压缩,这样将导致二次驱虫是驱虫效率大大降低。最佳实践为将备份文件存储在未压缩的暂存区域中,用于暂存区域的存储库应配置为启用“存储前先解压缩”高级选项,以确保忽略先前在作业级别应用的压缩。
在去重设备上使用 Veeam Explorers 做文件级别恢复
根据设计,Veeam Explorers 在做文件级别恢复时,会在备份存储库上执行大量随机读取操作。要对此类操作进行优化,需要遵循作业和存储库配置最佳实践,否则将会在启动文件级恢复或Veeam Explorers时导致大量等待时间。为了进一步减少还原时间,建议为在备份作业设置时启用文件级索引。以便通过企业管理器浏览内容时,建立索引的VM将消除读取还原点的等待时间。
最佳实践
在本节中,我们会将集成的和非集成的重复数据删除设备区别开来。目前 Veeam 集成的去除设备列表如下,它们使用下列的去重设备厂商提供的 Restful API 进行集成。那么如果您使用不是以下设备,或是因为某些原因导致如下 Restful API 不可用,那么Veeam将视连接的去重设备为非集成设备。
目前与Veeam 集成的去重设备包括:
PE StoreOnce - 通过使用 Catalyst API
EMC DataDomain - 通过使用 DDBoost API
ExaGrid - 通过 Veeam datamover 集成
为了优化重复数据删除设备的吞吐量,请使用以下配置准则:
作业配置
在“存储”>“高级”下的备份作业“编辑”向导中配置了以下设置。该表中未定义的选项是可选的,与使用重复数据删除存储的备份存储库无关。
Configuration tab | Setting | Value |
---|---|---|
Backup | Backup mode | Incremental |
Backup | Create synthetic full backups periodically | Enabled - if integrated |
Backup | Transform previous backup chains into rollbacks | Disabled |
Backup | Create active full backups periodically | Enabled - if non-integrated |
Maintenance | Perform backup file health check | Disabled |
Maintenance | Defragment and compact full backup file | Disabled |
Storage | Enable inline data deduplication | Disabled |
Storage | Exclude swap file blocks | Enabled |
Storage | Exclude deleted file blocks | Enabled |
Storage | Compression level | Optimal |
Storage | Storage optimization | Local target (16TB+ backup files) |
Storage | Enable backup file encryption | Disabled |
硬件辅助加密可通过 DDBoost 用于 EMC DataDomain,但必须在集成特定的存储库配置中进行配置。如果在作业级别启用,则数据减少效率将大大降低。
存储库配置
在“存储库”>“高级”下的“编辑存储库”向导中配置了以下设置。
Setting | Value |
---|---|
Align backup file data blocks | Enabled - only if repository uses fixed block size deduplication (almost never true) |
Decompress backup data blocks before storing | Enabled |
This repository is backed by rotated hard drives | Disabled |
Use per-VM backup files | Enabled |