目的:有效的降低存储资源的消耗,节省存储成本

数据压缩

分布式文件系统为了保证数据的可靠性和性能,通常将数据存储3份

那么1TB数据实际会消耗3TB的存储空间

MaxCompute的archive方法

6份数据+3份校验块,使得存储比从1:3提高到1:1.5,省下一半的物理空间

局限性:恢复故障数据块的时间比原来更长,导致读性能损失

场景:冷备数据和日志数据的压缩

因为这些数据超过一定时间期限后被使用的频率非常低,但又属于不可恢复数据

对于该部分数据考虑对历史数据的分区进行archive

数据重分布

在列式存储中,由于每张表的分布不同,插入数据的顺序也不同,会导致压缩效果的差异

通过数据重分布,避免列热点,节省存储空间

重分布=Distribute by + Sort by(局部排序)

存储治理项优化

在元数据基础上,诊断、加工成多个存储治理优化项

如未管理表、 空表、最近 62 天未访问表、数据无更新无任务表 、数据无更新有任务表、开发库数据大于100GB 且无访问表、长周期表等

形成现状分析、问题诊断、管理优化、效果反馈的存储治理项优化闭环

生命周期管理

目的:用最少存储成本满足最大业务需求

管理策略

  1. 周期删除策略

    周期同步的全量数据

  2. 彻底删除

    无用表or临时表

  3. 永久保留

    重要且不可恢复的底层数据和应用数据需要永久保留,如底层交易的增量数据

  4. 极限存储

    极限存储可以超高压缩重复镜像数据,通过平台化配置手段实现透明访问

    缺点是对数据质量要求非常高,配置与维护成本比较高,

  5. 冷数据管理

    永久保留的数据需要迁移到冷数据中心进行永久保存