目的:有效的降低存储资源的消耗,节省存储成本
分布式文件系统为了保证数据的可靠性和性能,通常将数据存储3份
那么1TB数据实际会消耗3TB的存储空间
6份数据+3份校验块,使得存储比从1:3提高到1:1.5,省下一半的物理空间
局限性:恢复故障数据块的时间比原来更长,导致读性能损失
场景:冷备数据和日志数据的压缩
因为这些数据超过一定时间期限后被使用的频率非常低,但又属于不可恢复数据
对于该部分数据考虑对历史数据的分区进行archive
在列式存储中,由于每张表的分布不同,插入数据的顺序也不同,会导致压缩效果的差异
通过数据重分布,避免列热点,节省存储空间
重分布=Distribute by + Sort by(局部排序)
在元数据基础上,诊断、加工成多个存储治理优化项
如未管理表、 空表、最近 62 天未访问表、数据无更新无任务表 、数据无更新有任务表、开发库数据大于100GB 且无访问表、长周期表等
形成现状分析、问题诊断、管理优化、效果反馈的存储治理项优化闭环
目的:用最少存储成本满足最大业务需求
周期删除策略
周期同步的全量数据
彻底删除
无用表or临时表
永久保留
重要且不可恢复的底层数据和应用数据需要永久保留,如底层交易的增量数据
极限存储
极限存储可以超高压缩重复镜像数据,通过平台化配置手段实现透明访问
缺点是对数据质量要求非常高,配置与维护成本比较高,
冷数据管理
永久保留的数据需要迁移到冷数据中心进行永久保存