大数据与机器学习：实践方法与行业案例.2.6　本章小结-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

大数据与机器学习：实践方法与行业案例.2.6　本章小结

阅读量：5742 次

发布时间：2019-06-18

本文共 441 字，大约阅读时间需要 1 分钟。

2.6　本章小结

本章围绕数据体系提出了数据闭环的概念，对数据闭环的特征进行了描述，并且进一步介绍了构建数据闭环所涉及的方法和技术。

这里着重介绍了在数据闭环中扮演重要作用的“数据缓冲区”的设立理念和实现方式。通过设立数据缓冲区，可以实现系统解耦，让数据闭环具备良好的扩展性，让公司组织间职责更加分明，使数据环境更加安全等。

数据缓冲区中涉及的数据批量导出/导入技术，需要使用到各个RDMS系统的批量操作命令。另外在大数据平台中，需要使用hadoop shell和hive shell脚本来实现批量操作，对于Hbase，则提供了Java实现的bulk load批量导入方式。

ETL作业为数据闭环中定义数据流转方式的环节。为了实现ETL作业的自动化运行和监控，需要引入ETL作业规范：命名规范和日志规范。

作业调度则是保证ETL作业能够实现自动化的手段，监控和预警则进一步保证了ETL作业能够正常运行。

第3章将根据这两章提出的数据理念，通过实战的方式完成数据闭环中关键环节的构建。

转载地址：http://xpszx.baihongyu.com/

你可能感兴趣的文章

Apache Beam实战指南 | 玩转KafkaIO与Flink

为所有PHP-FPM容器构建单独的NGinx Dock镜像

搞容器，必须考虑这五大安全要素

携程网瘫痪超8小时，可能故障原因分析

知乎推荐页Ranking构建历程和经验分享

Netty防止内存泄漏措施

聊天宝彻底凉了，遭罗永浩抛弃，团队就地解散

鸟哥：技术人员如何保持进步

推荐10个CI/CD工具，用于云平台集成交付

死月的二零一六总结

解析 TiDB 在线数据同步工具 Syncer

聊聊工程师的影响力

Fake 5提供.NET Core支持

【Leetcode】9. Palindrome Number 判断一个数字是否是回文数字

白话解释迭代器(ITERATOR)和生成器(GENERATOR)

Android自定义Lint实践(一)

Ruby的声誉(翻译，简学互动)

Composer管理PHP依赖关系

React.js学习笔记之JSX解读

WebPack1.x 常用功能介绍

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-12-19 10:08:02 当前IP: 3.145.186.88 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我