基于Hadoop与Spark的大数据开发实战 pdf
内容简介
数据技术让我们以一种靠前的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,很终形成变革之力。本书围绕Hadoop和Spark主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数据离线处理辅助系统、Spark Core、Spark SQL、Spark Streaming等知识。本书紧密结合实际应用,运用大量案例说明和实践,提炼含金量十足的开发经验。
作者简介
肖睿,任职于北京课工场教育科技有限公司。课工场是专注互联网教育的生态平台,汇聚了中国和北美数百位来自互联网企业的行业大咖,向寻求就业和技术提升的人群提供直播、录播、面授等多模式教学场景,并通过遍布的线下服务中心提供成熟的学习服务,形成完善的“互联网+教育”解决方案。同时,课工场也为高校、企业、行业提供教育技术赋能,依托Transformer智能教育生态平台,打造智慧校园、企业大学、行业培训的教育场景,提供一站式教育解决方案。
目录
序言
前言
关于引用作品的版权声明
第1章Hadoop初体验1
任务1初识大数据2
1.1.1大数据基本概念2
1.1.2大数据带来的挑战3
任务2初识Hadoop3
1.2.1Hadoop概述4
1.2.2Hadoop生态圈6
1.2.3Hadoop应用案例8
任务3安装Hadoop平台9
1.3.1安装虚拟机10
1.3.2安装Linux系统13
1.3.3安装Hadoop伪分布式环境30
本章总结34
本章练习34
第2章Hadoop分布式文件系统35
任务1HDFS入门36
2.1.1认识HDFS36
部分目录
感悟与笔记
一、渠道分析
1、名词解释:渠道,即企业(产品)与用户产生互动的各个触点,比如搜索引擎、社交媒体、广告平台、线下站会等等。
2、场景解答:
二、事件分析
1、名词解释:事件,是指用户在 APP、网站等应用上发生的行为,即何人,何时,何地,通过何种方式,做了什么事。
事件分析模型主要用于分析用户在应用上的行为,比如打开 APP、注册、登录、支付订单等。通过触发用户数、触发次数、访问时长等基础指标度量用户行为,同时也支持指标的运算,构建复杂的指标衡量业务过程。
2、场景解答:
三、实时分析
1、名词解释:实时分析,可以实时检测用户点击情况,使用路径,查看使用应用的人员信息,包括地域,设备属性,使用行为等
2、场景解答:
四、Session分析
1、名词解释:Session,即会话,是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如,一次会话可以包含多个页面浏览、交互事件等。Session 是具备时间属性的,根据不同的切割规则,可以生成不同长度的 Session。
2、场景解答:在 Session 分析中,易观方舟支持多种度量 Session 访问质量的指标,包括:
会员免费下载
链接:https://pan.baidu.com/s/1BZTBxEvDF-60UjqS5KDCLQ
提取码: ****** 查看
成为本站VIP会员即可无限下载。 请先点击百度网盘,看资源是否还在,不在请点击链接通知站长补资源。