基于Hadoop与Spark的大数据开发实战 pdf

基于Hadoop与Spark的大数据开发实战

内容简介

数据技术让我们以一种靠前的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,很终形成变革之力。本书围绕Hadoop和Spark主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数据离线处理辅助系统、Spark Core、Spark SQL、Spark Streaming等知识。本书紧密结合实际应用,运用大量案例说明和实践,提炼含金量十足的开发经验。

作者简介

肖睿,任职于北京课工场教育科技有限公司。课工场是专注互联网教育的生态平台,汇聚了中国和北美数百位来自互联网企业的行业大咖,向寻求就业和技术提升的人群提供直播、录播、面授等多模式教学场景,并通过遍布的线下服务中心提供成熟的学习服务,形成完善的“互联网+教育”解决方案。同时,课工场也为高校、企业、行业提供教育技术赋能,依托Transformer智能教育生态平台,打造智慧校园、企业大学、行业培训的教育场景,提供一站式教育解决方案。

目录

序言
前言
关于引用作品的版权声明
第1章Hadoop初体验1
任务1初识大数据2
1.1.1大数据基本概念2
1.1.2大数据带来的挑战3
任务2初识Hadoop3
1.2.1Hadoop概述4
1.2.2Hadoop生态圈6
1.2.3Hadoop应用案例8
任务3安装Hadoop平台9
1.3.1安装虚拟机10
1.3.2安装Linux系统13
1.3.3安装Hadoop伪分布式环境30
本章总结34
本章练习34
第2章Hadoop分布式文件系统35
任务1HDFS入门36
2.1.1认识HDFS36
部分目录

感悟与笔记

一、渠道分析

1、名词解释:渠道,即企业(产品)与用户产生互动的各个触点,比如搜索引擎、社交媒体、广告平台、线下站会等等。

  • 一个完整的用户旅程,通常包括:站外渠道→展示创意→投放 URL →着陆页→辅助转化文案及 CTA →应用商店(仅移动端)→产品转化 6大关键环节,每个环节都有相应的指标来衡量渠道入口。
  • 渠道分析模型用于分析用户(包括访客)的访问来源,通过访问用户数、访问次数、访问时长、跳出率等基础指标评估渠道质量,同时也支持自定义转化目标衡量渠道的转化效果。

2、场景解答:

  • 各个渠道实时的访问用户数、浏览量如何?
  • 上周选择了多个渠道对网站进行了推广,各个渠道带来的用户注册量如何?
  • 社交媒体、搜索引擎、外部链接……哪个渠道带来的用户留存率更高?
  • 微信来源用户更多集中在公众号还是朋友圈?
  • 哪些搜索词带来的流量很大,且转化效果也好?

二、事件分析

1、名词解释:事件,是指用户在 APP、网站等应用上发生的行为,即何人,何时,何地,通过何种方式,做了什么事。
事件分析模型主要用于分析用户在应用上的行为,比如打开 APP、注册、登录、支付订单等。通过触发用户数、触发次数、访问时长等基础指标度量用户行为,同时也支持指标的运算,构建复杂的指标衡量业务过程。

2、场景解答:

  • 监测产品每天的用户数、访问次数、使用时长;趋势是否发生了变化?引 起变化的因素有哪些?
  • 北京地区的用户和上海地区的用户,购买家电品类的金额分布差异在哪里?
  • 今天在产品中发起了一个话题,各个时段用户的参与情况如何?
  • 最近半年付费用户数和 ARPU 值是多少?

三、实时分析

1、名词解释:实时分析,可以实时检测用户点击情况,使用路径,查看使用应用的人员信息,包括地域,设备属性,使用行为等

2、场景解答:

  • 市场人员刚刚上线了一个活动,如何及时了解到用户的点击情况?
  • 产品刚刚更新上线,如何快速了解到产品的更新后,用户的下载/使用是否正常?
  • 收到一个用户在使用过程中遇到的 bug反馈,如何需要快速查找到该用户 - 发现其使用路径进而解决bug?

四、Session分析

1、名词解释:Session,即会话,是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如,一次会话可以包含多个页面浏览、交互事件等。Session 是具备时间属性的,根据不同的切割规则,可以生成不同长度的 Session。

2、场景解答:在 Session 分析中,易观方舟支持多种度量 Session 访问质量的指标,包括:

  • 访问次数
  • 人均访问次数
  • 总访问时长
  • 单次访问时长
  • 单次访问深度
  • 跳出次数
  • 跳出率
  • 退出次数
  • 退出率
  • 人均访问时长
  • 总页面停留时长
  • 平均页面停留时长。同时,不同于事件分析,Session 分析中额外支持了一些维度的细分,以满足特定场景下针对 Session 分析的需求,包括:
    • 渠道来源分组:用以区分每次访问的渠道来源,仅适用于 Web/H5/小程序
    • 浏览页面数:以步长5为间隔,统计每次浏览页面数的分布情况
    • 着陆页:用以区分每次访问的着陆页,可以评价不同着陆页的访问质量
    • 退出页:用以区分每次访问的退出页,可以评价不同页面的退出情况,找 到退出率高的页面进行优化
    • 访问时长:按照 0-3 secs,3-10 secs,10-30 secs,30-60 secs,1-3 mins,3-10 mins,10-30 mins,30-60 mins,1 hour 以上的区间进行划分,统计每次访问的时长分布
Copyright © 2021-2022 知识猫. All Rights Reserved.