敏捷数据科学 在线下载 pdf mobi 2025 epub 电子版
敏捷数据科学电子书下载地址
内容简介:
《敏捷数据科学:用Hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据-价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在Hadoop 上构建数据分析应用;用Python、Apache Pig 及D3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。
《敏捷数据科学:用Hadoop创建数据分析应用》适合所有与数据工作相关的从业者,同时也适合有志成为数据科学工作者的广大读者作为入门读物。
书籍目录:
第1 部分 起步 ............................................................... 1
第1 章 理论 .................................................................. 3
敏捷大数据 ............................................................................................................3
Big Words 定义 ......................................................................................................4
敏捷大数据团队 .....................................................................................................5
认识机遇和问题 ..............................................................................................6
敏捷大数据流程 ................................................................................................... 11
代码检查和结对编程 ...........................................................................................12
敏捷的场所:开发的效率 ....................................................................................13
协作空间 .......................................................................................................14
私人空间 .......................................................................................................14
个人空间 .......................................................................................................14
用大幅打印件明确表达想法 ................................................................................15
第2 章 数据 ............................................................... 17
电子邮件 ..............................................................................................................17
处理原始数据 ......................................................................................................18
原始的电子邮件 ............................................................................................18
结构化与半结构化数据 .................................................................................18
SQL ......................................................................................................................20
NoSQL .................................................................................................................24
序列化 ...........................................................................................................24
从演变的模式中抽取和展示特征 ..................................................................25
数据流水线 ...................................................................................................26
数据透视 ..............................................................................................................27
社交网络 .......................................................................................................28
时间序列 .......................................................................................................30
自然语言 .......................................................................................................31
概率 ...............................................................................................................33
小结 .....................................................................................................................35
第3 章 敏捷开发工具 ................................................... 37
可扩展性= 简洁...................................................................................................37
敏捷大数据处理 ...................................................................................................38
设置运行Python 的虚拟环境 ...............................................................................39
使用Avro 对事件进行序列化 ..............................................................................40
在Python 中使用Avro ..................................................................................40
收集数据 ..............................................................................................................42
使用Pig 处理数据................................................................................................44
安装Pig .........................................................................................................45
使用MongoDB 发布数据 ....................................................................................49
安装MongoDB ..............................................................................................49
安装MongoDB 的Java 驱动程序 .................................................................50
安装mongo-hadoop .......................................................................................50
用Pig 向MongoDB 推送数据 .......................................................................50
使用ElasticSearch 搜索数据 ................................................................................52
安装 ...............................................................................................................52
使用Wonderdog 整合ElasticSearch 和Pig ...................................................53
对工作流程的反思 ...............................................................................................55
轻量级的Web 应用 ..............................................................................................56
Python 和 Flask .............................................................................................56
展示数据 ..............................................................................................................58
安装Bootstrap ...............................................................................................58
启用Bootstrap ...............................................................................................59
使用d3.js 和nvd3.js 可视化数据 ..................................................................63
小结 .....................................................................................................................64
第4 章 在云端 ............................................................. 65
引言 .....................................................................................................................65
GitHub .................................................................................................................67
dotCloud ...............................................................................................................67
dotCloud Echo 服务 .......................................................................................68
Python 工作者服务 ........................................................................................71
Amazon Web Services ..........................................................................................71
Simple Storage Service ..................................................................................71
Elastic MapReduce ........................................................................................72
MongoDB 即服务 ..........................................................................................79
辅助工具(Instrumentation) ................................................................................81
Google Analytics ...........................................................................................81
Mortar Data ...................................................................................................82
第2 部分 登上金字塔 ................................................... 85
第5 章 收集和展示数据 ............................................... 89
整合软件栈 ..........................................................................................................90
收集并序列化收件箱 ...........................................................................................90
处理和发布邮件数据 ...........................................................................................91
在浏览器中显示邮件 ...........................................................................................93
用Flask 和pymongo 处理邮件数据 ..............................................................94
使用Jinja2 渲染HTML5 页面 ......................................................................94
敏捷检查点 ..........................................................................................................98
生成电子邮件清单 ...............................................................................................99
用MongoDB 显示邮件 .................................................................................99
对数据展示的分析 ...................................................................................... 101
搜索邮件 ............................................................................................................ 106
使用Pig,ElasticSearch 和Wonderdog 构建索引 ....................................... 106
在网页中搜索邮件数据 ............................................................................... 107
结论 ................................................................................................................... 108
第6 章 使用图表可视化数据 ....................................... 111
优秀的图表 ........................................................................................................ 112
抽取实体:邮件地址 ......................................................................................... 112
抽取邮件 ..................................................................................................... 112
对时间进行可视化 ............................................................................................. 116
结论 ................................................................................................................... 122
第7 章 利用报表探索数据 .......................................... 123
为数据添加联系 ................................................................................................. 126
用TF-IDF 从邮件中提取关键字 ........................................................................ 133
小结 ................................................................................................................... 138
第8 章 预测 .............................................................. 141
预测电子邮件的回复率 ...................................................................................... 142
个性化 ................................................................................................................ 147
小结 ................................................................................................................... 148
第9 章 驱动行动 ........................................................ 149
好邮件的属性 .................................................................................................... 150
使用朴素贝叶斯方法进行更好的预测 ............................................................... 150
P(Reply | From ∩ To) ........................................................................................ 150
P(Reply | Token) ................................................................................................. 151
实时预测 ............................................................................................................ 153
记录事件日志 .................................................................................................... 157
小结 ................................................................................................................... 157
索引 ........................................................................... 159
作者介绍:
作者介绍:Russsel Jurney 在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个 Web 应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在 Ning 和LinkedIn 开始构建可扩展的数据分析应用。
译者介绍:朱洪波 阿里巴巴数据挖掘专家,机器学习团队负责人,司职于解决商业客户对数据的深层需求。纸质书爱好者,相信理性与逻辑的力量。
出版社信息:
暂无出版社相关信息,正在全力查找中!
书籍摘录:
暂无相关书籍摘录,正在全力查找中!
在线阅读/听书/购买/PDF下载地址:
原文赏析:
总结一下,当数据模式定义严谨,且SQL是唯一的工具时,我们就不会从挖掘数据的角度看待数据,因为视角会被优化过的数据处理工具所支配。严谨的数据格式抑制了我们在数据与直觉之间建立起联系的能力。另一方面,半结构化的数据可以让我们专注于数据本身,通过迭代地操作数据来抽取价值,并转化为产品。在敏捷大数据中选择NoSQL,是因为它让我们具备了上述能力。
其它内容:
书籍介绍
《敏捷数据科学:用Hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据-价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在Hadoop 上构建数据分析应用;用Python、Apache Pig 及D3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。
《敏捷数据科学:用Hadoop创建数据分析应用》适合所有与数据工作相关的从业者,同时也适合有志成为数据科学工作者的广大读者作为入门读物。
精彩短评:
作者:Leon Winters W 发布时间:2019-06-21 19:36:15
N52完结篇,请世图尽快大力引进DC更多优秀作品,盘点几个看点:1.莫比乌斯之椅告诉老爷有三个小丑,划重点。2.斯蒂夫在N52头上已经成了最佳工具人。3.咳咳N超又被黑化了,我代表关爱超人协会会长表示强烈谴责!4.罪犯辛迪加路易斯怀孕宝宝变成了达叔,只能说贵圈真乱。5.当我看到OA出来的时候,表示绿灯军团又又又要团灭了。6.泪点:二线绿灯侠兼职权戒杰西卡全场最佳!7.彩蛋,黛安娜还有一个弟弟。敬请期待重生Rebirth
作者:栖筠 发布时间:2021-12-31 20:00:20
一如既往不喜欢元曲形式
作者:陆鳄梨猴 发布时间:2023-04-23 19:45:22
流水账一般的作品都不能掩盖南美的魅力
作者:brennteiskalt 发布时间:2019-06-05 00:46:03
Penthesilea这一出德国历史上瑰宝级的作品终于有了中译本。作品里全是激情、疯狂和暗黑力量,是以歌德为代表的理性主义的完全反面。克莱斯特的语言充满了跳跃,难译到家,译者显然是以极为科学的态度对待的这部作品。从她非常优美的语言里就能感觉的到克氏的疯魔一般的美感。
作者:ccc7cool世界 发布时间:2021-01-18 20:14:06
作为基础读物,其实还算扎实面面俱到了,可以了解部分材质和内容。如果再深一点就更好了,其中选用的意向图相对年限较为久远了,
作者:水波波 发布时间:2017-12-06 12:11:23
看完了,书本加练习册可以给四星,我实在网上看视频自学的,如果没有视频纯自学,书上说语法内容讲的就比较粗略了。练习册题目超纲!!经常会出现下一节课语法点,让人一头问号……接下来背背背单词,听听听录音。不知道自带的光碟mp3靠不靠谱?嘤嘤嘤
深度书评:
这是一种哲学,不是一门技艺
作者:蓬山远 发布时间:2020-06-13 18:25:02
这本书的第二版已经于2018年出版了。这第一版面世于2014年,第二版在此基础之上有非常大幅度的修改。但最最基本的思路没有变化:端到端,全栈,敏捷,技术为具体业务服务。
第二版的链接在下面:
Spark全栈数据分析
评价人数不足
[美] Russell Jurney / 2018 / 电子工业出版社
对比两个版本,除了内容扩充了不少,处理的问题更加充实,代码量更大,就连使用的技术手段也发生了巨大的变化:
1)作者抛弃了pig,改用spark来处理数据流;
2)第一版中作者对于机器学习的建模没有使用太多的工具,直接编码实现了tf-idf的简单计算,第二版中作者开始使用sklearn和MLib;
3)第二版使用了Kafka来收集训练数据。
这简直是脱胎换骨的变化,作者依然能够驾轻就熟,把数据的全栈端到端的方方面面工作呈现给读者,介绍每一个过程中最恰如其分的工具。作者不纠缠于拼图中的任何一块,而是要铺陈完整的一幅画面。我们罗列看看第一版这薄薄的一百多页中,作者都谈到过那些技术工具:
数据流:Hadoop,Avro,Pig
存储:MongoDB
检索:ElasticSearch,Wonderdog
微服务:Flask,Sinatra
前端:bootstrap,Jinja2,d3.js
建模:NLTK
云计算平台:AWS,dotCloud,S3,Elastic MapReduce,Google Analytics,Montar Data
又看到短短四年时间,作者及时跟上形势,在第二版中改用更时髦更好用的工具,不能不对作者的全局观和广博度钦佩不已。
本书两个版本的英文名一以贯之,第一版叫Agile Data Science,第二版叫Agile Data Science 2.0。出版社出中译本的时候译名却有了些讲究,第一版直译《敏捷数据科学》,第二版用了书的副标题《spark全栈数据分析》。看起来似乎是“敏捷”一词不吸引人,“全栈”更满足大家的审美爱好。
我以为全书的最精华,就在第一章,尽管这一章里没有任何的代码,而是务虚地大谈到底什么叫作“敏捷数据科学”。正是因为第一章的存在,才让我对作者起的堂堂正正的这个书名非常认可。
一个数据分析产品/平台的搭建,流程极长:数据收集,流处理,存储,服务搭建,图表展示,算法建模,模型部署。对于互联网公司,搜索/广告/推荐服务,当然可以雇上几百人上千人,每个部门专门负责其中一块。可是传统商业领域对所谓“data science”的需求与此完全不同,必须要靠三五个人就完成所有的工作,每个人都要身怀多门技艺,哪里出了问题都要顶得上。技术人员除了要懂技术,也要懂业务,懂项目管理。不能追求对基础工具有多么深刻的理解和改造,要追求的是怎样在有限的资源条件下满足业务的需求,促进基于数据支撑的决策。
非常遗憾的是,作者以如此广博的眼界,却没有获得豆瓣网友的好评。国内互联网以外的传统企业普遍仍然没有“数据科学”的意识,或者即便有了意识也并不够尊重技术方面的专业性,大多数人对“数据”的认识仍在excel的水平。“全栈”的概念在IT界热了一时,但终归没有收获实利。机器学习未入行的人只对算法理论感兴趣,入了行的人多在做一些加特征、加数据、模型刷新或者修改参数的工作。“面试造火箭,工作拧螺丝”乃是这个行业的现状。我们无可奈何,只能祝愿大家拓宽眼界。
读书笔记之第五章:沟通技能之一:关注与倾听
作者:阿卷 发布时间:2006-11-04 16:27:43
网站评分
书籍多样性:5分
书籍信息完全性:6分
网站更新速度:9分
使用便利性:3分
书籍清晰度:4分
书籍格式兼容性:8分
是否包含广告:3分
加载速度:3分
安全性:7分
稳定性:6分
搜索功能:5分
下载便捷性:5分
下载点评
- 图文清晰(132+)
- 赞(358+)
- 无广告(167+)
- 强烈推荐(372+)
- 无盗版(657+)
- 格式多(359+)
- 四星好评(658+)
下载评价
- 网友 陈***秋: ( 2024-12-28 12:14:01 )
不错,图文清晰,无错版,可以入手。
- 网友 步***青: ( 2024-12-26 09:36:36 )
。。。。。好
- 网友 居***南: ( 2024-12-29 21:20:32 )
请问,能在线转换格式吗?
- 网友 索***宸: ( 2025-01-04 14:51:50 )
书的质量很好。资源多
- 网友 苍***如: ( 2024-12-23 17:32:15 )
什么格式都有的呀。
- 网友 冷***洁: ( 2024-12-30 01:17:35 )
不错,用着很方便
- 网友 国***芳: ( 2024-12-23 08:48:10 )
五星好评
- 网友 孙***夏: ( 2024-12-26 01:23:44 )
中评,比上不足比下有余
- 网友 利***巧: ( 2025-01-08 21:49:14 )
差评。这个是收费的
- 华图2015省考浙江省公务员考试用书专用教材行政职业能力测验(A、B卷通用)(附1280元名师精品课程+269元教材同步视频+99元网校代金券) 在线下载 pdf mobi 2025 epub 电子版
- Vietnam: A History(ISBN=9780140265477) 在线下载 pdf mobi 2025 epub 电子版
- 全新正版图书 和朋友在一起-迪士尼小熊维迪专注力培养涂色书 四川少年儿童出版社 9787536575608 青岛新华书店旗舰店 在线下载 pdf mobi 2025 epub 电子版
- 增广贤文·格言联璧诵读本--“中华诵·经典诵读行动”读本系列 在线下载 pdf mobi 2025 epub 电子版
- 有道码上提分 阅读+写作满分公式手卡 小学语文 在线下载 pdf mobi 2025 epub 电子版
- 老上海地标建筑 在线下载 pdf mobi 2025 epub 电子版
- 银行从业资格考试教材2021初级教材专用试卷考点精析与上机题库:银行管理(初级) 在线下载 pdf mobi 2025 epub 电子版
- 剑桥少儿英语考试全真试题第二级I(CD光盘版) 在线下载 pdf mobi 2025 epub 电子版
- 行政法学 在线下载 pdf mobi 2025 epub 电子版
- 特利迦奥特曼拼音认读故事第一辑(全5册) 在线下载 pdf mobi 2025 epub 电子版
书籍真实打分
故事情节:5分
人物塑造:7分
主题深度:6分
文字风格:7分
语言运用:4分
文笔流畅:5分
思想传递:7分
知识深度:8分
知识广度:3分
实用性:3分
章节划分:5分
结构布局:4分
新颖与独特:3分
情感共鸣:8分
引人入胜:3分
现实相关:9分
沉浸感:6分
事实准确性:4分
文化贡献:5分