图灵程序设计丛书《Spark高级数据分析(第2版)》高清文字版PDF下载
图灵程序设计丛书《Spark高级数据分析(第2版)》高清文字版PDF下载
views:15
date:2021-07-09 15:59:45
comments:0
以下是资源下载信息(为了避免爬虫搞跨服务器,网盘的提取码可能需要填了验证码之后才显示)
作为计算框架,Spark速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用Apache Spark进行大数据分析和处理的实战宝典。第2版根据新版Spark最佳实践,对样例代码和所用资料做了大量更新。本书涵盖模式如下:● 音乐推荐和Audioscrobbler数据集● 用决策树算法预测森林植被● 基于K均值聚类进行网络流量异常检测● 基于潜在语义算法分析维基百科● 用GraphX分析伴生网络● 对纽约出租车轨迹进行空间和时间数据分析● 通过蒙特卡罗模拟来评估金融风险● 基因数据分析和BDG项目● 用PySpark和Thunder分析神经图像数据推荐序  ix译者序  xi序  xiii前言  xv第1章 大数据分析  11.1 数据科学面临的挑战  21.2 认识Apache Spark  41.3 关于本书  51.4 第2版说明  6第2章 用Scala 和Spark 进行数据分析  82.1 数据科学家的Scala  92.2 Spark编程模型  102.3 记录关联问题  102.4 小试牛刀:Spark shell和SparkContext  112.5 把数据从集群上获取到客户端  162.6 把代码从客户端发送到集群  192.7 从RDD到DataFrame  202.8 用DataFrame API来分析数据  232.9 DataFrame的统计信息  272.10 DataFrame的转置和重塑  292.11 DataFrame的连接和特征选择  322.12 为生产环境准备模型  332.13 评估模型  352.14 小结  36第3章 音乐推荐和Audioscrobbler数据集  373.1 数据集  383.2 交替最小二乘推荐算法  393.3 准备数据  413.4 构建第一个模型  443.5 逐个检查推荐结果  473.6 评价推荐质量  50<
Clicky