Python案例 │ 找出顾客购物篮中的关联商品

技术百科 admin 发布时间:2024-04-17 浏览:17 次

原标题:Python案例 │ 找出顾客购物篮中的关联商品

假设你是一家大型超市的数据分析师,面对每天海量的购物数据,如何找出顾客购物篮中的关联商品,提高销售额呢?

我们可以通过数据挖掘中的关联规则挖掘算法来解决这个问题。以下是一个简单的Python代码示例,使用了mlxtend库中的apriori和association_rules函数来实现购物篮分析:

Python复制代码

上述代码首先对数据进行了预处理,然后使用Apriori算法找出了频繁项集,最后生成了关联规则。通过这些规则,我们可以发现商品之间的关联关系,如“购买牛奶的顾客很可能也会购买面包和黄油”,从而为超市的商品摆放、促销策略等提供有力支持。

《数据挖掘》

ISBN:9787302634256

作者:蔡毅,黄清宝,许可,王国华,伍慰珍

定价:44.50元

目录

向上滑动阅览

第1章 绪论 1

1.1 数据挖掘概述 1

1.2 数据挖掘的定义 1

1.2.1 数据挖掘的一般步骤 2

1.2.2 数据挖掘任务 2

1.3 数据挖掘的主要问题 3

1.3.1 数据挖掘算法的有效性和可扩展性 3

1.3.2 处理噪声和不完全数据 3

1.3.3 高维度数据 3

1.3.4 关系数据库和复杂数据类型的处理 4

1.3.5 异种数据库和全球信息系统挖掘信息 4

1.4 数据挖掘的应用 4

1.4.1 推荐系统 4

1.4.2 互联网风险控制 5

1.5 小结 5

1.6 参考文献 5

第2章 数据及数据集基本分析 6

2.1 数据对象与属性 6

2.1.1 属性的定义 7

2.1.2 定性属性 7

2.1.3 定量属性 8

2.2 数据与元数据 9

2.2.1 传统的元数据 9

2.2.2 元数据的类型 10

2.2.3 元数据的模式 10

2.3 结构化、非结构化和半结构化数据 11

2.3.1 结构化数据 11

2.3.2 非结构化数据 12

2.3.3 半结构化数据 13

2.4 数据集基本分析技术 14

2.4.1 频率和众数 15

2.4.2 百分位数 15

2.4.3 均值和中位数 16

2.4.4 极差和方差 16

2.4.5 多元数据统计 17

2.5 结构化数据集基本分析技术 17

2.5.1 鸢尾花数据集介绍 17

2.5.2 描述统计 18

2.6 文本数据集基本分析技术 19

2.6.1 20newsgroups数据集介绍 19

2.6.2 文本可视化 22

2.7 数据可视化技术 23

2.7.1 可视化数据变量之间的相关性 24

2.7.2 可视化数据变量值的分布情况 26

2.8 数据对象相似性与距离计算 30

2.8.1 数据对象的相似性定义 30

2.8.2 数据对象相似性的度量方法 30

2.9 大数据概述 31

2.9.1 大数据的兴起 31

2.9.2 大数据的特点 32

2.10 小结 32

2.11 练习题 32

2.12 参考文献 33

第3章 数据预处理 34

3.1 数据预处理概述 34

3.2 数据清洗 35

3.2.1 缺失值处理 35

3.2.2 异常点检测 36

3.2.3 异常点处理 37

3.2.4 重复数据处理 37

3.2.5 噪声处理 38

3.3 数据降维 39

3.3.1 数据降维概述 39

3.3.2 主成分分析降维 39

3.3.3 多维缩放降维 41

3.3.4 等度量映射降维 43

3.3.5 局部线性嵌入降维 45

3.3.6 降维效果比较 47

3.4 结构化数据预处理技术 50

3.4.1 数据清洗 50

3.4.2 分组与聚合 53

3.4.3 合并 54

3.4.4 案例------房价预测竞赛 55

3.5 文本数据预处理技术 58

3.5.1 文本数据预处理技术概述 58

3.5.2 文本数据获取 58

3.5.3 分词 59

3.5.4 数据清洗 59

3.5.5 词干提取 62

3.5.6 词形还原 63

3.5.7 案例------新闻数据预处理 63

3.6 隐私保护与数据脱敏 67

3.6.1 隐私保护与数据脱敏概述 67

3.6.2 隐私保护与数据脱敏定义 67

3.6.3 敏感信息识别 67

3.6.4 敏感信息去除 69

3.7 小结 70

3.8 练习题 71

3.9 参考文献 71

第4章 分类基本算法 72

4.1 分类概述 72

4.1.1 分类任务简介 72

4.1.2 二分类及多分类 73

4.1.3 不均衡问题 73

4.2 k近邻算法 74

4.2.1 算法 74

4.2.2 距离度量 74

4.2.3 k值的选择 75

4.2.4 分类决策规则 75

4.2.5 参数说明 75

4.3 决策树 76

4.3.1 决策树简介 76

4.3.2 决策树算法 77

4.3.3 信息增益 77

4.3.4 增益率 77

4.4 支持向量机 79

4.4.1 线性可分支持向量机 80

4.4.2 线性支持向量机 82

4.4.3 非线性支持向量机 82

4.4.4 参数说明 83

4.5 随机森林 84

4.5.1 随机森林简介 84

4.5.2 随机森林算法 85

4.5.3 参数说明 85

4.6 AdaBoost 86

4.6.1 AdaBoost简介 86

4.6.2 AdaBoost算法 86

4.6.3 参数说明 88

4.7 朴素贝叶斯 88

4.7.1 朴素贝叶斯基本方法 88

4.7.2 朴素贝叶斯算法 89

4.7.3 参数说明 90

4.8 特征权重函数 91

4.8.1 无监督特征权重函数 91

4.8.2 有监督特征权重函数 92

4.9 结构化数据分类案例 93

4.9.1 鸢尾花数据集 93

4.9.2 评估方式 94

4.9.3 KNN实例 94

4.9.4 SVM实例 94

4.9.5 决策树实例 95

4.9.6 随机森林实例 95

4.9.7 AdaBoost实例 96

4.9.8 朴素贝叶斯分类器实例 96

4.10 文本分类实例 96

4.10.1 文本表示 96

4.10.2 分类模型的训练 99

4.11 小结 108

4.12 练习题 108

4.13 参考文献 108

第5章 基于深度学习的分类算法 110

5.1 深度学习概述 110

5.1.1 深度学习的发展历程 110

5.1.2 深度学习的概念 111

5.1.3 深度学习的应用 111

5.1.4 深度学习的未来 112

5.2 卷积神经网络 113

5.2.1 卷积神经网络简介 113

5.2.2 卷积运算 114

5.2.3 非线性激活函数 115

5.2.4 最大池化运算 115

5.3 循环神经网络 116

5.3.1 循环神经网络简介 116

5.3.2 循环神经网络的结构类型 119

5.4 长短期记忆网络 121

5.5 图像分类案例 123

5.5.1 数据集下载与预处理 123

5.5.2 模型架构搭建 126

5.5.3 模型的训练与验证 128

5.5.4 使用数据增强策略 129

5.5.5 随机失活策略 130

5.5.6 使用预训练模型提升结果 131

5.6 结构化数据分类案例 134

5.6.1 数据分析和可视化 134

5.6.2 模型架构搭建 136

5.6.3 模型训练和预测 137

5.7 文本分类案例 137

5.7.1 数据预处理 137

5.7.2 模型架构搭建 139

5.7.3 模型训练与预测 139

5.8 小结 140

5.9 练习题 140

5.10 参考文献 140

第6章 聚类分析 142

6.1 聚类概述 142

6.2 划分聚类 143

6.2.1 K均值 143

6.2.2 K均值算法的实现 144

6.2.3 二分K均值 145

6.2.4 二分K均值算法实现 146

6.2.5 划分聚类的优点与缺点 148

6.3 层次聚类 149

6.3.1 簇的邻近性度量 149

6.3.2 AGNES算法 150

6.3.3 层次聚类的优点与缺点 153

6.4 基于密度的聚类 153

6.4.1 DBSCAN 153

6.4.2 算法实现 155

6.4.3 参数的选取 156

6.4.4 密度聚类的优点与缺点 157

6.5 主题模型 157

6.5.1 LDA 模型 158

6.5.2 LDA参数估计 159

6.5.3 LDA的优点与缺点 159

6.6 结构化数据聚类案例 161

6.6.1 数据集 161

6.6.2 评价指标 161

6.6.3 聚类及评估 162

6.7 文本聚类案例 166

6.7.1 数据集 166

6.7.2 数据预处理 166

6.7.3 LDA的训练和评估 168

6.7.4 LDA 结果的可视化 170

6.8 聚类分析的相关工作 171

6.9 小结 172

6.10 练习题 172

6.11 参考文献 172

第7章 推荐系统 175

7.1 推荐系统概述 175

7.1.1 推荐系统的发展 175

7.1.2 推荐系统的应用场景 178

7.1.3 推荐系统评测指标 178

7.1.4 推荐系统存在的问题 182

7.2 个性化建模方法 184

7.2.1 基于向量空间模型的表示法 184

7.2.2 基于主题的表示法 184

7.2.3 基于用户--物品评分矩阵的表示法 185

7.2.4 基于神经网络的表示法 185

7.3 基于内容的推荐 185

7.3.1 基于内容的推荐简介 185

7.3.2 基于内容的推荐算法 186

7.3.3 基于内容的推荐的优点和缺点 188

7.4 基于协同过滤的推荐 189

7.4.1 协同过滤简介 189

7.4.2 用户行为数据介绍 189

7.4.3 基于用户的协同过滤 191

7.4.4 基于物品的协同过滤 193

7.4.5 矩阵分解 197

7.4.6 负样本的采样 201

7.5 混合推荐 202

7.5.1 混合推荐简介 202

7.5.2 结合不同的推荐系统 202

7.5.3 在协同过滤中添加基于内容的特征 203

7.5.4 在基于内容的推荐中加入协同过滤的特征 203

7.5.5 构建一个统一推荐模型 203

7.5.6 混合推荐的优点和缺点 203

7.6 基于主题的推荐 204

7.6.1 为什么需要用到主题模型 204

7.6.2 LDA主题模型概述 204

7.6.3 使用主题模型计算相似物品 205

7.6.4 使用主题模型计算相似用户 206

7.7 基于深度学习的推荐算法 206

7.8 推荐算法案例 208

7.8.1 数据的读取与分析 208

7.8.2 推荐算法的应用 213

7.9 小结 220

7.10 练习题 220

7.11 参考文献 221返回搜狐,查看更多

责任编辑:

在线咨询

点击这里给我发消息售前咨询专员

点击这里给我发消息售后服务专员

在线咨询

免费通话

24h咨询:400-888-8888


如您有问题,可以咨询我们的24H咨询电话!

免费通话

微信扫一扫

微信联系
返回顶部