数据驱动的销量预测模型建构
销量预测在电商企业的生产经营中扮演着至关重要的角色,它直接关系到销售、生产和采购计划的精准制定,是降低库存积压和缺货风险的有效手段。传统的销量预测方法主要依赖人工经验,即专家法,但这种方法存在诸多局限性,如人工经验可能存在的偏见、时间成本高等问题。因此,基于数据驱动的销量预测模型逐渐成为企业关注的重点。本文将结合百分点数据科学实验室的实践经验,深入探讨数据驱动的销量预测模型建构方法,包括预测目标、评估方法、案例应用及效果等方面。
销量预测的价值
- 销量预测的商业价值
由于供应链的滞后性,企业需要根据未来一段时间内的市场需求制定尽量准确的销售计划,再根据销售计划制定生产和采购计划。然而,未来的市场需求是不确定的,如果企业高估市场需求,就会造成库存积压,进而承担库存成本(包括库存费用和资金成本);如果企业低估市场需求,就会造成缺货,进而承担未实现销售的机会成本。这时,准确、高效地预测市场需求,即进行销量预测,就成为企业降低决策不确定性,最小化库存和机会成本的关键。
- 数据驱动的销量预测
传统的销量预测方法主要是基于人工经验估计,即专家法。这种方法虽然能够结合长时间积累的业务经验和人的逻辑判断能力,但完全依赖专家法有一定的局限性,如人工经验可能存在的偏见和较高的时间成本。数据驱动的销量预测则能够解决这些问题。数据驱动的销量预测是指利用算法挖掘大量历史数据中可复现的规律,再用这些规律建立模型预测未来销量。这种方法能够更全面地考虑影响销量的各种因素,如销量的历史趋势、周期性、节假日、产品属性、渠道属性、营销投入、竞争情况等,从而提高预测的准确性和效率。
数据驱动的销量预测模型建构
- 数据收集与预处理
数据驱动的销量预测模型首先需要收集大量的历史数据,这些数据包括销量数据、市场需求数据、产品属性数据、渠道属性数据、营销投入数据、竞争情况等。收集到的数据需要进行清洗和预处理,以消除噪声和异常值,确保数据的质量。这一步骤是模型建构的基础,数据的质量和完整性直接影响到后续模型训练的效果。
- 特征选择与提取
在数据预处理之后,需要进行特征选择与提取。销量的影响因素众多,通过特征工程,可以从原始数据中提取出对销量预测有价值的特征,以提高模型的预测准确性。这一步骤需要深入了解业务场景和数据特性,选择能够反映销量变化规律的特征。
- 模型选择与训练
根据数据的特性和业务需求,选择合适的预测模型进行训练。常见的销量预测模型有时间序列模型(如ARIMA、LSTM等)、回归模型(如线性回归、逻辑回归等)和机器学习模型(如支持向量机、决策树、神经网络等)。模型的选择需要充分考虑数据的质量和特征,以及模型的适用场景和限制。在模型训练过程中,需要将数据集划分为训练集、验证集和测试集,通过训练集训练模型,使用验证集对模型进行调优,最终使用测试集评估模型的预测性能。
- 模型评估与优化
模型评估是预测模型建构的重要环节。常用的评估指标包括均方误差(MSE)、均方根误差(RMSE)、决定系数(R²)等。根据评估结果,对模型进行调整和优化,以提高模型的预测精度和泛化能力。这一步骤需要反复迭代,直到找到最优的模型参数和配置。
销量预测的难点与挑战
- 未来销量的不确定性
尽管数据驱动的销量预测模型能够显著提高预测的准确性,但在实际应用中仍面临诸多难点与挑战。未来销量的不确定性来源包括未知但可知的随机性、博弈结果和复杂系统中的“黑天鹅”类不确定性。这些不确定性因素使得销量预测变得异常复杂和困难。
- 预测、目标和计划的混淆
除了预测方法的局限性,销量预测的另一个误区是企业通常会混淆预测、目标和计划三者的关系,造成预测的边界模糊,在实践中无法展现价值。预测是基于历史数据和未来可能发生的事件,尽量准确地估计某个变量未来的数值;目标是企业希望未来发生或达成的事件;规划是企业对于预测和目标的应对措施。在建立销量预测模型时,需要明确这三者的区别和联系,以确保模型的有效性和实用性。
销量预测解决方案
针对销量预测面临的难点和挑战,我们提出以下解决方案:
- 大规模多层级多时序问题
销量预测可以理解为一个多层级多时序问题。为了捕捉时序之间的交互关系,并且允许相同层级的时序共享信息,我们选择多时间序列联合建模的方法,不使用传统的单时间序列模型。同时,针对更高层级时序的预测问题,可以采用Forecast Reconciliation方法统一和优化各层级预测结果。
- 多步预测问题
多步预测是指关注多个目标时间点的预测结果。为了解决传统时序模型在多步预测中可能出现的误差累计问题,我们对每个预测目标时间分别建立模型,使多步预测更加稳定。
- 间歇性需求问题
在销量预测中,会出现部分时间销售量为零的情况,即间歇性需求。为了解决这个问题,我们采取筛选时序、使用对零值敏感的损失函数训练模型或采用Hurdle Model等方法。
销量预测评估方法
销量预测模型的评估方法多种多样,可以分为技术指标和业务指标两类。
- 技术指标
技术指标用来评估模型在验证集或实际生产中的预测准确率。常用的技术指标包括平均绝对百分比误差(MAPE)、对称平均绝对百分比误差(sMAPE)等。然而,这些指标在实际应用中可能存在一些问题,如MAPE在非对称性和零值处理上的局限性。因此,我们在实践中采取MAD Mean Ratio作为技术评估指标,该指标适用于间歇性需求场景,并且同样是一个百分比误差,易于理解。
- 业务指标
业务指标用来评估模型应用后对业务产生的实际影响,是比模型准确率更加直观和有效的评估指标。业务指标需要根据具体业务设计,如库存周转率、订单拖欠率等。这些指标能够直接反映模型应用后对业务带来的实际效益。
对于业务设计的启示
根据项目实践中积累的经验,我们总结以下两点对于业务设计的启示:
- 数据驱动的业务设计
如果想最大程度挖掘数据中的价值,那么设计相关业务和IT系统时需要充分考虑数据分析和建模的需求。例如,在数据库设计时,需要考虑时间切片数据的保存,以便在分析和建模时能够获取历史时点的数据。
- 销量预测与业务流程结合
销量预测是一种技术工具,需要和业务流程结合才能发挥作用。即使模型达到令人满意的准确率,如果混淆了预测、目标和规划,对模型产生不切实际的预期,或者模型结果无法被业务人员理解和接受,模型也不会对业务产生实际影响。因此,在建立销量预测模型时,需要明确模型的定位和作用,确保其与业务流程的紧密结合。