
Information Processing & Management是由爱思唯尔(Elsevier)出版的学术期刊,创刊于1963年,聚焦计算机科学、信息科学、图书情报学等领域的交叉研究。核心方向包括:信息检索与知识图谱、健康信息学、自然语言处理、数据挖掘、商业智能与决策支持等方向。该期刊被中国科学院列为计算机科学领域一区TOP期刊,同时被中国计算机学会认定为B类推荐期刊。
近期本团队两篇论文先后被接收。接下来为两篇论文的详细介绍:
论文1:DS_HURNSP: An Effective Method for Mining High Utility Repeated Negative Sequential Patterns from Data Streams
作者:董祥军、甄一聪、邱萍、迟静、郭磊、鹿文鹏、赵龙、宫永顺、赵宇海
合作单位:齐鲁工业大学(山东省科学院)、南京邮电大学、山东财经大学、山东师范大学、山东大学、东北大学

摘要:从数据流中挖掘高效用重复负序列模式是进行数据流分析的重要方法。然而,现有方法未考虑负事件与重复事件,导致决策有效性欠佳。为此,本文提出一种有效算法DS_HURNSP,用于结合滑动窗口模型从数据流中挖掘HURNSP。首先,本文提出一种有效的效用列表前缀树结构,用于存储高效用重复正序列模式;其次,构建基于哈希表结构的效用映射集,实现对高效用重复正序列模式信息的快速查询;最后,提出一种两阶段计算方法,通过将高效用重复负序列候选模式映射至高效用重复正序列模式集合来计算其效用,从而避免对数据集的重复扫描。在六个数据集上进行的大量实验表明,与基准方法相比,DS_HURNSP算法比现有的baseline方法生成的HURNSP数目多数十到数千倍,且平均运行时间缩短一半以上。

论文2:TaNSP: An efficient target pattern mining algorithm based on negative sequential pattern
作者:崔潇雯、董雪、邱萍、孙传后、赵宇海、董祥军
单位:齐鲁工业大学(山东省科学院)、清华大学、南京邮电大学、东北大学
摘要:目标模式挖掘(Target Pattern Mining,TPM)的任务是返回与用户查询的目标序列相关的目标模式。然而,现有的TPM研究仅局限于正序列模式,忽视了负序列模式,从而限制了TPM在决策支持方面的能力。此外,引入负序列模式也面临挖掘效率低以及剪枝技术局限等挑战。为解决上述问题,本文提出了一种基于负序列模式的高效目标模式挖掘算法TaNSP,使TPM能够以负序列作为目标查询序列,并输出包含该目标的负序列模式,同时也支持正序列模式挖掘。具体而言,我们提出了一种基于三重位图的剪枝策略,以引导候选模式生成并提升挖掘效率;同时提出了一种针对负序列目标查询的剪枝方法,以克服传统剪枝技术在此情形下的局限性。在六个数据集上的实验结果表明,相比基线方法,TaNSP的运行效率提升超过两倍,具有良好的可扩展性和实用性。
论文1主要由QLU-NLP团队2023级硕士研究生甄一聪同学完成,论文2主要由QLU-NLP团队2024级硕士研究生崔潇雯同学完成。导师均为董祥军教授。
董祥军教授长期从事数据挖掘方面的研究,在Artificial Intelligence、IEEE TNNLS、IEEE TCYB、Pattern Recognition、CIKM国际知名期刊和会议上发表论文100多篇,其中SCI收录30多篇,EI收录40多篇,授权发明专利5项。获高校优秀科研成果三等奖2项。指导全日制硕士研究生30人,毕业21人,其中7人考取了澳大利亚悉尼科技大学(UTS)、北京理工大学、武汉大学、华中科技大学、中国海洋大学、北京邮电大学的博士生,2人获得山东省优秀硕士论文,3人获得校级优秀硕士论文,3人获得国家奖学金。