کاوش مجموعه اقلام تکراری جریان‌های داده در مدل پنجره‌ی لغزان حساس به زمان بر مبنای درخت پیشوندی و تخمین احتمالی

نویسندگان

1 استادیار، دانشگاه علوم و فنون شهید ستاری

2 استادیار، دانشگاه هوایی شهید ستاری

چکیده

برای کاوش مجموعه اقلام تکراری در جریان‌های داده مدل‌های مختلفی مطرح شده‌اند. مدل پنجره‌ی لغزان حساس به زمان یکی از بهترین این مدل هاست چون به کمک آن هم تغییر مفهوم و هم سرعت متغیر جریان داده ورودی را می‌توان در نظر گرفت. تغییر محتوای پنجره با گذشت زمان، سبب پدیدار شدن الگوهای جدید و حذف برخی از الگوهای قدیمی میشود. چگونگی محاسبه یا تخمین تکرار، مجموعه اقلام جدید یکی از عوامل تأثیر گذار در کارایی الگوریتم‌های کاوش الگوهای تکراری در جریان‌های داده است. در این مقاله برای نخستین بار از تخمین احتمالی به منظور تخمین میزان تکرار مجموعه اقلام جدید استفاده شده است. بر اساس این تخمین، الگوریتمی سریع ارائه شده است که قادر است در پنجره‌های حساس به زمان، با میزان حافظه ای قابل قبول، مجموعه اقلام تکراری را کاوش کند. این الگوریتم به منظور ذخیره سازی مجموعه اقلام تکراری پنجره ی فعال از ساختمان داده‌ی جدیدی بر مبنای درخت پیشوندی استفاده می‌کند. آزمایش‌های صورت گرفته بر روی جریان داده‌های واقعی و تولید شده‌ی مصنوعی، نشان دهنده برتری این الگوریتم نسبت به روش‌های ارائه شده قبلی از نظر زمان اجرا و حافظه مصرفی است.

کلیدواژه‌ها


عنوان مقاله [English]

Frequent Pattern Mining over Data Streams within Time Sensitive Sliding Window Model Based Prefix-tree and Probabilistic Estimation

نویسندگان [English]

  • Mahmood Deypir 1
  • Hamid Reza Dalili Oskouei 2
چکیده [English]

Mining frequent patterns over data streams is a challenging problem due to speed of input streams in real applications, processing and storage limitations. There are various models for mining frequent patterns over data streams. Time sensitive sliding window model is preferable due to modeling both concept change and varying speed of input data. Adding and removing transactions to/from sliding window leads to change in the set of frequent patterns. Approach to compute or approximate the frequency of new itemsets has a direct effect on the efficiency of the mining algorithm. In this study, for first time, a probabilistic estimation is used to approximate the support values for new frequent itemsets. Based on this approximation, a new algorithm is proposed which can mine the set of frequent pattern within a time sensitive sliding window. This algorithm benefits from a novel prefix tree based data structure to store the set of frequent patterns of the active window. Experimental evaluations performed on real life and synthetically generated datasets show the superiority of the proposed algorithm with respect to previously proposed approaches in terms of memory usage and runtime.

کلیدواژه‌ها [English]

  • Data stream
  • time sensitive sliding window
  • frequent itemset mining
  • probabilistic estimation