پایان نامه خوشه¬بندی سریهای زمانی با استفاده از الگوریتم ژنتیک
چکیده
در سالهای اخیر دادهکاوی برروی سریهای زمانی توجه بسیاری را به خود جلب کرده است. شاید بتوان گفت از میان تمام تکنیکهای به کار برده شده برروی سریهای زمانی، خوشهبندی پر استفادهترین تکنیک میباشد. خوشهبندی سریهای زمانی میتواند به دلائل مختلفی مانند یافتن الگوهای پنهان در دادهها و جستجوی شباهتها انجام شود.
سریهای زمانی معمولاً دارای ابعاد طولانی هستند که این امر کار پردازش آنها را چه از نظر حافظه و چه از نظر زمان با مشکل روبرو میسازد. اما خوشبختانه به دلیل وابستگی زیاد بین مقادیر متوالی یک سری زمانی، تکنیکهای کاهش ابعاد داده راهکار مناسبی برای حل مشکل ابعاد آنها میباشد. با توجه به اینکه موضوع مورد بررسی ما خوشهبندی است، ما به بررسی تأثیر پنج روش مختلف کاهش ابعاد داده در خوشهبندی به وسیله الگوریتم k-means پرداخته و با انجام آزمایشات وسیع به این نتیجه رسیدیم که خوشهبندی برروی درصد بسیار کمی از مهمترین مؤلفههای استخراج شده از دادهها میتواند به نتایجی بسیار نزدیک به خوشهبندی برروی دادههای اصلی منجر شود. همچنین با ایجاد دو تغییر اساسی در روش Random Projection، روش جدیدی به نام Sample Based Projection برای کاهش ابعاد داده ارائه کردیم که در آزمایشات انجام شده، عملکرد خوبی از خود به نمایش گذاشت بطوری که وقتی ابعاد دادههای کاهش یافته را کوچک (مثلاً کمتر از 8) در نظر گرفتیم، از پنج روش دیگر بجز روش Principle Component Analysis بهتر عمل کرد.
در ادامه الگوریتمی به نام AKU-kMeans برای خوشهبندی سریهای زمانی ارائه کردهایم که چه از نظر زمان اجرا و چه از نظر معیار ICV (که از آن برای ارزیابی خوشهبندی استفاده کردهایم) بهتر از الگوریتم k-means عمل میکند. در روش پیشنهاد شده، الگوریتم k-means برروی دادههای بُعدی انجام میشود که عددی کوچک مانند 1، 2 و یا 4 میباشد. سپس بطور متوالی ابعاد دادهها از به افزایش یافته و الگوریتم k-means برروی دادههای کاهش یافته جدید که دارای دقت بیشتری هستند انجام میشود. این روند آنقدر ادامه مییابد تا خوشهبندی بهتری پیدا نشود.
از آنجایی که خوشهبندی یکی از مسائل بهینهسازی به شمار میآید از الگوریتم ژنتیک نیز میتوان برای حل آن استفاده نمود. تا کنون چندین روش برای خوشهبندی دادهها با استفاده از الگوریتم ژنتیک ارائه شده است اما در هیچکدام از آنها توجهی به ابعاد دادهها نشده است. ما با به کار گیری ایده مطرح شده در الگوریتم AKU-kMeans، یک الگوریتم ژنتیک برای خوشهبندی سریهای زمانی ارائه کردیم.
کلمات کلیدی: دادهکاوی، خوشهبندی، سریهای زمانی، الگوریتم ژنتیک، کاهش ابعاد داده
فهرست علائم اختصاری
AKU-kMeans | AmirKabir University k-means |
APCA | Adaptive Piecewise Constant Approximation |
ARMA | AutoRegressive Moving Average |
CLARANS | Clustering Large Applications based upon RANdomized Search |
CLIQUE | Clustering In QUEst |
DBSCAN | Density Based Spatial Clustering of Applications with Noise |
DFT | Discrete Fourier Transform |
DTW | Dynamic Time Warping |
DWT | Discrete Wavelet Transform |
EM Algorithm | Expectation Maximization Algorithm |
FFT | Fast Fourier Transform |
GA | Genetic Algorithm |
HMM | Hidden Markov Model |
ICV | Intra Cluster Variance |
IGA-Clustering | Incremental Genetic Algorithm Clustering |
I-kMeans | Incremental k-means |
KMO | K-Means Operator |
LPC | Linear Predictive Coding cepstra |
MAR | Mixture of AR models |
MC | Marriott’s Criterion |
OPTICS | Ordering Points To Identify the Clustering Structure |
PAA | Piecewise Aggregate Approximation |
PAM | Partitioning Around Medoids |
PCA | Principle Component Analysis |
PLA | Piecewise Linear Approximation |
RP | Random Projection |
SBP | Sample Based Projection |
SOFM | Self Organizing Feature Map |
STING | STatistical INformation Grid |
TSA | Trend and Seasonally Adjusted |
VRC | Variance Ratio Criterion |
n | The length of time series |
m | The number of objects (time series) in a dataset |
k | The number of clusters |
N | The length of time series after dimension reduction |
1-1- تعریف مسأله و انگیزه انجام آن. 5
1-2- روش پیشنهادی برای حل مسأله. 6
2- سریهای زمانی و مفاهیم مربوطه. 11
2-2- معیارهای اندازه گیری فاصله. 14
2-3- پیش پردازشهای روی سری زمانی.. 14
2-4- تکنیکهای کاهش ابعاد داده 16
3-2- معیارهای ارزیابی خوشه بندی.. 34
3-3- الگوریتم های خوشه بندی.. 37
3-4- الگوریتم خوشه بندی k-means و Fuzzy k-means. 39
4-1- بررسی تحقیقات انجام شده در زمینه خوشه بندی سریهای زمانی و مقایسه تطبیقی آنها 44
4-2- نکاتی مهم در داده کاوی سریهای زمانی.. 49
5- خوشه بندی با استفاده از الگوریتم های ژنتیک.. 53
5-2- تنظیم قسمتهای مختلف الگوریتم ژنتیک برای خوشه بندی.. 58
5-3- مقایسه تطبیقی فعالیتهای مرتبط با خوشه بندی بوسیله الگوریتم ژنتیک… 63
6- بررسی تأثیر روشهای کاهش ابعاد داده در خوشه بندی 68
6-2- متدولوژی انجام آزمایشها 72
6-4- کدام روش و چه میزان کاهش… 79
7- ارائه روشی جدید برای خوشه بندی سریهای زمانی. 83
7-5- مقایسه تطبیقی الگوریتم AKU-kMeans با روشهای دیگر خوشه بندی سریهای زمانی.. 93
8- خوشه بندی سریهای زمانی با استفاده از الگوریتم ژنتیک 96
8-1- الگوریتم IGA-Clustering 97
8-3- مقایسه تطبیقی الگوریتم IGA-Clustering با روشهای دیگر. 103
10- جمع بندی، نتیجه گیری و کارهای آتی. 116
واژه نامه انگلیسی به فارسی. 122
واژه نامه فارسی به انگلیسی. 124
شکل 1-2 مقایسه خوشه بندی غیرکروی (سمت راست) با خوشه بندی کروی (سمت چپ) 4
شکل 2-3 میانگین دمای هوا در نیویورک بصورت ماهانه [Zhu2004] 13
شکل 2-4 نمودار قیمت سهام شرکتهای IBM، MMM و LXK [Zhu2004] 15
شکل 2-5 نمودار نرمال سازی شده قیمت سهام شرکتهای IBM، MMM و LXK [Zhu2004] 16
شکل 2-9 انتخاب محورهای جدید برای داده های دو بعدی.. 22
شکل 2-12 یک سری زمانی به طول 2. 26
شکل 2-13 نمایش یک سری زمانی به طول 2 در یک فضای دو بعدی.. 26
شکل 2-14 نگاشت یک سری زمانی از فضای دو بُعدی به فضای یک بُعدی.. 27
شکل 2-15 سری زمانی بازیابی شده از B. 28
شکل 5-1 تعیین میزان شایستگی براساس رتبه بندی (تعداد جمعیت برابر است با 11) 54
شکل 5-2 مراحل اجرای الگوریتم ژنتیک… 56
شکل 5-3 کروموزومی که از کد کردن شماره خوشه ها ایجاد شده 59
شکل 5-4 کروموزومی که از کد کردن مراکز خوشه ها ایجاد شده 59
شکل 5-5 استفاده از عملگر جهش هنگامی که از روش کد کردن مراکز خوشه ها استفاده شده است.. 61
شکل 5-6 تأثیر استفاده از الگوریتم k-means در روند همگرایی الگوریتم ژنتیک [Krishna1999] 62
شکل 6-1 نمونه ای از سریهای زمانی موجود در بستر داده RandomWalk پس از نرمال سازی.. 70
شکل 6-2 نمونه ای از سریهای زمانی موجود در بستر داده Stock پس از نرمال سازی.. 71
شکل 6-4 مقادیر بدست آمده از خوشه بندی بستر داده RandomWalk. 75
شکل 6-5 مقادیر بدست آمده از خوشه بندی بستر داده Stock. 75
شکل 6-6 مقادیر بدست آمده از خوشه بندی بستر داده MixedBag. 76
شکل 6-7 مقادیر بدست آمده از خوشه بندی بستر داده RandomWalk. 77
شکل 6-8 مقادیر بدست آمده از خوشه بندی بستر داده Stock. 77
شکل 6-9 مقادیر بدست آمده از خوشه بندی بستر داده MixedBag. 78
شکل 6-11 مقادیر MissClassRatio برای بستر داده RandomWalk. 81
شکل 7-1 نمونه ای از سریهای زمانی موجود در بستر داده Trace پس از نرمال سازی.. 89
شکل 7-2 نمونه ای از سریهای زمانی موجود در بستر داده MotorCurrent پس از نرمال سازی.. 89
شکل 7-3 مقادیر برای دو الگوریتم AKU-kMeans و I-kMeans 91
شکل 7-4 مقادیر برای دو الگوریتم AKU-kMeans و I-kMeans 92
شکل 7-5 مقادیر برای دو الگوریتم AKU-kMeans و I-kMeans 92
شکل 8-1 مراحل اجرای الگوریتم IGA-Clustering. 98
شکل 8-2 نحوه قرارگیری مراکز خوشه ها در یک کروموزوم. 99
شکل 8-3 نگاشت یک کروموزوم از فضای 2 بُعدی به فضای 4 بُعدی.. 101
شکل 8-4 میانگین زمان اجرای IGA-Clustering نسبت به زمان اجرای k-means 103
شکل 9-1 يك نمونه از سريهاي زماني موجود در بستر داده RandomWalk2. 108
شکل 9-2 يك نمونه از سريهاي زماني موجود در بستر داده RandomWalk3. 109
شکل 9-3 مقادیر mean ICV ratio بدست آمده از خوشه بندی بستر داده RandomWalk2. 111
شکل 9-4 مقادیر mean ICV ratio بدست آمده از خوشه بندی بستر داده RandomWalk3. 111
شکل 9-5 مقادیر ICV ratio variance بدست آمده از خوشه بندی بستر داده RandomWalk2. 112
شکل 9-6 مقادیر ICV ratio variance بدست آمده از خوشه بندی بستر داده RandomWalk3. 112
جدول 2-1 مقایسه تطبیقی تکنیکهای کاهش ابعاد داده 25
جدول 2-2 مقایسه تطبیقی روش SBP با تکنیکهای دیگر کاهش ابعاد داده 30
جدول 3-1 معیارهای ارزیابی خوشه بندی با توجه به نوع خوشه بندی.. 34
جدول 4-1 تعدادی از مهمترین تحقیقات انجام شده در زمینه خوشه بندی سریهای زمانی.. 45
جدول 4-2 بسترهای داده مورد استفاده در مقالات بررسی شده در جدول 4-1. 49
جدول 5-1 تعدادی از مهمترین تحقیقات انجام شده در زمینه خوشه بندی با استفاده از الگوریتم های ژنتیک… 65
جدول 5-2 مشخصات بسترهای داده مورد استفاده در تحقیقاتی که در جدول 5-1 بررسی شده اند. 66
جدول 7-2 الگوریتم AKU-kMeans. 85
جدول 7-3 الگوریتم I-kMeans. 87
جدول 9-2 نتايج بدست آمده از تكرار آزمايشات.. 114
فصل اول:
مقدمه
بسیاری از دادههایی که امروزه با آنها سروکار داریم دادههایی هستند که در طول زمان تغییر میکنند. دمای هوا، میزان مصرف انرژی در یک کشور، ارتفاع سطح آب در یک رودخانه و قیمت سهام شرکتها، همگی از نوع دادههای وابسته به زمان هستند. بخش عمدهای از این دادهها از نوع سریهای زمانی میباشد. هرچند یک تعریف واحد برای سریهای زمانی وجود ندارد اما در بیشتر گزارشات تحقیقاتی و کتابها سری زمانی را ترتیبی از اعداد حقیقی در نظر میگیرند که مقدار مشاهده شده از یک رویداد را در فواصل زمانی برابر نشان میدهد.
دانشی که در این نوع دادهها نهفته است میتواند بسیار ارزشمند باشد. خوشبختانه امروزه با پيشرفتهايي كه در علوم كامپيوتر بوجود آمده امكان استخراج اين اطلاعات ارزشمند از دادهها پديد آمده است. استخراج اين اطلاعات تحت فرايندي به نام استخراج دانش[1] انجام ميشود. استخراج دانش، طیف وسیعی از انواع دادهها را شامل میشود، مانند متن، جداول پایگاه داده، صفحات وب، سریهای زمانی و غیره. اينكه چه دانشي ميخواهيم استخراج كنيم بستگي به نظر كاربر دارد. اما بطور كلي دانش استخراج شده بايد صحيح، قابل درك و سودمند باشد. فرایند استخراج دانش را میتوان به سه مرحله تقسیم نمود:
- پیش پردازش دادهها: در بيشتر مواقع قبل از اجراي الگوريتمهاي دادهكاوي، لازم است كه بر حسب نياز، پيشپردازشهايي برروي دادهها انجام شود. مانند یکی کردن منابع دادهها، پاکسازی دادهها، تبدیل مقادیر پیوسته به گسسته، انتخاب ویژگیهای مناسب، کاهش حجم دادهها (مثلاً با استفاده از تکنیکهای کاهش ابعاد داده).
- داده کاوی[2]: به معنی استخراج اتوماتيك (يا نيمه اتوماتيك) دانش از دادهها است. دادهكاوي تركيبي است از آمار، هوش مصنوعی، پایگاه داده و يادگيري ماشين. معروفترین تکنیکهای مورد استفاده در دادهکاوی عبارتند از طبقهبندی[3]، خوشهبندی[4] و استخراج قوانین انجمنی[5].
- پردازش دانش استخراج شده: مهمترین فعالیتی که در این مرحله انجام میشود نمايش دانش استخراج شده به کاربر است بطوريكه براي وی قابل درك باشد.
این مراحل را در شکل 1-1 نشان دادهایم.
Knowledge Discovery |
Data Mining
|
Data Preprocessing |
Discovered Knowledge Post Processing |
Data Integration |
Data Cleaning |
Discretization |
Attribute Selection |
Association Rule Discovery |
Clustering |
Classification |
Hi Level Knowledge Representation |
Data Reduction |
K-Means |
SOM Networks |
Genetic Algorithms |
همانطور که در شکل فوق نشان داده شده، خوشهبندی یکی از تکنیکهای دادهکاوی میباشد. هدف از خوشهبندی مشخص کردن ساختار دادههایی است که طبقهبندی نشدهاند. برای رسیدن به این هدف سعی میشود دادهها در گروههایی دستهبندی شوند بطوریکه تفاوت دادههای درون یک گروه مینیمم شده و تفاوت دادههایی که در گروههای مختلف وجود دارند ماکسیمم شود.
البته تاکنون انواع مختلفی از خوشهبندی تعریف شده است. بعضیها خوشهبندی را بصورت hard در نظر گرفتهاند و بعضی دیگر آن را فازی تعریف کردهاند[6]. بعضیها خوشهبندی را طوری تعریف کردهاند که خوشههای ایجاد شده کروی شکل باشد اما در بعضی دیگر، خوشهبندی به گونهای تعریف شده که خوشهها میتوانند شکلهایی غیر کروی داشته باشند. به عنوان مثال در شکل 1-2 دادههای دو بعدی را مشاهده میکنید که یکبار توسط خوشهبندی کروی و بار دیگر توسط خوشهبندی غیر کروی، خوشهبندی شدهاند.
شکل 1-2 مقایسه خوشه بندی غیرکروی (سمت راست) با خوشه بندی کروی (سمت چپ)
علاوه بر موارد فوق، نحوه تعریف فواصل بین دادهها، در خوشهبندی ایجاد شده تأثیرگذار خواهد بود. بعضی از فرمولهای اندازهگیری فاصلۀ بین دادهها، عمومی هستند مانند فاصله اقلیدسی، در حالی که بعضی دیگر معمولاً برای دادههای خاص به کار میروند مانند فاصله کسینوسی که برای دادههای متنی استفاده میشود و یا فاصله DTW و فاصله correlation که برای سریهای زمانی تعریف شدهاند.
1-1- تعریف مسأله و انگیزه انجام آن
از آنجایی که خوشهبندی در زمره مسائل بغرنج[7] قرار دارد برای حل آن معمولاً از الگوریتمهای مکاشفهای[8] استفاده میشود. سه نمونه از این الگوریتمها را در شکل 1-1 مشاهده میکنید. الگوریتم های مکاشفهای معمولاً بهترین جواب را پیدا نمیکنند بلکه جوابی نزدیک به جواب بهینه را پیدا میکنند. به همین دلیل همواره پژوهشگران و محققان بدنبال ارائه راه حلهایی هستند که بتواند در آزمایشات مختلف نتایج بهتری را نسبت به راهحلهای قبلی ارائه دهد. یکی از معروفترین روشهای مکاشفهای، الگوریتم ژنتیک است که بدلیل قابلیت زیاد آن در اجرای موازی و نیز پایین بودن احتمال به تله افتادن آن در مینیممهای محلی نسبت به روشهای مکاشفهای دیگر، از محبوبیت بیشتری برخوردار است.
در این پایان نامه ما قصد داریم سریهای زمانی را با استفاده از الگوریتمهای ژنتیک خوشهبندی نماییم. البته تا کنون چندین گزارش تحقیقاتی برای خوشهبندی دادههای ایستا[9] با استفاده از الگوریتم های ژنتیک ارائه شده که تعدادی از آنها را در فصل پنجم بررسی خواهیم کرد، اما تا کنون از این روش برای خوشهبندی سریهای زمانی استفاده نشده است[10] [Liao2005]. بعبارت دیگر اکثر این محققان خوشهبندی را برای دادههایی با ابعاد کم (مثلاً کمتر از 10) انجام دادهاند، در حالی که سریهای زمانی معمولاً دارای اندازهای طولانی (مثلاً 100 یا 1000) میباشند. در واقع مهمترین چالشی که در این مسأله با آن روبرو هستیم ابعاد زیاد دادهها است که چه از نظر زمان اجرای الگوریتم و چه از نظر حافظه میتواند مشکلساز باشد.
Keogh و همکارانش در [Keogh2003] نشان دادهاند که تکهتکه کردن یک سری زمانی و خوشهبندی آن منجر به نتیجۀ ارزشمندی نخواهد شد. آنها روشهای خوشهبندی سریهای زمانی را به دو گروه تقسیم کردهاند:
- whole clustering: که در آن هر سری زمانی یک شیء جداگانه در نظر گرفته میشود و هدف آن گروهبندی سریهای زمانی است به طوری که سریهای مشابه در یک خوشه قرار گیرند.
- subsequence clustering: که در آن یک سری زمانی داده شده است. با استفاده از یک پنجره لغزان، زیرسریهای زمانی استخراج شده و سپس خوشهبندی برروی این زیرسریها انجام میشود.
از نظر Keogh و همکارانش، خوشهبندی برروی بستر داده X، در صورتی ارزشمند خواهد بود که اجراهای مختلف الگوریتم خوشهبندی برروی بستر داده X، نتایج مشابهی را تولید کند، ضمن اینکه اجراهای مختلف این الگوریتم خوشهبندی برروی بستر داده Y که مستقل از X است به نتایج متفاوتی نسبت به خوشهبندی برروی X منجر شود. با این تعریف از ارزشمند بودن، آنها نشان دادهاند که subsequence clustering منجر به یک نتیجۀ ارزشمند نمیشود. از آنجایی که در این پایاننامه ما برای خوشهبندی سریهای زمانی، هر سری زمانی را یک شیء جداگانه در نظر گرفتهایم تحقیقات ما در گروه whole clustering قرار میگیرد و لذا میتوان نتایج ارزشمندی را از آن انتظار داشت.
1-2- روش پیشنهادی برای حل مسأله
همانطور که گفتیم سریهای زمانی معمولاًً دارای اندازهای طولانی میباشند که این امر چه از نظر حافظه و چه از نظر پیچیدگی زمانی، کار پردازش آنها را با مشکل روبرو میسازد. روشی که ما برای حل این مسأله به کار بردهایم استفاده از تکنیکهای کاهش ابعاد داده قبل از انجام خوشهبندی است. استفاده از تکنیکهای کاهش ابعاد داده قبل از هرگونه پردازشی، یک راه حل متداول است که در تحقیقات مختلف به طرق متفاوتی از آن استفاده شده است. مانند [Lin2004] و [Wang2006] که هر کدام روشی متفاوت را برای کاهش ابعاد داده قبل از خوشهبندی سریهای زمانی به کار بردهاند.
برای استفاده از ایده فوق، به دو سؤال اصلی باید پاسخ داد:
- از کدام تکنیک برای کاهش ابعاد داده استفاده کنیم؟
- با توجه به اینکه اکثر تکنیکها به ما امکان کاهش ابعاد داده در دقتهای مختلف[11] را میدهد، ابعاد دادهها را تا چه دقتی کاهش دهیم که تأثیری در نتیجه خوشهبندی نداشته باشد و یا تأثیر آن بسیار ناچیز باشد؟
برای پاسخگویی به این دو سؤال، الزاماً باید از مسیر تجربه و انجام آزمایشات و مقایسه تطبیقی نتایج حاصل به پاسخ قابل قبول دست یافت. همانطور که در بالا اشاره شد خوشهبندی میتواند به روشهای مختلفی انجام شود. پیادهسازی و آزمایش تمام حالات مختلف خوشهبندی کاری طاقتفرسا خواهد بود. بنابراین تصمیم گرفتیم فرضیاتی را در مورد مسأله خوشهبندی سریهای زمانی در نظر بگیریم و آزمایشهایمان را بر اساس آن فرضیات طراحی کنیم.
مهمترین فرضیات ما در مورد مسأله خوشهبندی سریهای زمانی:
- معیار اندازهگیری فواصل بین سریهای زمانی فاصله اقلیدسی میباشد.
- بهترین خوشهبندی توسط معیار ICV[12] تعیین میشود.
- تعداد خوشهها توسط کاربر مشخص میشود (و نه بطور خودکار).
ما برای انجام آزمایشهای خود، پنج روش مختلف کاهش ابعاد داده را انتخاب کرده و آنها را برروی 3 بستر داده مختلف اِعمال کردیم. این پنج روش عبارتند از DFT[13]، DWT[14]، PAA[15]، PCA[16]، و RP[17]. این روشها را در بخش دوم توضیح دادهایم. از آنجایی که تمامی این روشها قادرند ابعاد دادهها را در دقتهای مختلفی کاهش دهند، با هر کدام از آنها ابعاد دادهها را به اندازههای مختلفی (که همگی توانی از 2 بودند) کاهش دادیم. سپس تأثیر هر کدام از این روشهای کاهش ابعاد داده را برروی خوشهبندی بوسیله الگوریتم k-means مورد بررسی قرار دادیم. علت انتخاب الگوریتم k-means این بود که فرضیات این الگوریتم با فرضیات ما (که در بالا مطرح شد) تطابق دارد. علاوه بر این، سرعت اجرای این الگوریتم نیز نسبتاً زیاد است و به ما امکان میدهد بسترهای دادهای بزرگتری برای آزمایشهایمان انتخاب نماییم.
آزمایشات انجام شده نشان داد که روش PCA کمترین تأثیر منفی، و روش RP بیشترین تأثیر منفی را در خوشهبندی دادههای کاهش یافته دارد. سه روش دیگر تقریباً عملکردی برابر داشتند. همچنین این آزمایشات نشان داد که تنها با انتخاب درصد بسیار کمی از ویژگیهای استخراج شده توسط PCA و خوشهبندی این ویژگیها، میتوان به جوابهایی بسیار نزدیک به جوابهای بدست آمده از خوشهبندی دادههای اصلی دست یافت. این نتیجهگیری در مورد روشهای DFT، DWT و PAA نیز بطور ضعیفتری برقرار است.
[1] Knowledge Discovery
[2] Data Mining
[3] Classification
[4] Clustering
[5] Association Rule Discovery
[6] در خوشهبندی hard هر شیء فقط میتواند عضو یک خوشه باشد در حالی که در خوشهبندی فازی، هر شیء میتواند عضو چندین خوشه با درجه عضویتهای مختلف باشد.
[7] NP-Hard
[8] Heuristic
[9] منظور از دادههای ایستا، دادههایی هستند که به زمان وابسته نیستند.
[10] البته ما در تحقیقاتی که انجام دادیم متوجه شدیم که در زمینه خوشهبندی سریهای زمانی با الگوریتم ژنتیک یک مقالهی منتشر شده وجود دارد [Pattarin2004]، اما بدلیل اینکه هدف اصلی آن مقاله ارائه روشی برای خوشهبندی سریهای زمانی نبوده، باز هم میتوان این پایان نامه را بعنوان اولین فعالیت جدی در این زمینه در نظر گرفت.
[11] Different resolutions
[12] Intra Cluster Variance
[13] Discrete Fourier Transform
[14] Discrete Wavelet Transform
[15] Piecewise Aggregate Approximation
[16] Principle Component Analysis
[17] Random Projection
نقد و بررسیها
هنوز بررسیای ثبت نشده است.