شناسه محصول
9717
محصول حرفه ای
محصول ایرانی
بسته نصبی آسان
اورجینال تایید شده

پایان نامه خوشه¬بندی سریهای زمانی با استفاده از الگوریتم ژنتیک

Name: پایان نامه خوشه¬بندی سریهای زمانی با استفاده از الگوریتم ژنتیک
SKU: 3320
Price: 19900 IRT
Availability: InStock

Rate this product

چکیده

در سالهای اخیر دادهکاوی برروی سریهای زمانی توجه بسیاری را به خود جلب کرده است. شاید بتوان گفت از میان تمام تکنیکهای به کار برده شده برروی سریهای زمانی، خوشهبندی پر استفادهترین تکنیک میباشد. خوشهبندی سریهای زمانی میتواند به دلائل مختلفی مانند یافتن الگوهای پنهان در دادهها و جستجوی شباهتها انجام شود.

سریهای زمانی معمولاً دارای ابعاد طولانی هستند که این امر کار پردازش آنها را چه از نظر حافظه و چه از نظر زمان با مشکل روبرو میسازد. اما خوشبختانه به دلیل وابستگی زیاد بین مقادیر متوالی یک سری زمانی، تکنیکهای کاهش ابعاد داده راهکار مناسبی برای حل مشکل ابعاد آنها میباشد. با توجه به اینکه موضوع مورد بررسی ما خوشهبندی است، ما به بررسی تأثیر پنج روش مختلف کاهش ابعاد داده در خوشهبندی به وسیله الگوریتم k-means پرداخته و با انجام آزمایشات وسیع به این نتیجه رسیدیم که خوشهبندی برروی درصد بسیار کمی از مهمترین مؤلفههای استخراج شده از دادهها میتواند به نتایجی بسیار نزدیک به خوشهبندی برروی دادههای اصلی منجر شود. همچنین با ایجاد دو تغییر اساسی در روش Random Projection، روش جدیدی به نام Sample Based Projection برای کاهش ابعاد داده ارائه کردیم که در آزمایشات انجام شده، عملکرد خوبی از خود به نمایش گذاشت بطوری که وقتی ابعاد دادههای کاهش یافته را کوچک (مثلاً کمتر از 8) در نظر گرفتیم، از پنج روش دیگر بجز روش Principle Component Analysis بهتر عمل کرد.

در ادامه الگوریتمی به نام AKU-kMeans برای خوشهبندی سریهای زمانی ارائه کردهایم که چه از نظر زمان اجرا و چه از نظر معیار ICV (که از آن برای ارزیابی خوشهبندی استفاده کردهایم) بهتر از الگوریتم k-means عمل میکند. در روش پیشنهاد شده، الگوریتم k-means برروی دادههای بُعدی انجام میشود که عددی کوچک مانند 1، 2 و یا 4 میباشد. سپس بطور متوالی ابعاد دادهها از به افزایش یافته و الگوریتم k-means برروی دادههای کاهش یافته جدید که دارای دقت بیشتری هستند انجام میشود. این روند آنقدر ادامه مییابد تا خوشهبندی بهتری پیدا نشود.

از آنجایی که خوشهبندی یکی از مسائل بهینهسازی به شمار میآید از الگوریتم ژنتیک نیز میتوان برای حل آن استفاده نمود. تا کنون چندین روش برای خوشهبندی دادهها با استفاده از الگوریتم ژنتیک ارائه شده است اما در هیچکدام از آنها توجهی به ابعاد دادهها نشده است. ما با به کار گیری ایده مطرح شده در الگوریتم AKU-kMeans، یک الگوریتم ژنتیک برای خوشهبندی سریهای زمانی ارائه کردیم.

کلمات کلیدی: دادهکاوی، خوشهبندی، سریهای زمانی، الگوریتم ژنتیک، کاهش ابعاد داده

فهرست علائم اختصاری

AKU-kMeans	AmirKabir University k-means
APCA	Adaptive Piecewise Constant Approximation
ARMA	AutoRegressive Moving Average
CLARANS	Clustering Large Applications based upon RANdomized Search
CLIQUE	Clustering In QUEst
DBSCAN	Density Based Spatial Clustering of Applications with Noise
DFT	Discrete Fourier Transform
DTW	Dynamic Time Warping
DWT	Discrete Wavelet Transform
EM Algorithm	Expectation Maximization Algorithm
FFT	Fast Fourier Transform
GA	Genetic Algorithm
HMM	Hidden Markov Model
ICV	Intra Cluster Variance
IGA-Clustering	Incremental Genetic Algorithm Clustering
I-kMeans	Incremental k-means
KMO	K-Means Operator
LPC	Linear Predictive Coding cepstra
MAR	Mixture of AR models
MC	Marriott’s Criterion
OPTICS	Ordering Points To Identify the Clustering Structure
PAA	Piecewise Aggregate Approximation
PAM	Partitioning Around Medoids
PCA	Principle Component Analysis
PLA	Piecewise Linear Approximation
RP	Random Projection
SBP	Sample Based Projection
SOFM	Self Organizing Feature Map
STING	STatistical INformation Grid
TSA	Trend and Seasonally Adjusted
VRC	Variance Ratio Criterion
n	The length of time series
m	The number of objects (time series) in a dataset
k	The number of clusters
N	The length of time series after dimension reduction

فهرست مطالب

1- مقدمه 2

1-1- تعریف مسأله و انگیزه انجام آن. 5

1-2- روش پیشنهادی برای حل مسأله. 6

1-3- ساختار پایان نامه. 8

2- سریهای زمانی و مفاهیم مربوطه. 11

2-1- سریهای زمانی 11

2-2- معیارهای اندازه گیری فاصله. 14

2-3- پیش پردازشهای روی سری زمانی.. 14

2-4- تکنیکهای کاهش ابعاد داده 16

3- خوشه بندی 32

3-1- تعریف خوشه بندی.. 32

3-2- معیارهای ارزیابی خوشه بندی.. 34

3-3- الگوریتم های خوشه بندی.. 37

3-4- الگوریتم خوشه بندی k-means و Fuzzy k-means. 39

4- خوشه بندی سریهای زمانی. 42

4-1- بررسی تحقیقات انجام شده در زمینه خوشه بندی سریهای زمانی و مقایسه تطبیقی آنها 44

4-2- نکاتی مهم در داده کاوی سریهای زمانی.. 49

5- خوشه بندی با استفاده از الگوریتم های ژنتیک.. 53

5-1- الگوریتم ژنتیک 53

5-2- تنظیم قسمتهای مختلف الگوریتم ژنتیک برای خوشه بندی.. 58

5-3- مقایسه تطبیقی فعالیتهای مرتبط با خوشه بندی بوسیله الگوریتم ژنتیک… 63

6- بررسی تأثیر روشهای کاهش ابعاد داده در خوشه بندی 68

6-1- بسترهای داده 69

6-2- متدولوژی انجام آزمایشها 72

6-3- نتایج آزمایشها 74

6-4- کدام روش و چه میزان کاهش… 79

7- ارائه روشی جدید برای خوشه بندی سریهای زمانی. 83

7-1- الگوریتم AKU-kMeans 85

7-2- الگوریتم I-kMeans 87

7-3- بسترهای داده 88

7-4- نتایج آزمایشات 90

7-5- مقایسه تطبیقی الگوریتم AKU-kMeans با روشهای دیگر خوشه بندی سریهای زمانی.. 93

8- خوشه بندی سریهای زمانی با استفاده از الگوریتم ژنتیک 96

8-1- الگوریتم IGA-Clustering 97

8-2- نتایج آزمایشات 101

8-3- مقایسه تطبیقی الگوریتم IGA-Clustering با روشهای دیگر. 103

9- آزمایشات تکمیلی. 107

10- جمع بندی، نتیجه گیری و کارهای آتی. 116

منابع و مراجع 119

واژه نامه انگلیسی به فارسی. 122

واژه نامه فارسی به انگلیسی. 124

فهرست شکلها

شکل 1-1 مراحل استخراج دانش… 3

شکل 1-2 مقایسه خوشه بندی غیرکروی (سمت راست) با خوشه بندی کروی (سمت چپ) 4

شکل 2-1 قیمت روزانه (شروع روز، بالاترین سطح، پایین ترین سطح، پایان روز) سهام شرکت IBM و حجم معاملات انجام شده [Zhu2004] 12

شکل 2-2 میانگین درآمد سالانه هر خانواده در مناطق مختلف ایالات متحده از سال 1975 تا 2001، مناطق به ترتیب از بالا به پایین: شمال شرقی، مرکز، جنوب، غرب [Zhu2004] 13

شکل 2-3 میانگین دمای هوا در نیویورک بصورت ماهانه [Zhu2004] 13

شکل 2-4 نمودار قیمت سهام شرکتهای IBM، MMM و LXK [Zhu2004] 15

شکل 2-5 نمودار نرمال سازی شده قیمت سهام شرکتهای IBM، MMM و LXK [Zhu2004] 16

شکل 2-6 یک سری زمانی به طول 1024 به همراه سری زمانی بازیابی شده از تبدیل DFT که ابعاد آن را به 8 بعد کاهش داده است 19

شکل 2-7 یک سری زمانی به طول 1024 به همراه سری زمانی بازیابی شده از تبدیل DWT که ابعاد آن را به 8 بعد کاهش داده است 20

شکل 2-8 یک سری زمانی به طول 1024 به همراه سری زمانی بازیابی شده از تبدیل PAA که ابعاد آن را به 8 بعد کاهش داده است 21

شکل 2-9 انتخاب محورهای جدید برای داده های دو بعدی.. 22

شکل 2-10 یک سری زمانی به طول 1024 به همراه سری زمانی بازیابی شده از تبدیل PCA که ابعاد آن را به 8 بعد کاهش داده است 23

شکل 2-11 یک سری زمانی به طول 1024 به همراه سری زمانی بازیابی شده از تبدیل RP که ابعاد آن را به 8 بعد کاهش داده است 24

شکل 2-12 یک سری زمانی به طول 2. 26

شکل 2-13 نمایش یک سری زمانی به طول 2 در یک فضای دو بعدی.. 26

شکل 2-14 نگاشت یک سری زمانی از فضای دو بُعدی به فضای یک بُعدی.. 27

شکل 2-15 سری زمانی بازیابی شده از B. 28

شکل 2-16 یک سری زمانی به طول 1024 به همراه سری زمانی بازیابی شده از تبدیل SBP که ابعاد آن را به 8 بعد کاهش داده است 30

شکل 4-1 سه روش مختلف برای خوشه بندی سریهای زمانی a) مبتنی بر داده خام ، b) مبتنی بر ویژگی ، c) مبتنی بر مدل [Liao2005] 43

شکل 4-2 نحوه کد کردن فضای مسأله خوشه بندی در قالب کروموزومها که در [Pattarin2004] مورد استفاده قرار گرفته 48

شکل 5-1 تعیین میزان شایستگی براساس رتبه بندی (تعداد جمعیت برابر است با 11) 54

شکل 5-2 مراحل اجرای الگوریتم ژنتیک… 56

شکل 5-3 کروموزومی که از کد کردن شماره خوشه ها ایجاد شده 59

شکل 5-4 کروموزومی که از کد کردن مراکز خوشه ها ایجاد شده 59

شکل 5-5 استفاده از عملگر جهش هنگامی که از روش کد کردن مراکز خوشه ها استفاده شده است.. 61

شکل 5-6 تأثیر استفاده از الگوریتم k-means در روند همگرایی الگوریتم ژنتیک [Krishna1999] 62

شکل 6-1 نمونه ای از سریهای زمانی موجود در بستر داده RandomWalk پس از نرمال سازی.. 70

شکل 6-2 نمونه ای از سریهای زمانی موجود در بستر داده Stock پس از نرمال سازی.. 71

شکل 6-3 سریهای زمانی واقعی موجود در آرشیو [UCR] که برای ساختن بستر MixedBag مورد استفاده قرار گرفته اند [Lin2004] 71

شکل 6-4 مقادیر بدست آمده از خوشه بندی بستر داده RandomWalk. 75

شکل 6-5 مقادیر بدست آمده از خوشه بندی بستر داده Stock. 75

شکل 6-6 مقادیر بدست آمده از خوشه بندی بستر داده MixedBag. 76

شکل 6-7 مقادیر بدست آمده از خوشه بندی بستر داده RandomWalk. 77

شکل 6-8 مقادیر بدست آمده از خوشه بندی بستر داده Stock. 77

شکل 6-9 مقادیر بدست آمده از خوشه بندی بستر داده MixedBag. 78

شکل 6-10 نسبت زمان اجرای هر یک از روشهای کاهش ابعاد داده به زمان اجرای الگوریتم k-means برروی بسترهای داده اصلی به ازای k=10 79

شکل 6-11 مقادیر MissClassRatio برای بستر داده RandomWalk. 81

شکل 7-1 نمونه ای از سریهای زمانی موجود در بستر داده Trace پس از نرمال سازی.. 89

شکل 7-2 نمونه ای از سریهای زمانی موجود در بستر داده MotorCurrent پس از نرمال سازی.. 89

شکل 7-3 مقادیر برای دو الگوریتم AKU-kMeans و I-kMeans 91

شکل 7-4 مقادیر برای دو الگوریتم AKU-kMeans و I-kMeans 92

شکل 7-5 مقادیر برای دو الگوریتم AKU-kMeans و I-kMeans 92

شکل 8-1 مراحل اجرای الگوریتم IGA-Clustering. 98

شکل 8-2 نحوه قرارگیری مراکز خوشه ها در یک کروموزوم. 99

شکل 8-3 نگاشت یک کروموزوم از فضای 2 بُعدی به فضای 4 بُعدی.. 101

شکل 8-4 میانگین زمان اجرای IGA-Clustering نسبت به زمان اجرای k-means 103

شکل 9-1 يك نمونه از سريهاي زماني موجود در بستر داده RandomWalk2. 108

شکل 9-2 يك نمونه از سريهاي زماني موجود در بستر داده RandomWalk3. 109

شکل 9-3 مقادیر mean ICV ratio بدست آمده از خوشه بندی بستر داده RandomWalk2. 111

شکل 9-4 مقادیر mean ICV ratio بدست آمده از خوشه بندی بستر داده RandomWalk3. 111

شکل 9-5 مقادیر ICV ratio variance بدست آمده از خوشه بندی بستر داده RandomWalk2. 112

شکل 9-6 مقادیر ICV ratio variance بدست آمده از خوشه بندی بستر داده RandomWalk3. 112

فهرست جداول

جدول 2-1 مقایسه تطبیقی تکنیکهای کاهش ابعاد داده 25

جدول 2-2 مقایسه تطبیقی روش SBP با تکنیکهای دیگر کاهش ابعاد داده 30

جدول 3-1 معیارهای ارزیابی خوشه بندی با توجه به نوع خوشه بندی.. 34

جدول 4-1 تعدادی از مهمترین تحقیقات انجام شده در زمینه خوشه بندی سریهای زمانی.. 45

جدول 4-2 بسترهای داده مورد استفاده در مقالات بررسی شده در جدول 4-1. 49

جدول 5-1 تعدادی از مهمترین تحقیقات انجام شده در زمینه خوشه بندی با استفاده از الگوریتم های ژنتیک… 65

جدول 5-2 مشخصات بسترهای داده مورد استفاده در تحقیقاتی که در جدول 5-1 بررسی شده اند. 66

جدول 6-2 روشی برای تخمین میزان تأثیر روشهای کاهش ابعاد داده در خوشه بندی به وسیله الگوریتم k-means. 80

جدول 7-1 مقادیر ICV ratio بدست آمده از اجرای الگوریتم k-means برروی بستر داده RandomWalk کاهش یافته توسط روش DFT 84

جدول 7-2 الگوریتم AKU-kMeans. 85

جدول 7-3 الگوریتم I-kMeans. 87

جدول 7-4 مقایسه الگوریتم AKU-kMeans با تعدادی از مهمترین تحقیقات انجام شده در زمینه خوشه بندی سریهای زمانی 93

جدول 8-1 ICV بدست آمده از سه بار اجرای IGA-Clustering و نیز بهترین جواب بدست آمده از پنجاه بار اجرای هر یک از سه روش دیگر 102

جدول 8-2 مقایسه الگوریتم IGA-Clustering با تعدادی از مهمترین تحقیقات انجام شده در زمینه خوشه بندی سریهای زمانی 104

جدول 8-3 مقایسه الگوریتم IGA-Clustering با تعدادی از مهمترین تحقیقات انجام شده در زمینه خوشه بندی به وسیله الگوریتم ژنتیک 105

جدول 9-1 ICV بدست آمده از سه بار اجرای IGA-Clustering و نیز بهترین جواب بدست آمده از پنجاه بار اجرای هر یک از سه روش دیگر 113

جدول 9-2 نتايج بدست آمده از تكرار آزمايشات.. 114

فصل اول:

مقدمه

1- مقدمه

بسیاری از دادههایی که امروزه با آنها سروکار داریم دادههایی هستند که در طول زمان تغییر میکنند. دمای هوا، میزان مصرف انرژی در یک کشور، ارتفاع سطح آب در یک رودخانه و قیمت سهام شرکتها، همگی از نوع دادههای وابسته به زمان هستند. بخش عمدهای از این دادهها از نوع سریهای زمانی میباشد. هرچند یک تعریف واحد برای سریهای زمانی وجود ندارد اما در بیشتر گزارشات تحقیقاتی و کتابها سری زمانی را ترتیبی از اعداد حقیقی در نظر میگیرند که مقدار مشاهده شده از یک رویداد را در فواصل زمانی برابر نشان میدهد.

دانشی که در این نوع دادهها نهفته است میتواند بسیار ارزشمند باشد. خوشبختانه امروزه با پيشرفتهايي كه در علوم كامپيوتر بوجود آمده امكان استخراج اين اطلاعات ارزشمند از دادهها پديد آمده است. استخراج اين اطلاعات تحت فرايندي به نام استخراج دانش[1] انجام ميشود. استخراج دانش، طیف وسیعی از انواع دادهها را شامل میشود، مانند متن، جداول پایگاه داده، صفحات وب، سریهای زمانی و غیره. اينكه چه دانشي ميخواهيم استخراج كنيم بستگي به نظر كاربر دارد. اما بطور كلي دانش استخراج شده بايد صحيح، قابل درك و سودمند باشد. فرایند استخراج دانش را میتوان به سه مرحله تقسیم نمود:

پیش پردازش دادهها: در بيشتر مواقع قبل از اجراي الگوريتمهاي دادهكاوي، لازم است كه بر حسب نياز، پيشپردازشهايي برروي دادهها انجام شود. مانند یکی کردن منابع دادهها، پاکسازی دادهها، تبدیل مقادیر پیوسته به گسسته، انتخاب ویژگیهای مناسب، کاهش حجم دادهها (مثلاً با استفاده از تکنیکهای کاهش ابعاد داده).
داده کاوی[2]: به معنی استخراج اتوماتيك (يا نيمه اتوماتيك) دانش از دادهها است. دادهكاوي تركيبي است از آمار، هوش مصنوعی، پایگاه داده و يادگيري ماشين. معروفترین تکنیکهای مورد استفاده در دادهکاوی عبارتند از طبقهبندی[3]، خوشهبندی[4] و استخراج قوانین انجمنی[5].
پردازش دانش استخراج شده: مهمترین فعالیتی که در این مرحله انجام میشود نمايش دانش استخراج شده به کاربر است بطوريكه براي وی قابل درك باشد.

این مراحل را در شکل 1-1 نشان دادهایم.

Knowledge Discovery

Data Mining

Data Preprocessing

Discovered Knowledge Post Processing

Data Integration

Data Cleaning

Discretization

Attribute Selection

Association Rule Discovery

Clustering

Classification

Hi Level Knowledge Representation

Data Reduction

K-Means

SOM Networks

Genetic Algorithms

شکل 1-1 مراحل استخراج دانش

همانطور که در شکل فوق نشان داده شده، خوشهبندی یکی از تکنیکهای دادهکاوی میباشد. هدف از خوشهبندی مشخص کردن ساختار دادههایی است که طبقهبندی نشدهاند. برای رسیدن به این هدف سعی میشود دادهها در گروههایی دستهبندی شوند بطوریکه تفاوت دادههای درون یک گروه مینیمم شده و تفاوت دادههایی که در گروههای مختلف وجود دارند ماکسیمم شود.

البته تاکنون انواع مختلفی از خوشهبندی تعریف شده است. بعضیها خوشهبندی را بصورت hard در نظر گرفتهاند و بعضی دیگر آن را فازی تعریف کردهاند[6]. بعضیها خوشهبندی را طوری تعریف کردهاند که خوشههای ایجاد شده کروی شکل باشد اما در بعضی دیگر، خوشهبندی به گونهای تعریف شده که خوشهها میتوانند شکلهایی غیر کروی داشته باشند. به عنوان مثال در شکل 1-2 دادههای دو بعدی را مشاهده میکنید که یکبار توسط خوشهبندی کروی و بار دیگر توسط خوشهبندی غیر کروی، خوشهبندی شدهاند.

شکل 1-2 مقایسه خوشه بندی غیرکروی (سمت راست) با خوشه بندی کروی (سمت چپ)

علاوه بر موارد فوق، نحوه تعریف فواصل بین دادهها، در خوشهبندی ایجاد شده تأثیرگذار خواهد بود. بعضی از فرمولهای اندازهگیری فاصلۀ بین دادهها، عمومی هستند مانند فاصله اقلیدسی، در حالی که بعضی دیگر معمولاً برای دادههای خاص به کار میروند مانند فاصله کسینوسی که برای دادههای متنی استفاده میشود و یا فاصله DTW و فاصله correlation که برای سریهای زمانی تعریف شدهاند.

1-1- تعریف مسأله و انگیزه انجام آن

از آنجایی که خوشهبندی در زمره مسائل بغرنج[7] قرار دارد برای حل آن معمولاً از الگوریتمهای مکاشفهای[8] استفاده میشود. سه نمونه از این الگوریتمها را در شکل 1-1 مشاهده میکنید. الگوریتم های مکاشفهای معمولاً بهترین جواب را پیدا نمیکنند بلکه جوابی نزدیک به جواب بهینه را پیدا میکنند. به همین دلیل همواره پژوهشگران و محققان بدنبال ارائه راه حلهایی هستند که بتواند در آزمایشات مختلف نتایج بهتری را نسبت به راهحلهای قبلی ارائه دهد. یکی از معروفترین روشهای مکاشفهای، الگوریتم ژنتیک است که بدلیل قابلیت زیاد آن در اجرای موازی و نیز پایین بودن احتمال به تله افتادن آن در مینیممهای محلی نسبت به روشهای مکاشفهای دیگر، از محبوبیت بیشتری برخوردار است.

در این پایان نامه ما قصد داریم سریهای زمانی را با استفاده از الگوریتمهای ژنتیک خوشهبندی نماییم. البته تا کنون چندین گزارش تحقیقاتی برای خوشهبندی دادههای ایستا[9] با استفاده از الگوریتم های ژنتیک ارائه شده که تعدادی از آنها را در فصل پنجم بررسی خواهیم کرد، اما تا کنون از این روش برای خوشهبندی سریهای زمانی استفاده نشده است[10] [Liao2005]. بعبارت دیگر اکثر این محققان خوشهبندی را برای دادههایی با ابعاد کم (مثلاً کمتر از 10) انجام دادهاند، در حالی که سریهای زمانی معمولاً دارای اندازهای طولانی (مثلاً 100 یا 1000) میباشند. در واقع مهمترین چالشی که در این مسأله با آن روبرو هستیم ابعاد زیاد دادهها است که چه از نظر زمان اجرای الگوریتم و چه از نظر حافظه میتواند مشکلساز باشد.

Keogh و همکارانش در [Keogh2003] نشان دادهاند که تکهتکه کردن یک سری زمانی و خوشهبندی آن منجر به نتیجۀ ارزشمندی نخواهد شد. آنها روشهای خوشهبندی سریهای زمانی را به دو گروه تقسیم کردهاند:

whole clustering: که در آن هر سری زمانی یک شیء جداگانه در نظر گرفته میشود و هدف آن گروهبندی سریهای زمانی است به طوری که سریهای مشابه در یک خوشه قرار گیرند.
subsequence clustering: که در آن یک سری زمانی داده شده است. با استفاده از یک پنجره لغزان، زیرسریهای زمانی استخراج شده و سپس خوشهبندی برروی این زیرسریها انجام میشود.

از نظر Keogh و همکارانش، خوشهبندی برروی بستر داده X، در صورتی ارزشمند خواهد بود که اجراهای مختلف الگوریتم خوشهبندی برروی بستر داده X، نتایج مشابهی را تولید کند، ضمن اینکه اجراهای مختلف این الگوریتم خوشهبندی برروی بستر داده Y که مستقل از X است به نتایج متفاوتی نسبت به خوشهبندی برروی X منجر شود. با این تعریف از ارزشمند بودن، آنها نشان دادهاند که subsequence clustering منجر به یک نتیجۀ ارزشمند نمیشود. از آنجایی که در این پایاننامه ما برای خوشهبندی سریهای زمانی، هر سری زمانی را یک شیء جداگانه در نظر گرفتهایم تحقیقات ما در گروه whole clustering قرار میگیرد و لذا میتوان نتایج ارزشمندی را از آن انتظار داشت.

1-2- روش پیشنهادی برای حل مسأله

همانطور که گفتیم سریهای زمانی معمولاًً دارای اندازهای طولانی میباشند که این امر چه از نظر حافظه و چه از نظر پیچیدگی زمانی، کار پردازش آنها را با مشکل روبرو میسازد. روشی که ما برای حل این مسأله به کار بردهایم استفاده از تکنیکهای کاهش ابعاد داده قبل از انجام خوشهبندی است. استفاده از تکنیکهای کاهش ابعاد داده قبل از هرگونه پردازشی، یک راه حل متداول است که در تحقیقات مختلف به طرق متفاوتی از آن استفاده شده است. مانند [Lin2004] و [Wang2006] که هر کدام روشی متفاوت را برای کاهش ابعاد داده قبل از خوشهبندی سریهای زمانی به کار بردهاند.

برای استفاده از ایده فوق، به دو سؤال اصلی باید پاسخ داد:

از کدام تکنیک برای کاهش ابعاد داده استفاده کنیم؟
با توجه به اینکه اکثر تکنیکها به ما امکان کاهش ابعاد داده در دقتهای مختلف[11] را میدهد، ابعاد دادهها را تا چه دقتی کاهش دهیم که تأثیری در نتیجه خوشهبندی نداشته باشد و یا تأثیر آن بسیار ناچیز باشد؟

برای پاسخگویی به این دو سؤال، الزاماً باید از مسیر تجربه و انجام آزمایشات و مقایسه تطبیقی نتایج حاصل به پاسخ قابل قبول دست یافت. همانطور که در بالا اشاره شد خوشهبندی میتواند به روشهای مختلفی انجام شود. پیادهسازی و آزمایش تمام حالات مختلف خوشهبندی کاری طاقتفرسا خواهد بود. بنابراین تصمیم گرفتیم فرضیاتی را در مورد مسأله خوشهبندی سریهای زمانی در نظر بگیریم و آزمایشهایمان را بر اساس آن فرضیات طراحی کنیم.

مهمترین فرضیات ما در مورد مسأله خوشهبندی سریهای زمانی:

معیار اندازهگیری فواصل بین سریهای زمانی فاصله اقلیدسی میباشد.
بهترین خوشهبندی توسط معیار ICV[12] تعیین میشود.
تعداد خوشهها توسط کاربر مشخص میشود (و نه بطور خودکار).

ما برای انجام آزمایشهای خود، پنج روش مختلف کاهش ابعاد داده را انتخاب کرده و آنها را برروی 3 بستر داده مختلف اِعمال کردیم. این پنج روش عبارتند از DFT[13]، DWT[14]، PAA[15]، PCA[16]، و RP[17]. این روشها را در بخش دوم توضیح دادهایم. از آنجایی که تمامی این روشها قادرند ابعاد دادهها را در دقتهای مختلفی کاهش دهند، با هر کدام از آنها ابعاد دادهها را به اندازههای مختلفی (که همگی توانی از 2 بودند) کاهش دادیم. سپس تأثیر هر کدام از این روشهای کاهش ابعاد داده را برروی خوشهبندی بوسیله الگوریتم k-means مورد بررسی قرار دادیم. علت انتخاب الگوریتم k-means این بود که فرضیات این الگوریتم با فرضیات ما (که در بالا مطرح شد) تطابق دارد. علاوه بر این، سرعت اجرای این الگوریتم نیز نسبتاً زیاد است و به ما امکان میدهد بسترهای دادهای بزرگتری برای آزمایشهایمان انتخاب نماییم.

آزمایشات انجام شده نشان داد که روش PCA کمترین تأثیر منفی، و روش RP بیشترین تأثیر منفی را در خوشهبندی دادههای کاهش یافته دارد. سه روش دیگر تقریباً عملکردی برابر داشتند. همچنین این آزمایشات نشان داد که تنها با انتخاب درصد بسیار کمی از ویژگیهای استخراج شده توسط PCA و خوشهبندی این ویژگیها، میتوان به جوابهایی بسیار نزدیک به جوابهای بدست آمده از خوشهبندی دادههای اصلی دست یافت. این نتیجهگیری در مورد روشهای DFT، DWT و PAA نیز بطور ضعیفتری برقرار است.

[1] Knowledge Discovery

[2] Data Mining

[3] Classification

[4] Clustering

[5] Association Rule Discovery

[6] در خوشهبندی hard هر شیء فقط میتواند عضو یک خوشه باشد در حالی که در خوشهبندی فازی، هر شیء میتواند عضو چندین خوشه با درجه عضویتهای مختلف باشد.

[7] NP-Hard

[8] Heuristic

[9] منظور از دادههای ایستا، دادههایی هستند که به زمان وابسته نیستند.

[10] البته ما در تحقیقاتی که انجام دادیم متوجه شدیم که در زمینه خوشهبندی سریهای زمانی با الگوریتم ژنتیک یک مقالهی منتشر شده وجود دارد [Pattarin2004]، اما بدلیل اینکه هدف اصلی آن مقاله ارائه روشی برای خوشهبندی سریهای زمانی نبوده، باز هم میتوان این پایان نامه را بعنوان اولین فعالیت جدی در این زمینه در نظر گرفت.

[11] Different resolutions

[12] Intra Cluster Variance

[13] Discrete Fourier Transform

[14] Discrete Wavelet Transform

[15] Piecewise Aggregate Approximation

[16] Principle Component Analysis

[17] Random Projection

برچسب ها

پایان نامه خوشه¬بندی سریهای زمانی با استفاده از الگوریتم ژنتیک خرید پایان نامه خوشه¬بندی سریهای زمانی با استفاده از الگوریتم ژنتیک دالنود پایان نامه خوشه¬بندی سریهای زمانی با استفاده از الگوریتم ژنتیک دانلود پایان نامه خوشه¬بندی سریهای زمانی با استفاده از الگوریتم ژنتیک سفارش پایان نامه خوشه¬بندی سریهای زمانی با استفاده از الگوریتم ژنتیک

پایان نامه خوشه¬بندی سریهای زمانی با استفاده از الگوریتم ژنتیک

تومان19.900

| 172 بازدید

اشتراک گذاری

محصولات پیشنهادی بازدیدکنندگان

پایان نامه توسعه سیاسی و تاثیر آن بر امنیت ملی

پایان نامه کنترل شیمیایی آب برج های خنک کن

پایان نامه سینتیک زینترینگ و خواص مکانیکی سرمت های بر پایه آلومینا با حضور یک جزء فلزی

پایان نامه جعبه دنده اتوماتيك با كنترل الكترونيكي (BMW)

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “پایان نامه خوشه¬بندی سریهای زمانی با استفاده از الگوریتم ژنتیک”

راهنمای خرید محصول

به مبلغ فوق 1 درصد به عنوان کارمزد از طرف درگاه پرداخت افزوده خواهد شد.
پرداخت از طریق کلیه کارتهای عضو شبکه شتاب امکان پذیر است.
بلافاصله پس از پرداخت وجه امکان دانلود فایل خریداری شده وجود خواهد داشت.
پس از خرید به طور خودکار در سایت ثبت نام میشوید و اطلاعات ورود به حساب کاربری برایتان ایمیل میشود.
از طریق بخش پروفایل امکان دسترسی به محصولات خریداری شده وجود دارد.
دریافت آپدیت یا بروزرسانی محصولات تنها از طریق پروفایل کاربری خواهد بود و هیچگونه اپدیتی به ایمیل خریدار ارسال نخواهد شد.