پایان نامه بهبود مدل کاربر در وبسايت بصورت خودکار با استفاده از معناشناسي با مفاهيم خاص دامنه
چکیده
گرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار میرود. برای مقابله با این مشکل، سیستمهای شخصیسازی وب ارائه شدهاند که محتوا و سرویسهای یک وبسایت را با افراد براساس علایق و رفتار گردشی آنها سازگار میکنند. یک مولفهی اساسی در هر سیستم شخصیسازی وب، مدل کاربر آن است. محتوای صفحات یک وبسایت را میتوان به منظور ایجاد مدل دقیقتری از کاربر مورد استفاده قرار داد، اما رویکردهای مبتنی بر کلمات کلیدی نگرش عمیقی از وبسایت ندارند. اخیرا تحقیقاتی برای ترکیب کردن معنای موجود در وبسایت در نمایش کاربران آن انجام شده است. تمامی این تلاشها یا از یک ردهبندی یا واژگان شناختی خاص و دست ساخته و یا از واژگانشناختیهای عمومی مانند WordNet برای نگاشت مشاهده صفحات به عناصر معنایی استفاده میکنند. با این وجود ساختن یک سلسله مراتب از مفاهیم بصورت دستی زمانبر و هزینهبر است. از سوی دیگر منابع معنایی لغوی عمومی از پوشش کم عبارات خاص دامنه رنج میبرند. در این پایان نامه ما قصد داریم که هر دوی این نقصها را برطرف کنیم. دستاورد اصلی ما این است که مکانیسمی برای بهبود نمایش کاربر در وبسایت بصورت خودکار و با استفاده از یک منبع معنایی لغوی جامع معرفی میکنیم. ما از Wikipedia، بزرگترین دایرهالمعارف امروزی به عنوان یک منبع غنی معنایی برای بهبود ساخت خودکار مدل برداری از علایق کاربر بهرهبرداری میکنیم. معماری ارائه شده شامل تعدادی مولفه است که عبارتند از: پیش پردازش اولیه، استخراج مفاهیم دامنهی وب سایت، استخراج کلمات کلیدی از وبسایت، سازندهی بردار کلمات کلیدی و نگاشت کلمات کلیدی به مفاهیم. دستاورد مهم دیگر استفاده از ساختار وب سایت برای محدود کردن خودکار مفاهیم خاص دامنه میباشد. سرانجام، آخرین دستاورد آن یک روش جدید نگاشت کلمات کلیدی به مفاهیم است. ارزیابی های ما نشان میدهد که روش پیشنهادی همراه با منبع معنایی لغوی جامع آن کاربران را بصورت موثرتری نسبت به روش کلمات کلیدی و نیز روشهای بر مبنای WordNet نمایندگی میکند.
کلمات کلیدی: مدلسازی کاربر، کاوش Wikipedia، تکنیکهای معنایی ، شخصیسازی وب
فهرست
1-1- دلايل نياز به شخصی سازی وب.. 13
1-1-1- گرانبار شدن اطلاعات.. 13
1-1-2- نیاز به جذب مشتری پابرجای برای وب سایت.. 14
1-3- فواید سیستم شخصی سازی وب.. 14
1-4- تفاوت شخصی سازی وب با تطبیق طرح کلی سایت.. 15
1-5- طبقه بندی عملکردهای اصلی شخصی سازی وب.. 15
1-6- نیازمندیهای اصلی سیستم شخصی سازی وب.. 16
1-7- رویکرد های موجود در شخصی سازی وب.. 17
1-8- نقش وب کاوی کاربرد وب در شخصی سازی وب.. 18
1-9- نیاز به استفاده از محتوا در شخصی سازی وب.. 19
1-10- نیاز به استفاده از معنا در شخصی سازی وب.. 19
1-12- نحوه ی گردآوری مراجع. 21
1-13- رویکرد بکار رفته در تحقیق. 21
2-1- شخصی سازی وب براساس وب کاوی کاربرد وب.. 25
2-1-1- آماده سازی و مدلسازی داده 28
2-1-1-1- منابع و انواع داده 29
2-1-1-1-1-1- فرمت های ثبت.. 30
2-1-1-1-1-2- منابع داده های کاربرد 32
2-1-1-1-4- داده های کاربران. 37
2-1-1-2- آماده سازی و پیش پردازش داده ها 38
2-1-1-2-3- تشخیص مشاهده صفحه 41
2-1-1-2-4- تشخیص جلسه ی کاربر. 42
2-1-1-2-7- پیش پردازش نهایی داده های کاربرد 46
2-1-1-2-8- یکپارچه سازی داده ها از منابع گوناگون. 47
2-1-2- کشف الگو از داده های کاربرد وب.. 48
2-1-2-1- سطوح و انواع تحلیل. 48
2-1-2-2- وظایف داده کاوی بر روی داده های کاربرد وب.. 49
2-1-2-2-1- کاوش قواعد انجمنی. 50
2-1-2-2-2- کشف الگوهای ترتیبی. 52
2-1-3- استفاده از الگوهای کشف شده جهت شخصی سازی وب.. 61
2-1-4- زمینه های تحقیقاتی شخصی سازی وب.. 61
2-2-3- واژگان شناختی و رده بندی. 64
2-2-3-3- واژگان شناختی ها و رده بندی های موجود 67
2-2-3-3-1- واژگان شناختی های مربوط به یک دامنه ی خاص… 68
2-2-3-3-2- واژگان شناختی های عمومی. 68
2-2-3-3-2-1- CYC و OpenCYC. 68
2-2-3-3-2-3- دایرکتوری های وب.. 70
2-2-3-4- زبان های نمایش واژگان شناختی. 71
2-2-4-1-1- نقاط ضعف و قوت Wikipedia. 74
2-2-4-1-2- ساختار Wikipedia. 75
2-2-4-1-3- انواع اطلاعات معنایی لغوی در Wikipedia. 76
3- کارهای انجام شده در زمینه مدلسازی کاربر در شخصی سازی وب با استفاده از محتوای وب.. 85
3-1- تکنیک های مورد استفاده 86
3-1-2- تکنیک تحلیل معنایی پنهان. 86
3-1-3- تکنیک های مربوط به محاسبه ی ارتباط معنایی دو کلمه 87
3-1-3-1- معیارهای ارتباط معنایی مهم در ساختارهای سلسله مراتبی. 87
3-1-3-1-1- رویکردهای مبتنی بر مسیر. 88
3-1-3-1-2- رویکردهای مبتنی بر محتوای اطلاعات.. 88
3-1-3-1-3- رویکردهای مبتنی بر همپوشانی متن. 89
3-1-3-2- رویکردهای محاسبه ی ارتباط معنایی دو کلمه برای روابط غیر رابطه ی هست.. 89
3-1-3-3- کارهای انجام شده در مورد محاسبه ی ارتباط معنایی دو کلمه در Wikipedia. 90
3-2- رویکردهای انجام شده در زمینه ی مدلسازی کاربر در وب سایت با استفاده از محتوای صفحات 91
3-2-1- رویکردهای بر مبنای کلمات کلیدی. 92
3-2-2-2- روش های مبتنی بر سلسله مراتب.. 94
4-2-1- مولفه ی پیش پردازش اولیه ی ثبت.. 107
4-2-2- مولفه ی استخراج کلمات کلیدی از صفحات وب سایت.. 107
4-2-3- مولفه ی استخراج مفاهیم دامنه از وب سایت.. 111
4-2-4- مولفه ی سازنده ی بردار کلمات کلیدی. 113
4-6- دیاگرام های UML قسمت های اصلی سیستم. 117
4-7- بررسی تطابق طرح پیشنهادی با صورت مساله 117
5-1- مولفه ی پیش پردازش اولیه ی ثبت.. 121
5-1-2- نحوه ی دریافت ثبت وب سرور 121
5-2- مولفه ی استخراج کلمات کلیدی از صفحات وب سایت.. 123
5-3- مولفه ی استخراج مفاهیم دامنه از وب سایت.. 125
5-4- مولفه ی سازنده ی بردار کلمات کلیدی. 125
5-6- پیاده سازی آزمایشات.. 125
6-3- بررسی درستی مولفه های سیستم. 131
6-4-1- سخت افزار مورد استفاده 132
6-4-3- تحلیل نتایج آزمایشات.. 132
7- نتیجه گیری و کارهای آینده 136
فهرست شکل ها
شکل 2-1- مولفه های برون خطی آماده سازی داده و کشف الگو………………………………… 23
شکل 2-2- مولفه برخط شخصی سازی وب…………………………………………………….. 24
شکل 2-3- تراکنش HTTP…………………………………………………………………… 25
شکل 2-4- URL و URI…………………………………………………………………….. 26
شکل 2-5- مکان های جمع آوری داده های کاربرد وب…………………………………………. 28
شکل 2-6- مثالی از مدل کردن رفتار گردشی کاربر با زنجیره ی مارکف………………………….. 51
شکل 2-7- مثالی از مدل کردن رفتار گردشی در یک درخت تجمعی……………………………… 53
شکل 2-8- مثالی از استخراج پروفایل های تجمعی کاربرد از خوشه های تراکنش ها……………… 55
شکل 2-9- بخشی از زمینه های تحقیقاتی شخصی سازی وب…………………………………… 58
شکل 2-10- نمونه ای از واژگان شناختی……………………………………………………….. 61
شکل 2-11- نمونه ای از یک رده بندی…………………………………………………………. 63
شکل 3-1- استفاده از SVD برای تجزیه ماتریس d * t………………………………………… 83
شکل 3-2- مفسر معنایی سیستم ESA………………………………………………………… 87
شکل 3-3- ماتریس session-page view…………………………………………………. 89
شکل 3-4- تولید C-log……………………………………………………………………… 93
شکل 4-1- معماری کلی سیستم پیشنهادی…………………………………………………….. 103
شکل 4-2- جزئیات مولفه ی استخراج کلمات کلیدی………………………………………….. 105
شکل 4-3- شبه کد مولفه استخراج کلمات کاندیدا…………………………………………….. 106
شکل 4-4- شبه کد مولفه رتبه بندی کلمات کاندیدا……………………………………………. 106
شکل 4-5- جزئیات مولفه ی استخراج مفاهیم دامنه……………………………………………. 107
شکل 4-6- شبه کد بخش فیلتر کردن کاندیدا………………………………………………….. 108
شکل 4-7- شبه کد مولفه سازنده بردار کلمات کلیدی………………………………………….. 110
شکل 4-8- شبه کد مولفه ی نگاشت…………………………………………………………… 111
شکل 4-9- class diagram مولفه های اصلی سیستم…………………………………….. 113
شکل 4-10- sequence diagram بخش اصلی سیستم…………………………………… 114
فهرست جدول ها
جدول 2-1- مثال هایی از ارتباطات لغوی در WordNet…………………………………….. 66
جدول 2-2- منابع اطلاعات معنایی لغوی در Wikipedia……………………………………… 73
جدول 2-3- مقایسه ی انواع منابع معنایی لغوی جهت استفاده در شخصی سازی وب…………….. 74
جدول 4-1- بردارهای کلمات کلیدی صفحات وب سایت مثال1……………………………….. 110
جدول 4-2- بردارهای کلمات کلیدی جلسه ی داده شده در مثال1……………………………… 110
جدول 4-3- کلمات کلیدی و وزن های فرضی آنها در مثال 2…………………………………… 112
جدول 4-4- مفاهیم موجود در صفحات جلسات کاربر به همراه وزن های آنها در مثال 2………… 112
جدول 5-1- ساختار دستور CustomLog…………………………………………………. 117
جدول 5-2- ساختار دستور LogFormat…………………………………………………. 117
جدول 6-1- نتایج آزمایشات انجام شده بر روی 100 جلسه ی تصادفی…………………………. 128
فصل اول
مقدمه
در این فصل دلیل پرداختن به موضوع پروژه و صورت مساله آن مورد بررسی قرار میگیرد. برای این منظور ابتدا مقدماتی در رابطه با شخصیسازی وب، دلیل مطرح شدن آن، مولفه های اصلی و مشکلات آن به اختصار مطالبی ارائه میشود. در این میان به لزوم استفاده از معنا در فرآیند شخصیسازی وب اشاره شده و مدل کاربر به عنوان یک مولفه از سیستم شخصیسازی وب به منظور بهبود با استفاده از معنا مورد انتخاب قرار میگیرد. سپس مسالهای که پایان نامه سعی در حل آن دارد مطرح میگردد. در انتها رویکرد بکار رفته در تحقیق و ساختار پایان نامه ارائه میشود.
1-1- دلايل نياز به شخصیسازی وب
وب جهانی منبعی عظيم از اطلاعات را فراهم آورده است. در بررسیهای گوناگون انجام شده در زمينهی گسترش وب تخمين زده شده است که روزانه بیش از يک ميليون صفحه به وب اضافه میشود و بيش از 600 گيگابايت از صفحات در هر ماه تغيير میکنند[Nasraoui 2008] و[Achananuparp 2007] . اين پديده که گرانبار شدن اطلاعات ناميده میشود مشکلاتی را برای کاربران وب بوجود آورده است.
از مهمترين اين مشکلات عدم دسترسی آسان به اطلاعات مورد نياز میباشد. در اين انبارهی عظيم کاربران در يافتن اطلاعات مورد نياز خود در زمان مناسب و بصورت آسان دچار مشکل هستند زيرا از يک سو بايد ميزان ربط هر صفحه را با نياز خود بررسی کنند و از سوی ديگر بايد صفحات را از نظر ميزان قابلیت اعتماد ارزيابی کنند.
برای رفع اين مشکل در دهههای اخير سيستمهای بازيابی اطلاعات و به تبع آن موتورهای جستجو ايجاد شدند که محتوای صفحات وب را انديسگذاری میکنند و صفحات مرتبط با پرسش کاربر را برمیگردانند اما اين تکنولوژیها دو مشکل دارند:
- حجم اطلاعاتی که موتورهای جستجو به کاربر تحويل میدهند بسيار بیشتر از آن است که قابل پردازش توسط کاربر باشد.
- بیشتر موتورهای جستجوی معروف موجود در وب تنها از محتوای صفحات و ساختار ارتباطی موجود بین آنها برای ارزیابی میزان ربط صفحات با پرسش کاربر استفاده میکنند. از این رو برایشان اهمیت ندارد که پرسش توسط چه کسی و با چه علایق و دانش پیشزمینهای وارد شده است. نتیجه آنکه صفحات بازیابی شده برای دو کاربر با علایق متفاوت و با پرسش یکسان مجموعهی یکسانی از صفحات وب میباشد.
1-1-2- نیاز به جذب مشتری پابرجای برای وبسایت
ظهور سرویسهای مبتنی بر وب مانند تجارت الکترونیکی، یادگیری تحت وب و بانکداری الکترونیکی موجب تغییرات اساسی در روش استفاده از اینترنت شده است و وبسایت ها را به محیطی برای تجارت تبدیل کرده است و موجب افزایش رقابت بین آنها شده است. با وجود رقبایی که تنها یک کلیک از وبسایت مورد نظر فاصله دارند نیاز به افزودن خدمات اضافی به سرویسهای وب به عنوان لازمهی ایجاد مشتری پابرجای به وضوح احساس میشود. این خدمات اضافی تنها با تمرکز بر نیازها و علایق فردی مشتریان و فراهم کردن سرویسها و محصولات متناسب با آنها امکانپذیر است.
هر اقدامی که اطلاعات یا سرویسهای فراهم شده توسط یک وبسایت را با نیازهای یک کاربر یا گروه خاصی از کاربران با بکارگیری دانش بدست آمده از رفتار گردشی کاربر و علایق خاص او بصورت ترکیب با محتوا و ساختار وبسایت سازگار میکند شخصیسازی وب نامیده میشود. [Eirinaki 2003 a]
هدف یک سیستم شخصیسازی وب عبارت است از فراهم کردن اطلاعات دلخواه یا مورد نیاز کاربران بدون درخواست صریح آنها.
- شخصیسازی سرویسهای ارائه شده توسط یک وبسایت نقش مهمی در کاهش گرانبار شدن اطلاعات ایفا میکند و وبسایت را به یک محیط کاربرپسندتر برای افراد تبدیل میکند.
- با فراهم کردن اطلاعات دلخواه کاربر به روش مناسب و در زمان مناسب باعث بهبود گردش کاربر در وبسایت میشود.
- در تجارت الکترونیکی مکانیسمی برای درک بهتر نیازهای مشتری، شناسایی تمایلات آیندهی او و در نهایت افزایش پابرجایی مشتری به سرویس ارائه شده فراهم میکند.
1-4- تفاوت شخصیسازی وب با تطبیق طرح کلی سایت
در تطبیق طرح کلی وب، کاربر ساختار و نحوهی ارائهی وبسایت را براساس ترجیحات خود تنظیم میکند. هر زمان که کاربر ثبت شده به سایت ورود میکند صفحهی تطبیق داده شده به او ارائه میشود. نمونهای از این سیستمها MyYahoo [My Yahoo] میباشد. این فرایند یا بصورت دستی و یا بصورت نیمهخودکار انجام میشود. درحالی که در سیستمهای شخصیسازی چنین تغییراتی بصورت پویا انجام میشود.
1-5- طبقهبندی عملکردهای اصلی شخصیسازی وب
یک سیستم شخصیسازی وب میتواند عملکردهای گوناگونی از یک خوشامدگویی ساده گرفته تا عملکردهای پیچیدهتری مانند تحویل یک محتوای شخصیسازی شده در اختیار قرار دهد. این عملکردها به چند دسته تقسیم میشوند[Pierrakos 2003] :
ساده ترین عملکرد است که در آن سیستم، اطلاعات مربوط به کاربر از قبیل نام و سابقهی مرور او را ذخیره میکند. هنگامی که کاربر به وبسایت برمیگردد این اطلاعات بدون هیچ پردازش دیگری مورد استفاده قرار میگیرند. از جملهی این عملکردها عبارتند از:
عملیات شخصیسازیای که به منظور کمکرسانی به کاربر به منظور دریافت سریع اطلاعات مورد نیاز خود در وبسایت و نیز فراهم کردن مرورهای جایگزین برای او انجام میشود در این دسته قرار میگیرند. نمونه هایی از این عملکردها عبارتند از:
- توصیهی لینک
- آموزش کاربر
- تطبیق
تغییر محتوا، ساختار و طرح کلی صفحات با در نظرگرفتن دانش، ترجیحات و علایق کاربر. مثالهایی از این عملکردها عبارتند از:
- طرح کلی شخصیسازی شده
- تطبیق محتوا
- تطبیق لینک ها
- قیمتگذاری شخصیسازی شده
- تمایز شخصیسازی شده بین محصولات
- پشتیبانی اجرای وظیفه
این طبقه پیشرفتهترین طبقه از اعمال شخصیسازی است که شامل اجرای یک عمل خاص از طرف کاربر(و بدون دخالت او) میباشد. از جمله این عملکردها میتوان به موارد زیر اشاره کرد:
- پیغامرسانی شخصیسازی شده
- تکمیل شخصیسازی شدهی پرسش
- مذاکرهی شخصیسازی شده
1-6- نیازمندیهای اصلی سیستم شخصیسازی وب
عملکردهای سیستم شخصیسازی وب نیازمندیهایی را در طراحی آن مطرح میکنند. توضیحات مفصل در مورد هر یک در فصل دوم ارائه شده است. این نیازمندی ها عبارتند از:
عملکرد ارائه شده توسط سیستم شخصیسازی حساس به دامنه میباشد. از این رو مشخصات دامنه باید بصورت دقیق توصیف شود.
سیستم شخصیسازی در تعامل مستقیم با کاربر قرار دارد و از رفتار او کسب اطلاع میکند. از این رو باید مکانیسم مناسبی جهت شناسایی و تمایز کاربران داشته باشد.
سیستم شخصیسازی باید قادر به جمعآوری تمامی دادههای مربوط به کاربران باشد. نوع و حجم این دادهها بستگی به عملکردهای سیستم دارد.
دادههای جمعآوری شده باید پیشپردازش شوند تا نویز آنها حذف شود و نیز به فرمت مناسبی تبدیل شوند.
مولفهی اصلی سیستم شخصیسازی مدل کاربر میباشد که شامل اطلاعاتی است که سیستم دربارهی علایق، دانش، اهداف و ترجیحات کاربر نگهداری میکند. ساخت مدل میتواند بصورت دستی یا خودکار انجام شود.
اطلاعات کاربر باید در تمام مدت محفوظ بماند و کاربر باید از نحوهی جمعآوری و استفاده از آن آگاه باشد.
1-7- رویکرد های موجود در شخصی سازی وب
سیستم های موجود در شخصی سازی وب را میتوان در سه رویکرد دستهبندی کرد [Dai 2005] که در این قسمت به اختصار هر یک را شرح میدهیم.
براساس این رویکرد یک سرویس وب از طریق دخالت دستی طراح آن و معمولا با همکاری کاربر شخصیسازی میشود. معمولا مدل های کاربر ایستا از طریق یک فرایند ثبت نام بدست میآیند و تعدادی قانون بصورت دستی در مورد این که محتوای وب چگونه به کاربرهای با مدل های متفاوت تحویل داده شود تعیین میشود. نمونهای از این سیستم ها Websphere Personalization شرکت IBM میباشد.
این سیستم ها نیاز به حجم قابل توجهی فعالیت بصورت دستی در ساخت و نگهداری نیاز دارند. علاوه بر این معمولا نیاز به همکاری کاربر دارند که امر مطلوبی در شخصیسازی نمیباشد.
این سیستم ها از پروفایل کاربران استفاده میکنند و صفحات یا اقلام جدیدی را براساس شباهت محتوایی آنها با صفحات و اقلامی که در پروفایل کاربر موجود است به کاربر توصیه میکنند. مکانیسم معمول در این سیستم ها معمولا مقایسهی کلمات کلیدی نشاندهندهی صفحات یا توصیف اقلام است. نمونه هایی از این سیستم ها عبارتند از Letizia و WebWatcher.
این سیستم ها در کاربردهای تجارت الکترونیکی معمولا چندان مفید نیستند زیرا از یک سو کنترل صاحبان وبسایت بر روی کاربران کم است و از سوی دیگر تکنیک های بر مبنای شباهت محتوایی به تنهایی معمولا سایر ارتباطات معنایی بین اشیا را در نظر نمیگیرند.
تمرکز اصلی این سیستم ها به جای شباهت بر مبنای اقلام بیشتر بر شباهت بین کاربران است. این سیستم ها سابقهی ترجیحات کاربر مورد نظر را با سابقه های تمامی کاربران دیگر به منظور یافتن کاربران دارای علایق مشابه با کاربر مورد نظر مقایسه میکنند. به این مجموعه کاربران دارای علایق مشابه همسایگی کاربر جاری گفته میشود. نگاشت بین سابقهی یک کاربر به همسایگانش میتواند بر مبنای شباهت رتبهبندی اقلام، دسترسی به صفحات با محتوای مشابه و یا خرید اقلام مشابه انجام شود. همسایگی بدست آمده سپس برای توصیهی اقلامی که توسط کاربر جاری دسترسی و یا خریداری شده اند مورد استفاده قرار میگیرد.
تکنیک های بر مبنای فیلترکردن جمعی محدودیت های خاص خود را دارند. این محدودیت ها بیشتر مربوط به گسترشپذیری و کارایی الگوریتم های بکار رفته میباشند که به محاسبهی بلادرنگ در مرحلهی تشکیل همسایگی و نیز مرحلهی توصیه نیاز دارند.
1-8- نقش وب کاوی کاربرد وب در شخصیسازی وب
بطور کلی وبکاوی را می توان داده کاوی بر روی دادههای محتوا، ساختار و کاربرد وب به حساب آورد. هدف وب کاوی کشف مدل ها و الگوهای نهفته در منابع وب میباشد. هدف وب کاوی کاربرد وب بطور خاص کشف الگوهای رفتاری کاربران وب می باشد. کشف چنین الگوهایی از حجم عظیمی از داده های تولید شده توسط وب سرورها کاربردهای مهمی دارد[Anand 2005]. از جملهی آنها میتوان به سیستم هایی که میزان موثر بودن یک سایت را در برآوردن انتظارات کاربر ارزیابی میکنند، تکنیک هایی برای متعادل کردن پویای بار و بهینه سازی وب سرورها برای دستیابی موثرتر کاربران و کاربردهای مربوط به ساختاردهی مجدد و تطبیق یک سایت براساس نیازهای پیش بینی شدهی کاربر اشاره کرد.
در سال های اخیر تکنیک های وب کاوی کاربرد وب به عنوان رویکردی دیگر که مبتنی بر کاربر است در شخصیسازی وب ارائه شده اند که برخی از مشکلات مربوط به فیلترکردن جمعی را کاهش میدهند. بطور خاص وب کاوی کاربرد وب برای افزایش گسترش پذیری سیستم های شخصیسازی شدهی سنتی که برمبنای تکنیک های فیلترکردن جمعی میباشند استفاده شده است. در فصل دوم بطور مفصل شخصیسازی وب براساس وب کاوی کاربرد وب را شرح میدهیم.
1-9- نیاز به استفاده از محتوا در شخصیسازی وب
رویکرد تنها مبتنی بر کاربرد در شخصیسازی وب یک عیب مهم دارد و آن این است که فرآیند توصیه به کاربر تنها براساس دادههای تراکنشی موجود او صورت میگیرد و از این رو اقلام یا صفحاتی که اخیرا به سایت اضافه شده اند نمیتوانند به او توصیه شوند. این مشکل عموما مشکل قلم جدید نامیده میشود. از سوی دیگر اگرچه الگوهای کشف شدهی مربوط به کاربرد منابع وب از طریق وب کاوی کاربرد وب در کشف ارتباطات اقلام با یکدیگر یا کاربران با یکدیگر و نیز تعیین شباهت در جلسات کاربر مفیدند اما بدون استفاده از دانش عمیق تری از دامنهی وب سایت مورد نظر چنین الگوهایی درک اندکی از دلایل آن که چرا اقلام یا کاربران در گروه هایی با هم قرار میگیرند در اختیار ما قرار میدهند. یک رویکرد معمول برای حل این مشکل در فیلتر کردن جمعی آن است که مشخصات محتوای صفحات را با رتبهبندی ها و قضاوت های کاربر ادغام کنیم. بطور کلی در این رویکردها کلمات کلیدی از محتوای وبسایت استخراج میشوند و برای اندیسگذاری صفحات براساس محتوا یا طبقهبندی آنها به دستههای مختلف مورد استفاده قرار میگیرند. در حوزهی شخصیسازی وب این رویکرد به سیستم اجازه میدهد تا صفحات را نه تنها براساس افراد مشابه بلکه براساس شباهت محتوایی آنها به صفحاتی که کاربر اخیرا بازدید کرده است به او توصیه کند.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.