دسته : کامپیوتر و IT
فرمت فایل : word
حجم فایل : 3959 KB
تعداد صفحات : 99
بازدیدها : 239
برچسبها : دانلود پایان نامه پژوهش پروژه
مبلغ : 8000 تومان
خرید این فایلپایان نامه Data Mining
چکیده:
در دو دهه قبل تواناییهای فنی بشربرای تولید و جمعآوری دادهها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسبوکار، علوم، خدمات دولتی و پیشرفت در وسائل جمعآوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهوارهای، در این تغییرات نقش مهمی دارند.
بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات میکند. این رشد انفجاری در دادههای ذخیره شده، نیاز مبرم وجود تکنولوژیهای جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند. دادهکاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی دادهکاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی میکنند، که این دانش به صورت ضمنی در پایگاه دادههای عظیم، انبارهداده[1] و دیگر مخازن بزرگ اطلاعات، ذخیره شده است.
به لحاظ اینکه در چند سال اخیر مبحث دادهکاوی و اکتشاف دانش موضوع بسیاری از مقالات و کنفرانسها قرار گرفته و نرمافزارهای آن در بازار به شدت مورد توجه قرار گرفته، از اینرو در مقاله سعی بر آن شده تا گذری بر آن داشته باشیم.
[1] Data warehouses
مقدمه
امروزه با گسترش سیستمهای پایگاهی و حجم بالای دادههای ذخیره شده در این سیستمها، نیاز به ابزاری است تا بتوان دادههای ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد.
با استفاده از پرسشهای ساده در SQL و ابزارهای گوناگون گزارشگیری معمولی، میتوان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجهگیری در مورد دادهها و روابط منطقی میان آنها بپردازند. امّا وقتی که حجم دادهها بالا باشد، کاربران هرچند زبردست و باتجربه باشند نمیتوانند الگوها مفید را در میان حجم انبوه دادهها تشخیص دهند و یا اگر قادر به این کار هم باشند، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است. از سوی دیگر، کاربران معمولاً فرضیهای را مطرح میکنند و سپس براساس گزارشات مشاهده شده به اثبات یا رد فرضیه میپردازند، در حالی که امروزه نیاز به روشهایی است که اصطلاحاً به کشف دانش [1] بپردازند یعنی با کمترین دخالت کاربر و بصورت خودکار الگوها و رابطههای منطقی را بیان نمایند.
اصطلاح Data Mining همانطور که از ترجمه آن به دادهکاوی مشخص میشود، به مفهوم استخراج اطلاعات نهان و یا الگوها و روابط مشخص در حجم زیادی از دادههای یک یا چند بانک اطلاعاتی بزرگ است. اطلاعات استخراج شده در تعریف Data Mining بطور ضمنی به معنی اطلاعاتی است که بر اساس آن بتوان به نتایجی دست یافت که بطور معمول ملموس نیستند. در این تعریف بر بزرگ بودن بانکهای اطلاعاتی و یا حجم زیاد دادههای مورد پردازش تاکید میشود. علت این است که از نظر آماری و تئوری اطلاعات، تجزیه و تحلیل دادهها و یا آنطور که در این اصطلاح تعبیر میشود، کاوش در حجم کم دادههای یک بانک به نتایج قابل قبولی منجر نمیشود. به کمک ابزارهای Data Mining میتوان مقادیر متغیرهای را پیشبینی و توصیف نمود. این ابزارها در فرایندهای تصمیمگیری متکی بر اطلاعات و دانش [1] کاربر فراوان دارند و فعالیتهای تجاری نوین و مدرن امروزه به شدت بر آن متکی است. فرایند Data Mining را نباید با روشهای متداول آنالیز داده و اطلاعات و سیستمهای تصمیمگیری معمولی یکی دانست. به کمک روشهای Data Mining میتوان به پرسشهایی (عمدتاً تجاری) پاسخ گفت که بطور سنتی عملاً امکان وجود ندارد.
دادهکاوی فقط یک ابزار است و نه یک عصای جادویی. دادهکاوی به این معنی نیست که شما راحت به کناری بنشیند و ابزارهای دادهکاوی همه کار را انجام دهد.
دادهکاوی نیاز به شناخت دادهها و ابزارهای تحلیل و افراد خبره در این زمینهها را از بین نمیبرد. دادهکاوی فقط به تحلیلگران برای پیدا کردن الگوها و روابط بین دادهها کمک میکند و در این مورد نیز روابطی که یافته میشود باید بوسیله دادههای واقعی دوباره بررسی و تست گردد.
کاربردهای دادهکاوی
دادهکاوی بخاطر کمکهای اساسی آن به سرعت در حال محبوبیت است.
سازمانهای زیادی در حال استفاده از دادهکاوی برای کمک به مدیریت تمام فازهای ارتباط با مشتری شامل بدست آوردن مشتریان جدید، افزایش سود از طریق مشتریان موجود و حفظ مشتریان خوب هستند. با تعیین مشخصات یک مشتری خوب یک شرکت میتواند با همان مشخصات اهداف آینده خویش را پیشبینی کند. با پروندهسازی برای مشتری که یک محصول خاص را خرید مینماید این شرکت میتواند توجه خود را به مشتریان مشابهی که از این محصول خرید نکردهاند معطوف دارد. با پروندهسازی برای مشتریانی که این سازمان را ترک کردهاند یک شرکت میتواند مشتریانی را که خطر رفتن آنها وجود دارد را نگه دارد؛ چرا که نگهداری یک مشتری موجود بسیار کم هزینهتر از بدست آوردن یک مشتری جدید است.
فهرست مطالب |
|
|
|
فهرست اشکال ............................................................................................................................................... |
10 |
فهرست جداول .............................................................................................................................................. |
11 |
فصل1: مقدمهای بر دادهکاوی ............................................................................ |
13 |
1-1تعریف دادهکاوی ................................................................................................................................... |
15 |
2-1تاریخچه دادهکاوی ................................................................................................................................ |
16 |
3-1چه چیزی سبب پیدایش دادهکاوی شده است؟ ........................................................................................ |
17 |
4-1اجزای سیستم دادهکاوی ......................................................................................................................... |
19 |
5-1جایگاه دادهکاوی در میان علوم مختلف .................................................................................................. |
21 |
6-1قابلیتهای دادهکاوی ................................................................................................................................. |
22 |
7-1چرا به دادهکاوی نیاز داریم؟ ................................................................................................................... |
23 |
8-1دادهکاوی چه کارهایی نمیتواند انجام دهد؟ .......................................................................................... |
25 |
9-1کاربردهای دادهکاوی ............................................................................................................................. |
25 |
1-9-1 کاربردهای پیشبینیکننده ................................................................................................... |
27 |
2-9-1 کاربردهای توصیفکننده .................................................................................................... |
27 |
10-1ابزارهای تجاری دادهکاوی ................................................................................................................... |
28 |
11-1دادهکاوی و انباردادهها ......................................................................................................................... |
29 |
1-11-1 تعاریف انبارداده ................................................................................................................ |
29 |
2-11-1 چهار خصوصیت اصلی انبارداده ......................................................................................... |
30 |
3-11-1 موارد تفاوت انبارداده و پایگاه داده .................................................................................... |
31 |
12-1دادهکاوی و OLAP ........................................................................................................................... |
33 |
1-12-1 OLAP ........................................................................................................................... |
33 |
2-12-1 انواع OLAP ................................................................................................................... |
34 |
13-1مراحل فرایند کشف دانش از پایگاه دادهها ........................................................................................... |
34 |
1-13-1انبارش دادهها .................................................................................................................... |
35 |
2-13-1انتخاب دادهها .................................................................................................................... |
36 |
3-13-1 پاکسازی- پیشپردازش- آمادهسازی ................................................................................ |
36 |
4-13-1تبدیل دادهها ...................................................................................................................... |
36 |
5-13-1 کاوش در دادهها (Data Mining) ................................................................................. |
37 |
6-13-1تفسیر نتیجه ........................................................................................................................ |
38 |
فصل 2: قوانین ارتباطی ........................................................................... |
39 |
1-2قوانین ارتباطی ........................................................................................................................................ |
40 |
2-2اصول پایه ............................................................................................................................................... |
41 |
1-2-2شرح مشکل جدی ............................................................................................................... |
41 |
2-2-2 پیمایش فضای جستجو ......................................................................................................... |
43 |
3-2-2 مشخص کردن درجه حمایت مجموعه اقلام ......................................................................... |
45 |
3-2الگوریتمهای عمومی .............................................................................................................................. |
45 |
1-3-2دسته بندی ............................................................................................................................ |
45 |
2-3-2 BFS و شمارش رویدادها ................................................................................................... |
46 |
3-3-2 BFS و دونیمسازی TID-list ........................................................................................... |
47 |
4-3-2 DFS و شمارش رویداد ...................................................................................................... |
47 |
5-3-2 DFS و دو نیمسازی TID-list .......................................................................................... |
48 |
4-2الگوریتمApriori ................................................................................................................................ |
48 |
1-4-2 مفاهیم کلیدی ..................................................................................................................... |
48 |
2-4-2 پیادهسازی الگوریتم Apriori ............................................................................................ |
49 |
3-4-2 معایب Apriori و رفع آنها ................................................................................................. |
54 |
5-2 الگوریتم رشد الگوی تکرارشونده .......................................................................................................... |
55 |
1-5-2 چرا رشد الگوی تکرار سریع است؟ ..................................................................................... |
58 |
6-2 مقایسه دو الگوریتم Apriori و FP-growth ...................................................................................... |
59 |
7-2تحلیل ارتباطات ...................................................................................................................................... |
63 |
فصل 3: وبکاوی و متنکاوی ................................................................. |
65 |
1-3وبکاوی ............................................................................................................................................... |
66 |
1-1-3 الگوریتمهای هیتس و لاگسام ............................................................................................... |
69 |
2-1-3 کاوش الگوهای پیمایش مسیر .............................................................................................. |
76 |
2-3متنکاوی ............................................................................................................................................... |
80 |
1-2-3 کاربردهای متنکاوی ........................................................................................................... |
82 |
1-1-2-3 جستجو و بازیابی .............................................................................................. |
83 |
2-1-2-3 گروهبندی و طبقهبندی ...................................................................................... |
83 |
3-1-2-3 خلاصهسازی .................................................................................................... |
84 |
4-1-2-3 روابط میان مفاهیم ............................................................................................. |
84 |
5-1-2-3 یافتن و تحلیل گرایشات .................................................................................... |
84 |
6-1-2-3 برچسب زدن نحوی (pos) ............................................................................... |
85 |
7-1-2-3 ایجاد Thesaurus و آنتولوژی به صورت اتوماتیک ......................................... |
85 |
2-2-3فرایند متنکاوی ................................................................................................................... |
86 |
3-2-3 روشهای متنکاوی ............................................................................................................... |
87 |
مراجع ..................................................................................................... |
89 |