دیدگاه های در مورد داده کاوی
با توجه به این تعاریف دو تعبیر مختلف از دادهکاوی وجود دارد. برخی مولفین مانند چتفیلد (1995) ، دادهکاوی را مترادف عبارت کشف دانش و معرفت از پایگاه دادهها می دانند. بقیه از جمله فیاد (1996) به دادهکاوی به عنوان یک مرحله ضروری از فرایند بزرگتر کشف دانش و معرفت از پایگاه دادهها که به اختصار KDD میگویند ، اشاره دارند.
در دیدگاه اول داده کاوی به عنوان مجموعه ای از فرایندها که از تعریف اهداف تا ارزیابی نتایج را در بر میگیرد ، معرفی میشود. مراحل مختلف دادهکاوی در این دیدگاه عبارتند از :
الف) تعریف اهداف تحلیل
ب) انتخاب و سازماندهی دادهها
پ) تحلیل کاوشگرانه ی دادهها
ت) مشخص کردن روش های آماری مورد استفاده در مرحله ی تحلیل
ج) تحلیل دادهها بر اساس روش انتخابی
چ) ارزیابی و مقایسه روش های مورد استفاده و انتخاب مدل نهایی برای تحلیل
ح) تفسیر مدل حاصل و استفاده از آن در فرایند تصمیمگیری
اما در دیدگاه دوم ، KDD شامل مراحل زیر است :
1) پاکسازی داده ها حذف دادههای ناپایدار و مزاحم
2) یکپارچه سازی داده ها : ترکیب منابع متعدد ، پراکنده و احیانا ناهمگن دادهها
3) انتخاب داده ها : بازیابی دادههای مربوط به عمل کاوش از پایگاه دادهها
4) تبدیل داده ها: تبدیل دادهها به اشکالی مناسب برای به کار بردن روش های مختلف
5) داده کاوی : مرحله ای ضروری از فرایند KDD است که در آن از روش های مختلف آماری و یادگیری ماشین برای استخراج الگوها استفاده میشود ، که شامل مراحل زیر است :
الف) انتخاب عملیات داده کاوی (رده بندی ، خوشهبندی ، پیش بینی ، تعیین وابستگی و …)
ب) انتخاب روش داده کاوی (شبکه های عصبی ، درخت تصمیمگیری ، الگوریتم ژنتیک و …)
ج) داده کاوی و جستجو برای یافتن الگوی مناسب
6) ارزیابی الگوها : شناسایی الگوهای جذاب ارائه دانش ، بر اساس معیارهای جذابیت.
7) ارائه دانش ارائه دانش استخراج شده با استفاده از تکنیک های نمایش اطلاعات