آماده سازی و پیش پردازش داده ‏ها در داده کاوی

آماده سازی و پیش پردازش داده ‏ها در داده کاوی
امتیاز دهی به نوشته ها

آماده سازی و پیش پردازش داده‏ ها

آماده سازی داده ‏ها گاهی در متون داده‏ کاوی به عنوان موضوع کم اهمیت و به عنوان یک گام در فرایند داده‏ کاوی ندیده گرفته می‏شود. در کاربردهای داده‏ کاوی در دنیای واقعی ، وضعیت برعکس می‏شود. برای آماده سازی داده ‏ها تلاشی بیشتر از کاربست روش های داده‏ کاوی صرف می‏شود. دو وظیفه ی اصلی برای آماده سازی داده ‏ها وجود دارد :

1) سازماندهی داده ‏ها به شکل استاندارد در انجام پروژه های داده کاوی به طوری که برای پردازش با داده‏ کاوی و دیگر ابزارهای مبتنی بر رایانه آماده باشد.

2) مجموعه های داده ‏ها طوری آماده شوند که به بهترین عملکرد روش های داده‏کاوی منتهی شوند.

داده‏کاوی به نوعی تحلیل داده ‏های دست دوم است ، با این مفهوم که داده کاوها مستقیما در فرایند جمع‏آوری داده‏ها دخالت نداشته‏اند. گاهی این واقعیت می تواند کیفیت بد داده‏های خام را توجیه کند. کیفیت داده ‏ها در استخراج نتایج مطلوب و اطلاعات حقیقی بسیار موثر است. پایگاه داده‏ های حجیم شامل داده‏های مزاحم ، گمشده و ناپایدار هستند. از این رو برای ارتقای کیفیت داده ‏ها لازم است در ابتدای کار به صورت زیر پردازش شوند :

1) پاکسازی داده‏ ها : برای انجام یک داده ‏کاوی مطلوب لازم است مقادیر گمشده جایگزین شوند. داده ‏های مزاحم شناسایی و به نحوی مناسب با آن‏ها برخورد و ناپایداری ها اصلاح شوند.

الف) مقادیر گمشده : داده ‏هایی هستند که به هر دلیلی در هنگام تحلیل داده‏ها در اختیار تحلیل‏گر قرار ندارند. وجود چنین داده‏هایی می تواند تحلیل داده ‏ها را بسیار دشوار سازد. در صورت وجود مقادیر گمشده در داده‏ها باید به گونه‏ای مناسب در مورد آن‏ها تصمیم‏ گیری شود. به عنوان مثال ممکن است رکورد مربوطه حذف یا به جای آن یک مقدار ثابت ، میانگین مقادیر خصیصه‏ی مورد نظر ، میانگین نمونه ‏های مشابه یا محتمل‏ترین مقدار جایگزین گردد. این جایگذاری ممکن است با استفاده از رگرسیون یا سایر روش‏های مدل سازی انجام شود.

ب) داده‏ های مزاحم : انحرافی تصادفی یا غیر تصادفی در یک متغیر اندازه‏گیری شده هستند که به عنوان مثال می‏توانند نتیجه‏ی خطای اندازه‏گیری یا یک اثر پنهان باشند. باید علت وجود یک داده‏ی مزاحم به خوبی بررسی و در مورد آن تصمیم‏گیری شود. خوشه‏بندی و برازش یک تابع رگرسیونی به داده‏ها از جمله راه های هموارسازی داده‏ها هستند. البته بسیاری از روش‏های هموارسازی داده‏ها ، روش‏هایی برای تخلیص داده‏ها محسوب می‏شوند.

ج) داده ‏های ناپایدار : این گونه داده‏ها شامل تغییراتی بی‏قاعده هستند که تحلیل آن‏ها را دچار مشکل می‏سازد. برخی از انواع آن‏ها را می‏توان با تبدیل مناسب اصلاح کرد یا برای تحلیل آن‏ها روش‏های خاصی را به کار برد.

2) یکپارچه‏ سازی داده‏ها : از آن جا که داده‏ ها از منابع مختلف جمع آوری می شوند ، ممکن است دارای ناسازگاری‏ هایی مانند تفاوت در مقیاس باشند یا خصیصه های مختلف به گونه ای با یکدیگر مرتبط باشند که برخی از آن‏ها بر حسب تعدادی دیگر قابل حصول باشند. در این گونه موارد لازم است داده ‏ها به گونه ای یکپارچه شوند که حتی الامکان دارای کمترین تفاوت باشند و از ورود خصایص مشابه یا تکراری در تحلیل داده‏ها پرهیز شود. برخی از خصایص زائد را می توان از طریق تحلیل همبستگی کشف کرد. همبستگی بین دو متغیر به این معنی است که می توان اطلاعات یکی را از دیگری به دست آورد و بنابراین حضور هر دو این خصیصه ها لزومی ندارد.

3) تبدیل داده‏ ها : گاهی برای خلاصه سازی یا به کارگیری روش های تحلیل داده ‏ها لازم است به یکی از روش های زیر داده ‏ها به شکلی مناسب تبدیل شوند.

الف) هموارسازی : برای حذف افت‏وخیز شدید داده‏ها از تکنیک‏های هموارسازی مانند خوشه‏بندی و رگرسیون استفاده می‏شود.

ب) انبوهش : نوعی خلاصه ‏سازی است که با عملیات جبری روی برخی مقادیر و به دست آوردن مقادیر کلی‏تر اجرا می‏شود. به عنوان مثال مقادیر فروش روزانه می‏توانند به صورت مقادیر ماهانه یا سالانه انباشته شوند.

ج) تعمیم داده‏ ها : با استفاده از سلسله مراتب مفاهیم داده‏های ابتدایی یا سطح پایین مانند سن به وسیله ی مفاهیم سطح بالاتر مانند جوان ، میان سال و کهن سال جایگزین می شوند.

د) نرمال سازی داده‏ها : داده‏ها به یک نحوی مقیاس بندی می شوند که در داخل یک محدوده ی مشخص و کوچک قرار گیرند

4) تخلیص داده‏ ها : برای کاهش داده‏ها از تکنیک هایی مانند کاهش بعد ، فشرده سازی و مجزا سازی داده ‏ها استفاده می‏شود. موضوع اصلی برای ساده کردن داده ‏ها ، کاهش بعد است و سوال عمده این است که آیا برخی از این داده‏های آماده و پیش پردازش شده را می توان بدون فدا کردن کیفیت نتایج کنار گذاشت یا خیر.

در صورتی که تمایل به سفارش پروژه داده کاوی دارید با کلیک بر روی عنوان زیر پروژه خود را سفارش دهید 

انجام پروژه های داده کاوی