آماده سازی و پیش پردازش داده ها
آماده سازی داده ها گاهی در متون داده کاوی به عنوان موضوع کم اهمیت و به عنوان یک گام در فرایند داده کاوی ندیده گرفته میشود. در کاربردهای داده کاوی در دنیای واقعی ، وضعیت برعکس میشود. برای آماده سازی داده ها تلاشی بیشتر از کاربست روش های داده کاوی صرف میشود. دو وظیفه ی اصلی برای آماده سازی داده ها وجود دارد :
1) سازماندهی داده ها به شکل استاندارد در داده کاوی دارد به طوری که برای پردازش با داده کاوی و دیگر ابزارهای مبتنی بر رایانه آماده باشد.
2) مجموعه های داده ها طوری آماده شوند که به بهترین عملکرد روش های دادهکاوی منتهی شوند.
دادهکاوی به نوعی تحلیل داده های دست دوم است ، با این مفهوم که داده کاوها مستقیما در فرایند جمعآوری دادهها دخالت نداشتهاند. گاهی این واقعیت می تواند کیفیت بد دادههای خام را توجیه کند. کیفیت داده ها در استخراج نتایج مطلوب و اطلاعات حقیقی بسیار موثر است. پایگاه داده های حجیم شامل دادههای مزاحم ، گمشده و ناپایدار هستند. از این رو برای ارتقای کیفیت داده ها لازم است در ابتدای کار به صورت زیر پردازش شوند :
1) پاکسازی داده ها : برای انجام یک داده کاوی مطلوب لازم است مقادیر گمشده جایگزین شوند. داده های مزاحم شناسایی و به نحوی مناسب با آنها برخورد و ناپایداری ها اصلاح شوند.
الف) مقادیر گمشده : داده هایی هستند که به هر دلیلی در هنگام تحلیل دادهها در اختیار تحلیلگر قرار ندارند. وجود چنین دادههایی می تواند تحلیل داده ها را بسیار دشوار سازد. در صورت وجود مقادیر گمشده در دادهها باید به گونهای مناسب در مورد آنها تصمیم گیری شود. به عنوان مثال ممکن است رکورد مربوطه حذف یا به جای آن یک مقدار ثابت ، میانگین مقادیر خصیصهی مورد نظر ، میانگین نمونه های مشابه یا محتملترین مقدار جایگزین گردد. این جایگذاری ممکن است با استفاده از رگرسیون یا سایر روشهای مدل سازی انجام شود.
ب) داده های مزاحم : انحرافی تصادفی یا غیر تصادفی در یک متغیر اندازهگیری شده هستند که به عنوان مثال میتوانند نتیجهی خطای اندازهگیری یا یک اثر پنهان باشند. باید علت وجود یک دادهی مزاحم به خوبی بررسی و در مورد آن تصمیمگیری شود. خوشهبندی و برازش یک تابع رگرسیونی به دادهها از جمله راه های هموارسازی دادهها هستند. البته بسیاری از روشهای هموارسازی دادهها ، روشهایی برای تخلیص دادهها محسوب میشوند.
ج) داده های ناپایدار : این گونه دادهها شامل تغییراتی بیقاعده هستند که تحلیل آنها را دچار مشکل میسازد. برخی از انواع آنها را میتوان با تبدیل مناسب اصلاح کرد یا برای تحلیل آنها روشهای خاصی را به کار برد.
2) یکپارچه سازی دادهها : از آن جا که داده ها از منابع مختلف جمع آوری می شوند ، ممکن است دارای ناسازگاری هایی مانند تفاوت در مقیاس باشند یا خصیصه های مختلف به گونه ای با یکدیگر مرتبط باشند که برخی از آنها بر حسب تعدادی دیگر قابل حصول باشند. در این گونه موارد لازم است داده ها به گونه ای یکپارچه شوند که حتی الامکان دارای کمترین تفاوت باشند و از ورود خصایص مشابه یا تکراری در تحلیل دادهها پرهیز شود. برخی از خصایص زائد را می توان از طریق تحلیل همبستگی کشف کرد. همبستگی بین دو متغیر به این معنی است که می توان اطلاعات یکی را از دیگری به دست آورد و بنابراین حضور هر دو این خصیصه ها لزومی ندارد.
3) تبدیل داده ها : گاهی برای خلاصه سازی یا به کارگیری روش های تحلیل داده ها لازم است به یکی از روش های زیر داده ها به شکلی مناسب تبدیل شوند.
الف) هموارسازی : برای حذف افتوخیز شدید دادهها از تکنیکهای هموارسازی مانند خوشهبندی و رگرسیون استفاده میشود.
ب) انبوهش : نوعی خلاصه سازی است که با عملیات جبری روی برخی مقادیر و به دست آوردن مقادیر کلیتر اجرا میشود. به عنوان مثال مقادیر فروش روزانه میتوانند به صورت مقادیر ماهانه یا سالانه انباشته شوند.
ج) تعمیم داده ها : با استفاده از سلسله مراتب مفاهیم دادههای ابتدایی یا سطح پایین مانند سن به وسیله ی مفاهیم سطح بالاتر مانند جوان ، میان سال و کهن سال جایگزین می شوند.
د) نرمال سازی دادهها : دادهها به یک نحوی مقیاس بندی می شوند که در داخل یک محدوده ی مشخص و کوچک قرار گیرند
4) تخلیص داده ها : برای کاهش دادهها از تکنیک هایی مانند کاهش بعد ، فشرده سازی و مجزا سازی داده ها استفاده میشود. موضوع اصلی برای ساده کردن داده ها ، کاهش بعد است و سوال عمده این است که آیا برخی از این دادههای آماده و پیش پردازش شده را می توان بدون فدا کردن کیفیت نتایج کنار گذاشت یا خیر.
در اینجا آشنایی با آماده سازی و پیش پردازش داده ها در داده کاوی به پایان رسیده است و در آموزش های بعدی به مباحث دیگر آموزش داده کاوی می پردازیم.