ه ميشود.
دادهکاوي اين شرکتها را قادر ميسازد که ارتباط عوامل دروني (مانند قيمت، وضعيت توليد يا مهارت کارمندان) با عوامل بيروني (مانند شاخصهاي اقتصادي، رقابت و جمعيت مشتريان) را تعيين و تاثيرات فروش، رضايت مشتريان و منابع مشترک را مشخص کند. در نهايت شرکت‌ها مي‌توانند در بين خلاصه اطلاعات براي مشاهده جزئيات تراکنش دادهها به جستجوي سريع بپردازند.
2-3-1 فرايندهاي دادهکاوي
برخي مولفين دادهکاوي را مترادف عبارت اکتشاف دانش از پايگاههاي داده ميدانند و بقيه به دادهکاوي به عنوان يک مرحله ضروري از فرايند بزرگتر يعني اکتشاف دانش در پايگاه داده مينگرند که به اختصار به آن KDD 37 ميگويند که شامل مراحل زير ميباشند.
1- پاکسازي داده38: حذف دادههاي مزاحم و ناايستا.
2- يکپارچهسازي دادهها39: ترکيب منابع داده متعدد و پراکنده و احيانا ناهمگن.
3- انتخاب دادهها40: بازيابي دادههاي مربوط به عمل کاوش از پايگاه دادهها.
4- تبديل دادهها41: تبديل يا تلفيق دادهها به اشکالي مناسب براي بکار بردن روشهاي مختلف آماري.
5- دادهکاوي42: مرحلهاي ضروري از فرايند KDD است که در آن از روشهاي مختلف آماري براي استخراج الگوها استفاده ميشود.
6- ارزيابي الگوها43: شناسايي الگوهاي جذاب ارائه دانش.
7- ارائه دانش44: ارائه دانش استخراج شده با استفاده از تکنيکهاي نمايش اطلاعات.
در شکل 2-2 مراحل کشف دانش نشان داده شده است.

شکل 2-2 فرايند کشف دانش، (نياگا و هاردينگ45، 2006)
2-3-2 فعاليتها و کاربردهاي دادهکاوي
در عمل دو هدف اصلي دادهکاوي شامل پيشگويي و توصيف ميباشد. پيشگويي شامل بکارگيري بعضي متغيرها يا فيلدها در مجموعه دادهها براي پيشگويي مقادير ناشناخته يا آتي ديگر متغيرها ميباشد. از سوي ديگر توصيف، بر روي يافتن الگوهاي توصيف دادهها که توسط انسانها قابل تفسير هستند، تاکيد دارد. بنابراين ميتوان فعاليتهاي دادهکاوي را در دو گروه زير طبقه‌بندي کرد (رضايي‌نيا، 1388):
دادهکاوي پيشبينيکننده46 که مدلي از سيستم را ارائه ميدهد، توسط مجموعه دادههاي مشخصي توصيف مي‌شود.
دادهکاوي توصيفي47 که اطلاعات جديد و غير بديعي را بر اساس مجموعه دادههاي موجود ارائه ميدهد.
در طيف پيشبيني، هدف کلي دادهکاوي ايجاد مدلي است که به عنوان يک برنامه و کد اجرايي بتوان از آن براي طبقه‌بندي، پيشبيني، برآورد و ديگر اعمال مشابه استفاده نمود. از طرف ديگر در طيف توصيفي، هدف کلي بدست آوردن يک شناخت از سيستمهاي تجزيه و تحليل شده توسط الگوها و روابط آشکار در مجموعه داده‌هاي بزرگ مي‌باشد. اهداف پيشبيني و توصيفي با استفاده از روشها و تکنيکهاي دادهکاوي محقق ميگردد. در شکل 2-3 انواع فعاليتهاي دادهکاوي مشخص ميشود.
شکل 2-3 انواع فعاليتها و کاربردهاي دادهکاوي (مرادي، 1390)
2-3-2-1 روشهاي دادهکاوي پيشبينيکننده
هدف از انجام پيشبيني تعيين ترکيب خروجي با استفاده از رفتار موجود ميباشد. در واقع رسيدن به يک نتيجه به وسيله اطلاعات موجود از دادهها ميباشد. مشخصههاي خروجي در اين روش ميتوانند عددي و قياسي باشند. اين استراتژي در بين استراتژيهاي دادهکاوي از اهميت خاصي برخوردار است و مفهوم کليتري را نسبت به موارد ديگر دارد. همانطور که در شکل قبل نشان داده شد روشهاي پيشبينيکننده به شرح ذيل ميباشد:
2-3-2-1-1 طبقهبندي
طبقهبندي48 در واقع ارزشيابي ويژگيهاي دادهها و سپس اختصاص دادن آنها به مجموعهاي از دادههاي از پيش تعيين شده است. اين متداولترين قابليت دادهکاوي ميباشد. دادهکاوي را ميتوان با استفاده از دادههاي تاريخي براي توليد يک مدل يا نمايي از يک گروه بر اساس ويژگي دادهها به کار برد. سپس ميتوان از اين مدل تعريف شده براي طبقه‌بندي مجموعه دادههاي جديد استفاده کرد. همچنين ميتوان با تعيين نمايي که با آن سازگار است براي پيش‌بينيهاي آتي از آن بهره گرفت.
براي مثال براي طبقهبندي تخلفات و کلاهبرداريها در صنعت و اعتبارات بانکي، با استفاده از قابليت طبقهبندي داده‌کاوي، سيستم با استفاده از مجموعهاي از پيش تعريف شده از دادهها، آموزش ميبيند. مجموعه دادههاي مورد استفاده در اين نمونه بايد هم شامل مجموعه‌هايي از دادههاي معتبر باشند و هم شامل مجموعههايي از دادههاي جعلي، از آنجا که اين دادهها از پيش تعيين شده هستند، سيستم پارامترهايي را مييابد که ميتوان از آنها براي تشخيص طبقهبندي متمايز استفاده کرد. بعد از تعيين پارامترها سيستم از آنها براي طبقهبنديهاي بعدي بهره خواهد گرفت. در واقع سيستمهايي که بر اساس طبقهبندي دادهکاوي ميکنند، دو مجموعه ورودي دارند:
يک مجموعه آموزشي که در آن دادههايي که به طور پيش فرض در دستههاي مختلف قرار دارند، همراه با ساختار دستهبندي خود وارد سيستم ميشوند و سيستم بر اساس آنها به خود آموزش ميدهد يا به عبارتي پارامترهاي دسته‌بندي را براي خود مهيا ميکند. دسته ديگر از وروديهايي هستند که پس از مرحله آموزش و براي تعيين دسته وارد سيستم ميشوند. تکنيکهاي دادهکاوي که براي دستهبندي بکار ميآيند عموما شامل تکنيکهاي شبکه عصبي49 و درخت تصميمگيري50 هستند.
2-3-2-1-2 رگرسيون
رگرسيون از مقادير موجود براي پيشبيني مقادير ديگر استفاده ميکند. در سادهترين فرم رگرسيون، از تکنيکهاي آماري استاندارد مانند رگرسيون خطي51 استفاده ميکنند. متاسفانه بسياري مسائل دنياي واقعي تصوير خطي سادهاي از مقادير قبلي نيستند. بنابراين تکنيکهاي پيچيدهتري مانند رگرسيون لجستيک52، درختهاي تصميم و يا شبکههاي عصبي ممکن است براي پيشبيني مورد نياز باشند.
مدلهاي يکساني را ميتوان هم براي رگرسيون و هم براي طبقهبندي استفاده کرد. براي مثال الگوريتم درخت تصميم CART را ميتوان براي ساخت درختهاي طبقهبندي و هم درختهاي رگرسيون استفاده کرد. شبکههاي عصبي را نيز ميتوان براي هر دو مورد استفاده کرد.
2-3-2-1-3 سريهاي زماني
پيشبيني از طريق سري‌هاي زماني53 براي مقادير ناشناخته آينده، بر اساس يک سري از پيشگويي‌هاي متغير با زمان صورت ميگيرد. اين روش از نتايج معلوم قبلي براي اعمال پيشگوييهاي بعدياش بهره ميبرد. مدلها بايد داراي ويژگيهاي مشخص زماني مخصوصا به صورت سلسه مراتب دورههاي زماني (پنج يا هفت روز هفته، سيزدهم ماه از سال…)، فصلي، دادههاي تاريخي و توجه خاص به گذشته داشته باشند.
2-3-2-2 روشهاي توصيفي دادهکاوي54
همانطور که گفته شد در طيف توصيفي، نهايت کار و هدف کلي بدست آوردن يک شناخت از سيستمهاي تجزيه و تحليل شده توسط الگوها و روابط آشکار در مجموعه دادههاي بزرگ ميباشد. روشهاي توصيفي به شرح زير ميباشد.
2-3-2-2-1 خلاصه سازي55
قبل از اينکه بتوان روي مجموعهاي از دادهها دادهکاوي انجام داد تا يک مدل پيشبيني مناسب ايجاد شود، بايد بتوان دادهها را به خوبي شناخت که براي شروع اين کار ميتوان از پارارمترهايي مثل ميانگين، انحراف معيار و… استفاده کرد. ابزارهاي تصويرسازي دادهها و گرافسازي براي شناخت دادهها و نقش آنها در آماده‌سازي بسيار مفيد و غيرقابل انکار ميباشد. مثلا با استفاده از اين ابزارها ميتوان توزيع مقادير مختلف دادهها را در يک نمودار مشاهده کرد و ميزان داده‌هاي داراي خطا را بطور تقريبي حدس زد.
مهمترين مشکل اين ابزار اين است که معمولا تحليلها داراي تعداد زيادي پارامتر مي‌باشند که به هم مربوط هستند و بايد رابطه اين پارامترها را که چند بعدي ميباشد در دو بعد نمايش دهند، که اين کار اگر هم عملي باشد براي استفاده از آنها نياز به افراد خبره ميباشد.
2-3-2-2-2 قوانين انجمني56
اساسا ارتباط ميان مجموعه‌ي اشياء (چيزها) وابستگيهاي جالب توجهي هستند که منجر به امکان آشکارسازي الگوهاي مفيد و قوانين وابستگي براي پشتيباني تصميم، پيشبينيهاي مالي، سياستهاي بازاريابي، وقايع پزشکي و… ميشود که توجه زيادي را در تحقيقات اخير به خود جلب کرده است.
در اين تکنيک رابطه وابستگي بين متغيرهاي مختلف در پايگاه دادهها شناسايي ميشود اين روش بين مديران بازاريابي و عمدهفروشان به نام سبد بازار معروف است. اين روش يک حالت غير نظارتي57 داده ميباشد که به جستجو براي يافتن ارتباط در مجموعه دادهها ميپردازد. يکي از کاربرديترين حالات تحليل وابستگيها، تجزيه و تحليل سبد بازار ميباشد که در آن هدف يافتن کالاهايي است که معمولا به طور همزمان خريداري ميشوند. اين کار کمک ميکند که خرده‌فروشان بهتر بتوانند کالاي خود را سازماندهي کرده و چيدمان بهتري از محصولات خود داشته باشند (مرادي، 1390).
2-5 خوشهبندي
فرآيند گروه‌بندي مجموعه‌اي از اشياء را در رده اشياء مشابه، خوشه‌بندي58 مي‌ناميم.
در داده‌کاوي، روش‌هاي خوشه‌بندي، کل مجموعه داده‌ها را به گروه يا خوشه‌هاي نسبتا همگني تقسيم مي‌کند. داده‌ها بر اساس اصل به حداکثر رساندن تشابه در داخل خوشه و به حداقل رساندن شباهت خوشه‌ها، گروه‌بندي مي‌شوند، يعني خوشه‌ها به طوري که اشياء درون يک خوشه با توجه به يکديگر تشابه بالايي دارند، اما بسيار بي‌شباهت به اشياء در خوشههاي ديگر مي‌باشند شکل مي‌گيرند. تکنيک‌هاي خوشهبندي، تجزيه و تحليل داده را بدون استفاده از يک برچسب کلاس شناخته شده انجام مي‌دهد. برخلاف تکنيکهاي طبقهبندي، که به تجزيه و تحليل داده‌هاي نشان‌دار با کلاس اشياء مي‌پردازد، برچسبهاي کلاس در داده‌هاي آموزشي وجود ندارد، تنها به اين دليل که آنها در ابتدا شناخته شده نيستند. خوشه‌بندي براي توليد چنين برچسب‌هاي کلاسي استفاده ميشود. هر خوشهاي که تشکيل شده است مي‌تواند به عنوان يک کلاس از اشياء مشاهده شود، که قوانيني از آن مشتق مي‌شود.
در خوشهبندي ابتدا مجموعه‌اي از داده‌ها را به گروه‌هايي بر اساس تشابه تقسيم مي‌کنيم و پس از آن برچسب‌هايي را به تعداد نسبتا کمي از گروه‌ها، اختصاص مي‌دهيم. مزيت مهم يک فرآيند مبتني بر خوشه‌بندي اين است که به تغييرات سازگار است و به بدست آوردن ويژگي‌هاي مفيدي که گروههاي مختلف را از هم متمايز مي‌کند کمک مي‌کند (پراسد59 و همکاران، 2011).
2-5-1 مزاياي روش خوشهبندي
مزاياي روش خوشهبندي عبارتند از:
اين روش را ميتوان براي دادههاي گوناگون استفاده نمود.
با انتخاب درست اندازه فاصلههاي گوناگون خوشهبندي را ميتوان براي بيشتر دادهها استفاده کرد.
خوشهبندي يک روش غير مستقيم است.
قدرت روش خوشهبندي به غير مستقيم بودن آن است بدين معني که اين روش را ميتوان حتي هنگامي که هيچ نوع اطلاعات قبلي از ساختار داخلي پايگاه داده نداريم استفاده کنيم. از اين روش ميتوان براي کشف الگوهاي پنهان و بهبود عملکرد روشهاي مستقيم نيز استفاده نماييم.
استفاده از اين روش آسان است و نتايج آن براي مديران قابل فهم است.
در اين روش لازم نيست که بعضي فيلدها را به عنوان ورودي و بعضي ديگر را به عنوان خروجي در نظر بگيريم و در بيشتر روشهاي خوشهبندي کمتر به وزندهي دادهها نياز است.
با اين کار مروري سريع بر دادهها انجام ميشود.
در حالتي که گروههاي زيادي در دادهها وجود دارد، مفيد ميباشد.
در حالتي که اندازهگيري مشابهتهاي غير معمولي نياز است، مناسب ميباشد.
اين روش را ميتوان براي دادههاي گوناگون به کار برد.
نتايج خوشهبندي قابل تفسير و استفاده است (البته يک ايراد خوشهبندي اين است که نتايج آن را ميتوان به صورتهاي متفاوت تفسير کرد).
2-5-2 الگوريتم K ميانگين
از طريق خوشه‌بندي مي‌توان مناطق متراکم و پراکنده از فضاي جسم، که منجر به کشف الگوهاي توزيع کلي و ارتباط جالب ميان ويژگي دادهها مي‌شود را شناسايي کرد. يک کاربرد تجاري مهم خوشه‌بندي اين است که به

دسته بندی : No category

دیدگاهتان را بنویسید