مقدمه بر داده کاوی مفاهیم و کاربردها

در دو دهه قبل توانايي های فنی بشر در برای توليد و جمع آوری داده‌ها به سرعت افزايش يافته است. عواملی نظير استفاده گسترده از بارکد برای توليدات تجاری، به خدمت گرفتن کامپيوتر در کسب و کار، علوم، خدمات دولتی و پيشرفت در وسائل جمع آوری داده، از اسکن کردن متون و تصاوير تا سيستمهای سنجش از دور ماهواره ای، در اين تغييرات نقش مهمی دارند [‎1].

بطور کلی استفاده همگانی از وب و اينترنت به عنوان يک سيستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات می‌کند. اين رشد انفجاری در داده‌های ذخيره شده، نياز مبرم وجود تکنولوژی های جديد و ابزارهای خودکاری را ايجاد کرده که به صورت هوشمند به انسان ياری رسانند تا اين حجم زياد داده را به اطلاعات و دانش تبديل کند: داده کاوی به عنوان يک راه حل برای اين مسائل مطرح مي باشد. در يک تعريف غير رسمی داده کاوی فرآيندی است، خودکار برای استخراج الگوهايی که دانش را بازنمايی مي کنند، که اين دانش به صورت ضمنی در پايگاه داده های عظيم، انباره داده[2] و ديگر مخازن بزرگ اطلاعات، ذخيره شده است. داده کاوی بطور همزمان از چندين رشته علمی بهره مي برد نظير: تکنولوژی پايگاه داده، هوش مصنوعی، يادگيری ماشين، شبکه های عصبی، آمار، شناسايی الگو، سيستم های مبتنی بر دانش[3]، حصول دانش[4]، بازيابی اطلاعات[5]، محاسبات سرعت بالا[6] و بازنمايی بصری داده[7] . داده کاوی در اواخر دهه 1980 پديدار گشته، در دهه 1990 گامهای بلندی در اين شاخه از علم برداشته شده و انتظار می رود در اين قرن به رشد و پيشرفت خود ادامه دهد [‎2].

[1] Data Mining

[2] Data  warehouses

[3] Knowledge-based system

[4] Knowledge-acquisition

[5] Information  retrieval

[6] High-performance  computing

[7] Data  visualization

 

1 مقدمه ای بر داده‌کاوی… 3

1-1 چه چيزی سبب پيدايش داده کاوی شده است؟. 4

1-2 مراحل کشف دانش…. 6

1-3 جایگاه داده کاوی در میان علوم مختلف… 11

1-4 داده کاوی چه کارهایی نمی تواند انجام دهد؟. 12

1-5 داده کاوی و انبار داده  ها  13

1-6 داده کاوی و OLAP. 14

1-7 کاربرد یادگیری ماشین و آمار در داده کاوی… 15

2- توصیف داده ها در داده کاوی… 15

2-1 خلاصه سازی و به تصویر در آوردن داده ها 15

2-2 خوشه بندی 16

2-3 تحلیل لینک… 16

3- مدل های پیش بینی داده ها 17

3-1 Classification. 17

3-2 Regression. 17

3-3 Time series. 18

4 مدل ها و الگوریتم های داده کاوی… 18

4-1 شبکه های عصبی 18

4-2 Decision trees. 22

4-3 Multivariate Adaptive Regression Splines(MARS). 24

4-4 Rule induction. 25

4-5 K-nearest neibour and memory-based reansoning(MBR). 26

4-6 رگرسیون منطقی… 27

4-7 تحلیل تفکیکی 27

4-8 مدل افزودنی کلی (GAM). 28

4-9 Boosting. 28

5 سلسله مراتب انتخابها 29

 

5 سلسله ­مراتب انتخاب­ها

هدف داده­کاوی توليد دانش جديدی است که کاربر بتواند از آن استفاده کند. اين هدف با ساخت مدلی از دنیای واقع براساس داده­های جمع­آوری شده از منابع متفاوت بدست می­آيد. نتيجه ساخت اين مدل توصيفی از الگوها و روابط داده­هاست که می­توان آنرا برای پيش­بينی استفاده کرد. سلسه انتخاب­هايی که قبل از آغاز بايد انجام شود به اين شرح است :

  • هدف تجاری
  • نوع پيش­بینی
  • نوع مدل
  • الگوريتم
  • محصول

 

در بالاترين سطح هدف تجاری قرار دارد: هف نهايی از کاوش داده­ها چيست؟ برای مثال، جستجوی الگوها در داده­ها ممکن است برای حفظ مشتری­های خوب باشد، که ممکن است مدلی برای سودبخشی مشتری­ها و مدل دومی برای شناسايی مشتری­هايی که ممکن از دست دهيم می­سازيم. اطلاع از اهداف و نيازهای سازمان ما را در فرموله کردن هدف سازمان ياری می­رساند.

 

مرحله بعدی تصميم­گيری درباره نوع پيش­بينی مناسب است: (1) classification : پيش­بينی اينکه يک مورد در کدام گروه يا رده قرار می­گيرد. يا (2) regression : پيش­بينی اينکه يک متغير عددی چه مقداری خواهد داشت.

 

مرحله بعدی انتخاب نوع مدل است: يک شبکه عصبی برای انجام regression ،و يک درخت تصميم برای classification. همچنين روشهای مرسوم آماری برای مانند logistic regression، discriminant analysis، و يا مدلهای خطی عمومی وجود دارد.

 

الگوريتم­های بسياری برای ساخت مدلها وجود دارد. می­توان يک شبکه عصبی را با backpropagation، يا توابع radial bias ساخت. برای درخت تصميم، می­توان از ميان CART، C5.0، Quest، و يا CHAID انتخاب کرد.

 

هنگام انتخاب يک محصول داده­کاوی، بايد آگاه بود که معمولا پياده­سازيهای متفاوتی از يک الگوريتم دارند. اين تفاوت­های پياده­سازی می­تواند بر ويژگيهای عملياتی مانند استفاده از حافظه و ذخيره داده و همچنين ويژگيهای کارايی مانند سرعت و دقت اثر گذارند.

 

در مدلهای پيشگويانه، مقادير يا رده­هايی که ما پيش­بينی می­کنيم متغيرهای پاسخ، وابسته، يا هدف ناميده می­شوند. مقاديری که برای پيش­بينی استفاده می­شوند متغيرهای مستقل يا پيش­بينی­کننده ناميده می­شوند.

مدلهای پيشگويانه با استفاده از داده­هايی که مقادير متغيرهای پاسخ برای آنها از قبل دانسته شده است ساخته يا آموزش داده می­شوند. اين نحوه آموزش supervised learning ناميده می­شود، زيرا که مقادير محاسبه شده يا تخمين­زده شده با نتايج معلومی مقايسه می­شوند.( در مقابل، تکنيک­های توصيفی مانند clustering، unsupervised learning ناميده می­شوند زيرا که هيچ نتيجه از پيش معلومی برای راهنمایی الگوريتم وجود ندارد.)

 

 

نقد و بررسی‌ها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقدمه بر داده کاوی مفاهیم و کاربردها”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *