دادهکاوی چیست؟
دادهکاوی (Data Mining) علم و فنی است که در سال های اخیر و با گسترش استفاده از فناوری اطلاعات و سیستم های اطلاعاتی مورد توجه سازمان ها قرار گرفت. داده کاوی کاربرد های مختلفی برای سازمان ها دارد و برای شرکت ها در زمینه های مهمی مثل بازاریابی و فروش بسیار راه گشا و مفید است. مطالب بیشتر در کتاب دادهکاوی در پایگاه داده ارایه گردیده است.
Data با Information چه فرقی دارد؟
بسیاری از مردم به اشتباه این دو واژه را به جای هم استفاده می کنند. داده (Data) هر نوع از کاراکتر شامل متن، عدد، کلمه، صدا و تصویر است. در صورتی که توسط انسان مشاهده شود لزوما معنای خاصی هم در بر نخواهد داشت. داده ها عموما خام، دسته بندی و طبقه بندی نشده هستند و در صورتی که بخواهیم از آنها به صورت مستقیم استفاده کنیم عموما بی فایده خواهد بود.
حال آنکه پس از طبقه بندی، دسته بندی و ساختاردهی به داده ها اطلاعات (Information) به وجود می آید. می توان از داده ها برای تصمیم گیری و یا ایجاد دانش در مورد یک مقوله استفاده کرد. اطلاعات عموما برای کاربر مفهوم دارد و قابل استفاده است.
ویژگیهای اصلی دادهکاوی:
- کشف اتوماتیک الگو ها
- پیش بینی احتمالی نتایج و خروجی ها
- ایجاد اطلاعات اجرایی و مفید
- تمرکز بر روی دادههای بزرگ و مجموعه پایگاههای داده
دادهکاوی چه کاری می تواند انجام دهد؟
دادهکاوی عموما توسط سازمان های مشتری محور استفاده می شود. این سازمان ها (فروشگاه ها، تولید کنندگان، خرده فروشان و فروشگاه های اینترنتی) با استفاده از داده کاوی ارتباط میان اقدامات خود و عوامل درونی سازمان مثل قیمت کالا ها، تخفیفات، هزینه تبلیغات و دیگر عوامل داخلی را با عوامل بیرونی مثل مشخصات مشتریان (سن، جنسیت، درآمد و محل سکونت)، رقبا و عوامل عمومی بازار (سطح درآمد جامعه، وضعیت رونق و رکود اقتصادی) را پیدا کنند. علاوه بر این می توان شاخصهایی مثل رضایت مشتری، درآمد و سود سازمان، مجموع سرمایه درگردش و هزینه های جاری و میزان افزایش و کاهش آنها در طول زمان را استخراج کند.
به طور مثال شرکت ویدئوی خانگی Blockbuster از داده های سابق مشتریان استفاده می کند. به انها ویدئوهایی پیشنهاد می دهد تا آنها را تماشا کنند. والمارت (بزرگترین خرده فروش زنجیره ای جهان) برای بهبود عمکلرد عرضهکنندگان خود از دادهکاوی در مقیاسی وسیع استفاده کرده است. دادههای ۲۹۰۰ فروشگاه در ۶ کشور برای این کار استفاده شده اند. ۳۵۰۰ تامین کننده به داده های دسترسی پیدا کردند تا بتوانند الگو های خرید مشتریان، عمکلرد یک کالا و محصول خاص را بررسی کنند و برنامه های خود را بر این پایه و اساس بهبود دهند.
فرایند دادهکاوی شامل سه مرحله میباشد:
- کاوش اولیه
- ساخت مدل یا شناسایی الگو با کمک احراز اعتبار/ تایید
- بهره برداری
مرحله ۱ : کاوش
معمولا این مرحله با آمادهسازی دادهها صورت میگیرد. ممکن است شامل: پاک سازی دادهها ،تبدیل دادهها و انتخاب زیرمجموعه هایی از رکوردها با حجم عظیمی از متغییرها (فیلدها) باشد. سپس با توجه به ماهیت مساله تحلیلی، این مرحله به مدلهای پیش بینی ساده یا مدلهای آماری و گرافیکی برای شناسایی متغیرهای مورد نظر و تعیین پیچیدگی مدلها برای استفاده در مرحله بعدی نیاز دارد.
مرحله ۲ : ساخت و احراز اعتبار مدل
اینمرحله به بررسی مدل های مختلف و گزینش بهترین مدل با توجه به کارآیی پیشبینی آن می پردازد.شاید این مرحله ساده به نظر برسد، اما اینطور نیست.تکنیک هایمتعددی برای رسیدن به این هدف توسعه یافتند. ” ارزیابی رقابتی مدل ها” نام گرفتند. بدین منظور مدل های مختلف برای مجموعه داده های یکسان به کار می روند تا کارآییشان باهم مقایسه شود.سپس مدلی که بهترین کارآیی راداشته باشد، انتخاب می شود.
این تکنیکها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning .
مرحله ۳ : بهره برداری
مدل مرحله قبل در داده های جدید به کار می گیرد. تا پیش بینی های خروجی های مورد انتظار را تولید نماید. دادهکاوی به عنوان ابزار مدیریت اطلاعات برای تصمیمگیری، عمومیت یافته است. اخیرا، توسعه تکنیک های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است. (مثلا Classification Trees) اما هنوز دادهکاوی مبتنی بر اصول آماری نظیر (EDA) می باشد.
چنانچه تمایل به مشاهده مطالب بیشتر دارید به سایت دانلودنما مراجعه فرمایید.
هیچ دیدگاهی برای این محصول نوشته نشده است.