فرآیندکاوی و متخصصین داده


در این متن بررسی می کنیم که چگونه در اکثر پروژه‌های فرآیندکاوی،‌ تفسیر انسانی، عامل محدودکننده محسوب می شود و برخلاف تصور عمومی، کامپیوترها و زیرساخت های فنی عاملی محدودکننده نیستند. تکنیک‌های زیادی وجود دارد که رویکردهای بسیار متنوعی را برای کشف فرآیند از داده خام به صورت خودکار در اختیار ما قرار می‌دهند. داده‌های خامی که بسیار فراوان هستند. اما توجه به بزرگ‌داده‌ها معمولا این تاثیر را بر ما می‌گذارد که علم داده بیشتر مرتبط است با زیرساخت عظیم کامپیوتری،‌ اما اصلا اینگونه نیست.

 

مقیاس‌پذیری فرآیندکاوی

تکنیک‌هایی مثل الگوریتم آلفا، کاوش ابتکاری و مدل‌های اخیر کاوش استنتاجی،‌ همگی خطی و به اندازه ی فایل نگاره (log) هستند و معمولا به تعداد فعالیت‌های متفاوت موجود،‌ به صورت تشریحی بیان می شوند. چرا که تعداد فعالیت‌های یکتا معمولا محدود است و یکبار حرکت در فایل نگاره برای ساخت مدل‌ فرآیند کافی است. این تکنیک‌ها معمولا برپایه شمارش دنباله ‌فعالیت‌ها هستند. بنابراین،‌ می‌توان از رویکردهای کاهش ‌فعالیت استفاده کرد و مسئله را در سطح یک زیرساخت کلی‌تر نمایش داد. از طرفی دیگر،‌ تکنیک‌های مبتنی ‌بر‌ ناحیه و همچنین آزمون انطباق که مبتنی بر هم‌ترازی است،‌ می‌توانند زمان زیادی را صرف خود کنند. هرچند نتایجی که روی کاغذ نمایش داده می‌شوند  را می‌توان در صورت نیاز تجزیه یا توزیع کرد. در مقایسه با رویکردهای داده‌کاوی قدیمی،‌ تکنیک‌های فرآیندکاوی عموما اندازه معقولی دارند.

اگر نمی توانی آن را رسم کنی،‌ نمی توانی آن را بخوانی!

همانطور که گفته شد،‌ بسیاری از تکنیک‌های فرآیندکاوی خطی و به اندازه‌ فایل نگاره هستند و به تعداد فعالیت‌های متفاوتی که وجود دارد،‌ نمایش داده می‌شوند. پس اگر تعداد فعالیت‌ها خیلی زیاد باشد،‌ احتمالا مشکلات عملکردی به وجود خواهد آمد. هرچند که چه کسی می‌تواند مدل‌های فرآیند با بیشتر از ۱۰۰ فعالیت را بخواند؟ الگوریتم‌های ترسیم مشکلات جدی با رسم خوانای مدل‌های فرآیند در چنین اندازه‌هایی دارند. این واقعیت که هیچکس نمی‌تواند اینچنین مدل‌هایی را تفسیر کند،‌ منجر به تغییر در این روند می‌شود و گرنه مشکلی از نظر زمان مورد نیاز برای کشف فرآیند و ترسیم آن وجود ندارد. آنچه که به شدت مورد نیاز است،‌ متخصصین داده‌ای است که می توانند با مجموعه داده‌های پیچیده کار کنند. مدل‌هایی که شبیه اسپاگتی در هم‌ پیچیده می‌شوند،‌ به خاطر ضعف الگوریتم‌ها نیست‌ بلکه به دلیل استفاده غیرحرفه‌ای از این تکنیک‌ها بدون درکی کافی از داده و فرآیند است. البته تمام این اتفاق‌ها در پشت صحنه ابزارهای فرآیندکاوی مثل Disco می‌افتد و کاربر با آن مواجه نمی‌شود،‌ اما دانستن این موارد، برای درک بهتر ماهیت کار و استفاده بهینه ضروری هستند.

 

ترجمه و تنظیم: ادیب ضیایی

به این محتوا امتیاز دهید

مسیح کرمانیمشاهده نوشته ها

Avatar for مسیح کرمانی

کارشناس تولید محتوا

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *