یکی از سؤالات رایجی که در فاز استخراج داده در پروژه فرآیندکاوی مطرح می شود، این است که:
چهارچوب زمانی رویدادها باید چقدر باشد؟
به عنوان یک قانون کلی، معمولاً پیشنهاد میشود که حداقل برای یک دوره سه ماهه، داده جمعآوری شود.اما بسته به مدت زمان اجرای یک نمونه فرآیند، احتمالاً بهتر است که حتی به اندازه یک دوره یک ساله، داده جمع آوری شود. برای مثال، اگر فرآیند معمولاً ۵ الی ۶ ماه زمان برای تکمیل نیاز داشته باشد (مثلاً فرآیند اخذ مجوز برای ساخت ساختمان)، یک نمونه دوره ۳ ماهه، حتی نمیتواند یک نمونه کامل از فرآیند را در بر بگیرد.
چقدر زمان، برای انجام نمونههای مورد کاوش نیاز است؟
کاملاً بستگی به زمانی دارد که یک نمونه از فرآیند، برای انجام شدن به آن نیاز دارد. شما به دنبال یک مجموعه نمونه از موارد در فرآیند هستید و برای اینکار نیاز است تا فضایی را برای دربرگرفتن نمونههای رایج و طولانی در نظر بگیرید.
اگر هنوز شک دارید که به چه میزان داده برای استخراج نیاز دارید، از فرمول زیر برای به دست آوردن چهارچوب زمانی مناسب استفاده کنید:
۵ * ۴ * زمان برآورد شده برای انجام یک نمونه = چهارچوب زمانی مناسب
عنصر اصلی در این فرمول، زمان برآورد شده برای انجام یک نمونه است. ضرب در ۴ شدن، این اطمینان را میدهد که به اندازه ۴ نمونهی متوالی، میتوانیم شروع و پایان را در بر بگیریم و دادههای آنها را جمعآوری کنیم، هرچند که در این بین فرآیندهای دیگری نیز وجود خواهند داشت. ضرب در ۵ برای دربرگرفتن نمونههای استثنائی است که بسیار طول می کشند( قانون ۲۰/۸۰ پارتو) و این اطمینان را میدهد که نمونههایی را نیز که تا ۵ برابر حالت عادی طول می کشند، بتوانیم در چهارچوب زمانی داشته باشیم.
برای مثال، اگر زمان برآورد شده برای انجام یک نمونه، به طور معمول، ۵ روز است، پس بر طبق فرمول فوق، ۱۰۰ روز یعنی حدوداً سه ماه، زمان مناسبی برای در نظر گرفتن چهارچوب زمانی است. پس اگر یک نمونه معمولی، تنها در چند دقیقه انجام می شود، استخراج دادهها در طول چند ساعت، احتمالاً کافی است.
فرمول فوق را به صورت قطعی نپذیرید و در پیادهسازی آن انعطاف به خرج دهید. هرچقدر شما در مورد فرآیند خودتان بیشتر بدانید، بهتر میتوانید در مورد میزان داده مورد نیاز برای استخراج تصمیم بگیرید.
دو روش برای استخراج داده
روش دیگر، برای اطمینان از اینکه نمونه داده خوبی به دست می آورید، انتخاب یک چهارچوب زمانی است که میخواهید آن را تحلیل کنید( مثلاً تیر ماه امسال) و سپس تمام رویدادهای مربوط به نمونههایی که در این ماه آغاز شده است را استخراج کنید. از این طریق، میتوانید نمونههای طولانی را نیز در نظر بگیرید، هرچند که تمرکز بر چهارچوبهای زمانی کوتاهتر برای تحلیل و کاوش است.
عکس زیر، تفاوت این دو روش را نشان می دهد. هر ستون افقی، نشاندهنده یک نمونه در طول زمان است. بخش پررنگ شده، نشاندهنده چهارچوب زمانی است و بخشهایی از ستونها به رنگ آبی پرنگ، رویدادهایی هستند که با روشهای استخراج داده، پوشش داده شدهاند.
- در تصویر سمت چپ، تمام رویدادهای خارج از چهارچوب انتخاب شده، در نظر گرفته نشدهاند، که منجر به وجود نمونههای غیرکامل در نمونه داده می شود. این نمونههای ناقص می تواند به سادگی فیلتر شود و اگر داده به میزان کافی وجود داشته باشد، مشکلی ایجاد نمی کنند.
- در تصویر راست، رویدادهای تمام نمونهها که در چهارچوب زمانی انتخاب شده، شروع شدهاند، دنبال شده، حتی اگر از دوره زمانی انتخاب شده فراتر بروند. این روش منجر به تعداد بیشتری از نمونههای کامل شده میشود و میتواند برای چهارچوبهای زمانی کوتاه مفید باشد.
اگر زمان پایان چهارچوب زمانی شما، همین امروز باشد، بین دو روش فوق که در شکل هم نشان داده شده، تفاوتی نیست. چون همیشه احتمال آن است که نمونهها ناقص باشند، چون هنوز در حال انجام هستند.
همچنین بستگی به سؤالات شما دارد
میزان دادهای که باید استخراج کنید، همچنین بستگی دارد به سؤالاتی که میخواهید به آنها پاسخ دهید. برای مثال، اگر میخواهید که فرآیندهای منظم را متوجه شوید، پس اضافه کردن دادههای بیشتر در یک زمان مشخص، به شما وسعت دید و درک بهتری نمی دهد.
از طرفی دیگر، اگر شما به دنبال استثنائات یا بینظمیها هستید و بررسی تکمیل فرآیندها برای شما مهم است، احتمالاً بخواهید که تمام دادههای سال را بررسی کنید تا تمام اتفاقهایی که در آن دوره به درستی انجام نشده را بتوانید به دست بی آورید.
ترجمه و تنظیم: ادیب ضیایی
بدون دیدگاه