مقاله ترجمه شده یک مولد داده برای ارزیابی کیفیت فرآیندهای استخراج داده، پالایش داده و بارگذاری داده کد محصول : 96111464
Data generator for evaluating ETL process quality
سال انتشار: 2016
چکیده:
دستیابی به مجموعه ای مناسب از داده ها برای ارزیابی اجرای عوامل مختلف کیفیت در طراحی فرایند استخراج- تبدیل- بارگذاری (ETL) بسیار دشوار است. اول، داده های واقعی ممکن است به علت محدودیت های حریم خصوصی مختلف از دسترس خارج شوند، در حالی که دستیابی یک مجموعه مصنوعی از داده ها به عنوان یک وظیفه کارانه شناخته شده است که باید ترکیب های مختلف پارامترهای فرآیند را در نظر بگیرد.
مهم تر از همه، داشتن یک مجموعه داده تنها تکامل داده ها را در طول عمر پروسه کامل نشان نمی دهد، از این رو تعداد زیادی از موارد آزمون ممکن را از دست می دهد. برای تسهیل چنین وظیفه مورد تقاضا، در این مقاله ما یک ژنراتور داده خودکار (یعنی Bijoux) را پیشنهاد می کنیم. از طریق یک مدل فرایند ETL، Bijoux معناشناسی تحولات داده را استخراج می کند، محدودیت هایی را که بر داده های ورودی وارد می کنند، تحلیل می کند و به صورت خودکار داده های آزمایشی را تولید می کند.
Bijoux بسیار مدولار و قابل تنظیم است تا کاربران نهایی را قادر به تولید مجموعه داده ها برای بسیاری از سناریوهای جالب آزمون (به عنوان مثال، ارزیابی قسمت های خاصی از طراحی فرایند ورودی ETL، با اندازه های داده های مختلف ورودی، توزیع های مختلف داده ها و گزینش مختلف عمل) کند. ما نمونه اولیه ای را اجرا کرده ایم که عملکردهای چارچوب تولید اطلاعات را پیاده سازی می کند و در اینجا نتایج آزمایش ها را نشان می دهیم که اثربخشی و مقیاس پذیری رویکرد ما را نشان می دهد.