شناسایی نوع توزیع داده ها و وزن هر یک از بلوکها و نمونه ها:

آنالیز داده های بزرگ به طور کل با دادههای آماری تحقیقاتی متفاوت است. در این نوع از داده ها ابتدا به بررسی نوع توزیع داده ها، نوع چولگی و…. پرداخته خواهد شد. بر اساس sampling weight یا location weight یا population weight یا frequency weight و یا بر اساس ایده شخصی خود دریافت کننده خدمت به داده ها در بلوکها و نمونه های مختلف وزن داده خواهد شد. در کنار اینها نحوه robustness تخمینها نیز مورد بررسی قرار خواهد گرفت. مرحله بعد شناسایی روش تخمین مناسب برای هر یک از متغیرها است. بطوریکه مدل بر اساس متغیرهای مرحله قبل بر اساس تخمین زننده های مختلف رگرسیونی داده های بزرگ تخمین زده خواهند شد. ، شاخص های پساتخمین مرتبط تعیین خواهند شد و گزارش داده خواهند شد. در صورت اشکال در شاخص های پسا تخمین، تخمین های مجدد به منظور رفع این اشکال با مدلهای رگرسیونی دیگر انجام خواهد شد تا از تورش تخمین جلوگیری شود. در مرحله بعد با استفاده از روش تجزیه و تحلیل حساسیت، کیفیت و نحوه حرکت خروجیها مورد بررسی مجدد قرار خواهند گرفت

یکپارچه سازی و کلینینگ داده های دیتا بیس ها

یکی از مسائل اساسی در سازمانها، عدم توانایی دقیق یکپارچه سازی داده های بانکهای اطلاعاتی مختلف است. در صورت وجود آی دی های یکسان در بانکهای اطلاعاتی مختلف ( برای مثال کد ملی) می توان با استفاده از تکنیک merge و Lookup در نرم افزارهای دیتا بیس، آن دسته از متغیرهای Individual که در بانکهای اطلاعاتی مختلف مشترک هستند مرتب سازی و ترکیب نمود. اما با توجه به اینکه احتمال دسترسی به یک فیلد مشترک در بانکهای اطلاعاتی مختلف داده ها تقریبا پایین است، در صورت نبود چنین متغیرهایی، داده ها بر اساس روش های propensity score به چندین گروه با ویژگیهای مشابه طبقه بندی شده و با هم ترکیب می شوند. در صورت عدم امکان این روش نیز، داده ها به سطح کلان macro تغییر شکل داده خواهند شد و تجزیه تحلیل می شوند. شرکت داده کاوان سلامت مفتخر است، بعنوان تنها شرکت در داخل کشور، این فرآیند را در دیتابیسهای آماری بوم سازی نموده است.

جمع آوری و شناسایی دیتا بیسهای آماری بزرگ در سازمان دریافت کننده خدمت:

یکی از مسائل مهم سازمانهای بهداشت و درمان عدم آگاهی نسبت به متغیرها، داده ها و بانکهای اطلاعاتی در دسترس در بخشهای مختلف است. با شروع پروژه ابتدا به شناسایی تمامی بانکهای اطلاعاتی و دیتابیسهای بزرگ مبتنی بر خدمات مورد نیاز سازمان دریافت کننده خدمت پرداخته خواهد شد. لیستی از بانکهای اطلاعاتی جدید، قدیم، فعال آف لاین و آن لاین شناسایی شده و متغیرهای مربوط به آنها مرتب سازی خواهد شد. سپس در این لیست، با توجه به نوع خدمت مد نظر، برای هر یک از بانکهای اطلاعاتی یک ماتریس اهمیت- عملکرد تهیه خواهد شد. در این ماتریس، میزان اهمیت آن بانک اطلاعاتی برای خدمت مد نظر سازمان دریافت کننده خدمت و میزان کیفیت آن بانک طبقه بندی خواهند شد. و آن دسته از بانکهای اطلاعاتی که ارتباطی با خدمت مد نظر ندارند حذف خواهند شد. متغیرهای Individual ، نحوه کددهی آنها و… نیز در هر بانک اطلاعاتی شناسایی خواهند شد. تمامی این نوع از کارها به سازمانهای مختلف در جهت داشتن شواهدی بهتر کمک خواهد نمود.

روزانه حجم عظیمی از داده‌ها توسط «سیستم‌های اطلاعاتی مدرن، فناوری‌های دیجیتال مانند اینترنت اشیا رایانش ابری و دیگر موارد تولید می‌شود. تحلیل این داده‌های انبوه که به آن‌ها داده های بزرگ گفته می‌شود نیازمند تلاش‌های زیاد در سطوح گوناگون، جهت استخراج دانش به منظور کمک به تصمیم‌سازی بهتر است. بنابراین، تحلیل کلان داده یک حوزه علمی و صنعتی روز محسوب می‌شود که پژوهش‌های زیادی پیرامون آن در جریان است و همچنان نیازمند تحقیقات بیشتر نیز هست. ترکیب داده های بزرگ خود یک کار تخصصی و پیشرفته است که نیازمند دانش و تجربه در حیطه های مختلف منجمله آمار پیشرفته، اقتصاد سنجی و آگاهی از نحوه کار و اتصال نرم افزارهای دیتابیس با نرم افزارهای آماری پیشرفته است. اغلب رویکردهای ارائه شده در «داده‌کاوی» قادر به مدیریت موفق مجموعه داده‌های بزرگ نیستند. مساله کلیدی در تحلیل کلان‌داده فقدان هماهنگی بین سیستم‌های پایگاه داده و ابزارهای تحلیل مانند داده‌کاوی و «تحلیل‌های آماری » است. ادامه…..