با ورود جهان به عصر کلانداده، نیاز به ذخیرهسازی دادهها نیز افزایش یافت. تا سالها، چالش و دغدغهی اصلی سازمانها ایجاد راهحلهایی برای ذخیرهسازی دادهها بود.
اما اکنون که Hadoop و سایر فریمورکها مشکل ذخیرهسازی را بهخوبی حل کردهاند، تمرکز بر روی پردازش دادهها معطوف شده و دیتا ساینس یا علم داده (Data Science) کلید پردازش کلاندادهها است.علم داده یا دیتا ساینس (Data Science) حوزه مطالعاتی است که با بهکارگیری ابزارها و تکنیکهای مدرن حجم گستردهای از دادهها را برای یافتن الگوهای پنهان در دادهها، استخراج اطلاعات معنادار از آنها و استفاده از آنها در تصمیمگیریهای تجاری به کار میبرد و الگو های پنهان در داده هارا کشف میکند . Data Science از الگوریتمهای پیچیدهی یادگیری ماشین (Machine Learning) برای ساخت مدلهای پیشبینی استفاده میکند. این دادههای مورداستفاده برای تجزیهوتحلیل میتوانند از منابع مختلف باشند و فرمهای مختلفی نیز داشته باشند.
علم داده از تحلیلهای پیشبینیکننده (Predictive Analytics) و تجویزی (Prescriptive Analytics) و مدلهای یادگیری ماشین (Machine Learning) برای پیشبینی و تصمیمگیری استفاده میکند. اما هر یک از این اصطلاحات دقیقاً چه معنایی دارند که به آنها میپردازیم.
تحلیلهای پیشبینیکننده (Predictive Analytics) : به شما کمک میکنند تا بتوانید احتمال وقوع یک رویداد خاص را در آینده پیشبینی کنید. بهعنوان مثال اگر شما شرکتی داشته باشید که پولی را بهصورت اعتباری در اختیار مشتریانش قرار میدهد، برای شما مهم است که مطمئن شوید آنها در آینده بازپرداختهای بهموقعی داشته باشند. برای این منظور میتوانید مدلی بسازید که میتواند روی تاریخچهی پرداخت مشتریها تحلیلهای پیشبینیکننده انجام داده و پیشبینی کند که آیا آنها بازپرداخت بهموقعی خواهند داشت یا خیر.
تحلیل تجویزی (Prescriptive Analytics) : یک حوزهی نسبتاً جدید است که بر ارائهی پیشنهادهای دادهمحور تمرکز دارد. به عبارت دیگر، تحلیلهای تجویزی علاوه بر پیشبینی احتمالات، طیفی از اقدامات و نتایج مرتبط را نیز پیشنهاد میکنند. بهعنوان مثال، میتوان از دادههای جمعآوریشده توسط وسایل نقلیه و الگوریتمها برای آموزش خودروهای خودران و هوشمندسازی آنها استفاده کرد.
از یادگیری ماشین نظارتشده (Supervised Machine Learning) : برای پیشبینی رویدادهای آینده میتوان استفاده کرد. بهعنوان مثال یادگیری ماشین میتواند با استفاده از دادههای معاملاتی یک شرکت، مدلی را برای پیشبینی روندهای مالی آینده پیشبینی کرده و یا بر اساس سوابق خریدهای جعلی، یک مدل را برای تشخیص کلاهبرداریها آموزش دهد.
زمانی که هیچ برچسب ازپیشتعریفشدهای برای دستهبندی دادهها وجود ندارد، میتوان از یادگیری ماشین بدون نظارت (Unsupervised Machine Learning) برای کشف الگوهای پنهان در مجموعه دادههای بزرگ استفاده کرده و پیشبینیهای معناداری انجام داد.
محقق علم داده یا دیتا ساینتیست کیست؟
دانشمندان داده (Data Scientists) کسانی هستند که با تخصص قوی خود در حوزههای مختلف، مسائل دادهی پیچیده را حل و آنها را تجزیه وتحلیل کند تا بینش معناداری را از آنها استخراج کند . آنها باید در چندین حوزهی مرتبط با ریاضیات، آمار، علوم کامپیوتر و… سررشته داشته باشند و همچنین باید ذهنیتی کنجکاو، تفکری نقادانه و خلاقیت داشته باشند تا بتوانند بهدرستی دادهها را تحلیل کنند و باید با ابزارهایی مانندHadoop، Pig، Hive، Spark، MapReduce و... آشنا باشد و نیازمند تسلط داشتن به زبانهای SQL، Python، Perl یا سایر زبانهای متنی مانند زبان محاسبات آماری R میباشدو همچنین بایداز آخرین فناوریها برای یافتن راهحلها و رسیدن به نتایجی که برای رشد و توسعه یک سازمان حیاتی است، استفاده کند. دانشمندان داده، دادهها را به شکلی بسیار مفیدتر نسبت به دادههای خام ارائه میکنند.
وظایف دانشمند داده چیست؟
آماده سازی داده: اولین گام در علم داده جمع آوری و آماده سازی دادههایی است که قرار است مورد تجزیه و تحلیل قرار بگیرد. آماده سازی دادهها شامل فرآیند جمع آوری، پاکسازی، سازماندهی، تبدیل و اعتبارسنجی مجموعه دادهها برای تجزیه و تحلیل است. دانشمندان داده اغلب با مهندسان داده در مرحله آماده سازی دادهها کار میکنند.
تحلیل داده: هدف از تجزیه و تحلیل دادهها، شناسایی روندها، همبستگیها، ناهنجاریها و سایر اطلاعات مفید است. بطور کلی، کار تجزیه و تحلیل صورت گرفته توسط دانشمندان داده با هدف بهبود عملکرد کسب و کار و کمک به سازمانها برای بدست آوردن مزیت رقابتی نسبت به رقبای تجاری انجام میشود.
داده کاوی: قسمتی دیگر از تجزیه و تحلیل دادهها با هدف کشف الگوها و روابط موجود در مجموعه کلان دادهها انجام میشود. داده کاوی بطور معمول با اعمال الگوریتمهای پیشرفته روی دادههای تحلیلی صورت میگیرد. سپس، دانشمندان داده از نتایج تولید شده توسط الگوریتمها برای ایجاد مدلهای تحلیلی استفاده میکنند.
یادگیری ماشین: امور تحلیل داده و داده کاوی به صورت گستردهای توسط یادگیری ماشین به ثمر میرسد. در یادگیری ماشین، الگوریتمهایی برای یادگیری در مجموعه دادهها و سپس یافتن اطلاعات مطلوب ساخته میشود. دانشمندان داده بر الگوریتمهای یادگیری ماشین نظارت میکنند. یادگیری عمیق (Deep Learning) شکل پیشرفتهتری است که از شبکه های عصبی استفاده میکند.
مدل سازی پیش گویانه: دانشمندان داده بطور معمول باید بتوانند مدلهای پیش بینی سناریوهای تجاری مختلف را برای تجزیه و تحلیل نتایج و رفتار بالقوه ایجاد کنند. برای مثال، مدلهایی را می توان برای پیشبینی چگونگی پاسخ مشتریان به پیشنهادات بخش بازاریابی ساخت.
تحلیل آماری: بخشی از کار علم داده، استفاده از تکنیکهای تجزیه و تحلیل آماری برای تحلیل مجموعه دادههاست. تحلیل آماری جنبه اصلی کاری است که دانشمندان داده برای کشف دادهها و یافتن روندها و الگوهای اساسی برای تحلیل و تفسیر انجام میدهند.
مصورسازی دادهها: یافتههای حاصل از کار علم داده بطور معمول در قالب نمودارها یا انواع دیگری از روشهایمصورسازی دادهها سازمان دهی میشوند تا مدیران تجاری و سایر کارکنان سازمان بتوانند به راحتی آنها را درک کنند.
تفاوت تحلیلگر داد با دانشمند داده چیست؟
یک تحلیلگر داده معمولاً با بررسی و مطالعهی تاریخچهی دادهها توضیح میدهد که در حال حاضر وضعیت چگونه است. در صورتی که یک دانشمند داده (Data Scientist) علاوه بر انجام تحلیلهای اکتشافی (Exploratory Analysis) برای کشف اینسایتها، از الگوریتمهای مختلف یادگیری ماشین برای پیشبینی وقوع یک رویداد خاص در آینده استفاده میکند.شاید به نظر برسد دانشمند داده از تحلیلگر داده اهمیت بیشتری دارد در صورتی که هردو برای یک سازمان لازم هستند و اگر تحلیلگر داده نباشد کار برای دانشمند داده سخت خواهد شد.
ادامه دارد...
نوشته شده توسط:ثمین وطنی