Big Data یا همان داده های عظیم، یک اصطلاح رایج در حال تغییر و بروز شدن می باشد که مقدار عظیمی از دادهای ساختار یافته یا بدون ساختار را توصیف می کند و قابلیت استخراج به عنوان اطلاعات رو دارند، Big Data به مقداره کمّی مشخصی اشاره نمی کند ولی این واژه معمولا زمانی که صحبت در رابطه با داده های با حجم پتابایت یا اگزابایت می شود، کاربرد زیادی پیدا خواهند کرد.

در واقع Big Data به مجموعه داده ها و اطلاعات عظیمی گفته می شود که بررسی آن توسط یک فرد یا یک نرم افزار ساده امکان پذیر نیست، در صورتی که تحلیل دقیق و منطقی این داده ها باعث تصمیم گیری های بهتر و هدقمند کردن فعالیت های یک کسب و کار از جمله فروش محصول، تبلیغات، کمپین ها و رخداد های مختلف می شود؛ همچنین باعث کاهش هزینه و ریسک تا حد بسیار زیادی می شود. به زبان ساده بیگ دیتا، به اطلاعات با سرعت بالا، بسیار متنوع و در حجم های بسیار زیاد که باعث کاهش هزینه و ریسک می شود و از طرفی نیازمند روش و استراتژی خاص برای استخراج خاص برای خارج کردن داده های مورد نیاز و هدفمند است اطلاق می شود.

معرفی ویژگی های Big Data

ویژگی های بیگ دیتا با نام ” V ” شروع می شوند که بر اساس تعداد ویژگی ها، به دو نوع ۵V و ۳V تقسیم بندی می شوند:

۱- مقدار (Volume) : به مقدار و اندازه داده های تولید شده، گرد آوری شده و ذخیره شده که حجم زیادی را در بر میگیرند و باعث کاهش هزینه می شوند، Volume بیگ دیتا می گویند.

۲- گوناگونی (Variety) : گوناگونی داده ها به شکل عددی، اطلاعات سنتی، صدا و ایمیلی و … است که می تواند در دسته بندی مالی، اقتصادی و مدیریتی و … نیز قرار بگیرد. تنوع داده ها به تحلیل گران کمک می کند تا با دیده بیشتر و با استفاده مناسب تر از داده ها به نتیجه مطلوبی برسند.

۳- سرعت (Velocity) : در مورد این ویژگی باید گفت، سرعت تولید و پردازش داده ها در راستای برآورده کردن خواسته ها و چالش های پیش رو که در مسیر توسعه و تعالی قرار دارند که بخش مهمی از یک بیگ دیتا خوب است موثر است.

۴- تغییر پذیری (Variability) : یکی از مسائل مورد اهمیت بیگ دیتا، تغییرات در داده های ورودی است، به این معنی که هرگونه تغییر داده باعث عدم تطابق و ناپایداری داده می شود و هر چه این ناپایداری داده ها بیشتر باشد کنترل و مدیریت آن دشوار تر می شود.

۵- اطمینان (Veracity) : کیفیت داده های ذخیره شده می تواند آنقدر متفاوت باشد که تاثیر شدیدی بر تحلیل دقیق بگذارد.

معرفی یک شرکت فعال در زمینه Big Data

شرکت IBM که مخفف International business machines corporation یک شرکت فناوری اطلاعات آمریکایی است که در سال ۱۹۱۱ تاسیس شده و فعالیت گسترده ای در زمینه IT و بیگ دیتا دارد.

IBM به طور کلی از ۵ شرکت تشکیل شده که در زمینه های تولید سخت افزار، هاستینگ، بیگ دیتا، نرم افزار، نانو و غیر فعالیت دارد.

اولین ماشین تایپ الکترونیکی جهان در سال ۱۹۶۱ را تولید کرد.

IBM دارای ۱۲ مرکز تحقیقاتی در ایالات و کشور های مختلف است و کارکنانش تا کنون موفق به دریافت ۵ جایزه نوبل شدند. امروزه سیستم های این شرکت به عنوان استانداردی برای سازندگان بزرگ جهانی شناخته می شوند.

کلان‌داده

«کلان داده یا طبق مصوبه فرهنگستان مه داده دارایی‌های داده‌ای‌اند بسیار انبوه، پرشتاب و/یا گوناگون که نیاز به روش‌های پردازشی تازه‌ای دارند تا تصمیم‌گیری، بینش تازه و بهینگی پردازش پیشرفته را فراهم آورند». کلان داده یا بزرگ داده‌ها مسیر حرکت کسب و کار و فرایند چرخش کار در سازمان‌ها را مشخص می‌کنند. در بزرگ‌داده با داده‌های متمایز و بزرگ که دائماً از لحاظ حجم، نرخ تولید داده و تنوع در حال تغییر هستند سروکار داریم.

در اینجا، داده‌های پرشتاب داده‌هایی‌اند که با شتاب بالایی تولید می‌شوند. کلان‌داده از چند ۱۰ ترابایت به چندین پتابایت در یک مجموعهٔ داده دارد می‌گسترد. نمونه‌هایی از کلان‌داده چنین‌اند: گزارش‌های وبی، سامانه‌های بازشناسی با موج‌های رادیویی، شبکه‌های حسگر، شبکه‌های اجتماعی، متن‌ها و سندهای اینترنتی، نمایه‌های جستجوهای اینترنتی، اخترشناسی، مدرک‌های پزشکی، بایگانی عکس، بایگانی ویدئو، پژوهش‌های زمین‌شناسی و بازرگانی در اندازه‌های بزرگ.

رویکرد

آناکاوی مجموع داده‌ها می‌تواند همبستگی‌های جدید را پیدا کند، که مربوط به روندهای بازرگانی نقطه‌ای، جلوگیری از بیماری، جُرم‌های جنگی و … است. دانشمندان، بازرگانی، کارورزان صدا و سیما، تبلیغات و دولت، همانند مقررات، باعث مشکلاتی برای کلان‌داده در حوزه‌های مانند جستجوی اینترنتی، مالی و اطلاعات بازرگانی می‌شوند. دانشمندان با محدودیت‌هایی در کارهای علوم مواجهند که دربردارندهٔ هواشناسی، ژنتیک و اطلاعات، شبیه‌سازی فیزیکی پیچیده، و پژوهش‌های محیط زیستی و زیست‌شناختی می‌باشد.

اندازه مجموعه اطلاعات در بخشی افزایش می‌یابد، به دلیل اینکه آن‌ها از طریق ابزار موبایل که ارزان و بیش شمارند، آنتن هوایی (دریافت از راه دور)، وقفه نرم‌افزاری، دوربین‌ها، میکروفن‌ها، خواننده فرکانس رادیویی مشخص، و شبکه‌های دریافت بی‌سیم، جمع‌آوری می‌شوند. ظرفیت جهانی فناوری در هر واحد سرمایه، به منظور جمع‌آوری اطلاعات از دهه ۱۹۸۰ هر ۴۰ ماه دو برابر می‌شود. از سال ۲۰۱۲ هر روزه ۲٫۵ اگزابایت (۲٫۵×۱۰^۱۸) اطلاعات ایجاد شده‌است. چالش موسسات بزرگ این است تعیین کنند که چه کسی ابتکار عملیات کلان‌داده را دارا می‌باشد که کل سازمان را در بر می‌گیرد. کار کردن با کلان‌داده به‌طور ضروری نادر می‌باشد؛ بیشتر آناکاوی‌ها در مورد اطلاعات سایز PC، مربوط به صفحه نمایش PC یا نوت بوک است، که می‌تواند مربوط به مجموعه اطلاعات قابل دسترسی باشد.

سیستم‌های مدیریت پایگاه داده رابطه‌ای، و وضعیت صفحه نمایش و بسته تصویری بیش‌تر با مشکلاتی در رابطه با دستکاری در کلان‌داده مواجهند. در عوض اینکار به اجرای نرم‌افزاری به‌طور هم‌زمان در حجم گسترده و با ده‌ها، صدها، و حتی هزاران سرور، نیاز دارد. آن چیزی که به عنوان کلان‌داده در نظر گرفته می‌شود، بر مبنای توانایی‌های استفاده‌کنندگان از وسایل تفاوت دارد و گسترش توانایی‌ها برای ایجاد کلان‌داده یک هدف می‌باشد؛ بنابراین، هر آنچه که کلان در نظر گرفته می‌شود یک سال بعد عادی می‌شود. برای برخی سازمان‌ها، که با صدها گیگابایت اطلاعات برای اولین بار مواجهند، ممکن به در نظر گرفتن دوباره اختیارات مدیریت اطلاعات نیاز احساس شود. برای دیگران، ممکن است ده‌ها یا صدها ترابایت باید حجم اطلاعات افزایش یابد تا به عنوان قابل توجه در نظر گرفته شود.

تعریف

تعریف گارتنر از ۳V همچنان در سطح وسیعی مورد استفاده قرار می‌گیرد، و در توافقات یک تعریف پذیرفته شده وجود دارد که بیانگر این است که ” کلان‌داده بیانگر دارایی‌های اطلاعاتی است که دارای خصوصیاتی از قبیل حجم بالا، فناوری و سرعت و تنوع نیاز به روش‌های آناکاوی‌ی مخصوص برای اطلاعات مربوط به ارزش، می‌باشد.

کلان‌داده معمولاً دربردارندهٔ مجموعه اطلاعاتی است که به‌طور معمول فراتر از حدی است که بتواند در ابزارهای تصویر، مدیریتی و فرایند اطلاعات در زمان قابل قابل تحمل که تمام می‌شود، استفاده شود. اندازه کلان‌داده به‌طور ثابت به مقدار هدف نزدیک می‌شود، از سال ۲۰۱۲ که در حد چند ترابایت بوده به پتا بایت رسیده‌است. کلان‌داده مجموعه‌ای تکنیک‌ها و فناوریهایی است که که به فرم جدیدی از دسته‌بندی به منظور روشن کردن ارزش‌های پنهانی از پایگاه کلان‌داده که تغییر کرده، پیچیده شده و دارای مقیاس بالایی است، مورد نیاز می‌باشد.

در سال ۲۰۰۱ گزارش پژوهشی و ادبیات مربوطه، گروه متا (الان گارتنر)، داگ لنی به این نتیجه رسید که چالش‌ها و فرصت‌های توسعه اطلاعات دارای سه بعد می‌باشد، به معنای حجم افزایشی (مقدار اطلاعات)، سرعت (سرعت اطلاعات خروجی و ورودی)، و تنوع (دامنه نوع اطلاعات و منابع). گراتنر، و تعداد بیشتری از صنایع، به استفاده از این مدل ۳V برای توصیف کلان‌داده استفاده کردند. در ۲۰۱۲، گارتنر تعریف خود را به صورت زیر بروز کرد: کلان‌داده دارای حجم زیاد، سرعت بالا، و/یا تنوع بالای دارایی‌های اطلاعاتی است که به فرم جدیدی از ترفیع فرایند توانایی تصمیم‌گیری، اکتشافات درونی، و فرایند بهینه‌سازی، نیاز دارد.

۳V در خصوصیات تکمیلی مربوط به کلان‌داده توسعه یافته‌است:

  • اندازه: اندازه اطلاعات نمونه ندارد. این فقط اتفاقات را مشاهده و ثبت می‌کند
  • تندای: کلان‌داده بیش‌تر در زمان واقعی در دسترس است.
  • گوناگونی: کلان‌داده از متن، تصاویر، صدا، ویدئو بدست می‌آید، به علاوه از طریق اتصال داده‌ها قیمت‌های جامانده را کامل می‌کند.
  • یادگیری ماشین:کلان‌داده بیش‌تر چرایی را نمی‌پرسند و فقط الگوها را پیدا می‌کنند
  • جایگاه دیجیتالی: کلان‌داده بیش‌تر محصولات بدون هزینه از تعاملات دیجیتالی می‌باشد.

رشد مفهوم باعث ایجاد تفاوت‌هایی بین کلان‌داده و هوش کسب و کار، در رابطه با اطلاعات و استفاده‌های آن‌ها می‌شود:

  • هوش کسب و کار از آمارهای توصیفی همراه با اطلاعات و حجم بالای اطلاعاتی برای اندازه‌گیری و پیدا کردن روندها استفاده می‌کند
  • کلان‌داده از آمارهای استقرایی و مفاهیم برابرسازی سیستمی غیر خطی، برای قوانین استنباطی (رگرسیون، رابطه غیر خطی، و تأثیر علی) از مجموعه‌های بزرگ اطلاعات که دارای حجم اطلاعاتی کمتری هستند، استفاده می‌کند. برای نشان دادن رابطه‌ها، وابستگی‌ها و انجام پیشگویی‌های مربوط به درآمد و رفتارها استفاده می‌شود.

ویژگی‌ها

کلان داده می‌توانند بر اساس ویژگی‌های زیر تعریف شود:

اندازه – اندازه داده‌های آزانیده (تولید شده) و انباریده (ذخیره شده). اندازهٔ داده در شناسایی ارزش یا کلانگی داده کلیدی است. اگر داده خُرد باشد، کلان داده خوانده نمی‌شود.

گوناگونی – گونهٔ داده. دسته‌بندی داده‌ها به گونه‌ها به شناخت بهتر می‌انجامد.

نرخ آزانش – همان سرعت تولید داده‌است. نرخ بالای آزانش (تولید) داده، چالش‌هایی را در زمینهٔ انبارش (ذخیره‌سازی) و پردازش داده پدیدمی‌آورد.

ورتندگی- ناپایستگی داده می‌تواند پردازش‌ها را از رسیدگی و مدیریت داده بازدارد.

درستی- کیفیت دادهٔ گردآوری شده می‌تواند بر آناکاوی دقیق داده اثر بگذارد.

کلان‌داده و اینترنت اشیاء باهم مرتبط‌اند. از دید رسانه‌ای، اطلاعات عامل کلیدی ابزار آلات دارای ارتباط داخلی است و به هدف‌گذاری دقیق کمک می‌کند. اینترنت اشیاء، به کلان‌داده کمک می‌کند، بنابراین تبدیل صنعت، شرکت‌ها و حتی دولت‌های راسته‌ای، حوزه جدیدی را برای رقابت‌پذیری و رشد اقتصادی فراهم می‌سازد. ارتباط بین افراد، اطلاعات و الگوریتم هوشمند دارای تأثیراتی برای کارایی رسانه‌ای است. ثروت اطلاعات جمع‌آوری شده به بیان کردن لایه‌های موجود در مکانیزم هدف موجود صنعت، کمک می‌کند.

فناوری ای‌بی از انباره اطلاعاتی ۷٫۵ پتا بایت و ۴۰ پتا بایت و ۴۰ پتا بایت گروه هادوپ برای پژوهش، اظهارات مصرف‌کنندگان و بازرگانی استفاده می‌کند. در شرکت ای‌بی۹۰ پتا بایت انباره اطلاعاتی دارد. Amazon.com با میلیون‌ها عملیات انتهایی در طول روز سرو کار دارد، همچنین در بیش از نیم میلیون از فروشنده نفر سوم، پژوهش می‌کند. فناوری اصلی که که عملکرد آمازون را بر مبنای لینوکس اجرا می‌کند و از ۲۰۰۵ سومین پایگاه داده عظیم جهانی را دارد، که ظرفیت آن ۷٫۸ پتا بایت، ۱۸٫۵ پتا بایت و ۲۴٫۷ پتا بایت می‌باشد. فیس بوک با بیش از ۵۰ میلیارد عکس استفاده‌کنندگان سرو کار دارد. از اوت ۲۰۱۲ گوگل در حدود ۱۰۰ میلیارد پژوهش در هر ماه اجرا می‌کند. پایگاه داده Oracle NoSQL 1 مگ مشاهده در هر ثانیه را در ۸ قالب آزمایش کرده و به بیش از ۱٫۲ مگ عملیات در هر ثانیه در ۱۰ قالب رسیده‌است.

کاربردها

بهداشت و درمان آناکاوی کلان داده‌ها می‌تواند در صنعت بهداشت و درمان در قالب ارائه خدمات بهتر به عموم مردم کمک کند که این امر منجر به شناسایی روش‌هایی شخصی‌سازی شده برای درمان بیماران می‌شود. این شخصی‌سازی درمان می‌تواند منتج به افزایش سلامت جامعه و کاهش هزینه‌های دولت در بخش بهداشت و درمان شود.

آموزش کلان داده‌ها در صنعت آموزش می‌تواند به شخصی‌سازی فرایند یادگیری کمک کند. موضوعی که تا قبل از پیدایش سیستم‌های یادگیری الکترونیکی و جمع‌آوری داده‌های آموزشی مطرح نبود. این شخصی‌سازی به نوبه خود می‌تواند باعث شکوفایی استعدادهای دانش‌آموزان و دانشجویان شود و پویایی محیط یادگیری را افزایش دهد.

تولید در صنعت تولید استفاده از کلان داده‌ها می‌تواند به تولید طبق نیازهای مشتری کمک کند، زمان تولید محصول را کاهش دهد. همین‌طور با استفاده از شبیه‌سازی و بهینه‌سازی با استفاده از کلان داده‌ها می‌توان خط تولید را به صورت بهینه طراحی کرد و بسیاری از عیوب خط تولید و کالاها را پیش از شروع به کار خط تولید شناسایی کرد.

خرده فروشی در صنعت خرده فروشی از کلان داده‌ها برای شناسایی بهتر نیازهای مشتریان و ارائه تبلیغات و بازاریابی سفارشی‌شده‌استفاده می‌شود. این شرکت‌ها در تلاشند با جمع‌آوری داده‌های عددی، متنی و تصویری تجربه خرید مشتری از کانال‌های مختلف را بهبود بخشند و بتوانند نیازهای آنان را برآورده سازند.

دولت دولت می‌تواند از کلان داده‌ها برای ایجاد شفافیت، خدمت‌رسانی بهتر به مردم، استفاده بهینه از منابع محدود و تخصیص بودجه به فعالیت‌های موجود استفاده کند. همین‌طور می‌تواند برای کمک به مردم در زمان بحران، اطلاع‌رسانی به روش‌های جدید به مردم و مبارزه با فقر و جرم و جنایت کلان داده‌ها را بکار بگیرد.

علوم اجتماعی در مطالعات علوم اجتماعی کلان داده‌ها می‌تواند ابزاری جدید برای بررسی پیچیدگی رفتار انسان‌ها اعم از رفتارهای فردی و اجتماعی باشد و دریچه‌ای جدید برای مطرح کردن سؤال‌های جالب تر و یافتن الگوهایی که تا پیش از این ناشناخته بودند باشد.

ورزش در علوم ورزشی از کلان داده‌ها برای افزایش کارایی ورزشکاران در تمرین و مسابقه، پیشگیری از بروز مصدومیت و یافتن بهترین راهبرد برای مسابقات پیش رو استفاده می‌شود.