تكنولوجيا

بحيرة البيانات ما هي ؟ التعريف والفوائد والبُنية وأفضل الممارسات

بحيرة البيانات
بحيرة البيانات

يتم تعريف بحيرة البيانات على أنها مستودع تخزين مركزي وقابل للتطوير يحتوي على كميات كبيرة من البيانات الكبيرة الخام من مصادر وأنظمة متعددة بتنسيقها الأصلي.

تعريف بحيرة البيانات

لفهم ماهية بحيرة البيانات ، ضع في اعتبارك بحيرة البيانات على أنها بحيرة فعلية ، حيث تكون المياه عبارة عن بيانات أولية تتدفق من مصادر متعددة لالتقاط البيانات ويمكن أن تتدفق بعد ذلك لاستخدامها في مجموعة من الأغراض الداخلية والموجهة للعملاء . هذا أوسع بكثير من مخزن البيانات ، والذي سيكون أشبه بخزان منزلي ، مخزن يخزن المياه النظيفة (بيانات منظمة) ولكن فقط لاستخدام منزل معين وليس أي شيء آخر.

يمكن تنفيذ بحيرات البيانات باستخدام أدوات داخلية أو برامج وخدمات البائعين الخارجيين. وفقًا للأسواق، من المتوقع أن ينمو سوق خدمات وبرمجيات بحيرة البيانات العالمية من 7.9 مليار دولار في 2019 إلى 20.1 مليار دولار في 2024. ومن المتوقع أن يقود عدد من البائعين هذا النمو ، بما في ذلك Databricks و AWS و Dremio و Qubole و MongoDB . حتى أن العديد من المنظمات بدأت في تقديم ما يسمى بعروض Lakehouse ، والجمع بين مزايا كل من بحيرات البيانات والمستودعات من خلال منتج واحد.

بحيرة البيانات

بحيرة البيانات

تعمل بحيرات البيانات على مفهوم التحميل أولاً ثم الاستخدام لاحقًا ، مما يعني أنه لا يلزم بالضرورة استخدام البيانات المخزنة في المستودع على الفور لغرض معين. يمكن إغراقها كما هي واستخدامها معًا (أو في أجزاء) في مرحلة لاحقة عند ظهور احتياجات العمل. هذه المرونة ، جنبًا إلى جنب مع التنوع الهائل وكمية البيانات المخزنة ، تجعل بحيرات البيانات مثالية لتجريب البيانات وكذلك التعلم الآلي وتطبيقات التحليلات المتقدمة داخل المؤسسة.

بحيرة البيانات مقابل مستودع البيانات

على عكس مستودعات البيانات ، التي تخزن البيانات المهيكلة المعالجة فقط (المنظمة في صفوف وأعمدة) لبعض تطبيقات ذكاء الأعمال / إعداد التقارير المحددة مسبقًا ، توفر بحيرات البيانات إمكانية تخزين كل شيء بلا حدود. قد تكون هذه بيانات منظمة أو بيانات شبه منظمة أو حتى بيانات غير منظمة مثل الصور (.jpg) ومقاطع الفيديو (.mp4).

فوائد بحيرة البيانات للمؤسسات

  • أنواع البيانات الموسعة للتخزين: نظرًا لأن بحيرات البيانات توفر القدرة على تخزين جميع أنواع البيانات ، بما في ذلك تلك الحيوية لأداء أشكال متقدمة من التحليلات ، يمكن للمؤسسات الاستفادة منها لتحديد الفرص والرؤى القابلة للتنفيذ التي يمكن أن تساعد في تحسين الكفاءة التشغيلية وزيادة الإيرادات ، توفير المال وتقليل المخاطر.
  • نمو الإيرادات من تحليلات البيانات الموسعة: وفقًا لمسح أبردين ، تفوقت المؤسسات التي نفذت بحيرة البيانات على الشركات المماثلة بنسبة 9 ٪ من حيث نمو الإيرادات العضوية. كانت هذه الشركات قادرة على إجراء أنواع جديدة من التحليلات على البيانات غير المستخدمة سابقًا – ملفات السجل ، والبيانات من تدفق النقرات ، والوسائط الاجتماعية ، والأجهزة المتصلة بالإنترنت – المخزنة في بحيرة البيانات.
  • البيانات الموحدة من الصوامع: يمكن لبحيرات البيانات أيضًا أن تركز المعلومات من صوامع الإدارات المختلفة ، والحواسيب المركزية ، والأنظمة القديمة ، وبالتالي تفريغ السعة الفردية ، ومنع المشكلات مثل تكرار البيانات ، وإعطاء رؤية 360 درجة للمستخدمين. في نفس الوقت ، يحتفظون بتكلفة تخزين البيانات للاستخدام المستقبلي على الجانب السفلي.
  • التقاط البيانات المحسّن ، بما في ذلك إنترنت الأشياء: يمكن للمؤسسة تنفيذ بحيرة بيانات لاستيعاب البيانات من مصادر متعددة بما في ذلك مستشعرات معدات إنترنت الأشياء في المصانع والمستودعات. يمكن أن تكون هذه المصادر داخلية و / أو مواجهة للعملاء لبحيرة بيانات من البيانات الموحدة. تساعد البيانات التي تواجه العملاء فرق التسويق والمبيعات وإدارة الحسابات على تنظيم حملات متعددة القنوات باستخدام أحدث المعلومات والموحدة المتاحة لكل عميل ، في حين تُستخدم البيانات الداخلية لاستراتيجيات شاملة لإدارة شؤون الموظفين والشؤون المالية.
إقرأ أيضاً:  تعرف على المدينة الذكية في اليابان: فوجيساوا !

تحديات بحيرة البيانات

على مر السنين ، ساعدت بحيرة البيانات السحابية المؤسسات على توسيع نطاق جهود إدارة البيانات مع خفض التكاليف. ومع ذلك ، فإن التكوين الحالي به بعض التحديات ، مثل:

  • عدم الاتساق مع المستودعات: قد تجد الشركات في كثير من الأحيان صعوبة في الحفاظ على اتساق بحيرة البيانات وهندسة مستودع البيانات. إنها ليست مجرد قضية مكلفة ، ولكن الفرق تحتاج أيضًا إلى استخدام تكتيكات هندسة البيانات المستمرة لبيانات ETL / ELT بين النظامين. يمكن أن تؤدي كل خطوة إلى حدوث إخفاقات وأخطاء غير مرغوب فيها ، مما يؤثر على جودة البيانات الإجمالية.\
  • تأمين البائع: يصبح تحويل كميات كبيرة من البيانات إلى EDW مركزيًا تحديًا كبيرًا للشركات ، ليس فقط بسبب الوقت والموارد اللازمين لتنفيذ مثل هذه المهمة ولكن أيضًا لأن هذه البنية تخلق حلقة مغلقة تتسبب في قفل البائع.
  • إدارة البيانات: بينما تميل البيانات الموجودة في بحيرة البيانات إلى أن تكون في الغالب في تنسيقات مختلفة قائمة على الملفات ، فإن مستودع البيانات يكون في الغالب بتنسيق قاعدة بيانات ، ويضيف إلى التعقيد من حيث إدارة البيانات وإدارة النسب بين نوعي التخزين.
  • نسخ البيانات والتكاليف المرتبطة بها: البيانات المتاحة في بحيرات البيانات ومستودعات البيانات تؤدي إلى حد من نسخ البيانات ولها تكاليف مرتبطة بها. علاوة على ذلك ، فإن بيانات المستودعات التجارية بتنسيقات خاصة تزيد من تكلفة ترحيل البيانات. يعالج بيت بحيرة البيانات هذه القيود النموذجية لبحيرة البيانات ، بالإضافة إلى بنية مستودع البيانات ، من خلال الجمع بين أفضل عناصر كل من مستودعات البيانات وبحيرات البيانات لتقديم قيمة كبيرة للمؤسسات.

هندسة بحيرة البيانات: 5 مكونات رئيسية

تستخدم بحيرات البيانات بنية مسطحة ويمكن أن تحتوي على العديد من الطبقات حسب المتطلبات الفنية والمتطلبات التجارية. لا توجد بحيرتان للبيانات متشابهتان تمامًا. ومع ذلك ، هناك بعض المناطق الرئيسية التي تتدفق من خلالها البيانات العامة – منطقة الابتلاع ومنطقة الهبوط ومنطقة المعالجة ومنطقة البيانات المكررة ومنطقة الاستهلاك.

1. استيعاب البيانات

هذا المكون ، كما يوحي الاسم ، يربط بحيرة البيانات بالمصادر العلائقية وغير العلائقية الخارجية – مثل منصات الوسائط الاجتماعية والأجهزة القابلة للارتداء – وتحميل البيانات المهيكلة وشبه المهيكلة وغير المنظمة في النظام الأساسي. يتم إجراء العرض على دفعات أو في الوقت الفعلي ، ولكن يجب ملاحظة أن المستخدم قد يحتاج إلى تقنيات مختلفة لاستيعاب أنواع مختلفة من البيانات.

إقرأ أيضاً:  المتغيرات وأنواع البيانات في php

في الوقت الحالي ، يقدم جميع موفري التخزين السحابي الرئيسيين حلولًا لاستيعاب البيانات بزمن انتقال منخفض. يتضمن ذلك Amazon S3 و Amazon Glue و Amazon Kinesis و Amazon Athena و Google Dataflow و Google BigQuery و Azure Data Factory و Azure Databricks و Azure Functions.

2. بيانات الهبوط

بمجرد اكتمال الاستيعاب ، يتم تخزين جميع البيانات كما هي مع علامات البيانات الوصفية والمعرفات الفريدة في منطقة الهبوط. وفقًا لشركة Gartner ، عادةً ما تكون هذه المنطقة الأكبر في بحيرة البيانات اليوم (من حيث الحجم) وتعمل كمستودع متاح دائمًا لبيانات المصدر التفصيلية ، والتي يمكن استخدامها / إعادة استخدامها لحالات الاستخدام التحليلية والتشغيلية متى ومتى تنشأ الحاجة. كما أن وجود بيانات المصدر الخام يجعل هذه المنطقة ملعبًا أوليًا لعلماء ومحللي البيانات ، الذين يجربون لتحديد الغرض من البيانات.

3. معالجة البيانات

عندما تُعرف غرض (أغراض) البيانات ، تنتقل نسخها من مرحلة الهبوط إلى مرحلة المعالجة ، حيث يتم التحسين والتحسين والتجميع وتوحيد الجودة من خلال فرض بعض المخططات. تجعل هذه المنطقة تحليل البيانات جديرًا بمختلف حالات استخدام الأعمال واحتياجات إعداد التقارير.

والجدير بالذكر ، يتم نقل نسخ البيانات إلى هذه المرحلة لضمان الحفاظ على حالة الوصول الأصلية للبيانات في منطقة الهبوط لاستخدامها في المستقبل. على سبيل المثال ، في حالة ظهور أسئلة تجارية جديدة أو حالات استخدام ، يمكن استكشاف بيانات المصدر وإعادة توجيهها بطرق مختلفة ، دون تحيز التحسينات السابقة.

4. منطقة البيانات المكررة

عند معالجة البيانات ، تنتقل إلى منطقة البيانات المكررة ، حيث يقوم علماء البيانات والمحللون بإعداد علوم البيانات الخاصة بهم ومناطق التدريج لتكون بمثابة صناديق رمل لمشاريع تحليلية محددة. هنا ، يتحكمون في معالجة البيانات لإعادة توظيف البيانات الأولية في الهياكل وحالات الجودة التي يمكن أن تتيح التحليل أو هندسة الميزات.

5. منطقة الاستهلاك

منطقة الاستهلاك هي المرحلة الأخيرة من تدفق البيانات العام داخل بنية بحيرة البيانات. في هذه الطبقة ، يتم توفير النتائج ورؤى الأعمال من المشاريع التحليلية للمستخدمين المستهدفين ، سواء كانوا صانع قرار تقني أو محلل أعمال ، من خلال أدوات الاستهلاك التحليلي وإمكانيات استعلام SQL وغير SQL.

أفضل 6 ممارسات لبحيرة بيانات فعالة وآمنة في عام 2022

1. تحديد أهداف البيانات

من أجل منع بحيرة البيانات الخاصة بك من أن تصبح مستنقعًا للبيانات ، يوصى بتحديد أهداف بيانات مؤسستك – نتائج الأعمال – وتعيين أمين بيانات داخلي أو خارجي يمكنه تقييم مصادر / مجموعات بيانات جديدة والتحكم في ما يدخل في بحيرة البيانات بناء على هذا الهدف. يمكن أن يساعد الوضوح بشأن نوع البيانات التي يجب جمعها المؤسسة في تفادي مشكلة تكرار البيانات ، والتي غالبًا ما تؤدي إلى تحريف التحليلات.

إقرأ أيضاً:  طريقة الإستعلام عن بيانات زين

2. توثيق البيانات الواردة

يجب توثيق جميع البيانات الواردة عند إدخالها في البحيرة. يأخذ التوثيق عادة أشكال البيانات الوصفية التقنية والبيانات الوصفية للأعمال ، على الرغم من ظهور أشكال جديدة من التوثيق. بدون التوثيق المناسب ، تتدهور بحيرة البيانات إلى مستنقع بيانات يصعب استخدامه والحكم والتحسين والثقة. فشل المستخدمون في اكتشاف البيانات المطلوبة.

3. الحفاظ على وقت الابتلاع السريع

يجب أن تتم عملية الابتلاع في أسرع وقت ممكن. يؤدي القضاء على التحسينات والتحويلات السابقة للبيانات إلى زيادة سرعة الاستيعاب كما هو الحال مع اعتماد أساليب تكامل البيانات الجديدة لتوصيل الأنابيب والتنسيق. سيساعد ذلك في إتاحة البيانات في أسرع وقت ممكن بعد إنشاء البيانات أو تحديثها بحيث يمكن تشغيل بعض أشكال التقارير والتحليلات عليها.

4. معالجة البيانات باعتدال

الهدف الرئيسي لبحيرة البيانات هو توفير بيانات مصدر مفصلة لاستكشاف البيانات واكتشافها وتحليلاتها. إذا قامت مؤسسة بمعالجة البيانات التي تم استيعابها بتجميع مكثف وتوحيد قياسي وتحويل ، فسيتم فقد العديد من التفاصيل التي تم التقاطها مع البيانات الأصلية ، مما يؤدي إلى تدمير الغرض الكامل من بحيرة البيانات. لذلك ، يجب على المؤسسة التأكد من تطبيق علاجات جودة البيانات باعتدال أثناء المعالجة.

5. التركيز على المناطق الفرعية

يمكن تنظيم مناطق البيانات الفردية في البحيرة عن طريق إنشاء مناطق فرعية داخلية. على سبيل المثال ، يمكن أن تحتوي منطقة الهبوط على منطقتين فرعيتين أو أكثر اعتمادًا على مصدر البيانات (الدُفعة / التدفق). وبالمثل ، يمكن أن تشتمل منطقة علم البيانات ضمن طبقة مجموعات البيانات المحسّنة على مناطق فرعية لصناديق الحماية للتحليلات ، ومختبرات البيانات ، ومجموعات بيانات الاختبار ، وبيانات التعلم والتدريب ، بينما قد تحتوي منطقة التدريج الخاصة بتخزين البيانات على مناطق فرعية تحدد هياكل البيانات أو مناطق الموضوعات في البيانات المستهدفة المستودع (على سبيل المثال ، الأبعاد والمقاييس والصفوف لجداول التقارير وما إلى ذلك).

6. إعطاء الأولوية لأمن البيانات

يجب الحفاظ على الأمن في جميع مناطق بحيرة البيانات ، بدءًا من الهبوط إلى الاستهلاك. لضمان ذلك ، تواصل مع البائعين لديك واطلع على ما يفعلونه في هذه المجالات الأربعة – مصادقة المستخدم ، وترخيص المستخدم ، وتشفير البيانات أثناء الحركة ، وتشفير البيانات غير المستقرة. باستخدام هذه العناصر ، يمكن للمؤسسة الحفاظ على إدارة بحيرة البيانات الخاصة بها بشكل نشط وآمن ، دون التعرض لخطر التسريبات الخارجية أو الداخلية (بسبب الأذونات غير المكونة وعوامل أخرى).

إقرأ أيضاً: الخدمات السحابية ما هي ؟

أكتب تعليقك ورأيك