بحث البيانات الجينية الكبيرة بسرعة أكبر

خلال عقد من الزمن تطور التعاقب الجيني بسرعة أكبر من أجهزة الكمبيوتر اللازمة لاخراج البيانات، يمكنك اداء بحث عن تسلسل الحمض النووي في قواعد البيانات الموجودة يتم خلال ساعات، لكن المشكلة هي انه من المرجح ان العملية سوف تزداد سوءاً.

مؤخراً قامت مجموعة بوني بيرغر في قسم الحاسوب في معهد ماساتشوستس للتكنولوجيا وتم إختيار الذكاء الصناعي (CSAIL) بجعل البيانات البيولوجية والكيميائية سهلة التحليل من خلال ضغطها.

ففي العدد الأخير من مجلة أنظمة الخلايا قام برغر وزملاءه بتحليل نظري يوضح لماذا الأنظمة المضغوطة سابقاً تحقق نجح كبير. وهي تحدد خصائص مجموعات البيانات التي تجعلها قابلة للضغط من خلال تقديم خوارزمية تحدد ما اذا كانت مجموعة البيانات الواردة فيها هذه الخصائص او لا. وتبين أيضاً العديد من قواعد البيانات الموجودة من مركبات كيميائية وجزيئات بيولوجية وتظهرها لهم.

واعطاء قياسات لهذه الخصائص يمكن الباحثيم من تحسين حسابات كفاءة البحث والتي تمكن ضغط البيانات بها. وتحليل مجموعة البيانات يماثل كفاءة مقياس (sublinearly) وهذا يعني ان مجموعة البيانات الكبيرة تكون أكثر كفاءة في البحث.

ويقول برغر أستاذ الرياضيات التطبيقية في معهد ماساتشوستس للتكنولوجيا “تقديم هذه الورقة يعتبر إطار لتطبيق خوارزميات ضغط البيانات البيولجية على نطاق واسع … لدينا أدلة على الكفاءة التي يمكن الحصول عليها”.

مفتاح نظام ضغط البيانات هو ان تطور التصاميم الجيدة بطيء. وهذا يميل الى ان يكون كثير التكرار في الجينومات، مما يؤدس الى ارتباطها ارتباط وثبق في الكئنات الحية، وحتى وان كانت بعيدة الصلة.

وهذا يعني أن جميع المتواليات المحتملة للحروف الحمض النووي الأربعة (A, T, C,G) تعتبر مجموعة فرعية صغيرة من الجينومات الكائنات الحية. وعلاوة على ذلك فأن جينومات الكائنات الحية ليست موزعة بشكل عشوائي، بل تتبع أنماط مستمرة، وتمثل معدل بطيء يختلف في الانواع اختلاف نسبي.

الطيور على أشكالها تقع

لجعل البحث يعمل بشكل أكثر كفاءة، فأن خوارزمية بيرغر تتجمع معاً في تسلسل الجينوم المماثب، والتي تتباعد بعدة حروف من أحرف الحمض النووي. ومن ثم أختيار تسلسل واحد ممثلاُ عن المجموع. بحيث يمكن التركيز فقط على المجموعات المرجحة، فلابد من فحص معظم البيانات.

إذا تم تصور بيانات الجينوم لتتبع مسار متواصل من خلال مساحة كبيرة تعطي احتمالات كبيرة، ثم المجموعات تكون على نحو من مجالات مفترضة في البيانات. نقاط البيانات التي تقع ضمن مجال واحد ترتبط ارتباط وثيق.

بيرغر وزملاءه منهم الباحث الأول نوح دانيلز (Noah Daniels) طالب ما بعد الدكتوراه، ووليم يو (William Yu) طالب الدراسات العليا في الرياضيات التطبيقية، وديفيد دانكو رائد البكلرويوس في علم الأحياء الحاسوبي. وضحوا ان البيانات قابلة للضغة يمكن بحثها عند تواجد معيارين: الأول ان تكون الأنثروبي مترية وهذا يعني ان البيانات تكون في جزء صغير من مساحة كبيرة من الاحتمالات.
والثاني هو انخفاض البعد الكسوري، وهذا يعني ان كثافة النقاط في البيانات لا تختلف اختلاف كبير وانت تبحث في البيانات. إذا بحثك يتطلب منك استكشاف ثلاث مسارات بدلا من واحد، فإنه يأخذ ثلاث مرات، وليس 10 مرات او 100 مرة.

في ورقتهم البحثية قام الباحثين من معهد ماسا تشوستس بتحليل ثلاث مجموعات من البيانات. أثنين وصفت بروتين وواحد لتسلسل من الحمض النووي الأميني، وأخر لشكلها، يصف ثلث المجموعات العضوية. وفي ورقة منفصلة، وهي الآن تحت الطلب يطبق الباحثين نفس اسليب التحلسل في رسائل يبلغ طولها 32 و63.

سهم الوقت

كفاءة البحث الخاصة بهم موازين (sublinearly)، وليس في عدد النقاط في البيانات، ولكن مع الانثروبيا المترية في مجموعة البيانات، الذي يعتبر مقياس رسمي لأستمرار البيانات نسبة الى مساحة من الاحتمالات. لأن التطور هو محافظ ينبغي زيادة الأثروبيا المترية من بيانات الجينوم كما هو تسلسل الجينوم الجديد. وهذا هو بالأضافة الى الجينوم الجديد في جميع الاحتمالات يعتبر أضافة فروع جديدة لنمط تتبع الأحتمالات. بدلاث من ملئ الثغرات في نمط القائمة وزيادة الانثروبيا المترية.

العديد من مجموعة البيانات الكبير الاخر يمكن ان تكون محافظة على نفس الطرق. مجموعة من السلوكيات التي أظهرها مستخدمي الانترنيت تمثل نسبة من مساحة الاحتمالات الكاملة، قد يكون مقيد بيولوجيا، او مقيد بالتاريخ الثقافي، او بكليهما. وبالتالي يمكن أن التقنيات الضغط للباحثين في معهد ماساتشوستس للتكنولوجيا ينطبق على مجموعة واسعة من البيانات خارج الاحياء.

المصدر: https://www.sciencedaily.com/releases/2015/08/150826132013.htm