Search In this Thesis
   Search In this Thesis  
العنوان
نموذج احصائي مقترح لتحليل الانحرافات الوراثية بالجينوم البشري/
المؤلف
وهبه، رشاد رؤوف ثابت .
هيئة الاعداد
باحث / رشاد رؤوف ثابت وهبه
مشرف / عمرو إبراهيم عبد الرحمن الأتربي
مشرف / محمد عبد العدل عبد الفتاح الصاوي
مشرف / ماجي أحمد محمد خليل
الموضوع
الإحصاء
تاريخ النشر
2015.
عدد الصفحات
300 ص. :
اللغة
العربية
الدرجة
ماجستير
التخصص
الرياضيات التطبيقية
تاريخ الإجازة
1/1/2015
مكان الإجازة
جامعة عين شمس - كلية التجارة - الأحصاء والرياضة والتامين
الفهرس
يوجد فقط 14 صفحة متاحة للعرض العام

from 300

from 300

المستخلص

إن فهم العلاقة بين الصفات الظاهرية والوراثية تُعتبر من التحديات الأساسية في علم الوراثة. وحيثُ أنه ومنذ فترة طويلة ظلت العوامل الوراثية الكامنة وراء الأمراض البشرية هدفاً في علم الوراثة، فقد تم إجراء العديد من الدراسات لمحاولة فهم العلاقة بين الأمراض الوراثية والانحرافات الوراثية المسببة لها. فمن خلال الانحرافات الوراثية التي تحدث بين الأشخاص يمكن فهم الكيفية التي تجعل بعض الأشخاص دون غيرهم عرضة لكثير من الأمراض الشائعة. وبالتالي وحتى يتم الفهم الجيد لطبيعة الانحرافات الوراثية، فإنه يجب أن يتم استخدام مجموعة من التقنيات التي تستطيع أن تدرس وتحلل الطبيعة الكامنة وراء تلك الانحرافات. وجدير بالذكر أن تقنيات التنقيب في البيانات تضم مجموعة كبيرة من الأدوات التي تعمل معاً من أجل التوصل إلى معرفة جديدة مفيدة صالحة للاستخدام، مثل تكنولوجيا قواعد البيانات Database Technology، والتعلم الآلي Machine learning، والذكاء الاصطناعي، وكل من علمي الإحصاء والرياضيات، وغيرها من الأدوات التي تُسهم في تنفيذ هذه التقنيات بكفاءة ودقة عالية. وبالتالي إن أمكن استخدام المعرفة التي تقدمها تقنيات التنقيب في البيانات في دراسة وتحليل الانحرافات الوراثية البشرية، فمن الممكن أن يتم التوصل إلى طُرق جديدة لتشخيص وعلاج الأمراض.
2– مشكلة الدراسة
تنقسم مشكلة الدراسة الحالية إلى قسمين: القسم الأول يتعلق بالجانب البيولوجي، أما القسم الثاني فيتعلق بالجانب الإحصائي، والآتي توضيح لكلاً منهما.
1.2– مشكلة مُتعلقة بالجانب البيولوجي
إن دراسة الانحرافات الوراثية وخاصةً الانحرافات الوراثية الشائعة الحدوث بين الأشخاص (SNPs) من الممكن أن تؤدي إلى اكتشاف طرق جديدة لمنع أو لتشخيص وعلاج الأمراض، وقد تُساعد في معرفة استجابة المريض لدواء معين. فإذا كان لابد من وصف الدواء فإن الطبيب سوف يحاول أن يستفيد من الهوية الجينية للمريض قبل اختيار الدواء، ليتأكد أن الدواء سوف يكون فعال، كما أنه لن يسبب ضرراً للمريض.
وعلى الرغم من أن عملية الربط بين الانحرافات الوراثية والأمراض الناتجة عنها قد أصبحت عملية مفيدة، وخاصةً عندما تقع بعض الانحرافات الوراثية بالقرب من الطفرة المسببة للمرض، إلا أن الكيفية التي تستطيع بها الانحرافات الوراثية تحديد استجابة الأشخاص للأمراض المختلفة تُعتبر غير واضحة تماماً. وقد أكدت مجموعة كبيرة من الدراسات على أهمية اختيار مجموعة صغيرة من الانحرافات الوراثية أو ما يُسمى tag SNPs لما لها من أهمية كبيرة في توفير الوقت والمال والجهد، بالإضافة إلى أنها تُعطى دقة عالية عند الاعتماد عليها في تحليل البيانات. وبذلك تتمثل المشكلة بيولوجياً في كيفية اختيار الانحرافات الوراثية الأكثر أهمية (tag SNPs).
2.2– مشكلة مُتعلقة بالجانب الاحصائي
تضم تقنية التنقيب في البيانات العديد من الأساليب الرياضية والإحصائية التي من الممكن أن تُستخدم في تحليل البيانات البيولوجية واختيار المتغيرات (الانحرافات الوراثية) الأكثر أهمية. وسوف يقوم الباحث في الدراسة الحالية باستخدام كلاً من آلية المتجهات الداعمة Support Vector Machine (SVM) كأحد التقنيات المعلمية، وأسلوب أقرب جار K–Nearest Neighbor (KNN) كأحد التقنيات اللامعلمية. وبالتالي سوف تنحصر مشكلة الدراسة احصائياً في تحديد الأسلوب الأفضل في التعامل مع البيانات البيولوجية، والأمثل في عملية اختيار المتغيرات الأكثر أهمية، والتي سوف تتمثل في اختيار الانحرافات الوراثية الأكثر أهمية (tag SNPs).
وحيث أن أسلوب SVM يعتمد على مجموعة من المعلمات والتي سيتم توضيحها في القسم (5.1.4) التابع للباب الرابع، كما أن أسلوب KNN يعتمد على مجموعة من العناصر والتي سيتم توضيحها ايضاً في القسم (6.1.4) التابع للباب الرابع. فسوف تتمثل المشكلة أيضاً في الكيفية التي سيتم من خلالها تحديد القيم المُثلى لتلك المعلمات والعناصر، لما لها من تأثير معنوي على كفاءة وجودة الدقة التنبؤية لكلا الأسلوبين.
وكمحصلة نهائية فإن مشكلة الدراسة الحالية تنصب في كيفية اختيار tag SNPs باستخدام الأساليب الرياضية والإحصائية السابق ذكرها، بالإضافة إلى الكيفية التي يتم بها اختيار الأسلوب الأفضل. ومن هنا يتجلى الهدف من الدراسة في القسم التالي.
3– هدف الدراسة
تهدف الدراسة الحالية إلى اختيار الانحرافات الوراثية الأكثر أهمية (tag–SNPs) باستخدام مجموعة من الطرق الرياضية الإحصائية من خلال التطبيق على بعض الجينات المرتبطة بفيروس الالتهاب الكبدي C. وسوف يتم ذلك من خلال الأهداف الفرعية الآتية:
1.3– أهداف تتعلق بالجانب البيولوجي
• اختيار الانحرافات الوراثية الأكثر أهمية (tag SNPs) داخل كل جين.
• دراسة تأثير الانحرافات الوراثية الأكثر أهمية (tag SNPs) التي سيتم اختيارها في الدراسة الحالية على بعض الانحرافات الوراثية الأخرى (SNPs) التي يُعرف أن لها علاقة سواء بالشفاء التلقائي من فيروس C أو بالاستجابة للأدوية العلاجية. علماً بأن الانحرافات الوراثية المعروفة مسبقاً للجينات محل الدراسة سوف يتم ذكرها في الفصل الثالث التابع للباب الثاني.
2.3– أهداف تتعلق بالجانب الاحصائي
• تصميم طريقة ترتكز على ثلاثة مراحل لاختيار المعلمات التي يعتمد عليها أسلوب SVM، من أجل تحسين الدقة التنبؤية للنموذج.
• تصميم طريقة لاختيار قيمة K ومقياس حساب المسافة التي يعتمد عليهما أسلوب KNN، من أجل تحسين الدقة التنبؤية له.
• تقييم كفاءة أسلوب SVM وأسلوب KNN باستخدام كلاً من طريقة Leave One Out Cross Validation (LOOCV)، وطريقة 10 Fold Cross Validation (10-FCV). ومن ثم يتم تحديد الطريقة الأفضل وفقاً للدقة التنبؤية وطبقاً للسرعة في تنفيذ العمليات الحسابية.
• تصميم طريقتين لاختيار المتغيرات الأكثر أهمية (tag SNPs) باستخدام الخوارزمية الجينية Genetic Algorithm (GA). تُسمى الطريقة الأولى GA–SVM وتتم بالدمج مع أسلوب SVM، وتُسمى الطريقة الثانية GA–KNN وتتم بالدمج مع أسلوب KNN. وفي النهاية يتم المقارنة بين الطريقتين لتحديد الطريقة الأفضل في التعامل مع بيانات الانحرافات الوراثية، وفقاً للدقة التنبؤية لكل طريقة وطبقاً للسرعة في تنفيذ العمليات الحسابية.
• استخدام الطريقة الأفضل (GA–SVM أو GA–KNN) في بناء نموذج إحصائي لدراسة تأثير ما يتم اختياره من انحرافات وراثية على الانحرافات المعروفة مسبقاً.
4 – أهمية الدراسة
ومن خلال ما ورد من أهداف متعلقة بالجانب الإحصائي وأخرى متعلقة بالجانب البيولوجي، فسوف يتم الآن تقديم توضيحاً لأهمية الدراسة وفقاً لكلاً من الجانبين.
1.4 – أهمية الدراسة بيولوجياً
• أن تحديد الانحرافات الوراثية الأكثر أهمية (tag SNPs) في كل جين من الجينات التي سوف تخضع للتحليلات الإحصائية، قد يُفيد في تطوير أدوية علاجية جديدة (بيولوجية أو كيميائية) مضادة لفيروس الالتهاب الكبدي C.
• تقرير ما إذا كانت هناك علاقة بين الانحرافات الوراثية التي وقع عليها الاختيار (tag SNPs) والانحرافات الوراثية الأخرى التي تبين أن لها علاقة سواء بالشفاء من فيروس الالتهاب الكبدي C، أو بالاستجابة للأدوية العلاجية.
• تقديم عرضاً تحليلياً لمعرفة الانحرافات الوراثية الأكثر أهمية والمشتركة بين المجتمعات التي ستُجرى عليها الدراسة، بالإضافة إلى تحديد الانحرافات الوراثية الأكثر أهمية التي يمتاز بها كل مجتمع على الآخر. علماً بأن المجتمعات التي ستجرى عليها الدراسة سوف يتم ذكرها في القسم (6.1.1).
2.4– أهمية الدراسة احصائياً
• تقديم عرضاً تحليلياً قد يساعد الباحثين في معرفة الأسلوب الاحصائي (SVM أو KNN) الأفضل من حيث الدقة التنبؤية، ومن حيث السرعة في تنفيذ العمليات الحسابية المطلوبة. حتى يستطيع الباحثين تقرير أيهما ينبغي أن يُستخدم إذا تعارضت الدقة التنبؤية مع سرعة تنفيذ العمليات الحسابية.
• تقديم عرضاً تحليلياً لطريقتين من الطرق المُستخدمة في تقييم كفاءة النماذج الاحصائية (LOOCV أو 10-FCV) قد يساعد الباحثين في معرفة الطريقة الأفضل من حيث الدقة التنبؤية، وأيضاً من حيث السرعة في تنفيذ العمليات الحسابية المطلوبة.
• تقديم عرضاً تحليلياً لمجموعة من الطرق المستخدمة في اختيار المتغيرات الأكثر أهمية (GA–SVM أو GA–KNN)، والتي قد يفُيد أحدها في الوصول إلى الانحرافات الوراثية الأكثر أهمية (tag SNPs) بدقة تنبؤية عالية وفي وقت حسابي أقل.
5– الخلاصة والاستنتاج
توصلت الدراسة إلى العديد من الاستنتاجات التي ترتبط بكلاً من المجال الإحصائي والمجال البيولوجي (الوراثي)، والتالي بيان لأهم الاستنتاجات التي تم التوصل إليها:
1.5– استنتاجات متعلقة بطريقة البحث الشبكي الثلاثي
يُعتبر أسلوب SVM من أقوى وأدق أساليب التعلم الآلي المستخدمة في عملية التنقيب في البيانات وأكتشاف المعرفة، وبالرغم من ذلك فأن الدقة التنبؤية له تعتمد على قيمة المعلمتين c وγ. لذلك قد تم تصميم طريقة البحث الشبكي ثُلاثي المـراحل 3–Phases Grid–Search لاختيار القيم المُثلى للمعلمتين، من أجل تحسين الدقة التنبؤية للنموذج. وقد أوضحت نتائج الدراسة أن طريقة البحث الشبكي تُعتبر طريقة فعالة في تحديد القيم المثلى لمعلمات أسلوب SVM، نظراً لتحسن النتيجة عند الانتقال للمرحلة الثانية. وهذا بدوره يتفق مع الفرض الأول الذي يرى أن هناك اختلاف معنوي بين النتائج المتحصل عليها من مراحل طريقة البحث الشبكي. وعلى الرغم من أن طريقة البحث الشبكي المصممة في هذه الدراسة قد اعتمدت على ثلاثة مراحل، إلا أن النتائج قد أوضحت أنه ليس هناك حاجة إلى عمل أكثر من مرحلتين لعدم تحسن النتيجة بعد المرحلة الثانية (التحسن بسيط جداً).
2.5– استنتاجات متعلقة بالعناصر التي يعتمد عليها أسلوب KNN
يُعتبر أسلوب KNN من أكثر أساليب التعلم الآلي شيوعاً، وعلى الرغم من ذلك فإن الدقة التنبؤية له تعتمد على كلاً من قيمة K ومقياس حساب المسافة. ومن أجل تحسين الدقة التنبؤية لأسلوب KNN، تم تصميم طريقة تقوم بتحديد قيمة K المُثلى واختيار مقياس حساب المسافة المناسب. وقد أوضحت النتائج أن أقل قيمة للدقة التنبؤية لأسلوب KNN تتحقق عند التعويض عن K = 3، في حين أن أفضل قيمة للدقة التنبؤية تتحقق عند التعويض عن K = 11، مما يُعطي مؤشر أن الدقة التنبؤية لأسلوب KNN تتحسن بزيادة قيمة K. وهذا بدوره يتفق مع الفرض الثاني الذي يرى أن الدقة التنبؤية لأسلوب KNN تختلف بتغيير قيمة K. كما تبين أن أقل قيمة للدقة التنبؤية لأسلوب KNN تتحقق عند استخدام مقياس حساب المسافة Jaccard، في حين أن الدقة التنبؤية للمقياس الأخرى تتقارب إلى حد كبير. وهذا بدوره يتفق نسبياً مع الفرض الثاني الذي يرى أن الدقة التنبؤية لأسلوب KNN تتغير باختلاف مقياس حساب المسافة.
3.5– استنتاجات متعلقة بطريقتي LOOCV و10-FCV
تعتمد الدقة التنبؤية لكلاً من أسلوب SVM وأسلوب KNN على طريقة الصلاحية Cross Validation المستخدمة، لذلك تم تقييم كفاءة الدقة التنبؤية لكلاً منهما باستخدام طريقتي LOOCV و10-FCV. وأوضحت نتائج الدراسة أنه على الرغم من أن الدقة التنبؤية لطريقتي 10–FCV وLOOCV تتشابه إلى حد كبير في معظم الحالات، إلا أن طريقة LOOCV مُكلفة حسابياً (بطيئة) بالمقارنة بطريقة 10–FCV. وهذا يتفق مع الفرض الثالث الذي يرى أنه لا يوجد اختلاف معنوي بين الطريقتين من حيث الدقة التنبؤية، وإنما يوجد اختلاف في سرعة تنفيذ العمليات الحسابية
4.5– استنتاجات متعلقة بطريقتي GA–SVM و GA–KNN
حتى يتم اختيار المتغيرات الأكثر أهمية (tag SNPs)، تم تصميم كلاً من طريقتي GA–SVM وGA–KNN. وتبين من النتائج أنه على الرغم من أن الدقة التنبؤية لطريقة GA–SVM تتفوق على الدقة التنبؤية لطريقة GA–KNN عند اختيار عدد صغير جداً من tag SNPs، إلا أن الدقة التنبؤية لطريقة GA–KNN تتفوق في جميع الحالات الأخرى. كما تبين من واقع النتائج أن طريقة GA–KNN تستغرق وقتاً كبيراً جداً في إجراء العمليات الحسابية بالمقارنة بطريقة GA–SVM. وهذا بدوره يتفق مع الفرض الرابع الذي يميل إلى وجود اختلاف معنوي بين الطريقتين. أيضاً تبين أن زيادة حجم المجتمع وعدد الأجيال في الخوارزمية الجينية، يؤدي إلى ارتفاع الدقة التنبؤية للنماذج، مع زيادة في الوقت المستغرق في تنفيذ العمليات الحسابية.
5.5– استنتاجات متعلقة بالانحرافات الوراثية (SNPs)
إن دراسة الانحرافات الوراثية (SNPs) من الممكن أن تؤدي إلى اكتشاف طرق جديدة لمنع أو لتشخيص وعلاج الأمراض. وحيثُ أن الفحص الكامل لكافة SNPs بالجينوم البشري أصبح أمراً مكلفاً للغاية، فقد وجُب اختيار مجموعة صغيرة من الانحرافات الوراثية الأكثر أهمية وهي ما تسمى tag SNPs. وقد توصلت الدراسة الحالية إلى مجموعة من tag SNPs في مجموعة من الجينات تستطيع أن تتنبأ ببعض الانحرافات الوراثية التي يُعرف أن لها علاقة بالشفاء من فيروس C. ولكن لابد من إجراء المزيد من الدراسات للتأكد من مدى أهمية تلك الانحرافات.