يقول الخبراء إن الاختبارات الحالية تشتت الانتباه وهناك حاجة إلى اختبارات جديدة
.jpg)
يزعم الباحثون أن قياس التقدم في أداء الذكاء الاصطناعي في مجال الرعاية الصحية يعتمد بشكل كبير على اختبارات الأسئلة والأجوبة، وليس بدرجة كافية على تقييم المهام الطبية في العالم الحقيقي.
تُدمج خوارزميات الذكاء الاصطناعي في جميع جوانب الرعاية الصحية تقريبًا. فهي تُدمج في فحوصات سرطان الثدي، وتدوين الملاحظات السريرية، وإدارة التأمين الصحي، وحتى تطبيقات الهاتف والحاسوب لإنشاء ممرضات افتراضيات ونسخ محادثات الطبيب والمريض. وتؤكد الشركات أن هذه الأدوات ستزيد من كفاءة الطب وتقلل العبء على الأطباء وغيرهم من العاملين في مجال الرعاية الصحية. لكن بعض الخبراء يشككون في فعالية هذه الأدوات التي تدّعيها الشركات.
أدوات الذكاء الاصطناعي، مثل نماذج اللغة الكبيرة (LLMs)، المُدربة على كميات هائلة من البيانات النصية لتوليد نصوص شبيهة بالنصوص البشرية، لا تُعد ذات جودة عالية إلا بقدر تدريبها واختبارها. لكن التقييمات المتاحة للعامة لقدرات نماذج اللغة الكبيرة في المجال الطبي تستند إلى تقييمات تستخدم امتحانات طلاب الطب، مثل اختبار القبول في كلية الطب (MCAT). في الواقع، وجدت مراجعة للدراسات التي تُقيّم نماذج الذكاء الاصطناعي في الرعاية الصحية، وتحديدًا نماذج LLMs، أن 5% فقط منها استخدم بيانات حقيقية للمرضى. علاوة على ذلك، قيّمت معظم الدراسات نماذج LLMs من خلال طرح أسئلة حول المعرفة الطبية. قام عدد قليل جدًا من الباحثين بتقييم قدرات حاملي شهادات الماجستير في القانون على كتابة الوصفات الطبية أو تلخيص المحادثات أو إجراء محادثات مع المرضى - وهي المهام التي يقوم بها حاملو شهادات الماجستير في القانون في العالم الحقيقي.
تُجادل عالمة الحاسوب ديبورا راجي وزملاؤها في عدد فبراير من مجلة نيو إنجلاند الطبية للذكاء الاصطناعي بأن المعايير الحالية مُشتتة للانتباه. فهذه الاختبارات لا تقيس القدرات السريرية الفعلية؛ ولا تُراعي بشكل كافٍ تعقيدات الحالات الواقعية التي تتطلب اتخاذ قرارات دقيقة. كما أنها تفتقر إلى المرونة في ما تقيسه، ولا تُقيّم أنواعًا مختلفة من المهام السريرية. ولأن هذه الاختبارات تعتمد على معرفة الأطباء، فإنها لا تُمثل معلومات الممرضات أو غيرهن من الطاقم الطبي تمثيلًا دقيقًا.
تقول راجي، التي تدرس تدقيق وتقييم الذكاء الاصطناعي في جامعة كاليفورنيا، بيركلي: "كان الكثير من التوقعات والتفاؤل لدى الناس تجاه هذه الأنظمة مرتبطًا بمعايير اختبارات الفحص الطبي هذه". "ويُترجم هذا التفاؤل الآن إلى عمليات نشر، حيث يُحاول الناس دمج هذه الأنظمة في العالم الواقعي وتطبيقها على مرضى حقيقيين". تُجادل هي وزملاؤها بأننا بحاجة إلى تطوير تقييمات لكيفية أداء برامج الماجستير في القانون عند الاستجابة للمهام السريرية المعقدة والمتنوعة.
أجرت ساينس نيوز حوارًا مع راجي حول الوضع الراهن لاختبارات الذكاء الاصطناعي في مجال الرعاية الصحية، والمخاوف المتعلقة بها، والحلول الكفيلة بتحسين التقييمات. تم تحرير هذه المقابلة حرصًا على الاختصار والوضوح.
SN: لماذا تفشل اختبارات المقارنة المعيارية الحالية؟
راجي: لا تعكس هذه المعايير المعيارية أنواع التطبيقات التي يطمح إليها الناس، لذا لا ينبغي للمجال بأكمله أن يُركز عليها بشكل كبير.
هذه ليست مشكلة جديدة أو خاصة بالرعاية الصحية. إنها موجودة في جميع أنحاء التعلم الآلي، حيث نجمع هذه المعايير ونريدها أن تُمثل الذكاء العام أو الكفاءة العامة في هذا المجال الذي نهتم به تحديدًا. ولكن علينا فقط أن نكون حذرين للغاية بشأن الادعاءات التي نُقدمها حول مجموعات البيانات هذه.
كلما ابتعد تمثيل هذه الأنظمة عن الظروف التي تُستخدم فيها فعليًا، زادت صعوبة فهمنا لأنماط فشلها. هذه الأنظمة بعيدة كل البعد عن الكمال. أحيانًا تفشل في مجموعات سكانية معينة، وأحيانًا، بسبب سوء تمثيلها للمهام، فإنها لا تُجسد تعقيد المهمة بطريقة تكشف عن بعض حالات الفشل في الاستخدام. إن هذا النوع من مشكلة تحيز المعايير، حيث نختار نشر هذه الأنظمة بناءً على معلومات لا تمثل موقف النشر، يؤدي إلى قدر كبير من الغطرسة.
SN: كيف يُمكن إنشاء تقييمات أفضل لنماذج الذكاء الاصطناعي في الرعاية الصحية؟
راجي: إحدى الاستراتيجيات هي إجراء مقابلات مع خبراء في هذا المجال لمعرفة سير العمل العملي الفعلي، وجمع مجموعات بيانات طبيعية لتفاعلات النماذج التجريبية مع النموذج لمعرفة أنواع أو نطاق الاستعلامات المختلفة التي يُجريها المستخدمون ومختلف النتائج. هناك أيضًا فكرةٌ طبقتها [المؤلفة المشاركة] روكسانا دانشجو في بعض أعمالها مع "الفريق الأحمر"، حيث تجمع مجموعةً من الأشخاص بنشاطٍ لتحفيز النموذج بشكل مُنافس. هذه كلها نُهجٌ مُختلفة للوصول إلى مجموعةٍ أكثر واقعيةً من التحفيزات، أقرب إلى كيفية تفاعل المستخدمين الفعلي مع الأنظمة.
أمرٌ آخر نحاول القيام به هو الحصول على معلومات من المستشفيات الفعلية كبيانات استخدام - مثل كيفية نشرها الفعلي للنظام وسير العمل منها حول كيفية دمجها الفعلي للنظام - ومعلوماتٍ مجهولة المصدر للمرضى أو مُدخلاتٍ مجهولة المصدر لهذه النماذج، والتي يُمكن أن تُفيد ممارسات المقارنة والتقييم المُستقبلية.
هناك مناهج من تخصصات أخرى [مثل علم النفس] حول كيفية بناء تقييماتك على ملاحظات الواقع للتمكن من تقييم شيء ما. وينطبق الأمر نفسه هنا - إلى أي مدى يرتكز نظام التقييم الحالي لدينا على واقع ما يلاحظه الناس وما يُقدّرونه أو يُعانون منه من حيث الاستخدام الفعلي لهذه الأنظمة.
SN: ما مدى التخصص المطلوب في اختبار معايير الأداء النموذجي؟
راجي: يختلف معيار الأداء المُخصص للإجابة على الأسئلة واسترجاع المعرفة اختلافًا كبيرًا عن معيار الأداء المُخصص للتحقق من صحة النموذج عند تلخيص ملاحظات الأطباء أو طرح الأسئلة والإجابة عليها بناءً على البيانات المُحمّلة. هذا النوع من التباين في تصميم المهام هو ما أحاول الوصول إليه. ليس من المفترض أن يكون لكل شخص معيار أداء شخصي خاص به، ولكن يجب أن تكون المهمة المشتركة التي نتشاركها أكثر رسوخًا من اختبارات الاختيار من متعدد. لأنه حتى بالنسبة للأطباء الحقيقيين، فإن أسئلة الاختيار من متعدد لا تُشير إلى أدائهم الفعلي.
SN: ما هي السياسات أو الأطر اللازمة لإجراء مثل هذه التقييمات؟
راجي: هذه دعوةٌ للباحثين للتفكير مليًا في بناء ليس فقط معاييرَ مرجعية، بل تقييماتٍ شاملة، تكون أكثر رسوخًا في واقع توقعاتنا لهذه الأنظمة بعد تطبيقها. حاليًا، يُعدّ التقييم أمرًا ثانويًا. نعتقد أنه من الممكن إيلاء اهتمام أكبر لمنهجية التقييم، ومنهجية تصميم معاييرَ مرجعية، ومنهجية التقييم العادل في هذا المجال.
ثانيًا، يُمكننا المطالبة بمزيد من الشفافية على المستوى المؤسسي، مثلًا من خلال جرد الذكاء الاصطناعي في المستشفيات، حيث يجب على المستشفيات مشاركة القائمة الكاملة لمنتجات الذكاء الاصطناعي المختلفة التي تستخدمها كجزء من ممارساتها السريرية. هذا هو نوع الممارسة على المستوى المؤسسي، على مستوى المستشفى، الذي من شأنه أن يساعدنا حقًا على فهم استخدام الناس لأنظمة الذكاء الاصطناعي حاليًا. إذا نشرت [المستشفيات والمؤسسات الأخرى] معلوماتٍ حول سير العمل الذي تُدمج فيه أنظمة الذكاء الاصطناعي هذه، فقد يُساعدنا ذلك أيضًا على التفكير في تقييمات أفضل. سيكون هذا النوع من العمل على مستوى المستشفى مفيدًا للغاية.
وعلى مستوى الموردين أيضًا، فإن مشاركة المعلومات حول ممارساتهم التقييمية الحالية - وما تعتمد عليه معاييرهم الحالية - تساعدنا على تحديد الفجوة بين ما يفعلونه حاليًا وما قد يكون أكثر واقعية أو أكثر واقعية.
SN: ما نصيحتك للعاملين بهذه النماذج؟
راجي: ينبغي علينا، كمجال، أن نكون أكثر تفكيرًا في التقييمات التي نركز عليها أو التي نعتمد عليها بشكل مفرط في تقييم أدائنا.
من السهل جدًا اختيار النتائج الأسهل - فالفحوصات الطبية هي أكثر الفحوصات الطبية المتاحة. وحتى لو لم تكن تُمثل تمامًا ما يأمل الناس تحقيقه باستخدام هذه النماذج عند نشرها، فإنها تُشبه مجموعة بيانات سهلة التجميع والتركيب والتحميل والتنزيل والتشغيل.
لكنني أدعو المجال إلى أن يكون أكثر تفكيرًا وأن يُولي اهتمامًا أكبر لبناء تمثيلات صحيحة لما نأمل أن تحققه النماذج وتوقعاتنا منها بعد نشرها.
المصدر: