تحضير مرضى السرطان لاتخاذ القرارات الصعبة هي وظيفة طبيب الأورام. ومع ذلك، لا يتذكرون دائمًا القيام بذلك. في النظام الصحي بجامعة بنسلفانيا، يتم دفع الأطباء للحديث عن علاج المريض و تفضيلات نهاية الحياة بواسطة خوارزمية ذكية اصطناعية تتنبأ بفرص الوفاة.
لكنها أبعد ما تكون عن كونها أداة ضبطها ونسيانها. وكشف فحص تقني روتيني عن تدهور الخوارزمية خلال جائحة كوفيد-19، حيث أصبحت أسوأ بنسبة 7 نقاط مئوية في التنبؤ بمن سيموت، وفقًا لدراسة أجريت عام 2022.
كانت هناك تأثيرات محتملة على الحياة الواقعية. وقال رافي باريك، عالم الأورام بجامعة إيموري والمؤلف الرئيسي للدراسة، لـ KFF Health News إن الأداة فشلت مئات المرات في حث الأطباء على بدء تلك المناقشة المهمة – ربما لتجنب العلاج الكيميائي غير الضروري – مع المرضى الذين يحتاجون إليه.
وهو يعتقد أن العديد من الخوارزميات المصممة لتعزيز الرعاية الطبية ضعفت خلال الأزمة جائحة، وليس فقط الموجود في بن ميدسين. وقال باريك: “العديد من المؤسسات لا تراقب أداء منتجاتها بشكل روتيني”.
تمثل مواطن الخلل في الخوارزميات أحد جوانب المعضلة التي اعترف بها علماء الكمبيوتر والأطباء منذ فترة طويلة، ولكنها بدأت تحير المديرين التنفيذيين والباحثين في المستشفيات: تتطلب أنظمة الذكاء الاصطناعي مراقبة متسقة وموظفين لوضعها في مكانها الصحيح والحفاظ على عملها بشكل جيد.
في الجوهر: أنت بحاجة إلى أشخاص، والمزيد من الآلات، للتأكد من أن الأدوات الجديدة لن تفسد.
وقال نيجام شاه، كبير علماء البيانات في جامعة ستانفورد للرعاية الصحية: “يعتقد الجميع أن الذكاء الاصطناعي سيساعدنا في الوصول إلى الرعاية وتعزيز قدراتنا وتحسين الرعاية وما إلى ذلك”. “كل هذا جميل وجيد، ولكن إذا أدى إلى زيادة تكلفة الرعاية بنسبة 20%، فهل هذا قابل للتطبيق؟”
ويشعر المسؤولون الحكوميون بالقلق من أن المستشفيات تفتقر إلى الموارد اللازمة لتطبيق هذه التقنيات على خطواتها. وقال روبرت كاليف، مفوض إدارة الغذاء والدواء الأمريكية، في حلقة نقاشية حديثة للوكالة حول الذكاء الاصطناعي: “لقد بحثت بعيدًا وواسعًا”. “لا أعتقد أن هناك نظامًا صحيًا واحدًا في الولايات المتحدة قادر على التحقق من صحة خوارزمية الذكاء الاصطناعي التي يتم وضعها في نظام الرعاية السريرية.”
الذكاء الاصطناعي منتشر على نطاق واسع بالفعل في الرعاية الصحية. تُستخدم الخوارزميات للتنبؤ بخطر وفاة المرضى أو تدهور حالتهم، ولاقتراح التشخيص أو فرز المرضى، ولتسجيل وتلخيص الزيارات إلى المستشفى. حفظ عمل الأطباء وإلى الموافقة على مطالبات التأمين.
إذا كان المبشرون بالتكنولوجيا على حق، فسوف تصبح التكنولوجيا منتشرة في كل مكان – ومربحة. حددت شركة الاستثمار Bessemer Venture Partners حوالي 20 شركة ناشئة في مجال الذكاء الاصطناعي تركز على الصحة في طريقها لتحقيق إيرادات بقيمة 10 ملايين دولار لكل منها سنويًا. وافقت إدارة الغذاء والدواء الأمريكية (FDA) على ما يقرب من ألف منتج للذكاء الاصطناعي.
يعد تقييم مدى نجاح هذه المنتجات أمرًا صعبًا. إن تقييم ما إذا كانوا مستمرين في العمل – أو أنهم طوروا برنامجًا مكافئًا للحشية المنفوخة أو المحرك المتسرب – يعد أمرًا أكثر صعوبة.
خذ على سبيل المثال دراسة حديثة أجرتها جامعة ييل الطبية لتقييم ستة “أنظمة إنذار مبكر”، والتي تنبه الأطباء عندما يكون من المحتمل أن يتدهور المرضى بسرعة. وقالت دانا إيدلسون، الطبيبة في جامعة شيكاغو والمؤسس المشارك لشركة قدمت خوارزمية واحدة للدراسة، إن حاسوبًا عملاقًا قام بتشغيل البيانات لعدة أيام. وكانت العملية مثمرة، وأظهرت اختلافات كبيرة في الأداء بين المنتجات الستة.
ليس من السهل على المستشفيات ومقدمي الخدمات اختيار أفضل الخوارزميات التي تناسب احتياجاتهم. لا يمتلك الطبيب العادي جهاز كمبيوتر عملاقًا، ولا توجد تقارير المستهلك الخاصة بالذكاء الاصطناعي.
وقال جيسي إهرنفيلد، الرئيس السابق للجمعية الطبية الأمريكية: “ليس لدينا معايير”. “لا يوجد شيء يمكنني أن أشير إليه اليوم باعتباره معيارًا حول كيفية تقييم ومراقبة ومراقبة أداء نموذج الخوارزمية، سواء كان مدعومًا بالذكاء الاصطناعي أم لا، عند نشره.”
ولعل منتج الذكاء الاصطناعي الأكثر شيوعًا في مكاتب الأطباء يسمى التوثيق المحيط، وهو مساعد مدعوم بالتكنولوجيا يستمع إلى زيارات المرضى ويلخصها. حتى الآن هذا العام، قام المستثمرون في Rock Health بتتبع تدفق 353 مليون دولار إلى شركات التوثيق هذه. لكن إهرنفيلد قال: “لا يوجد معيار في الوقت الحالي لمقارنة نتائج هذه الأدوات”.
وهذه مشكلة، حتى عندما تكون الأخطاء الصغيرة مدمرة. حاول فريق من جامعة ستانفورد استخدام نماذج لغوية كبيرة – وهي التقنية التي تقوم عليها أدوات الذكاء الاصطناعي الشائعة مثل ChatGPT – لتلخيص التاريخ الطبي للمرضى. وقارنوا النتائج بما سيكتبه الطبيب.
وقال شاه من جامعة ستانفورد: “حتى في أفضل الحالات، كان معدل الخطأ في النماذج يبلغ 35%”. في الطب، “عندما تكتب ملخصًا وتنسى كلمة واحدة، مثل “الحمى” – أعني أن هذه مشكلة، أليس كذلك؟”
في بعض الأحيان تكون أسباب فشل الخوارزميات منطقية إلى حد ما. على سبيل المثال، يمكن أن تؤدي التغييرات في البيانات الأساسية إلى تآكل فعاليتها، كما هو الحال عندما تقوم المستشفيات بتغيير مقدمي المختبرات.
لكن في بعض الأحيان تنفتح المزالق دون سبب واضح.
قال ساندي أرونسون، المدير التنفيذي للتكنولوجيا في برنامج الطب الشخصي التابع لشركة ماس جنرال بريجهام في بوسطن، إنه عندما اختبر فريقه تطبيقًا واحدًا يهدف إلى مساعدة المستشارين الوراثيين في تحديد الأدبيات ذات الصلة حول متغيرات الحمض النووي، عانى المنتج من “عدم الحتمية” – أي عندما سئل نفس الشيء السؤال عدة مرات في فترة قصيرة، أعطى نتائج مختلفة.
إن أرونسون متحمس بشأن إمكانية وجود نماذج لغوية كبيرة لتلخيص المعرفة للمستشارين الوراثيين المثقلين بالأعباء، ولكن “التكنولوجيا بحاجة إلى التحسين”.
إذا كانت المقاييس والمعايير متناثرة ويمكن أن تظهر الأخطاء لأسباب غريبة، فما الذي يجب على المؤسسات أن تفعله؟ استثمر الكثير من الموارد. في جامعة ستانفورد، قال شاه، استغرق الأمر من ثمانية إلى عشرة أشهر و115 ساعة عمل فقط لمراجعة نموذجين من حيث العدالة والموثوقية.
طرح الخبراء الذين قابلتهم KFF Health News فكرة مراقبة الذكاء الاصطناعي للذكاء الاصطناعي، مع بعض البيانات (البشرية) التي تراقب كليهما. واعترف الجميع بأن ذلك سيتطلب من المؤسسات إنفاق المزيد من الأموال، وهو أمر صعب بالنظر إلى واقع ميزانيات المستشفيات والعرض المحدود من المتخصصين في تكنولوجيا الذكاء الاصطناعي.
وقال شاه: “من الرائع أن تكون لدينا رؤية حيث نقوم بإذابة الجبال الجليدية من أجل الحصول على نموذج يراقب نموذجهم”. “ولكن هل هذا حقا ما أردته؟ كم عدد الأشخاص الذين سنحتاجهم؟”
أخبار الصحة KFF هي غرفة أخبار وطنية تنتج صحافة متعمقة حول القضايا الصحية وهي أحد برامج التشغيل الأساسية في KFF — المصدر المستقل لأبحاث السياسة الصحية واستطلاعات الرأي والصحافة.