كشفت دراسة حديثة أجراها باحثون من جامعتي “هارفارد” و”ستانفورد” عن إمكانيات نموذج الذكاء الاصطناعي o1-preview من شركة OpenAI في تجاوز أداء الأطباء في تشخيص الحالات الطبية المعقدة.
الدراسة، التي اعتمدت على اختبارات تشخيصية شاملة، أظهرت أن النموذج حقق قفزة نوعية مقارنة بالإصدارات السابقة، حيث تمكن من تشخيص 78.3% من الحالات بدقة.
وفي مقارنة مباشرة شملت 70 حالة محددة، ارتفعت دقة التشخيص إلى 88.6%، مقارنة بـ 72.9% فقط لنموذج GPT-4.
النموذج أظهر أداءً استثنائيًا في مجال التفكير الطبي، حيث حصل على درجات عالية في 78 من أصل 80 حالة وفق مقياس R-IDEA، المستخدم لتقييم جودة الاستدلال الطبي.
في المقابل، حقق الأطباء المتمرسون درجات عالية في 28 حالة فقط، بينما لم يتمكن الأطباء المقيمون إلا من تحقيق درجات عالية في 16 حالة.
على الرغم من أن الباحثين أشاروا إلى احتمال أن يكون النموذج قد تعرض لبعض الحالات أثناء تدريبه، إلا أن أداءه ظل مميزًا عند اختباره على حالات جديدة لم يسبق أن تعامل معها، مع تسجيل انخفاض طفيف في الدقة.
نقاط القوة والضعف
تميز النموذج في إدارة الحالات الطبية المعقدة، حيث تفوق في تشخيص حالات صممت خصيصًا لاختبار قدراته وأظهرت تحديًا للأطباء.
سجل النموذج 86% من النقاط في هذه الحالات، وهو أكثر من ضعف ما حققه الأطباء باستخدام GPT-4 أو الأدوات التقليدية الأخرى.
ومع ذلك، واجه النموذج صعوبات في تقدير الاحتمالات بدقة، إذ أظهر ميلاً إلى المبالغة، مثل تقديره لفرص الإصابة بالالتهاب الرئوي بنسبة 70%، وهي نسبة أعلى بكثير من المعدلات الواقعية البالغة 25-42%.
التطبيقات والتحديات
أوضح الباحثون أن نموذج o1-preview يتمتع بقدرات استثنائية في التفكير النقدي وتقديم التوصيات العلاجية، لكنه يواجه تحديات في المهام التجريدية مثل تقدير الاحتمالات.
كما أشاروا إلى أن إجابات النموذج التفصيلية رفعت من تقييمه بشكل كبير، مع التنويه بأن الدراسة ركزت على أدائه المستقل دون دراسة كيفية تعاونه مع الأطباء.
شركة OpenAI كانت قد أعلنت مؤخرًا عن إطلاق الإصدار الكامل o1، إلى جانب الإصدار o3 الذي أظهر تحسينات كبيرة في التفكير التحليلي. لكن النماذج الجديدة تواجه انتقادات بشأن التكلفة العالية للفحوصات التي تقترحها وصعوبة تطبيقها في بيئات الرعاية الصحية الواقعية.
تصريحات وتحذيرات
في تعليق على الدراسة، قال الدكتور آدم رودمان، أحد المشاركين فيها، عبر منصة “إكس”: “إنها المرة الأولى التي أروّج فيها لمسودة دراسة قبل مراجعتها بالكامل، لأن النتائج تحمل انعكاسات كبيرة على الممارسة الطبية”.
لكنه حذر من المبالغة في التوقعات، قائلاً: “هذه دراسة معيارية تستخدم معايير تقييم ذهبية للأطباء، لكنها لا تعكس واقع الرعاية الطبية. لا تتخلوا عن أطبائكم لصالح الذكاء الاصطناعي”.
دعوات للتطوير
ختامًا، دعا الباحثون إلى تطوير طرق تقييم أفضل لأنظمة الذكاء الاصطناعي في المجال الطبي، تشمل تجارب سريرية واقعية وبنية تحتية تقنية متقدمة.
الهدف هو تعزيز التعاون بين الأطباء ونماذج الذكاء الاصطناعي لتحقيق أقصى استفادة في بيئات الرعاية الصحية وتحسين جودة التشخيص والعلاج