موفقیت هوش مصنوعی: ChatGPT
امتحانات بورد رادیولوژی را پشت سر می گذارد!
هوش مصنوعی، در برابر هوش طبیعی یا همکار هوش طبیعی
16 مه 2023
تشخیص بالینی، هنر پزشک در رویارویی مستقیم با بیمار است ولی امروزه با وجود صدها روش پیشرفته ی آزمایشگاهی و رادیولوژی، تشخیص ها دقیق تر و ساده تر، شده است.
با وجود تسهیل کار پزشک در تشخیص، استفاده ی زیاد از روش های پاراکلینیک، گاهی باعث تشخیص های اشتباه میشود.
اعتماد زیاد پزشکان بر این روش ها، نگاهی از بیرون بیمار، بر بیماری اوست. چون بیماری، جدای از بیمار، قابل تصور نیست نگاه بر بیماری جدای از بیمار، آن نگاه بالینی نیست که از زبان بیمار، بیان میشود.
پیشرفت های کنونی در هوش مصنوعی و تشخیص های رادیولوژی و آزمایشگاهی با کمک آن، هرچند برای بحث های تئوریک و علمی و کمک به پزشکان برای رسیدن به تشخیص درست، خوب است ولی تا پر کردن جای پزشکان انسانی، راه بزرگی در پیش دارد.
خلاصه: ChatGPT با موفقیت یک آزمون به سبک هیئت بورد رادیولوژی را گذرانده است و پتانسیل مدل های بزرگ زبانی را در زمینه های پزشکی نشان می دهد.
این مطالعه از 150 سوال چند گزینه ای استفاده کرد که شبیه سبک آزمون های کالج سلطنتی کانادا و هیئت بورد رادیولوژی آمریکا بود.
ChatGPT،
بر اساس مدل GPT-3.5، به 69٪ از سوالات به درستی پاسخ داد، درست زیر نمره قبولی 70٪.
با این حال، نسخه ی به روز شده GPT-4، توانست از آستانه ی عبور با امتیاز 81 درصد، فراتر رود که پیشرفت های قابل توجهی را به ویژه در سوالات تفکر مرتبه بالاتر نشان می دهد.
علیرغم این پیشرفتها، محدودیتها در قابلیت اطمینان و نادرستیهای احتمالی، که توهمhalucination نامیده میشوند، همچنان مانع از قابلیت استفاده از ChatGPT در آموزش و تمرین پزشکی، میشود.
بر اساس دو مطالعه ی تحقیقاتی جدید منتشر شده در مجله ی Radiology، آخرین نسخه ChatGPT در آزمونی- که به سبک بورد رادیولوژی برگزار شد، و پتانسیل مدلهای بزرگ زبانی را برجسته میکند- موفق بود، اما محدودیتهایی را آشکار میکند که مانع از قابلیت اطمینان میشوند .
ChatGPT یک چت ربات هوش مصنوعی
است که از یک مدل یادگیری عمیق، برای تشخیص الگوها و روابط بین کلمات در دادههای آموزشی گسترده ی خود، استفاده میکند تا پاسخهای مشابه انسان را ایجاد کند. اما از آنجا که هیچ منبعی از حقیقت در دادههای آموزشی آن، وجود ندارد، این ابزار میتواند پاسخهایی ایجاد کند که در واقع نادرست هستند.
راجش بایانا MD، FRCPC، رادیولوژیست و سرپرست فناوری در دانشگاه پزشکی تصویربرداری تورنتو در کانادا، میگوید: «استفاده از مدلهای بزرگ زبانی مانند ChatGPT در حال افزایش است.
تحقیق ما بینشی در مورد عملکرد ChatGPT در زمینه رادیولوژی ارائه می دهد و پتانسیل باورنکردنی مدل های بزرگ زبانی را به همراه محدودیت های فعلی- که آن را غیرقابل اعتماد می کند- برجسته می کند.
دکتر بایانا خاطرنشان کرد که ChatGPT اخیراً به عنوان سریع ترین برنامه ی مصرفی در حال رشد در تاریخ، نامگذاری شده است و چت ربات های مشابه در موتورهای جستجوی محبوبی مانند گوگل و بینگ گنجانده شده اند که پزشکان و بیماران برای جستجوی اطلاعات پزشکی از آنها استفاده می کنند.
دکتر بایانا و همکارانش برای ارزیابی عملکرد آن بر روی سوالات آزمون هیئت بورد رادیولوژی و بررسی نقاط قوت و محدودیتها، ابتدا ChatGPT را بر اساس GPT-3.5- که در حال حاضر رایجترین نسخه است- آزمایش کردند.
محققان از 150 سوال چند گزینه ای برای مطابقت با سبک، محتوای آزمون های کالج سلطنتی کانادا و هیئت بورد رادیولوژی آمریکا استفاده کردند.
سوالات شامل تصاویر نبودند و بر اساس نوع سوال، گروه بندی شدند تا بینشی در مورد عملکرد بدست آورند: تفکر مرتبه پایین (یادآوری دانش، درک پایه) و مرتبه ی بالاتر (اعمال، تجزیه و تحلیل، ترکیب کردن).
سوالات تفکر مرتبه بالاتر، بر اساس نوع (توضیح یافته های تصویربرداری، مدیریت بالینی، محاسبه و طبقه بندی، ارتباط بیماری) طبقه بندی شدند.
عملکرد ChatGPT به طور کلی و بر اساس نوع سوال و موضوع، مورد ارزیابی قرار گرفت. اعتماد زبان در پاسخ ها نیز مورد ارزیابی قرار گرفت.
محققان دریافتند که ChatGPT بر اساس GPT-3.5 به 69 درصد سؤالات (104 از 150) به درستی پاسخ می دهد که نزدیک به نمره قبولی 70 درصدی است که توسط کالج سلطنتی در کانادا استفاده می شود.
این مدل در مورد سؤالاتی که نیاز به تفکر مرتبه ی پایین تر داشتند (84٪، 51 از 61)، عملکرد نسبتاً خوبی داشت، اما با سؤالات مربوط به تفکر مرتبه بالاتر (60٪، 53 از 89) به چالش کشیده شد.
به طور خاص، با سؤالات مرتبه بالاتر شامل شرح یافته های تصویربرداری (61٪، 28 از 46)، محاسبه و طبقه بندی (25٪، 2 از 8)، و کاربرد مفاهیم (30٪، 3 از 10)به چالش کشیده شد.
عملکرد ضعیف آن در سؤالات تفکر مرتبه بالاتر با توجه به فقدان پیش آموزش خاص رادیولوژی، تعجب آور نبود.
GPT-4
- که در مارس 2023 به شکل محدود برای کاربران به صورت پولی منتشر شد- به طور خاص ادعا می کند قابلیت های استدلال پیشرفته را نسبت به GPT-3.5 بهبود بخشیده است.
در مطالعه بعدی، GPT-4 به 81% (121 از 150) سوالات مشابه به درستی پاسخ داد، و عملکرد بهتری از GPT-3.5 داشت و از آستانه عبور از 70% فراتر رفت. GPT-4 در سؤالات تفکر مرتبه بالاتر (81٪)، به ویژه مواردی- که شامل توصیف یافته های تصویربرداری (85٪) و کاربرد مفاهیم (90٪) بودند- بسیار بهتر از GPT-3.5 عمل کرد.
یافتهها نشان میدهد که GPT-4 توانست قابلیتهای استدلال پیشرفته را به عملکرد بهبود یافته در زمینه ی رادیولوژی، ترجمه کند. آنها همچنین درک زمینهای بهتر از اصطلاحات خاص رادیولوژی، از جمله توصیفات تصویربرداری را پیشنهاد می دهند، که برای فعال کردن برنامههای پایین دستی آینده، بسیار مهم است.
دکتر Bhayana گفت: مطالعه ی ما بهبود قابل توجهی در عملکرد ChatGPT در رادیولوژی در یک دوره زمانی کوتاه، نشان می دهد و پتانسیل رو به رشد مدل های بزرگ زبانی را در این زمینه برجسته می کند.
GPT-4
هیچ بهبودی در سؤالات تفکر مرتبه ی پایین نشان نداد (80٪ در مقابل 84٪) و به 12 سؤال نادرست، پاسخ داد که GPT-3.5 به درستی پاسخ داد، و سؤالات مربوط به قابلیت اطمینان آن برای جمع آوری اطلاعات را ایجاد کرد.
دکتر Bhayana گفت: ما در ابتدا از پاسخ های دقیق و مطمئن ChatGPT به برخی از سوالات چالش برانگیز رادیولوژی، شگفت زده شدیم، اما بعدا به همان اندازه از اظهارات بسیار غیرمنطقی و نادرست، شگفت زده شدیم.
البته، با توجه به نحوه عملکرد این مدلها، پاسخهای نادرست، نباید بهویژه تعجبآور باشد.»
تمایل خطرناک ChatGPT برای ایجاد پاسخهای نادرست، که توهم نامیده میشود، در GPT-4 کمتر دیده میشود، اما در حال حاضر هنوز قابلیت استفاده از آن را در آموزش و تمرین پزشکی محدود میکند.
هر دو مطالعه، نشان دادند ChatGPT به طور مداوم از زبان قطعی confident languageاستفاده میکرد، حتی اگر جواب نادرست باشد.
دکتر بایانا خاطرنشان می کند که این به ویژه برای افراد تازه کار که ممکن است پاسخ های نادرست قطعی را تشخیص ندهند، اگر صرفاً برای اطلاعات چت تکیه شود، خطرناک است.
برای من، این بزرگترین محدودیت آن است. در حال حاضر، ChatGPT بهترین استفاده را برای جرقه زدن ایده ها، کمک به شروع فرآیند نوشتن پزشکی و در خلاصه سازی داده ها دارد. دکتر Bhayana گفت: اگر برای یادآوری سریع اطلاعات، استفاده شود، همیشه باید واقعیت را بررسی کرد.
نویسنده: لیندا بروکس
منبع: RSNA
نتیجه
با وجود اینکه هیچ پیشآموزشی مخصوص رادیولوژی وجود نداشت، ChatGPT تقریباً یک معاینه به سبک هیئت رادیولوژی را بدون عکس، پشت سر گذاشت. در سؤالات تفکر درجه ی پایین و سؤالات مدیریت بالینی عملکرد خوبی داشت، اما با سؤالات تفکر مرتبه بالاتر شامل شرح یافته های تصویربرداری، محاسبه و طبقه بندی و کاربرد مفاهیم به چالش کشیده شد.
خلاصه
GPT-4
در رادیولوژی: بهبود در استدلال پیشرفته
ChatGPT
یک مدل شبکه عصبی قدرتمند است که متعلق به خانواده مدلهای زبان بزرگ (LLM) ترانسفورماتور پیشآموزشدهی ژنراتور
(GPT)
است. علیرغم اینکه ChatGPT عمدتاً برای مکالمات شبیه انسان ایجاد شده است، تطبیق پذیری قابل توجهی از خود نشان داده است و پتانسیل ایجاد انقلاب در بسیاری از صنایع را دارد. https://neurosciencenews.com/ai-radiology-chatgpt-23252/?fbclid=IwAR28Arp0ypbnd-h6PIKncb6mHUOcnZAWaGOBcRNhmzWciXK3_cYKtF8Y46s
آدرس مطب : اصفهان ، خیابان آمادگاه ، روبروی داروخانه سپاهان ، مجتمع اطبا ، طبقه اول
تلفن : 32223328 - 031