موفقیت هوش مصنوعی در امتحان بورد تخصصی | دکتر سید سلمان فاطمی

کانال تلگرام دکتر فاطمی

کانال تلگرام دکتر سید سلمان فاطمی محتوی جذابترین مطالب و درمانهای نوین در بیماریهای مغز و اعصاب

آدرس مطب دکتر سلمان فاطم

آدرس مطب دکتر سید سلمان فاطمی :خیابان آمادگاه . روبروی داروخانه سپاهان ساختمان اطبا تلفن : 32223328

آدرس دکتر زهره ابوطالبی

متخصص بیماریهای زنان و زایمان و نازایی . . -- سزارین نوار قلب جنین

موفقیت هوش مصنوعی در امتحان بورد تخصصی

موفقیت هوش مصنوعی: ChatGPT
امتحانات بورد رادیولوژی را پشت سر می گذارد!
هوش مصنوعی، در برابر هوش طبیعی یا همکار هوش طبیعی
16 مه 2023
تشخیص بالینی، هنر پزشک در رویارویی مستقیم با بیمار است ولی امروزه با وجود صدها روش پیشرفته ی آزمایشگاهی و رادیولوژی، تشخیص ها دقیق تر و ساده تر، شده است.
با وجود تسهیل کار پزشک در تشخیص، استفاده ی زیاد از روش های پاراکلینیک، گاهی باعث تشخیص های اشتباه می‌شود.
اعتماد زیاد پزشکان بر این روش ها، نگاهی از بیرون بیمار، بر بیماری اوست. چون بیماری، جدای از بیمار، قابل تصور نیست نگاه بر بیماری جدای از بیمار، آن نگاه بالینی نیست که از زبان بیمار، بیان می‌شود.
پیشرفت های کنونی در هوش مصنوعی و تشخیص های رادیولوژی و آزمایشگاهی با کمک آن، هرچند برای بحث های تئوریک و علمی و کمک به پزشکان برای رسیدن به تشخیص درست، خوب است ولی تا پر کردن جای پزشکان انسانی، راه بزرگی در پیش دارد.
خلاصه: ChatGPT با موفقیت یک آزمون به سبک هیئت بورد رادیولوژی را گذرانده است و پتانسیل مدل های بزرگ زبانی را در زمینه های پزشکی نشان می دهد.
این مطالعه از 150 سوال چند گزینه ای استفاده کرد که شبیه سبک آزمون های کالج سلطنتی کانادا و هیئت بورد رادیولوژی آمریکا بود.
ChatGPT،
بر اساس مدل GPT-3.5، به 69٪ از سوالات به درستی پاسخ داد، درست زیر نمره قبولی 70٪.
با این حال، نسخه ی به روز شده GPT-4، توانست از آستانه ی عبور با امتیاز 81 درصد، فراتر رود که پیشرفت های قابل توجهی را به ویژه در سوالات تفکر مرتبه بالاتر نشان می دهد.
علی‌رغم این پیشرفت‌ها، محدودیت‌ها در قابلیت اطمینان و نادرستی‌های احتمالی، که توهمhalucination نامیده می‌شوند، همچنان مانع از قابلیت استفاده از ChatGPT در آموزش و تمرین پزشکی، می‌شود.
بر اساس دو مطالعه ی تحقیقاتی جدید منتشر شده در مجله ی Radiology، آخرین نسخه ChatGPT در آزمونی- که به سبک بورد رادیولوژی برگزار شد، و پتانسیل مدل‌های بزرگ زبانی را برجسته می‌کند- موفق بود، اما محدودیت‌هایی را آشکار می‌کند که مانع از قابلیت اطمینان می‌شوند .
ChatGPT یک چت ربات هوش مصنوعی
است که از یک مدل یادگیری عمیق، برای تشخیص الگوها و روابط بین کلمات در داده‌های آموزشی گسترده ی خود، استفاده می‌کند تا پاسخ‌های مشابه انسان‌ را ایجاد کند. اما از آنجا که هیچ منبعی از حقیقت در داده‌های آموزشی آن، وجود ندارد، این ابزار می‌تواند پاسخ‌هایی ایجاد کند که در واقع نادرست هستند.
راجش بایانا MD، FRCPC، رادیولوژیست و سرپرست فناوری در دانشگاه پزشکی تصویربرداری تورنتو در کانادا، می‌گوید: «استفاده از مدل‌های بزرگ زبانی مانند ChatGPT در حال افزایش است.
تحقیق ما بینشی در مورد عملکرد ChatGPT در زمینه رادیولوژی ارائه می دهد و پتانسیل باورنکردنی مدل های بزرگ زبانی را به همراه محدودیت های فعلی- که آن را غیرقابل اعتماد می کند- برجسته می کند.
دکتر بایانا خاطرنشان کرد که ChatGPT اخیراً به عنوان سریع ترین برنامه ی مصرفی در حال رشد در تاریخ، نامگذاری شده است و چت ربات های مشابه در موتورهای جستجوی محبوبی مانند گوگل و بینگ گنجانده شده اند که پزشکان و بیماران برای جستجوی اطلاعات پزشکی از آنها استفاده می کنند.
دکتر بایانا و همکارانش برای ارزیابی عملکرد آن بر روی سوالات آزمون هیئت بورد رادیولوژی و بررسی نقاط قوت و محدودیت‌ها، ابتدا ChatGPT را بر اساس GPT-3.5- که در حال حاضر رایج‌ترین نسخه است- آزمایش کردند.
محققان از 150 سوال چند گزینه ای برای مطابقت با سبک، محتوای آزمون های کالج سلطنتی کانادا و هیئت بورد رادیولوژی آمریکا استفاده کردند.
سوالات شامل تصاویر نبودند و بر اساس نوع سوال، گروه بندی شدند تا بینشی در مورد عملکرد بدست آورند: تفکر مرتبه پایین (یادآوری دانش، درک پایه) و مرتبه ی بالاتر (اعمال، تجزیه و تحلیل، ترکیب کردن).
سوالات تفکر مرتبه بالاتر، بر اساس نوع (توضیح یافته های تصویربرداری، مدیریت بالینی، محاسبه و طبقه بندی، ارتباط بیماری) طبقه بندی شدند.
عملکرد ChatGPT به طور کلی و بر اساس نوع سوال و موضوع، مورد ارزیابی قرار گرفت. اعتماد زبان در پاسخ ها نیز مورد ارزیابی قرار گرفت.
محققان دریافتند که ChatGPT بر اساس GPT-3.5 به 69 درصد سؤالات (104 از 150) به درستی پاسخ می دهد که نزدیک به نمره قبولی 70 درصدی است که توسط کالج سلطنتی در کانادا استفاده می شود.
این مدل در مورد سؤالاتی که نیاز به تفکر مرتبه ی پایین تر داشتند (84٪، 51 از 61)، عملکرد نسبتاً خوبی داشت، اما با سؤالات مربوط به تفکر مرتبه بالاتر (60٪، 53 از 89) به چالش کشیده شد.
به طور خاص، با سؤالات مرتبه بالاتر شامل شرح یافته های تصویربرداری (61٪، 28 از 46)، محاسبه و طبقه بندی (25٪، 2 از 8)، و کاربرد مفاهیم (30٪، 3 از 10)به چالش کشیده شد.

عملکرد ضعیف آن در سؤالات تفکر مرتبه بالاتر با توجه به فقدان پیش آموزش خاص رادیولوژی، تعجب آور نبود.
GPT-4
- که در مارس 2023 به شکل محدود برای کاربران به صورت پولی منتشر شد- به طور خاص ادعا می کند قابلیت های استدلال پیشرفته را نسبت به GPT-3.5 بهبود بخشیده است.
در مطالعه بعدی، GPT-4 به 81% (121 از 150) سوالات مشابه به درستی پاسخ داد، و عملکرد بهتری از GPT-3.5 داشت و از آستانه عبور از 70% فراتر رفت. GPT-4 در سؤالات تفکر مرتبه بالاتر (81٪)، به ویژه مواردی- که شامل توصیف یافته های تصویربرداری (85٪) و کاربرد مفاهیم (90٪) بودند- بسیار بهتر از GPT-3.5 عمل کرد.
یافته‌ها نشان می‌دهد که GPT-4 توانست قابلیت‌های استدلال پیشرفته را به عملکرد بهبود یافته در زمینه ی رادیولوژی، ترجمه کند. آنها همچنین درک زمینه‌ای بهتر از اصطلاحات خاص رادیولوژی، از جمله توصیفات تصویربرداری را پیشنهاد می دهند، که برای فعال کردن برنامه‌های پایین دستی آینده، بسیار مهم است.
دکتر Bhayana گفت: مطالعه ی ما بهبود قابل توجهی در عملکرد ChatGPT در رادیولوژی در یک دوره زمانی کوتاه، نشان می دهد و پتانسیل رو به رشد مدل های بزرگ زبانی را در این زمینه برجسته می کند.
GPT-4
هیچ بهبودی در سؤالات تفکر مرتبه ی پایین نشان نداد (80٪ در مقابل 84٪) و به 12 سؤال نادرست، پاسخ داد که GPT-3.5 به درستی پاسخ داد، و سؤالات مربوط به قابلیت اطمینان آن برای جمع آوری اطلاعات را ایجاد کرد.
دکتر Bhayana گفت: ما در ابتدا از پاسخ های دقیق و مطمئن ChatGPT به برخی از سوالات چالش برانگیز رادیولوژی، شگفت زده شدیم، اما بعدا به همان اندازه از اظهارات بسیار غیرمنطقی و نادرست، شگفت زده شدیم.
البته، با توجه به نحوه عملکرد این مدل‌ها، پاسخ‌های نادرست، نباید به‌ویژه تعجب‌آور باشد.»
تمایل خطرناک ChatGPT برای ایجاد پاسخ‌های نادرست، که توهم نامیده می‌شود، در GPT-4 کمتر دیده می‌شود، اما در حال حاضر هنوز قابلیت استفاده از آن را در آموزش و تمرین پزشکی محدود می‌کند.
هر دو مطالعه، نشان دادند ChatGPT به طور مداوم از زبان قطعی confident languageاستفاده می‌کرد، حتی اگر جواب نادرست باشد.
دکتر بایانا خاطرنشان می کند که این به ویژه برای افراد تازه کار که ممکن است پاسخ های نادرست قطعی را تشخیص ندهند، اگر صرفاً برای اطلاعات چت تکیه شود، خطرناک است.
برای من، این بزرگترین محدودیت آن است. در حال حاضر، ChatGPT بهترین استفاده را برای جرقه زدن ایده ها، کمک به شروع فرآیند نوشتن پزشکی و در خلاصه سازی داده ها دارد. دکتر Bhayana گفت: اگر برای یادآوری سریع اطلاعات، استفاده شود، همیشه باید واقعیت را بررسی کرد.
نویسنده: لیندا بروکس
منبع: RSNA
نتیجه
با وجود اینکه هیچ پیش‌آموزشی مخصوص رادیولوژی وجود نداشت، ChatGPT تقریباً یک معاینه به سبک هیئت رادیولوژی را بدون عکس، پشت سر گذاشت. در سؤالات تفکر درجه ی پایین و سؤالات مدیریت بالینی عملکرد خوبی داشت، اما با سؤالات تفکر مرتبه بالاتر شامل شرح یافته های تصویربرداری، محاسبه و طبقه بندی و کاربرد مفاهیم به چالش کشیده شد.
خلاصه
GPT-4
در رادیولوژی: بهبود در استدلال پیشرفته
ChatGPT
یک مدل شبکه عصبی قدرتمند است که متعلق به خانواده مدل‌های زبان بزرگ (LLM) ترانسفورماتور پیش‌آموزش‌دهی ژنراتور
(GPT)
است. علیرغم اینکه ChatGPT عمدتاً برای مکالمات شبیه انسان ایجاد شده است، تطبیق پذیری قابل توجهی از خود نشان داده است و پتانسیل ایجاد انقلاب در بسیاری از صنایع را دارد. https://neurosciencenews.com/ai-radiology-chatgpt-23252/?fbclid=IwAR28Arp0ypbnd-h6PIKncb6mHUOcnZAWaGOBcRNhmzWciXK3_cYKtF8Y46s

آدرس مطب : اصفهان ، خیابان آمادگاه ، روبروی داروخانه سپاهان ، مجتمع اطبا ، طبقه اول
تلفن : 32223328 - 031

نظرات کاربران درباره این مطلب :

برای متن پیام فقط از حروف فارسی استفاده کنید .
این فرم صرفا جهت دریافت نظرات ، پیشنهادات و انتقادات کاربران در مورد مطلب فوق میباشد .
به سوالات پزشکی در این بخش پاسخ داده نمیشود .
از ارسال پیام های تبلیغاتی در این بخش خودداری نمایید .
حداکثر طول مجاز برای متن پیام 500 کاراکتر است .

نام و فامیل :
تلفن :
ایمیل :
متن پیـام :

دکتر سید سلمان فاطمی

متخصص داخلی مغز و اعصاب