مقایسه نتایج اکوکاردیوگرافی مبتنی بر هوش مصنوعیheartModel AI با MRI قلبی (CMR)

کلیدواژه ها و توضیح آنها

ارتقای دقت در مدیریت نارسایی قلبی: نوآوری در اکوکاردیوگرافی با هوش مصنوعی

نویسنده اصلی: دکتر محبوبه شیخ

در دنیای امروز، تشخیص دقیق و سریع بیماری‌های قلبی، به‌ویژه «کاردیومیوپاتی اتساعی» (DCM)، سنگ‌بنای درمان موفق است. پژوهش جدید ما که به سرپرستی دکتر محبوبه شیخ انجام شده، نشان می‌دهد چگونه هوش مصنوعی می‌تواند استانداردهای تصویربرداری قلب را متحول کند. در این مطالعه، ما کارایی سامانه پیشرفته HeartModel^AI را در ارزیابی عملکرد بطن چپ مورد بررسی قرار دادیم. یافته‌های کلیدی ما نشان می‌دهد که:

دقت بالا و بازتولیدپذیری عالی: همبستگی بسیار قوی بین اندازه‌گیری‌های خودکار هوش مصنوعی و استاندارد طلایی (MRI قلب) مشاهده شد.
ثبات عملیاتی: نتایج به‌دست‌آمده توسط این سامانه در زمان‌های مختلف و توسط افراد مختلف، بسیار پایدار و دارای کمترین میزان خطا (تغییرپذیری کمتر از ۱۰ درصد) است.
ترکیب هوش و تخصص: این فناوری نه تنها سرعت ارزیابی را به شکل چشمگیری افزایش می‌دهد، بلکه با حفظ قابلیت «اصلاح دستی»، دقت نهایی را در پیچیده‌ترین موارد بالینی تضمین می‌کند.

نتیجه‌گیری نهایی پژوهش ما روشن است: HeartModel^AI ابزاری قابل اعتماد، سریع و دقیق برای پایش دقیق سلامت قلب در بیماران مبتلا به نارسایی قلبی است. ما با ادغام این فناوری در فرآیندهای بالینی، گامی بزرگ در جهت شخصی‌سازی درمان و بهبود پیامدهای درمانی برای بیماران قلبی برداشته‌ایم. آیا به دنبال ارزیابی دقیق وضعیت عملکرد قلب خود با بهره‌گیری از به‌روزترین متدهای علمی و هوش مصنوعی هستید؟ در کلینیک تخصصی ما، با بهره‌گیری از پروتکل‌های پژوهشیِ مبتنی بر HeartModel^AI و دانش تیم‌های تخصصی، بالاترین استاندارد خدمات اکوکاردیوگرافی را به شما ارائه می‌دهیم. دقت در تشخیص، تضمین‌کننده امنیت در درمان شماست. برای دریافت نوبت و بهره‌مندی از خدمات اکوکاردیوگرافی تخصصی، همین امروز با ما تماس بگیرید.

منبع :

Comparing HeartModel^AI and cardiac magnetic resonance imaging for left ventricular volume and function evaluation in patients with dilated cardiomyopathy

🔵مقدمه

قلب ما چهار حفره دارد. یکی از مهم‌ترین آن‌ها بطن چپ است؛ بخشی که خونِ تازه را با قدرت به همهٔ بدن پمپ می‌کند. وقتی این بخش ضعیف یا گشاد شود، قلب نمی‌تواند خوب کار کند و فرد ممکن است دچار نارسایی قلبی شود. در بیماری‌ای به نام کاردیومیوپاتی اتساعی، بطن چپ بزرگ و کشیده می‌شود و قدرت پمپاژش کم می‌شود. برای بررسی این وضعیت، پزشکان باید بدانند:

بطن چپ چقدر خون در خود نگه می‌دارد؟
بعد از هر ضربان، چقدر از خون را بیرون می‌فرستد؟
عضلهٔ قلب چقدر ضخیم یا سنگین شده است؟
و در کل، عملکرد قلب چقدر خوب یا بد است؟

اکوکاردیوگرافی (سونوگرافی قلب) به عنوان روشی ارزان، در دسترس و بدون عارضه شناخته می‌شود، اما پاشنهٔ آشیل آن، وابستگی شدید به مهارت و تخصص بالای پزشک است تا اطمینان حاصل شود که پزشکان مختلف در ارزیابی خود به نتیجهٔ واحدی می‌رسند. در مقابل، MRI قلبی (CMR) با وجود اینکه استاندارد طلایی تصویربرداری است، بسیار گران‌قیمت بوده و با محدودیت‌های کاربردی جدی از جمله منع مطلق برای بیماران دارای دستگاه‌های فلزی کاشته‌شده (مانند پیس‌میکر یا دفیبریلاتور)، پروتزهای فلزی، و همچنین عدم تحمل در بیماران مبتلا به کلاستروفوبیا (ترس از فضاهای بسته) به دلیل فضای تنگ دستگاه مواجه است.

علاوه بر این، استفاده از ماده حاجب در MRI می‌تواند با خطر واکنش‌های آلرژیک، و خودِ فرایند تصویربرداری با احتمال ایجاد صدای بسیار بلند یا ناراحتی‌های ناشی از طولانی بودن زمان اسکن همراه باشد.

با توجه به این چالش‌ها، سؤال بنیادین دکتر محبوبه شیخ و همکاران در این پژوهش این بود که آیا می‌توان با بهره‌گیری از اکوکاردیوگرافی و یک مدل پیشرفتهٔ هوش مصنوعی، به همان سطح از قابلیت اطمینان و دقت در تشخیص دست یافت که از MRI قلبی انتظار می‌رود؟ بنابراین، دکتر محبوبه شیخ و همکاران نتایج حاصل از MRI را به عنوان «جواب قطعی» (استاندارد طلایی) در ارزیابی یک بیماری قلبی خاص در نظر گرفتند تا عملکرد مدل هوش مصنوعی را که بر پایهٔ هزاران نمونهٔ برچسب‌دار آموزش دیده است، در اندازه‌گیری دقیق و تشخیص بالینی محک بزنند.

بیماری «کاردیومیوپاتی اتساعی یا DCM» که در آن بطن چپ قلب دچار اتساع (گشادی) و ضعف در پمپاژ می‌شود، به دلیل ماهیت پیچیدهٔ تغییرات ساختاری‌اش انتخاب شد. در این بیماران، اندازه‌گیری حجم‌ها و عملکرد بطن چپ به دلیل گشادی بیش از حد حفره و کاهش کسر جهشی، چالش‌برانگیزتر از افراد سالم است. بنابراین، ارزیابی مدل هوش مصنوعی در گروه بیماران DCM، در واقع سنجش توانایی این مدل در یکی از سخت‌ترین و حیاتی‌ترین سناریوهای بالینی بود تا مشخص شود آیا هوش مصنوعی می‌تواند در شرایطی که مرزهای قلب به دلیل بیماری تغییر شکل داده‌اند، همچنان دقت خود را حفظ کند یا خیر.

نرم‌افزار HeartModel^AI به عنوان یک هوش مصنوعی تجاری و پیشرفته انتخاب شد، چرا که برای «کمّی‌سازی کاملاً خودکار» اکوکاردیوگرافی سه‌بعدی طراحی شده است. این مدل با تکیه بر الگوریتم‌های یادگیری ماشین و آموزش بر روی هزاران نمونهٔ استاندارد، این قابلیت را دارد که بدون دخالت مستقیم دست، مرزهای ساختاری قلب را شناسایی کند. هدف از انتخاب این مدل، ارزیابی این مسئله بود که آیا هوش مصنوعی می‌تواند به عنوان یک دستیار دقیق، خطای انسانی را در اندازه‌گیری اکوکاردیوگرافی کاهش داده و نتایجی همسو با روش‌های دقیق تصویربرداری ارائه دهد.

اندازه‌گیری دقیق حجم‌های پایان سیستولی و دیاستولی (LVESVI و LVEDVI)، کسر جهشی (LVEF) و حجم ضربه‌ای (SV)، سنگ‌بنای مدیریت بیماران قلبی است. این متغیرها مستقیم‌ترین شاخص‌های سلامت پمپاژ قلب هستند. انتخاب این متغیرها به این دلیل بود که تغییرات کوچک در آن‌ها می‌تواند تفاوت بین یک بیمار با وضعیت پایدار و یک بیمار نیازمند مداخله جدی را نشان دهد. با مقایسهٔ این شاخص‌های کلیدی بین هوش مصنوعی و MRI، دکتر محبوبه شیخ و همکاران توانستند دقت مدل را در سنجش مهم‌ترین جنبه‌های فیزیولوژیک قلب ارزیابی کنند.

از روش‌های آماری (پیرسون، Bland-Altman، ICC) برای دستیابی به یک تصویر جامع از دقت و توافق نتایج استفاده به عمل آمد. «ضریب همبستگی پیرسون» برای بررسی هم‌راستایی تغییراتِ نتایج (اینکه آیا با تغییر در MRI، خروجی هوش مصنوعی هم به همان نسبت تغییر می‌کند) به کار رفت. «نمودار Bland-Altman» برای تشخیص سوگیری سیستماتیک (اینکه آیا مدل هوش مصنوعی به‌طور مداوم اعداد را بیش‌ازحد یا کمتر از واقعیت برآورد می‌کند) استفاده شد و در نهایت «ضریب همبستگی درون‌رده‌ای (ICC)» برای سنجش میزان بازتولیدپذیری، قابلیت اطمینان مدل و همگرایی به جوابی واحد در اندازه‌گیری‌های مکرر به کار گرفته شد تا مشخص شود تا چه حد می‌توان به تکرارپذیری نتایجِ این مدل اعتماد کرد.

دکتر محبوبه شیخ و همکاران با پایش دقیق میزان اختلاف بین نتایج هوش مصنوعی و MRI به دنبال شناسایی نقاط شکست مدل بودند. این بررسی مشخص کرد که در چه مواردی هوش مصنوعی به‌تنهایی عملکرد کافی دارد و در چه مواردی نیاز به اصلاح دستی کانتورها (مرزهای قلب) توسط پزشک است. این پایش، علاوه بر تعیین دقیق میزان خطا در مقایسه با استاندارد طلایی، راهنمایی عملی برای پزشکان ایجاد کرد تا بدانند در چه سناریوهایی (مثلاً در بیماران با بطن‌های بسیار گشاد) باید نسبت به خروجی خودکار هوش مصنوعی هوشیار بوده و آن را به‌صورت دستی بازبینی کنند.

🔵روش تحقیق

این پژوهش به‌صورت یک مطالعهٔ مقطعی (مطالعه‌ای که در آن متغیرها در یک نقطهٔ زمانی مشخص در یک گروه از افراد بررسی می‌شوند) انجام شد. این مطالعه شامل بیماران مبتلا به کاردیومیوپاتی اتساعی (DCM) بود که بین اسفند ۱۴۰۰ تا بهمن ۱۴۰۲ به مرکز قلب تهران ارجاع شده بودند. تمامی مراحل مطابق با اصول اعلامیه هلسینکی (مجموعه‌ای از اصول اخلاقی برای تحقیقات پزشکی روی انسان که بر رعایت حقوق، ایمنی و سلامت داوطلبان تأکید دارد) انجام شد و رضایت‌نامهٔ آگاهانه اخذ گردید. این مطالعه با تأیید کمیتهٔ اخلاق دانشگاه علوم پزشکی تهران انجام شد.

مراحل انجام پژوهش و نشر تحقیق دکتر محبوبه شیخ با استفاده از HeartModelAI

بیمارانی وارد مطالعه شدند که طی ۲۴ ساعت هر دو بررسی MRI قلبی و اکوکاردیوگرافی جامع سه‌بعدی را در شرایط همودینامیک قابل‌مقایسه انجام داده بودند. تشخیص DCM بر اساس ارزیابی‌های بالینی و پاراکلینیکی (شامل ابزارهای تشخیص غیربالینی مانند آزمایش‌های خون و تصویربرداری‌های تشخیصی) صورت گرفت. معیارهای اصلی شامل کاهش کسر جهشی و بزرگی بطن چپ در غیاب بیماری‌های دریچه‌ای یا ایسکمیک بود. بیمارانی با بیماری‌های قلبی مادرزادی، منع انجام MRI یا کیفیت تصویربرداری ضعیف از مطالعه کنار گذاشته شدند.

این جدول نشان‌دهنده ویژگی‌های جمعیت‌شناختی و بالینی ۳۰ بیمار مبتلا به کاردیومیوپاتی اتساعی (DCM) است که در این مطالعه شرکت کرده‌اند. عدد اول میانگین و عدد دوم انحراف از معیار است.

ویژگی‌ها (Characteristics)	سطوح (Levels)	مقادیر (Values)
سن (سال)		۵۰.۶۳ ± ۱۲.۴۶
جنسیت	مرد	۲۱ (۷۰.۰%)
جنسیت	زن	۹ (۳۰.۰%)
شاخص سطح بدن (m²)		۱.۸۸ ± ۰.۲۵
شاخص توده بدنی (Kg/m²)		۲۷.۴۵ ± ۴.۶۳
دیابت ملیتوس (بیماری قند)		۳ (۱۰.۰%)
مصرف سیگار (دخانیات)		۴ (۱۳.۳%)
فشار خون بالا (Hypertension)		۴ (۱۳.۳%)

ترکیب جمعیتی: میانگین سنی بیماران حدود ۵۰ سال است. غالب شرکت‌کنندگان را مردان (۷۰٪) تشکیل می‌دهند که نشان‌دهنده شیوع بیشتر این عارضه یا حضور بیشتر آن‌ها در مرکز مراجعه‌کننده است.
وضعیت جسمانی: میانگین شاخص توده بدنی (BMI) برابر با ۲۷.۴۵ است که در محدوده «اضافه‌وزن» قرار می‌گیرد، اما نوسان بالای آن (±۴.۶۳) نشان‌دهنده تنوع در وضعیت وزنی بیماران است.
هم‌ابتلایی‌ها (Comorbidities): حدود ۱۰ تا ۱۳ درصد بیماران دارای بیماری‌های زمینه‌ای نظیر دیابت، فشار خون بالا یا سابقه استعمال دخانیات هستند.

اطلاعات دموگرافیک و شاخص‌های عملکردی بطن چپ، از جمله حجم‌ها، کسر جهشی، جرم بطن چپ و حجم ضربه‌ای با استفاده از روش‌های تصویربرداری ثبت شد.

اکوکاردیوگرافی و نرم‌افزار HeartModelAI

ارزیابی سه‌بعدی در وضعیت استاندارد انجام شد. داده‌های به‌دست‌آمده برای تحلیل کمی به نرم‌افزار HeartModel^AI (نرم‌افزار کمّی‌ساز خودکار) منتقل شدند. این نرم‌افزار با شناسایی خودکار حفره‌های قلب و تحلیل حرکت آن‌ها، حجم‌ها و عملکرد بطن چپ را محاسبه می‌کند. در صورت نیاز، اصلاحات نیمه‌خودکار توسط کاربر برای افزایش دقت مرزهای قلب اعمال می‌شد.

تصویربرداری تشدید مغناطیسی قلبی

MRI قلبی به عنوان مرجع استاندارد استفاده شد و شاخص‌های عملکردی از تصاویر cine توسط یک متخصص مستقل که از نتایج اکوکاردیوگرافی بی‌اطلاع بود، تحلیل گردید.

تغییرپذیری بین‌ناظری و درون‌ناظری و اهمیت آن

به منظور اطمینان از دقت و قابلیت اعتماد اندازه‌گیری‌ها، این پژوهش از دو سنجه استفاده کرد:

تغییرپذیری بین‌ناظری (Inter-observer variability): بررسی تفاوت نتایجِ اندازه‌گیری یک تصویر واحد توسط دو متخصص مستقل. اهمیت این سنجه در این است که مشخص می‌کند آیا نتایج به «تخصصِ فردِ تحلیل‌گر» وابسته است یا خیر؛ هرچه تغییرپذیری کمتر باشد، یعنی روش اندازه‌گیری مستقل از فرد است.
تغییرپذیری درون‌ناظری (Intra-observer variability): بررسی تفاوت نتایجِ اندازه‌گیریِ مجددِ یک تصویر توسط یک متخصص واحد در دو زمان مختلف (مثلاً پس از یک هفته). اهمیت این سنجه در سنجش «تکرارپذیری» است؛ یعنی بررسی اینکه آیا اگر یک متخصص دوباره همان داده را تحلیل کند، به همان نتایج قبلی می‌رسد یا خیر.

ارزیابی اکوکاردیوگرافی توسط دو متخصص مستقل اکوکاردیوگرافی و بدون اطلاع از نتایج یکدیگر، در فاصلهٔ کمتر از ۲۴ ساعت انجام شد. تغییرپذیری درون‌ناظری پس از یک هفته و بر اساس تصاویر ثبت‌شده در سیستم اکوکاردیوگرافی ارزیابی شد.

🔵نتایج

نتایج اندازه‌گیری‌های پایه بر اساس CMR و همچنین HeartModel^AI (در دو حالتِ پیش و پس از اصلاح کانتور) به‌صورت میانگین و انحراف‌معیار (SD) گزارش شد. جهت مقایسهٔ دقت اندازه‌گیری‌های HeartModelAI در دو وضعیتِ مذکور، از آزمون t زوجی (Paired t-test) استفاده گردید. برای ارزیابی میزان توافق میان HeartModel^AI و CMR، از ضریب همبستگی پیرسون و ضریب تعیین استفاده شد و تفاوت این مقادیر با بهره‌گیری از تبدیل Fisher r-to-z مورد تحلیل قرار گرفت.

همچنین، به‌منظور بررسی دقیق‌ترِ توافقِ بین دو روش و شناسایی سوگیری‌های سیستماتیک، نمودار بلاند-آلتمن (Bland-Altman) ترسیم شد. در نهایت، برای سنجش پایایی و بازتولیدپذیری اندازه‌گیری‌ها، ضرایب همبستگی بین‌ناظر و درون‌ناظر به همراه فاصله اطمینان ۹۵٪ محاسبه گردید. کلیه تحلیل‌های آماری با استفاده از نرم‌افزار R (نسخه ۴.۳.۰؛ R Core Team, 2023) انجام پذیرفت.

🟡سناریوی عملکرد خودکار هوش مصنوعی در نمای بلاند-آلتمن

در نمودار زیر ۶ پنل بلاند-آلتمن وجود دارد که به ترتیب از بالا به پایین برای متغیرهای زیر هستند :

1. LVESVI (شاخص پایان سیستول): حجم خون باقی‌مانده در بطن پس از انقباض، تقسیم بر سطح بدن؛ واحد: ml/m^۲
2. LVEDVI (شاخص پایان دیاستول): حجم خون موجود در بطن در پایان مرحله استراحت، تقسیم بر سطح بدن؛ واحد: ml/m^۲
3. LVEF (کسر تخلیه): درصد خونی که در هر ضربه از بطن چپ خارج می‌شود؛ واحد: %
4. LVMass (جرم بطن چپ): وزن کلی عضله بطن چپ قلب؛ واحد: g
5. LVMassI (شاخص جرم بطن چپ): وزن عضله بطن چپ، تقسیم بر سطح بدن؛ واحد: g/m^۲
6. SV (حجم ضربه‌ای): مقدار خونی که در هر تپش قلب از بطن چپ خارج می‌شود؛ واحد: ml

نمودار بلند-آلتمن 6 متغیر اصلی مورد مطالعه در حالت بدون اصلاح اکو (هوش مصنوعی به تنهایی) — نمودار بلند-آلتمن ۶ متغیر اصلی مورد مطالعه در حالت بدون اصلاح اکو (هوش مصنوعی به تنهایی)

🔶محور افقی (Average): میانگین اندازه‌گیری‌های CMR و Echo را نشان می‌دهد.

🔶محور عمودی (Bias یا Difference): تفاوت اندازه‌گیری‌های CMR و Echo بین دو روش است.

🔶خط وسط (Mean Bias): انحراف سیستماتیک دو روش از یکدیگر را نشان می‌دهد. انحراف سیستماتیک میانگین تمام اختلاف‌های به‌دست آمده از همه اندازه گیری هاست.

🔶خطوط بالا و پایین (Limits of Agreement): نشان‌دهنده دقت اندازه‌گیری‌هاست؛ در اکثر موارد، ۹۵٪ داده‌ها باید بین این دو خط قرار بگیرند. وقتی می‌گوییم ۹۵٪ داده‌ها بین این دو خط قرار دارند، منظور این است: اگر ما ۱۰۰ بیمار را با هر دو روش (اکو و ام‌آر‌آی) اندازه‌گیری کنیم، تفاوت بین دو روش برای ۹۵ نفر از آن‌ها عددی خواهد بود که بین «حد پایین» و «حد بالا» قرار می‌گیرد.

در واقع، این بازه به ما می‌گوید که «خطای احتمالی» این روش در اکثر مراجعات، چقدر خواهد بود. آن ۵٪ باقی‌مانده هم همان «نقاط پرت» (Outliers) هستند که تفاوت دو روش برایشان بسیار زیاد بوده است. این اعداد از طریق یک فرمول آماری ساده از روی داده‌های به دست می‌آیند:

Upper Limit=Mean Bias+(1.96×SD)

Lower Limit=Mean Bias−(۱.۹۶×SD)

Mean Bias (میانگین تفاوت): همان خط‌چین وسطی است (مثلاً اگر دستگاه اکو همیشه ۱۰ واحد کمتر نشان می‌دهد، میانگین تفاوت ۱۰- است). SD (انحراف معیار تفاوت‌ها): نشان می‌دهد که چقدر پراکندگی (نوسان) در اندازه‌گیری‌ها وجود دارد. عدد ۱.۹۶ یک عدد ثابت آماری است که برای پوشش دادن ۹۵٪ داده‌ها استفاده می‌شود. هر نقطه روی نمودار، نمایانگر «یک بیمار» است. برای هر بیمار در مطالعه، دو آزمایش انجام شده (یکبار با اکو +هوش مصنوعی و یکبار با CMR)؛ هر نقطه به این شکل روی نمودار جای‌گذاری شده است:

جایگاه افقی (محور X): نشان‌دهنده «میانگین» عددی است که از هر دو دستگاه برای آن بیمار خاص به دست آمده.
جایگاه عمودی (محور Y): نشان‌دهنده «اختلاف» (خطا) بین آن دو دستگاه برای همان بیمار است.

به زبان ساده اگر نقطه در ارتفاع «صفر» باشد، یعنی اکو و ام‌آر‌آی برای آن بیمار دقیقاً یک عدد یکسان را گزارش کرده‌اند. هرچه نقطه از مرکز فاصله بیشتری داشته باشد، یعنی سونوگرافی برای آن بیمار خاص، عدد متفاوتی نسبت به ام‌آر‌آی گزارش کرده است.

🔶تحلیل داده ها

۱. LVESVI (شاخاص حجم پایان سیستولی)

این پنل وضعیتی را به تصویر می‌کشد که در آن اندازه‌گیری‌های اکوکاردیوگرافی عمدتاً در ناحیه مثبت محور عمودی قرار دارند. این بدان معناست که در اکثر موارد، مقادیر گزارش‌شده توسط هوش مصنوعی در اکو، کمتر از مقادیر ثبت‌شده توسط CMR هستند.

با نگاه به چیدمان نقاط، یک رفتار «هتروسکلاستیک» (Heteroscedastic) به وضوح دیده می‌شود؛ به این صورت که با افزایش میانگین حجم‌ها (حرکت به سمت راست محور افقی)، گستره اختلاف بین دو روش به تدریج افزایش می‌یابد. این پدیده نشان می‌دهد که دقت اکو در حجم‌های پایین‌ترِ بطن بسیار پایدارتر از حجم‌های بالاست.

آنچه بیش از همه کنجکاوی را برمی‌انگیزد، شیب نامحسوس پراکندگی است که گویی سیستم هوش مصنوعی در مواجهه با بطن‌های بزرگ‌تر، دچار نوعی «تردیدِ سیستماتیک» می‌شود. این تفاوتِ رفتاری، پرسش‌های مهمی را درباره ماهیتِ پردازش مرزهای لایه داخلی بطن در حالت سیستولی ایجاد می‌کند.

۲. LVEDVI (شاخص حجم پایان دیاستولی)

در این پنل، توزیع داده‌ها شباهت ساختاری زیادی به LVESVI دارد و نقاط عمدتاً در ناحیه بالای خط صفر متمرکز شده‌اند. سوگیریِ مثبتِ مشهود، نشان‌دهنده یک گرایش پایدار به سمت «کم‌شماری» در اندازه‌گیری‌های دیاستولی توسط اکو نسبت به استاندارد طلایی (CMR) است.

پراکندگیِ عمودی نقاط در این پنل نشان می‌دهد که نوساناتِ اندازه‌گیری در فاز پر شدنِ بطن، محدوده‌ای مشخص را در بر می‌گیرد، اما با بزرگ‌تر شدن اندازه قلب، این بازه نیز دستخوش تغییرات می‌شود. این یعنی هوش مصنوعی در مدیریتِ پیکره‌بندی‌های مختلفِ قلب (از کوچک تا بزرگ)، پاسخ‌های یکسانی ارائه نمی‌دهد.

آنچه در این نمودار جلب توجه می‌کند، رفتارِ نقاط در سمت راست نمودار است؛ جایی که اختلاف‌ها به حداکثر مقدار خود می‌رسند. این توزیعِ خاص، این فرضیه را تقویت می‌کند که فاکتورهای هندسی بطن در دیاستول، چالشی جدی برای الگوریتم‌های اکوکاردیوگرافی محسوب می‌شوند.

۳. LVEF (کسر تخلیه بطن چپ)

پنل LVEF در میان سایر نمودارها، نمادِ «همگرایی و ثبات» است. نقاط با نظمی مثال‌زدنی در اطراف خط صفر توزیع شده‌اند و گستره میانگین سوگیری (Mean Bias) به کمترین حد ممکن رسیده است. این یعنی اکوکاردیوگرافی در تخمین قدرت پمپاژ قلب، دقتی خیره‌کننده و بسیار نزدیک به CMR دارد.

پراکندگیِ فشرده و متقارن نقاط در این پنل، نشان‌دهنده آن است که فارغ از تفاوت‌های فردی بیماران، هوش مصنوعی در تشخیص درصدِ خروج خون از بطن، عملکردی بسیار قابل‌اعتماد و بدون انحرافاتِ سیستماتیک دارد.

این ثبات در LVEF، تضاد جالبی با سایر شاخص‌های حجمی ایجاد می‌کند. این پنل مخاطب را به فکر می‌اندازد که چگونه یک شاخص کلیدی مانند EF می‌تواند چنین عملکردِ درخشانی داشته باشد، در حالی که سایر پارامترهای حجمیِ تشکیل‌دهنده آن، دچار سوگیری‌های مشخصی هستند.

۴. LVMass (جرم عضله قلب)

با ورود به پنل LVMass، شاهد تغییر جهتِ ناگهانی سوگیری هستیم. برخلاف حجم‌ها، نقاط در اینجا عمدتاً در ناحیه منفی نمودار مستقر شده‌اند که نشان‌دهنده یک «بیش‌برآورد» (Overestimation) توسط اکوکاردیوگرافی است. در اینجا، اکو به شکلی سیستماتیک، جرم عضله قلب را سنگین‌تر از آنچه CMR نشان می‌دهد، محاسبه کرده است.

توزیعِ پراکنده و حضور نقاط «دورافتاده» (Outlier) که در فواصل دور از خطوط محدوده‌ توافق قرار گرفته‌اند، گویایِ نوسانات قابل‌توجه در عملکرد الگوریتم است. این پدیده نشان می‌دهد که تخمین جرم بطن، فراتر از یک اندازه‌گیریِ ساده، تحت تأثیر متغیرهای ناشناخته‌ای قرار دارد.

این پنل، چالشی‌ترین بخش تحلیل را به نمایش می‌گذارد. پرسش بنیادین اینجاست که چه ویژگی‌های آناتومیک در توده عضلانیِ بطن وجود دارد که سیستمِ هوش مصنوعی را در رسیدن به توافق با CMR دچار چنین چالشِ گسترده‌ای می‌کند؟

۵. LVMassI (شاخص جرم عضله قلب ایندکس)

پنل LVMassI تکرارِ الگویِ پنلِ پیشین است، با این تفاوت که شاخص‌سازی (تطبیق با سطح بدن)، اثرات سوگیری را در مقیاسی متفاوت نشان می‌دهد. تمرکزِ مجدد نقاط در زیر خط صفر، تأیید می‌کند که بیش‌برآوردِ جرم عضله، یک خطای ثابت در متدولوژیِ فعلی است.

پراکندگیِ عمودیِ همچنان وسیعِ داده‌ها، تأکید می‌کند که حتی پس از اصلاح بر اساس ابعاد بدنی بیمار، اکوکاردیوگرافی همچنان با چالشِ «تخمینِ هندسی» جرمِ قلب دست‌وپنج نرم می‌کند. نوسانِ بین مقادیر مختلفِ جرم، در این نمودار به وضوح قابل ردیابی است.

اینکه چگونه این الگوریتم در حجم‌ها «کم‌شماری» و در جرم‌ها «بیش‌برآورد» دارد، تناقضی علمی را ایجاد می‌کند که برای هر متخصص تصویربرداری، محرکِ جستجو برای یافتنِ منشأ اصلیِ این خطای سیستماتیک است.

۶. SV (حجم ضربه‌ای)

در نهایت، پنل SV الگوی سوگیری منفی را تکمیل می‌کند. تمرکزِ نقاط در نیمه پایینیِ نمودار، حکایت از آن دارد که اکوکاردیوگرافی، حجم خونی که در هر ضربه از بطن خارج می‌شود را کمتر از واقعیت برآورد می‌کند.

با نگاه به این نمودار، متوجه می‌شویم که پراکندگیِ خطاها در SV، وضعیتی میانی بینِ دقتِ بسیار بالایِ LVEF و خطاهای گسترده در LVMass دارد. سیستم هوش مصنوعی در اینجا با نوعی «عدم قطعیت متوسط» روبروست که ماهیتِ پویا و لحظه‌ایِ جریان خون را منعکس می‌کند.

این نمودار به عنوان آخرین حلقه از زنجیره تحلیل، یک تصویرِ کامل از سیستم ارائه می‌دهد: اینکه چرا اکوکاردیوگرافی با وجودِ راحتی و سرعتِ بالا، همچنان برای رسیدن به دقتِ مطلق در اندازه‌گیری‌های پیچیده، نیازمندِ درکِ عمیق‌تر از خطاهایِ سیستماتیکِ خود است.

🟡سناریوی عملکرد اصلاح شده هوش مصنوعی در نمای بلاند-آلتمن

ترتیب متغیرها در نمودار زیر نیز مثل شکل قبلی است، این نمودار عملکرد آماری سناریوی هوش مصنوعی اصلاح شده توسط پزشک را در شمای بلاند-آلتمن نمایش می‌دهد

نمودار بلند-آلتمن 6 متغیر اصلی مورد مطالعه در حالت هوش مصنوعی اصلاح شده توسط پزشک در مرزبندی — نمودار بلند-آلتمن ۶ متغیر اصلی مورد مطالعه در حالت هوش مصنوعی اصلاح شده توسط پزشک در مرزبندی

۱. LVESVI (شاخص حجم پایان سیستولی)

در این سناریو، نقاط به وضوح تراکم بیشتری را در نزدیکی خط صفر نشان می‌دهند. این یعنی اصلاحاتِ دستیِ پزشک، توانسته است بخشی از سوگیریِ مثبتِ الگوریتمِ اولیه را خنثی کند. با این حال، هنوز شاهد پراکندگی در بخش‌های بالایی نمودار هستیم.

رفتارِ هتروسکلاستیک همچنان پابرجاست، اما با شدتی کمتر. این کاهشِ پراکندگی در مقادیر میانی، نشان می‌دهد که وقتی متخصص بر مرزهایِ انتهایِ سیستول نظارت می‌کند، دقتِ اندازه‌گیری به استانداردِ طلاییِ CMR نزدیک‌تر می‌شود.

آنچه کنجکاوی را برمی‌انگیزد، حضورِ چند نقطه در ارتفاعِ بسیار بالا (اختلاف زیاد) است که حتی پس از اصلاحِ پزشک نیز باقی مانده‌اند. این نقاط، پرسش‌هایی را درباره محدودیت‌های ذاتیِ اکوکاردیوگرافی در دیدنِ کاملِ زوایایِ خاصِ بطن، حتی با وجود اصلاحِ دستی، پیش می‌کشند.

۲. LVEDVI (شاخص حجم پایان دیاستولی)

در پنل LVEDVI، اصلاحاتِ پزشک باعث شده است که میانگینِ سوگیری (Mean Bias) به مرزِ صفر نزدیک‌تر شود. برخلافِ نسخه قبلی، حالا نقاطِ بیشتری در زیرِ خطِ صفر نیز دیده می‌شوند که نشان‌دهنده تعادلِ بهتر در تقریبِ حجمِ پرشده‌یِ بطن است.

با این وجود، پهنایِ بازه توافق (بین خطوطِ بالا و پایین) همچنان قابل توجه است. اصلاحاتِ پزشک توانسته است “تمرکز” داده‌ها را افزایش دهد، اما “نویز” یا خطاهایِ تصادفی در بیمارانی با ابعادِ قلبیِ بزرگ، همچنان به عنوان چالشی حل‌نشده باقی مانده است.

این تصویر به ما می‌گوید که اصلاحاتِ دستیِ متخصص، قدرتِ پیش‌بینیِ دستگاه را ارتقا می‌دهد، اما همچنان نمی‌تواند اثرِ عواملِ آناتومیکِ خاصِ هر بیمار را کاملاً حذف کند. اینجاست که نقشِ پزشک به عنوان «فیلترِ خطا» بیش از پیش اهمیت می‌یابد.

۳. LVEF (کسر تخلیه بطن چپ)

پنل LVEF در این سناریو همچنان به عنوان “ستاره” نمودارها می‌درخشد. اصلاحاتِ پزشک نه تنها دقتِ دستگاه را کم نکرده، بلکه آن را به حداکثرِ ممکن رسانده است. نقاط با نظمی عالی حول خط صفر چیده شده‌اند و دامنه خطاها بسیار ناچیز است.

این همگراییِ بی‌نظیر نشان می‌دهد که در محاسبه‌یِ نسبتِ پمپاژ، اکوکاردیوگرافی، چه به صورت خودکار و چه با اصلاحِ پزشک، زبانی مشترک و دقیق با CMR دارد. این یعنی برایِ EF، ابزارِ اکو عملاً به یک جایگزینِ کامل تبدیل شده است.

این ثبات در LVEF، برای هر مخاطبی جالب است؛ اینکه در میان پیچیدگی‌هایِ محاسباتِ حجمی، پارامتری که مستقیماً با “عملکردِ پمپاژ” در ارتباط است، به چنین دقتی دست یافته است. آیا این نشان‌دهنده ذاتِ متوازنِ خودِ این پارامتر است؟

۴. LVMass (جرم عضله قلب)

در پنل جرم قلب، شاهد تغییرِ رویکردیِ مهمی هستیم. اصلاحاتِ پزشک توانسته است توده نقاط را از ناحیه منفی (بیش‌برآورد) به سمت مرکزِ نمودار سوق دهد. این یعنی دخالتِ متخصص، خطایِ سیستماتیکِ دستگاه را به شکلِ محسوسی کاهش داده است.

هرچند پراکندگیِ نقاط همچنان زیاد است و نقاطِ دورافتاده (Outliers) کماکان دیده می‌شوند، اما روندِ کلی، بهبودِ انطباق را نشان می‌دهد. با این حال، هنوز یک نقطه در پایینِ نمودار به عنوان «دورافتاده‌ترین» باقی مانده که کنجکاویِ هر متخصصی را برای درکِ وضعیتِ آن بیمارِ خاص برمی‌انگیزد.

این پنل نشان می‌دهد که تشخیصِ مرزهایِ عضلانیِ قلب، کاری بسیار حساس است. دخالتِ پزشک در اینجا، بیشتر از آنکه یک “تصحیح” باشد، یک «نظارتِ استراتژیک» است که می‌تواند از اشتباهاتِ فاحش در تشخیصِ هایپرتروفی جلوگیری کند.

۵. LVMassI (شاخص جرم عضله قلب)

در LVMassI، اصلاحِ دستیِ پزشک منجر به توزیعِ متقارن‌تری شده است. با اینکه هنوز سوگیریِ منفی (تمایل به بیش‌برآورد) تا حدی دیده می‌شود، اما فاصله نقاط تا خط صفر، بسیار کمتر از قبل شده است که نویدبخشِ دقتِ بیشتر در محاسباتِ کلینیکی است.

توزیعِ نقاط نشان می‌دهد که اصلاحِ دستی، تأثیری یکسان بر همه بیماران نداشته است؛ در حالی که برخی نقاط به دقتِ CMR نزدیک شده‌اند، برخی دیگر همچنان در محدوده‌یِ خطا باقی مانده‌اند. این تفاوتِ عملکرد، بر اهمیتِ تجربه فردیِ متخصص در اصلاحِ مرزها تأکید دارد.

این پنل ما را با این حقیقت روبرو می‌کند که اصلاحِ انسانی، اگرچه ابزاری قدرتمند است، اما می‌تواند «تنوعِ نتایج» را نیز به همراه بیاورد؛ چرا که هر پزشک ممکن است مرزها را کمی متفاوت از دیگری تفسیر کند.

۶. SV (حجم ضربه‌ای)

در پنل نهایی، یعنی SV، اصلاحاتِ پزشک باعث شده است که ابرِ نقاط به سمت بالا حرکت کند و سوگیریِ منفیِ شدیدِ قبلی تا حد زیادی اصلاح شود. اکنون داده‌ها حول و حوشِ خط صفر متمرکز شده‌اند که نشان‌دهنده بهبودِ قابل توجهِ دقتِ اکو در محاسبه‌یِ حجمِ خونِ پمپاژ شده است.

پراکندگیِ نقاط، اگرچه هنوز وجود دارد، اما بسیار قابل‌قبول‌تر شده است. این یعنی با دخالتِ پزشک، اکوکاردیوگرافی توانسته است اعتمادِ بیشتری را به عنوان ابزاری برایِ اندازه‌گیریِ برون‌دهِ قلبیِ لحظه‌ای کسب کند.

این روندِ صعودیِ دقت، از یک «کم‌شماری» سیستماتیک به یک «تطابقِ منطقی» با CMR، نشان‌دهنده آن است که هوش مصنوعی در کنارِ مدیریتِ هوشمندانه توسطِ متخصص، می‌تواند مرزهایِ عملکردیِ خود را جابه‌جا کرده و نتایجی بسیار معتبرتر ارائه دهد.

🟡سناریوی عملکرد خودکار هوش مصنوعی در نمای پیرسون

نمودار زیر داده های مربوط به داده های خام مدل هوش مصنوعی را نمایش می‌‌دهد.

نمودار همبستگی و شاخص پیرسون در سناریوی اطلاعات خام هوش مصنوهی HeartModelAI

توصیف اجزاء نمودار و شاخص‌های آماری

🔶محور افقی (Echo1):

مقادیر اندازه‌گیری شده توسط هوش مصنوعی (بدون دخالت پزشک) را نشان می‌دهد.

🔶محور عمودی (CMR): مقادیر اندازه‌گیری شده توسط «استاندارد طلایی» (Cardiac MRI) را نشان می‌دهد.

🔶خط زرد (Regression Line): روند کلی رابطه بین دو دستگاه را نشان می‌دهد. اگر اکو با ام‌آر‌آی کاملاً یکی بود، همه نقاط دقیقاً روی یک خطِ با زاویه ۴۵ درجه قرار می‌گرفتند.

🔶ناحیه خاکستری (Confidence Interval): حاشیه اطمینان مدل است. هرچه این ناحیه باریک‌تر باشد، پیش‌بینی‌های مدل ما دقیق‌تر و قابل‌اعتمادتر است. ناحیه خاکستری در نمودار، در واقع «حاشیه اطمینانِ» پیش‌بینی‌های مدل است و نشان می‌دهد که ما تا چه حد می‌توانیم به روندِ نمایش داده شده توسط خط زرد اعتماد کنیم. از آنجا که این تحلیل بر اساس گروهی از بیماران انجام شده و نه تمامِ افرادِ جهان، همیشه احتمالِ خطای کوچکی وجود دارد. این سایه خاکستری، فضایِ امنی را ترسیم می‌کند که در آن، خطِ اصلیِ ارتباطِ واقعی بین دو روش، با اطمینانِ ۹۵ درصدی قرار گرفته است.

نکته جالب این است که عرضِ این ناحیه در طولِ نمودار یکسان نیست؛ معمولاً در مرکزِ نمودار، جایی که داده‌های بیشتری داریم، این ناحیه بسیار باریک و دقیق است که نشان‌دهنده اعتمادِ بالایِ مدل در این محدوده است. اما هرچه به سمتِ مقادیرِ خیلی بزرگ یا خیلی کوچک (دو انتهای نمودار) حرکت می‌کنیم، سایه خاکستری پهن‌تر می‌شود. این یعنی با کاهشِ تعدادِ نمونه‌ها در مقادیرِ غیرمتعارف، دقتِ پیش‌بینیِ مدل کمتر می‌شود و دامنه احتمالاتِ آن افزایش می‌یابد.

به‌طور خلاصه، اگر این ناحیه خاکستری در نموداری بسیار باریک باشد، یعنی رابطه بین اکو و ام‌آر‌آی بسیار مستحکم و قابل‌اعتماد است. اما اگر این ناحیه در بخش‌هایی از نمودار به شدت پهن شود، به این معناست که داده‌های ما در آن محدوده کافی نبوده یا تفاوت‌های فردی بیماران آن‌قدر زیاد است که نمی‌توان با قاطعیت گفت اکو دقیقاً مانند ام‌آر‌آی عمل می‌کند. در واقع، این سایه به پزشک هشدار می‌دهد که در کدام بازه‌هایِ عددی، مدل هوش مصنوعی دقیق‌تر است و در کدام بازه‌ها باید با احتیاط بیشتری به نتایج تکیه کرد.

🔶شاخص R (ضریب همبستگی پیرسون):

قدرتِ رابطه بین دو متغیر را نشان می‌دهد (از ۱ تا ۱-). هرچه به ۱ نزدیک‌تر باشد، یعنی با تغییر مقدار در اکو، مقدار در CMR نیز به همان نسبت تغییر می‌کند. ضریب همبستگی یا همان R، مثل یک «شاخص هماهنگی» عمل می‌کند که به ما می‌گوید آیا دو روش اندازه‌گیری (مثلاً اکو و ام‌آر‌آی) با هم «هم‌قدم» هستند یا خیر.

وقتی R به عدد یک نزدیک است، یعنی هر زمان که ام‌آر‌آی عددی بزرگتر را نشان می‌دهد، اکو هم با نظم و الگویی مشخص، عددی بزرگتر را ثبت می‌کند. به عبارت ساده‌تر، R نشان می‌دهد که آیا این دو دستگاه در «تغییراتِ بالا و پایین رفتن اعداد» زبانِ مشترکی دارند یا خیر، اما به ما نمی‌گوید که آیا این دو دستگاه دقیقاً یک عدد یکسان را گزارش می‌کنند یا نه.

علاوه بر قدرت ارتباط، شاخص R جهتِ این رابطه را نیز مشخص می‌کند که می‌تواند مثبت یا منفی باشد. وقتی R مثبت است، یعنی هر دو روش در یک جهت حرکت می‌کنند (با افزایش مقدار در یکی، مقدار در دیگری نیز افزایش می‌یابد) که نشان‌دهنده هماهنگی مستقیم آن‌هاست. در مقابل، اگر R منفی باشد، یعنی رابطه معکوس است و با افزایش مقدار در یک روش، دیگری تمایل دارد کاهش یابد که در تجهیزات پزشکی معمولاً نشان‌دهنده یک خطای سیستماتیک یا تفاوت در مبنای اندازه‌گیری است؛ بنابراین، نزدیک بودنِ R به صفر به معنای بی‌نظمی کامل و نبود هیچ‌گونه ارتباط خطی بین دو روش است.

🔶شاخص R^۲ (ضریب تعیین): نشان می‌دهد چند درصد از تغییراتِ CMR توسط اکو قابل توجیه است. مثلاً R^۲=۰.۸ یعنی اکو توانسته ۸۰٪ از رفتارِ ام‌آر‌آی را بازتولید کند.شاخص R2 یا همان «ضریب تعیین»، قدرتِ پیش‌بینیِ ما را نشان می‌دهد و به زبان ساده می‌گوید که چند درصد از اطلاعاتِ ام‌آر‌آی، توسطِ نتایجِ اکو قابلِ توضیح است. اگر R2 عدد بالایی باشد، یعنی اکو توانسته بخش بزرگی از پیچیدگی‌هایِ قلب را مانند ام‌آر‌آی شناسایی کند؛ اما اگر این عدد پایین باشد، یعنی اکو در آن پارامترِ خاص، نتوانسته الگویِ واقعیِ ام‌آر‌آی را به‌طور کامل درک کند و در نتیجه، پیش‌بینی‌های آن برای پزشک قابل‌اعتماد نیست.

شاخص ها :

۱ و ۲. LVESVI (شاخص حجم پایان سیستولی)

در این دو نمودار، همبستگی بسیار بالا (R=0.918) و ضریب تعیین قوی (R^۲=۰.۸۴۳) دیده می‌شود. نقاط به خوبی در امتداد خط زرد متمرکز شده‌اند که نشان‌دهنده یک رابطه خطی بسیار مستحکم بین خروجی هوش مصنوعی و استاندارد طلایی است.

این همبستگیِ بالا برای هر متخصصی جالب توجه است؛ زیرا نشان می‌دهد که حتی بدون دخالتِ انسان، الگوریتمِ هوش مصنوعی در شناساییِ مرزهایِ قلبی هنگامِ انقباض (سیستول)، الگویی بسیار شبیه به ام‌آر‌آی را دنبال می‌کند.

با این حال، حضور نقاطی که با فاصله از خط زرد قرار گرفته‌اند، کنجکاوی را برمی‌انگیزد: آیا این «خطاهایِ خارج از مسیر» مربوط به خطاهایِ فنی در اکو هستند یا هوش مصنوعی در مواردِ نادر، واقعیتِ آناتومیک را به گونه‌ای متفاوت از CMR تفسیر کرده است؟

۳. LVEDVI ( شاخص حجم پایان دیاستولی)

در اینجا نیز همبستگی همچنان در سطح عالی () قرار دارد. نقاط در امتدادِ خطی مستقیم توزیع شده‌اند، اما گستردگیِ دامنه (از حدود ۵۰ تا ۲۵۰) نشان می‌دهد که الگوریتم توانسته است طیف وسیعی از قلب‌های کوچک و بزرگ را با دقتِ قابل‌قبولی طبقه‌بندی کند.

این ثبات در دقت، پرسشی اساسی را پیش می‌کشد: چگونه هوش مصنوعی در مواجهه با تفاوت‌هایِ گسترده در ابعادِ قلب بیماران مختلف، همچنان می‌تواند چنین همبستگیِ بالایی را حفظ کند؟ این پایداری، نشان‌دهنده توانمندیِ الگوریتم در تعمیمِ یادگیریِ خود به نمونه‌های متنوع است.

با این حال، حاشیه اطمینانِ خاکستری در مقادیر بالا کمی گسترده‌تر می‌شود. این یعنی با بزرگ‌تر شدنِ قلب، «اعتمادِ» آماریِ ما به مدل کاهش می‌یابد؛ نکته‌ای که می‌تواند برای مطالعاتِ آتی در مورد قلب‌هایِ بسیار بزرگ (کاردیومگالی) حیاتی باشد.

۴. LVEF (کسر تخلیه بطن چپ)

همبستگیِ در اینجا به وضوح ضعیف‌تر از حجم‌هاست. نقاط به جای اینکه روی یک خطِ باریک بنشینند، حولِ خط زرد به شکل یک ابرِ پراکنده پخش شده‌اند. این یعنی پیش‌بینیِ قدرتِ پمپاژ قلب توسطِ اکویِ خودکار، در مقایسه با تخمینِ حجم‌ها، مسیرِ دشوارتری دارد.

این تضاد، کنجکاویِ هر بیننده‌ای را تحریک می‌کند: چرا محاسبه‌یِ «حجم» که پایه و اساسِ EF است تا این حد دقیق است، اما وقتی نوبت به محاسبه‌یِ «نسبت» (EF) می‌رسد، دقتِ هوش مصنوعی کاهش می‌یابد؟ احتمالاً خطاهایِ کوچک در مرحله‌یِ سیستول و دیاستول، در اینجا با هم ترکیب شده و خطایِ بزرگ‌تری را ایجاد کرده‌اند.

این نمودار یادآورِ این نکته است که «کل» (EF) همیشه مجموعِ ساده‌یِ «اجزاء» (حجم‌ها) نیست و پیچیدگی‌هایِ محاسباتی در پردازشِ ویدئوییِ اکو، می‌تواند فراتر از آن چیزی باشد که در ابتدا به نظر می‌رسد.

۵. LVMass (جرم عضله قلب)

در این پنل، سقوطِ آزادِ همبستگی را شاهد هستیم ( و ). پراکندگیِ نقاط به قدری زیاد است که عملاً نمی‌توان به خط زرد به عنوان یک پیش‌بینی‌کننده دقیق تکیه کرد. هوش مصنوعی در تخمینِ جرمِ قلب بدون دخالتِ پزشک، کاملاً دچارِ سردرگمی شده است.

این عدمِ توافقِ شدید، پرسش‌های بنیادینی را درباره ماهیتِ تصویربرداریِ دوبعدیِ اکو مطرح می‌کند. آیا جرمِ عضله قلب، برایِ الگوریتم‌هایِ هوش مصنوعی که بر پایه تصویرِ سونوگرافی آموزش دیده‌اند، اساساً یک «پارامترِ غیرقابلِ استخراجِ دقیق» است؟

این نمودار، محرکِ اصلی برایِ درکِ این موضوع است که چرا جرمِ عضلانی یکی از بزرگ‌ترین چالش‌هایِ بالینی در اکوکاردیوگرافی است؛ جایی که حتی هوش مصنوعی بدونِ راهنماییِ متخصص، در تاریکیِ محاسباتِ هندسی باقی می‌ماند.

۶. LVMassI (جرم عضله قلب)

وضعیت در اینجا حتی از نمودار قبل نیز مبهم‌تر است (). ضریبِ تعیینِ بسیار پایین نشان می‌دهد که شاخص‌سازیِ جرم (تطبیق با سطح بدن)، نتوانسته است خطاهایِ سیستمیِ هوش مصنوعی را پوشش دهد و عملاً ارتباطِ معنی‌داری بین خروجیِ اکو و CMR دیده نمی‌شود.

این نتیجه‌گیریِ نهایی، کنجکاوی را به اوج می‌رساند: چه چیزی در ساختارِ عضلانیِ قلب وجود دارد که برایِ ام‌آر‌آی کاملاً واضح و برایِ اکو (حتی با هوش مصنوعی) به شکلی سیستماتیک گنگ باقی می‌ماند؟ آیا این یک محدودیتِ تکنولوژیک است یا یک محدودیتِ محاسباتی؟

این پنل نشان می‌دهد که در پارامترهایِ مرتبط با جرم، ما با یک «دیوارِ دقت» روبرو هستیم. این داده‌ها به وضوح فریاد می‌زنند که بدون دخالتِ متخصص و اصلاحِ مرزها، نمی‌توان برایِ تخمینِ دقیقِ جرمِ عضلانی به هوش مصنوعیِ تنها، اعتماد کرد.

🟡سناریوی عملکرد اصلاح شده هوش مصنوعی در نمای پیرسون

این نمودارها یک پیام مهم و در عین حال جذاب را منتقل می‌کنند: وقتی هوش مصنوعی با دخالت پزشک اصلاح شده، رابطه‌اش با CMR در بیشتر شاخص‌ها محکم‌تر و قابل‌اعتمادتر شده است.

نتایج مدل HearModelAI اصلاح شده در برابر MRI قلبی (CMR) برای 6 متغیر مورد مطالعه — نتایج مدل HearModelAI اصلاح شده در برابر MRI قلبی (CMR) برای ۶ متغیر مورد مطالعه

در سه پارامترِ اول—یعنی LVESVI، LVEDVI و LVEF—نقاط داده هنوز حول خط زرد متمرکزند، اما این‌بار انسجام بیشتری دیده می‌شود و ضریب‌های R و R^۲ نیز این بهبود را تأیید می‌کنند. به‌ویژه در LVESVI و LVEDVI، همبستگی بسیار بالا باقی مانده است و این یعنی اصلاح کانتور توسط پزشک توانسته الگویی را که هوش مصنوعی فقط به‌طور تقریبی یاد گرفته بود، به یک خروجی نزدیک‌تر به مرجع طلایی CMR تبدیل کند. برای LVEF نیز، هرچند از نظر ماهیت اندازه‌گیری معمولاً پیچیده‌تر است، هنوز یک ارتباط خوب و نسبتاً پایدار دیده می‌شود؛ انگار پزشک توانسته نویزهای ریز الگوریتم را تا حدی مهار کند.

اما جذاب‌ترین بخش نمودار، جایی است که LVMass و LVMassI ظاهر می‌شوند. این دو شاخص همیشه برای اکو چالش‌برانگیز بوده‌اند، چون جرم میوکارد تنها با دنبال‌کردن مرزهای سادهٔ حفره به‌راحتی به‌دست نمی‌آید.

با این حال، پس از اصلاح انسانی، هم شیب رابطه معنادارتر شده و هم مقدار R و R^۲ نسبت به حالتی که هوش مصنوعی تنها عمل می‌کرد، بهتر به نظر می‌رسد. این یعنی پزشک توانسته بخش مهمی از خطای الگوریتم را در برآورد جرم بطن چپ کاهش دهد؛ البته هنوز پراکندگی نقاط نشان می‌دهد که این پارامترها به‌طور ذاتی حساس‌ترند و حتی با اصلاح انسانی هم به سطح دقتِ پارامترهای حجمی نمی‌رسند. به زبان ساده، پزشک نقشه را خیلی بهتر کرده، اما مسیرِ جرم عضله قلب همچنان از مسیرِ حجم‌ها دشوارتر است.

در مورد SV هم داستان جالبی داریم: همبستگی بهتر از جرم‌های قلبی است، اما هنوز به استحکامِ LVESVI و LVEDVI نمی‌رسد. این نشان می‌دهد که اصلاح پزشک توانسته دقت تخمین برون‌ده ضربه‌ای را به‌طور ملموس بهبود بدهد، ولی چون SV خودش از تفاوتِ دو اندازه‌گیری و چند مرحله محاسباتی به دست می‌آید، هر خطای کوچک در مرزبندی‌ها می‌تواند به اختلاف نهایی تبدیل شود. بنابراین، جمع‌بندی علمی این شکل‌ها این است که مداخلهٔ پزشک باعث شده هوش مصنوعی از یک ابزار «صرفاً قابل‌قبول» به یک ابزار «به‌مراتب نزدیک‌تر به مرجع» تبدیل شود—به‌خصوص برای پارامترهای حجمی و تا حدی برای EF—اما پارامترهای مبتنی بر جرم هنوز هم محل اصلیِ لغزش و نیازمند دقت بالینی باقی مانده‌اند.

🟡عملکرد هوش مصنوعی چه‌طور بود؟

جدول زیر شامل ۳۰ بیمار است و تفاوت عملکرد HeartModel^AI را در دو حالت «خودکار (بدون اصلاح متخصص قلب)» و «اصلاح‌شده (با اصلاح دستی توسط متخصص)» در مقایسه با «CMR» نشان می‌دهد:

ویژگی (Characteristic)	HeartModelAI بدون اصلاح	HeartModelAI با اصلاح	CMR
LVESVI	۸۷.۷۳ ± ۴۲.۱۳	۸۷.۶۰ ± ۴۳.۷۰	۱۰۴.۸۳ ± ۵۵.۸۱
LVEDVI	۱۲۴.۴۷ ± ۴۵.۲۱	۱۱۹.۶۰ ± ۴۷.۴۴	۱۳۸.۲۰ ± ۵۵.۱۸
LVEF	۳۱.۹۳ ± ۹.۹۶	۲۹.۲۹ ± ۹.۸۶	۲۷.۴۷ ± ۱۰.۵۷
LV Mass	۱۵۹.۶۷ ± ۵۲.۴۴	۱۶۰.۲۷ ± ۵۲.۶۲	۱۱۷.۹۰ ± ۴۱.۶۲
LV Mass Index	۸۵.۰۴ ± ۲۸.۷۷	۸۴.۹۸ ± ۲۷.۴۳	۶۱.۶۵ ± ۱۷.۷۲
SV	۶۶.۶۳ ± ۲۲.۴۷	۶۰.۹۷ ± ۲۱.۷۳	۶۳.۸۷ ± ۱۷.۵۱
# میانگین ± انحراف معیار (Mean ± SD) \| N=30 تعداد بیماران

حجم‌ها (LVESVI و LVEDVI): در هر دو پارامتر، هوش مصنوعی (در هر دو حالت) مقادیر را کمتر از CMR برآورد کرده است (مثلاً LVEDVI حدود ۱۳۸ در CMR در مقابل ۱۱۹-۱۲۴ در مدل). این نشان می‌دهد که مدل به‌طور سیستماتیک تمایل به دست‌کم گرفتن حجم‌های بطن چپ دارد.
عملکرد (LVEF): هوش مصنوعی مقادیر کسر جهشی (LVEF) را بیشتر از CMR برآورد کرده است (حدود ۲۹-۳۱ در مقابل ۲۷). اصلاح کانتور باعث شده عدد مدل به CMR نزدیک‌تر شود (از ۳۱.۹ به ۲۹.۲ رسیده است)، که نشان‌دهنده اثربخشی اصلاح دستی است.
جرم بطن چپ (LV Mass و LV Mass Index): در این بخش شاهد بزرگترین اختلاف هستیم؛ هوش مصنوعی جرم بطن را به‌طور قابل توجهی بیش‌برآورد می‌کند (۱۶۰ در مقابل ۱۱۷). این نشان می‌دهد که هوش مصنوعی در تشخیص مرزهای خارجی و ضخامت عضله قلب، در مقایسه با دقت بالای MRI، دچار خطا یا سوگیری (Bias) مشخصی است.
حجم ضربه‌ای (SV): در اینجا عملکرد مدل به CMR نزدیک‌تر است (۶۰-۶۶ در مقابل ۶۳). جالب اینجاست که بعد از اصلاح کانتور، مدل دقیقاً به میانگین CMR نزدیک‌تر شده است، که نشان‌دهنده دقت بالای مدل در برآورد خروجی قلب است.

🟡دخالت انسانی عملکرد هوش مصنوعی تجاری را چه‌قدر بهبود داد؟

جدول زیر به بررسی تفاوت آماری میان دو وضعیتِ مدل هوش مصنوعی (خودکار در مقابل نیمه‌خودکار یا همان اصلاح‌شده) می‌پردازد. در واقع، این جدول به ما می‌گوید که آیا دخالت دستی (اصلاح کانتور) به‌طور معناداری خروجی مدل را تغییر داده است یا خیر.

ویژگی	میانگین تفاوت	فاصله اطمینان ۹۵%	مقدار P
LVESVI	۰.۵۰	(-۱۵.۸۷, ۱۶.۸۷)	۰.۹۴۴
LVEDVI	۱۸.۲۵	(-۲.۳۳, ۳۸.۸۳)	۰.۰۷۴
LVEF	۹.۸۷۵	(۳.۷۲, ۱۶.۰۲)	۰.۰۰۷
LV Mass	۲.۲۵-	(-۴۴.۷۳, ۴۰.۲۳)	۰.۹۰۴
LV Mass Index	۰.۲۳۳	(-۲۰.۵۴, ۲۱.۰۲)	۰.۹۸۰
SV	۲۱.۲۵	(۹.۳۷, ۳۳.۱۳)	۰.۰۰۴
خلاصه تحلیل آماری

جدول که خود خلاصه داده‌‌های بزرگتری است حاوی جمع‌بندی زیر است :

۱. معنای P-value در اینجا: وقتی P value کمتر از ۰.۰۵ باشد (معمولاً با ستاره مشخص می‌شود)، یعنی اختلاف بین حالت خودکار و نیمه‌خودکار از نظر آماری معنادار است.

برای LVEF (P=0.007) و SV (P=0.004)، تفاوت معنادار است. این یعنی اصلاح دستی کانتور توسط کاربر، تغییرات مهم و غیرتصادفی در این دو پارامتر ایجاد کرده است.
برای سایر موارد (LVESVI، LVEDVI، LV Mass، LV Mass Index)، مقدار P بسیار بزرگتر از ۰.۰۵ است (مثلاً ۰.۹۴۴ یا ۰.۹۸۰). این یعنی در این پارامترها، تغییرات ناشی از اصلاح دستی از نظر آماری معنادار نیست و مدل تقریباً خروجی مشابهی را در هر دو حالت ارائه داده است.

۲. میانگین تفاوت (Mean Difference):

اعداد مثبت در این ستون نشان می‌دهند که حالت خودکار معمولاً مقادیر بالاتری نسبت به حالت اصلاح‌شده ارائه داده است (مخصوصاً در SV که اختلاف ۲۱.۲۵ واحد است).

۳. فاصله اطمینان (۹۵% CI):

هر جا که بازه ۹۵% CI شامل عدد «صفر» باشد (مانند LVESVI: -15.87 تا ۱۶.۸۷)، تأیید می‌کند که تفاوت بین دو حالت از نظر آماری معنادار نیست.

🟡 مقایسه نتایج هوش مصنوعی با ضریب همبسنگی پیرسون

این جدول میزان توافق و همبستگی بین نتایج حاصل از مدل هوش مصنوعی (در دو حالت خودکار HM و اصلاح‌شده HME) با استاندارد طلایی یعنی CMR را با استفاده از ضریب همبستگی پیرسون بررسی می‌کند.

ویژگی	ضرایب همبستگی پیرسون		Z	مقدار P
ویژگی	HM & CMR	HME & CMR	Z	مقدار P
LVESVI	۰.۹۱۸	۰.۹۳۰	۰.۳۰۵	۰.۷۶۰
LVEDVI	۰.۹۱۱	۰.۹۰۵	۰.۱۱۸	۰.۹۰۶
LVEF	۰.۷۴۴	۰.۸۶۶	۱.۳۱۵	۰.۱۸۸
LV Mass	۰.۴۹۸	۰.۶۱۲	۰.۶۰۸	۰.۵۴۳
LV Mass Index	۰.۴۲۱	۰.۵۱۴	۰.۴۴۰	۰.۶۶۰
SV	۰.۸۱۱	۰.۷۷۲	۰.۳۸۳	۰.۷۰۱
\| HM: HeartModelAI خودکار \| HME: HeartModelAI ویرایش‌شده

از این جدول سه نتیجه‌ می‌توان گرفت :

۱. ضریب همبستگی پیرسون (Pearson Correlation): این عدد (بین ۰ تا ۱) نشان می‌دهد که داده‌های هوش مصنوعی تا چه حد با CMR هم‌جهت هستند.

همبستگی قوی: برای LVESVI، LVEDVI و LVEF همبستگی بسیار بالایی (بالای ۰.۷ و در مواردی تا ۰.۹۳) مشاهده می‌شود که نشان‌دهنده دقت بالای مدل در برآورد حجم‌ها و کسر جهشی است.
همبستگی ضعیف: برای LV Mass و LV Mass Index همبستگی نسبتاً پایینی (زیر ۰.۶) دیده می‌شود. این یعنی مدل هوش مصنوعی در اندازه‌گیری دقیق جرم عضله قلب چالش دارد و دقت آن کمتر از اندازه‌گیری حجم‌هاست.

۲. تأثیر اصلاح دستی (مقایسه HM و HME):

در اکثر پارامترها، پس از اصلاح دستی (HME)، ضریب همبستگی نسبت به حالت تمام‌خودکار (HM) افزایش یافته است (مثلاً در LVEF از ۰.۷۴۴ به ۰.۸۶۶ رسیده). این نشان می‌دهد که دخالت انسانی به‌طور محسوسی دقت مدل را به سمت استاندارد طلایی (CMR) ارتقا می‌دهد.

۳. مقدار Z و P-value:

ستون P-value در اینجا نشان می‌دهد که آیا «تفاوت بین ضریب همبستگیِ حالت خودکار» و «ضریب همبستگیِ حالت اصلاح‌شده» معنادار است یا خیر.
از آنجایی که تمام مقادیر P بزرگتر از ۰.۰۵ هستند (مثلاً ۰.۷۶۰ یا ۰.۱۸۸)، می‌توان نتیجه گرفت که اگرچه اصلاح دستی دقت را کمی بهتر کرده، اما این بهبود از نظر آماری تفاوت معنادار و خیره‌کننده‌ای ایجاد نکرده است. به عبارت دیگر، مدل خودکار به تنهایی عملکردی بسیار نزدیک به عملکردِ پس از اصلاح دارد.

🟡قضاوت پزشکان چه میزان یکتا و همسان با پزشکان دیگر بود؟

این جدول یکی از مهم‌ترین بخش‌های اعتبار‌سنجی نرم‌افزارهای تصویربرداری پزشکی است. این جدول نشان‌دهنده پایایی (Reliability) یا «تکرارپذیری» اندازه‌گیری‌ها توسط هوش مصنوعی است.

ویژگی	بین‌ناظری (Inter-observer)		درون‌ناظری (Intra-observer)
ویژگی	همبستگی	۹۵% CI	همبستگی	۹۵% CI
LVESVI	۰.۹۸۰	(۰.۹۶۰, ۰.۹۹۱)	۰.۹۹۲	(۰.۹۸۳, ۰.۹۹۶)
LVEDVI	۰.۹۷۷	(۰.۹۵۲, ۰.۹۸۹)	۰.۹۸۹	(۰.۹۷۷, ۰.۹۹۵)
LVEF	۰.۹۸۰	(۰.۹۵۹, ۰.۹۹۰)	۰.۹۳۰	(۰.۸۶۰, ۰.۹۶۶)
LV Mass	۰.۹۲۳	(۰.۸۴۶, ۰.۹۶۳)	۰.۹۴۱	(۰.۸۸۱, ۰.۹۷۱)
LV Mass Index	۰.۹۳۱	(۰.۸۶۲, ۰.۹۶۶)	۰.۹۲۸	(۰.۸۵۵, ۰.۹۶۵)
SV	۰.۹۲۹	(۰.۸۵۸, ۰.۹۶۶)	۰.۹۴۳	(۰.۸۸۴, ۰.۹۷۲)
خلاصه ارزیابی تکرارپذیری

این جدول دو نوع ارزیابی را بررسی کرده است:

بین‌ناظری (Inter-observer): بررسی می‌کند که آیا دو نفر مختلف (مثلاً دو پزشک متفاوت) اگر از این مدل هوش مصنوعی استفاده کنند، به نتایج مشابهی می‌رسند یا خیر.
درون‌ناظری (Intra-observer): بررسی می‌کند که آیا یک نفر اگر در دو زمان مختلف از این مدل استفاده کند، نتایج ثابتی می‌گیرد یا خیر.

نکات کلیدی:

پایایی فوق‌العاده بالا: تمام اعداد ضریب همبستگی (Correlation) در هر دو بخش بالای ۰.۹ هستند. در مقیاس‌های آماری پزشکی، مقدار بالای ۰.۹ نشان‌دهنده «توافق عالی» است.
ثبات عملیاتی: این نتایج اثبات می‌کند که استفاده از HeartModel^AIتا حد بسیار زیادی از خطای انسانی (تفاوت نظر پزشکان) جلوگیری می‌کند و نتایج به‌دست‌آمده بسیار قابل‌اعتماد و تکرارپذیر هستند.
فاصله‌های اطمینان (۹۵% CI): محدوده‌های عددی در پرانتز نیز همگی بسیار نزدیک به ۱ هستند، که به این معناست که خطای آماری بسیار کم بوده و نتایج پایایی مدل بسیار مستحکم است.

شاخص (Parameter)	همبستگی (هوش مصنوعی)	همبستگی ( اصلاح‌شده)	تحلیل تأثیر اصلاح
LVESVI	۰.۹۱۸	۰.۹۳۰	بهبود جزئی در دقت
LVEDVI	۰.۹۱۱	۰.۹۰۵	تقریباً بدون تغییر
LVEF	۰.۷۴۴	۰.۸۶۶	بهبود قابل توجه (کلیدی)
LV Mass	۰.۴۹۸	۰.۶۱۲	بهبود چشمگیر دقت
LV Mass Index	۰.۴۲۱	۰.۵۱۴	بهبود قابل توجه
SV	۰.۸۱۱	۰.۷۷۲	تغییر ناچیز (کاهش جزئی)
* مقادیر عددی بیانگر ضریب همبستگی پیرسون (R) هستند.

🔵بحث

مطالعهٔ حاضر به ارزیابی کارایی سامانهٔ HeartModel^AIدر سنجش شاخص‌های اکوکاردیوگرافیک بیماران مبتلا به کاردیومیوپاتی اتساعی (DCM) پرداخته است. مجموعهٔ یافته‌ها نشان می‌دهد که HeartModel^AIدر این حوزه، ابزاری قابل اتکا به شمار می‌آید. این سامانه در برآورد شاخص‌های عملکرد بطن چپ، همبستگی بالایی را همراه با تغییرپذیری اندک بین اندازه‌گیری‌های مستقل نشان داد. همچنین، شکل زیر نمونه‌هایی از مدل‌های تولیدشده توسط HeartModel^AIرا به تصویر می‌کشد.

مدل سه‌بعدی خروجی HeartModelAI — مدل سه‌بعدی خروجی HeartModel^AI

ارزیابی دقیق عملکرد قلب، برای تشخیص، تصمیم‌گیری درمانی و پایش سیر بیماری در بیماران DCM ضرورتی بنیادی دارد. روش‌های گوناگون تصویربرداری قلبی‌عروقی برای این منظور معرفی شده‌اند که در میان آن‌ها، تصویربرداری تشدید مغناطیسی قلب (CMR) به عنوان استاندارد مرجع شناخته می‌شود. با این حال، گسترش کاربرد CMR در عمل بالینی به علت محدودیت دسترسی، نیاز به نیروی انسانی متخصص و هزینه‌های بالاتر با چالش‌هایی همراه است.

از این‌رو، اکوکاردیوگرافی ترانس‌توراسیک (TTE) به دلیل ایمنی، در دسترس بودن، سهولت نسبی و کارآمدی، معمولاً روش نخست انتخابی در ارزیابی‌های بالینی محسوب می‌شود. با وجود این، اکوکاردیوگرافی دوبعدی سنتی به سبب تکیه بر فرضیات هندسی، از محدودیت‌های ذاتی رنج می‌برد. ظهور اکوکاردیوگرافی سه‌بعدی در اوایل دههٔ ۲۰۰۰، با کاهش وابستگی به فرضیات آناتومیک در محاسبات حجمی، دقت ارزیابی عملکرد قلب را بهبود بخشید؛ هرچند این روش همچنان می‌تواند زمان‌بر باشد، به مهارت قابل توجه اپراتور نیاز داشته باشد و در برخی شرایط، تفکیک زمانی محدودتری ارائه کند.

HeartModel^AIنرم‌افزاری مبتنی بر هوش مصنوعی است که با اتکا بر یک الگوریتم تحلیل تطبیقی و بانک گسترده‌ای از داده‌های اکوکاردیوگرافی، مرزهای اندوکارد و اپیکارد (مرز بیرونی عضلهٔ قلب) را شناسایی کرده و شاخص‌های کلیدی را محاسبه می‌کند. این سامانه با یک فرمان ساده، بخش عمدهٔ فرایند مرزبندی را خودکار می‌سازد و نیاز به زمان و مهارت لازم برای ترسیم دستی مرزهای اندوکاردیال را به میزان چشمگیری کاهش می‌دهد؛ در عین حال امکان اصلاح دستی کانتور به صورت موضعی یا کلی را نیز حفظ می‌کند تا در موارد ضروری، دقت اندازه‌گیری افزایش یابد.

یافته‌های پژوهش حاضر با روندی که در مطالعات پیشین گزارش شده است همخوانی دارد؛ به این معنا که اکوکاردیوگرافی سه‌بعدی در بسیاری از موارد، در مقایسه با CMR تمایل به کم‌برآوردی حجم پایان دیاستول بطن چپ (LVEDV) و گاه کم‌برآوردی حجم پایان سیستول بطن چپ (LVESV) دارد و در مقابل، کسر جهشی بطن چپ (LVEF) را اندکی بیش‌برآورد می‌کند. الگوی مشاهده‌شده در داده‌های ما نیز نشان می‌دهد که HeartModel^AI، در قیاس با استاندارد مرجع، در برخی شاخص‌ها چنین گرایشی از خود بروز می‌دهد؛ نکته‌ای که از منظر تفسیر بالینی نتایج باید مدنظر قرار گیرد، به‌ویژه زمانی که تصمیم‌گیری درمانی بر تغییرات کوچک در حجم‌ها یا LVEF استوار باشد.

در خصوص جرم بطن چپ و شاخص جرم بطن چپ، نتایج مطالعات مختلف یکدست نبوده است. در برخی پژوهش‌ها تفاوت معناداری میان HeartModel^AI و CMR گزارش نشده، اما در مطالعهٔ حاضر بیش‌برآوردی این دو شاخص مشاهده شد. این ناهمخوانی می‌تواند از محدودیت تفکیک‌پذیری فضایی، دشواری در تعیین دقیق مرزهای اندوکاردیال و اپیکاردیال، و نیز پیچیدگی‌های مورفولوژیک در بطن چپ متسع ناشی شود؛ به‌ویژه در DCM که تمایز میان میوکارد متراکم و ترابکول‌های برجسته دشوارتر می‌شود و همین امر می‌تواند خطای سیستماتیک در محاسبهٔ جرم ایجاد کند.

از منظر عملیاتی، مسئلهٔ نیاز به اصلاح دستی کانتور نیز حائز اهمیت است. مطالعات پیشین نشان داده‌اند که در بیماران DCM، به دلیل تغییرات ساختمانی و کیفیت متغیر تصویر، در بخشی از موارد اصلاح کانتور اجتناب‌ناپذیر است. در مطالعهٔ حاضر نیز در حدود یک‌چهارم موارد، اصلاح دستی مورد نیاز بود. هرچند HeartModel^AI زمان تحلیل را به طور قابل توجهی کاهش می‌دهد، اما الزام به مداخلهٔ دستی در بخشی از بیماران می‌تواند بخشی از مزیت صرفه‌جویی زمانی را محدود سازد. با این وجود، اصلاح کانتور همچنان ابزاری کلیدی برای بهبود دقت اندازه‌گیری محسوب می‌شود و در برخی بیماران نقش تعیین‌کننده دارد. بنابراین، ارتقای الگوریتم‌ها با هدف کاهش وابستگی به اصلاحات دستی، می‌تواند کارایی بالینی این رویکرد را افزایش دهد.

ارزیابی دقت HeartModel^AI در بیماران دارای اختلال عملکرد بطن چپ در مطالعات مختلف نتایج متفاوتی نشان داده است؛ با این حال، مجموع شواهد حاکی از ظرفیت بالای این فناوری است. در برخی پژوهش‌ها، توافق بین اکوکاردیوگرافی سه‌بعدی و CMR برای برآورد LVEF مطلوب گزارش شده، در حالی که میزان توافق برای حجم‌های بطن چپ گاه در سطح متوسط یا پایین‌تر قرار گرفته است.

همچنین در گروه‌هایی مانند بیماران مبتلا به کاردیومیوپاتی هیپرتروفیک، گزارش شده که همبستگی اولیهٔ روش خودکار با CMR ممکن است کافی نباشد، اما اصلاح دستی کانتور می‌تواند توافق را به شکل معناداری بهبود دهد؛ یافته‌ای که بر اهمیت نگاه ترکیبی «خودکار همراه با امکان مداخلهٔ هدفمند» تأکید دارد. از سوی دیگر، در برخی جمعیت‌های مبتلا به نارسایی قلبی با شدت خفیف تا متوسط، تفاوت معناداری میان روش‌های دوبعدی و سه‌بعدی در ارزیابی LVEF و حجم‌ها گزارش نشده است؛ امری که می‌تواند نشان‌دهندهٔ کفایت ابزارهای خودکار در سناریوهای بالینی مشخص باشد.

در نهایت، پژوهش حاضر نیز همسو با بخش مهمی از ادبیات موجود، ضرایب همبستگی بسیار مطلوب بین‌ناظر و درون‌ناظر را همراه با تغییرپذیری کمتر از ده درصد نشان داد. این یافته‌ها از قابلیت اعتماد، ثبات اندازه‌گیری و بازتولیدپذیری HeartModel^AIدر بیماران مبتلا به DCM پشتیبانی می‌کند و جایگاه آن را به عنوان ابزاری کاربردی برای ارزیابی عملکرد بطن چپ تقویت می‌سازد.

🔵پیامدهای بالینی

نوآوری اصلی این مطالعه در ارزیابی اکوکاردیوگرافی سه‌بعدی ترانس‌توراسیک خودکار در بیماران DCM نهفته است. کسر جهشی پایین و حفره‌های متسع قلب که از ویژگی‌های DCM هستند، پیش‌تر به‌عنوان عواملی مؤثر بر دقت تشخیصی TTE سه‌بعدی گزارش شده‌اند. بنابراین، اعتبارسنجی HeartModel^AI برای DCM می‌تواند با بهبود تشخیص و ارزیابی بالینی این بیماران، مراقبت درمانی را به‌طور چشمگیری ارتقا دهد.

🔵محدودیت‌ها

این پژوهش، با تکیه بر تحلیل‌های تعدیل‌شده بر اساس سطح بدن (BSA)، به جمع مطالعاتی می‌پیوندد که دقت الگوریتم HeartModel^AI را در بیماران مبتلا به کاردیومیوپاتی اتساعی ارزیابی کرده‌اند؛ با این حال، یافته‌های آن با محدودیت‌های چندی روبروست:

نخست، حجم نمونهٔ محدود مطالعه، تعمیم‌پذیری نتایج را با چالش مواجه می‌کند. افزون بر این، به دلیل استفاده از تصاویرِ باکیفیتِ تهیه‌شده توسط متخصصان اکوکاردیوگرافی با بیش از ده سال تجربه، ممکن است نتایج در شرایط بالینی عادی با همان دقت تکرار نشوند.

از سوی دیگر، استفاده از تصویربرداری «حبس نفس چندضربی» (multi-beat breath-hold) می‌تواند منجر به بروز آرتیفکت‌های احتمالی شود. همچنین، غالب بودن جمعیت مردان در میان شرکت‌کنندگان، ممکن است سوگیری جنسیتی در یافته‌ها ایجاد کرده باشد.

از دیگر محدودیت‌های متدولوژیک، انجام ارزیابی‌های «بازتولیدپذیری» بر پایهٔ تصاویر ذخیره‌شده (و نه تحلیل تست-ری‌تست واقعی) است. علاوه بر این، اگرچه برای افزایش تفکیک زمانی از «کاهش پهنای سکتور» استفاده شده است، اما تحلیل داده‌های حاصل از تصویربرداری با «سکتور پهن» در بیماران دچار کاردیومیوپاتی اتساعی، همچنان می‌تواند عملکرد HeartModel^AI را تحت تأثیر قرار دهد. بنابراین، انجام مطالعات چندمرکزی با جامعه آماری گسترده‌تر و مشارکتِ طیف متنوع‌تری از اپراتورها برای دستیابی به نتایج قطعی‌تر ضروری است.

🔵نتیجه‌گیری

نرم‌افزار HeartModel^AI روشی سریع و کارآمد برای ارزیابی ساختار و عملکرد بطن چپ محسوب می‌شود. «بازتولیدپذیری» و «پایایی» بالای این ابزار، آن را به گزینه‌ای امیدبخش و قابل‌اعتنا در مدیریت بالینی بیماران مبتلا به کاردیومیوپاتی اتساعی تبدیل کرده است.

🔵واژه‌نامه

3DE (3D Echocardiography؛ اکوکاردیوگرافی سه‌بعدی): روشی برای تصویربرداری از قلب با استفاده از امواج صوتی که برخلاف سونوگرافی‌های معمولی، تصویری سه‌بعدی و کامل از قلب ارائه می‌دهد. این روش به پزشک کمک می‌کند تا بدون فرضیات هندسی، شکل واقعی قلب را مشاهده کند.

bSSFP (balanced steady-state free-precession؛ توالی پایدارِ تعادلی): یک تنظیمات تکنیکی خاص در دستگاه MRI است که به کمک آن می‌توان تصاویر بسیار واضح و دقیقی از قلب در حال تپش گرفت.

BMI (Body Mass Index؛ شاخص توده بدنی): عددی است که از نسبت وزن به قد به‌دست می‌آید و نشان می‌دهد فرد از نظر وزن در چه وضعیتی قرار دارد.

BSA (Body Surface Area؛ سطح بدن): تخمینی از کل سطح پوست بدن فرد که برای تنظیم دقیق‌ترِ دوز داروها یا مقیاس‌های پزشکی بر اساس جثه فرد استفاده می‌شود.

CMR یا MRI قلبی (Cardiac Magnetic Resonance): روشی پیشرفته و دقیق برای تصویربرداری از قلب با استفاده از میدان مغناطیسی. از آنجا که این روش دقیق‌ترین نتایج را برای اندازه‌گیری حجم قلب ارائه می‌دهد، به آن «استاندارد طلایی» گفته می‌شود.

DCM (Dilated Cardiomyopathy؛ کاردیومیوپاتی اتساعی): بیماری قلبی که در آن حفره‌های قلب گشاد و عضله آن ضعیف می‌شود، بنابراین قلب قدرت کافی برای پمپاژ خون به کل بدن را ندارد.

EF یا LVEF (Ejection Fraction؛ کسر جهشی): درصدی از خون که بطن چپ در هر ضربان به بیرون می‌فرستد. این شاخص اصلی برای ارزیابی قدرت پمپاژ قلب است و اگر عدد آن پایین باشد، یعنی قلب ضعیف شده است.

HeartModel^AI یا HM: یک نرم‌افزار هوش مصنوعی است که به‌صورت خودکار مرزهای حفره‌های قلب را در تصاویر سونوگرافی شناسایی کرده و آن‌ها را اندازه‌گیری می‌کند. این ابزار به جای صرف زمان زیاد توسط پزشک، این کار را با سرعت انجام می‌دهد.

ICC (Intraclass Correlation Coefficient؛ ضریب همبستگی درون‌رده‌ای): یک معیار آماری است که نشان می‌دهد نتایج یک اندازه‌گیری چقدر قابل اعتماد و ثابت هستند؛ یعنی اگر همان اندازه‌گیری تکرار شود، چقدر احتمال دارد دوباره به همان عدد برسیم.

LVEDV و LVEDVI (Left Ventricular End-Diastolic Volume/Index؛ حجم/شاخص پایان دیاستول بطن چپ): مقدار خونی که در پایان مرحله استراحت قلب (وقتی قلب کاملاً پر از خون شده) در بطن چپ باقی مانده است. این عدد نشان‌دهنده حجم پرشدگی قلب است.

LVESV و LVESVI (Left Ventricular End-Systolic Volume/Index؛ حجم/شاخص پایان سیستول بطن چپ): مقدار خونی که در پایان مرحله تپش (وقتی قلب خون را بیرون فرستاده) در بطن چپ باقی مانده است. این عدد نشان می‌دهد قلب چقدر در تخلیه خون موفق بوده است.

LV Mass (Left Ventricular Mass؛ جرم بطن چپ): وزن بافت عضلانی بطن چپ قلب است. افزایش غیرطبیعی این عدد معمولاً نشان‌دهنده ضخیم شدن یا بزرگ شدن قلب بر اثر فشار زیاد است.

Multi-beat breath-hold (حبس نفس چندضربی): تکنیکی است که بیمار باید نفس خود را برای چند ثانیه نگه دارد تا تصاویر قلب بدون لرزش‌های ناشی از بالا و پایین رفتن قفسه سینه ثبت شوند.

NYHA (New York Heart Association Functional Classification): سیستم درجه‌بندی برای سنجش میزان ناتوانی بیمار قلبی در انجام فعالیت‌های روزانه، که از درجه I (بدون محدودیت) تا IV (ناتوانی کامل حتی در استراحت) طبقه‌بندی می‌شود.

r (Pearson Correlation Coefficient؛ ضریب همبستگی پیرسون): عددی بین ۰ تا ۱ است که نشان می‌دهد دو روش اندازه‌گیری (مثلاً هوش مصنوعی و MRI) چقدر با هم هماهنگ هستند. هرچه این عدد به ۱ نزدیک‌تر باشد، هماهنگی و شباهت نتایج دو روش بیشتر است.

SV (Stroke Volume؛ حجم ضربه‌ای): مقدار خونی است که در هر ضربان قلب، از بطن چپ خارج شده و به سمت بدن پمپاژ می‌شود.

TTE (Transthoracic Echocardiography؛ اکوکاردیوگرافی ترانس‌توراسیک): همان سونوگرافی معمولی قلب که در آن پزشک پروب دستگاه را روی قفسه سینه بیمار قرار می‌دهد تا از روی پوست، تصاویر قلب را ببیند.

آرتیفکت (Artifact): نویزها یا خطاهای تصویری که به دلیل لرزش، حرکت یا کیفیت دستگاه در تصویر ایجاد می‌شوند و ممکن است باعث اشتباه پزشک در تشخیص شوند.

اصلاح کانتور (Contour Correction): فرایندی است که در آن پزشک مرزهایی را که هوش مصنوعی به‌اشتباه برای حفره قلب ترسیم کرده، به‌صورت دستی اصلاح می‌کند تا دقت اندازه‌گیری بالا برود.

بازتولیدپذیری (Reproducibility): توانایی یک روش پزشکی برای دادن نتایج مشابه، حتی اگر افراد مختلفی در زمان‌های متفاوت آن را انجام دهند.

بیش‌برآوردی (Overestimation): حالتی که دستگاه یا نرم‌افزار، عددی بزرگ‌تر از مقدار واقعی (که در MRI مشخص شده) را گزارش کند.

بلاند-آلتمن (Bland-Altman analysis): یک روش آماری است که برای مقایسه دو روش اندازه‌گیری استفاده می‌شود؛ این روش به ما می‌گوید که تفاوت این دو روش در مقادیر مختلف چقدر است و آیا این تفاوت در حد قابل‌قبول است یا خیر.

تغییرپذیری بین‌ناظر و درون‌ناظر (Inter-observer / Intra-observer variability): مقیاسی است که نشان می‌دهد وقتی دو پزشک مختلف یک تصویر را بررسی می‌کنند (بین‌ناظر) یا وقتی یک پزشک در دو زمان متفاوت همان تصویر را بررسی می‌کند (درون‌ناظر)، چقدر اختلاف در نتایج وجود دارد. این عدد برای اثبات دقت یک روش بسیار مهم است.

تفکیک زمانی (Temporal Resolution): توانایی دستگاه برای ثبت دقیق حرکت‌های سریع قلب؛ هرچه این عدد بالاتر باشد، تصویر کمتر تار می‌شود.

کوتاه‌شدن نما (Foresortening): خطایی در سونوگرافی دوبعدی است که باعث می‌شود اندازه قلب در تصویر کوتاه‌تر از آنچه واقعاً هست دیده شود، که این موضوع منجر به اندازه‌گیری غلط حجم قلب می‌شود.