وڏي ٻولي ماڊل (LLM) فوري لفظن جي بنياد تي قائل ڪندڙ مضمون لکي سگهي ٿو، پيشه ورانه مهارت جا امتحان پاس ڪري سگهي ٿو، ۽ مريض دوستانه ۽ همدردي واري معلومات لکي سگهي ٿو. جڏهن ته، LLM ۾ افسانوي، نازڪ، ۽ غلط حقيقتن جي معروف خطرن کان علاوه، ٻيا حل نه ٿيل مسئلا بتدريج ڌيان جو مرڪز بڻجي رهيا آهن، جهڙوڪ AI ماڊل جيڪي انهن جي تخليق ۽ استعمال ۾ ممڪن طور تي امتيازي "انساني قدر" تي مشتمل آهن، ۽ جيتوڻيڪ LLM هاڻي مواد کي ٺاهي نه ٿو ۽ واضح طور تي نقصانڪار آئوٽ پُٽ نتيجن کي ختم ڪري ٿو، "LLM قدر" اڃا تائين انساني قدرن کان انحراف ڪري سگهن ٿا.
بيشمار مثال بيان ڪن ٿا ته ڪيئن AI ماڊلز کي تربيت ڏيڻ لاءِ استعمال ٿيندڙ ڊيٽا انفرادي ۽ سماجي قدرن کي انڪوڊ ڪري ٿو، جيڪي ماڊل اندر مضبوط ٿي سگهن ٿا. انهن مثالن ۾ ايپليڪيشنن جو هڪ سلسلو شامل آهي، جنهن ۾ سينه جي ايڪس ري جي خودڪار تشريح، چمڙي جي بيمارين جي درجه بندي، ۽ طبي وسيلن جي ورڇ بابت الگورتھمڪ فيصلو سازي شامل آهي. جيئن اسان جي جرنل ۾ هڪ تازي مضمون ۾ چيو ويو آهي، جانبدار تربيتي ڊيٽا سماج ۾ موجود قدرن ۽ تعصبن کي وڌائي ۽ ظاهر ڪري سگهي ٿو. ان جي برعڪس، تحقيق اهو پڻ ڏيکاريو آهي ته AI کي تعصب گهٽائڻ لاءِ استعمال ڪري سگهجي ٿو. مثال طور، محققن گوڏن جي ايڪس ري فلمن تي ڊيپ لرننگ ماڊل لاڳو ڪيا ۽ اهڙا عنصر دريافت ڪيا جيڪي گوڏن جي گڏيل اندر معياري شدت جي اشارن (ريڊيالوجسٽ پاران درجه بندي ڪيل) کان محروم هئا، ان ڪري ڪاري ۽ اڇي مريضن جي وچ ۾ اڻ وضاحت ٿيل درد جي فرق کي گهٽايو.
جيتوڻيڪ وڌيڪ ۽ وڌيڪ ماڻهو AI ماڊلز ۾ تعصب کي محسوس ڪري رهيا آهن، خاص طور تي تربيتي ڊيٽا جي لحاظ کان، AI ماڊلز جي ترقي ۽ تعیناتي جي عمل ۾ انساني قدرن جي ٻين ڪيترن ئي داخلا پوائنٽن تي ڪافي ڌيان نه ڏنو ويندو آهي. ميڊيڪل AI تازو متاثر ڪندڙ نتيجا حاصل ڪيا آهن، پر وڏي حد تائين، ان واضح طور تي انساني قدرن ۽ خطري جي تشخيص ۽ امڪاني دليل سان انهن جي رابطي تي غور نه ڪيو آهي، ۽ نه ئي ان کي ماڊل ڪيو ويو آهي.
انهن تجريدي تصورن کي مضبوط ڪرڻ لاءِ، تصور ڪريو ته توهان هڪ اينڊوڪرينولوجسٽ آهيو جنهن کي هڪ 8 سالن جي ڇوڪرو لاءِ ريڪومبيننٽ انساني واڌ هارمون جو نسخو ڏيڻ جي ضرورت آهي جيڪو پنهنجي عمر جي ٽئين فيصد کان گهٽ آهي. ڇوڪرو جي متحرڪ انساني واڌ هارمون جي سطح 2 اين جي/ايم ايل کان گهٽ آهي (حوالو قدر،> 10 اين جي/ايم ايل، آمريڪا کان ٻاهر ڪيترن ئي ملڪن لاءِ حوالو قدر آهي> 7 اين جي/ايم ايل)، ۽ سندس انساني واڌ هارمون ڪوڊنگ جين ناياب غير فعال ٿيڻ جي ميوٽيشنز کي ڳولي لڌو آهي. اسان جو يقين آهي ته هن ڪلينڪل سيٽنگ ۾ انساني واڌ هارمون ٿراپي جو استعمال واضح ۽ غير متنازع آهي.
هيٺ ڏنل حالتن ۾ انساني واڌ هارمون ٿراپي جو استعمال تڪرار پيدا ڪري سگهي ٿو: هڪ 14 سالن جي ڇوڪرو جو قد هميشه سندس ساٿين جي 10 سيڪڙو ۾ رهيو آهي، ۽ محرڪ کان پوءِ انساني واڌ هارمون جي چوٽي 8 اين جي/ايم ايل آهي. ڪو به معلوم فنڪشنل ميوٽيشن ناهي جيڪو قد کي متاثر ڪري سگهي ٿو، ۽ نه ئي ننڍو قد جا ٻيا معلوم سبب، ۽ سندس هڏن جي عمر 15 سالن جي آهي (يعني ڪو به ترقياتي دير نه). تڪرار جو صرف هڪ حصو ماهرن پاران طئي ڪيل حد جي قدرن ۾ فرق جي ڪري آهي جيڪو انساني واڌ هارمون جي سطحن جي حوالي سان درجنين مطالعي جي بنياد تي الڳ ٿيل واڌ هارمون جي گهٽتائي جي تشخيص لاءِ استعمال ڪيو ويندو آهي. گهٽ ۾ گهٽ گهڻو تڪرار مريضن، مريض والدين، صحت جي سار سنڀار جي ماهرن، دواسازي ڪمپنين ۽ ادا ڪندڙن جي نقطه نظر کان انساني واڌ هارمون ٿراپي جي استعمال جي خطري جي فائدي جي توازن مان پيدا ٿئي ٿو. ٻارن جي اينڊوڪرينولوجسٽ 2 سالن تائين واڌ هارمون جي روزاني انجيڪشن جي ناياب منفي اثرات کي وزن ڏئي سگهن ٿا موجوده جي مقابلي ۾ بالغن جي جسم جي سائيز ۾ نه يا صرف گهٽ ۾ گهٽ واڌ جي امڪان سان. ڇوڪرا شايد اهو سمجهن ته جيتوڻيڪ انهن جو قد صرف 2 سينٽي ميٽر وڌي سگهي ٿو، اهو واڌ هارمون جو انجڪشن لڳائڻ جي لائق آهي، پر ادا ڪندڙ ۽ دوا ساز ڪمپني جا مختلف خيال ٿي سگهن ٿا.
اسين مثال طور ڪريٽينائن تي ٻڌل eGFR وٺون ٿا، جيڪو دائمي گردئن جي بيماري جي تشخيص ۽ اسٽيجنگ، گردئن جي ٽرانسپلانٽ يا عطيو جي حالتن کي طئي ڪرڻ، ۽ ڪيترن ئي نسخن جي دوائن لاءِ گهٽتائي جي معيار ۽ تضادن کي طئي ڪرڻ لاءِ وڏي پيماني تي استعمال ٿيندڙ گردئن جي ڪم جو اشارو آهي. EGFR هڪ سادي ريگريشن مساوات آهي جيڪا ماپيل گلووميرولر فلٽريشن ريٽ (mGFR) جو اندازو لڳائڻ لاءِ استعمال ڪئي ويندي آهي، جيڪو هڪ حوالو معيار آهي، پر تشخيص جو طريقو نسبتاً ڏکيو آهي. هن ريگريشن مساوات کي AI ماڊل نه ٿو سمجهي سگهجي، پر اهو انساني قدرن ۽ امڪاني دليل بابت ڪيترن ئي اصولن کي بيان ڪري ٿو.
انساني قدرن لاءِ eGFR ۾ داخل ٿيڻ جو پهريون نقطو اهو آهي جڏهن مساواتن کي ترتيب ڏيڻ لاءِ ڊيٽا چونڊيو وڃي. eGFR فارمولا کي ڊزائين ڪرڻ لاءِ استعمال ٿيندڙ اصل قطار گهڻو ڪري ڪاري ۽ اڇي شرڪت ڪندڙن تي مشتمل آهي، ۽ ڪيترن ئي ٻين نسلي گروهن تي ان جي لاڳو ٿيڻ واضح ناهي. هن فارمولا ۾ انساني قدرن لاءِ ايندڙ داخلا نقطن ۾ شامل آهن: گردئن جي ڪم جي تشخيص لاءِ بنيادي مقصد جي طور تي mGFR جي درستگي کي چونڊڻ، درستگي جي قابل قبول سطح ڇا آهي، درستگي کي ڪيئن ماپجي، ۽ ڪلينڪل فيصلي سازي کي متحرڪ ڪرڻ لاءِ eGFR کي حد جي طور تي استعمال ڪرڻ (جهڙوڪ گردئن جي منتقلي لاءِ حالتون طئي ڪرڻ يا دوا تجويز ڪرڻ). آخرڪار، ان پٽ ماڊل جي مواد کي چونڊڻ وقت، انساني قدر پڻ هن فارمولي ۾ داخل ٿيندا.
مثال طور، 2021 کان اڳ، هدايتون مريض جي عمر، جنس ۽ نسل جي بنياد تي eGFR فارمولا ۾ ڪريٽينائن جي سطح کي ترتيب ڏيڻ جو مشورو ڏين ٿيون (صرف ڪاري يا غير ڪاري فردن جي طور تي درجه بندي ڪئي وئي آهي). نسل جي بنياد تي ترتيب ڏيڻ جو مقصد mGFR فارمولا جي درستگي کي بهتر بڻائڻ آهي، پر 2020 ۾، وڏين اسپتالن نسل جي بنياد تي eGFR جي استعمال تي سوال اٿارڻ شروع ڪيا، سببن جو حوالو ڏيندي جيئن مريض جي ٽرانسپلانٽيشن لاءِ قابليت ۾ دير ڪرڻ ۽ نسل کي حياتياتي تصور جي طور تي ڪنڪريٽ ڪرڻ. تحقيق ڏيکاريو آهي ته نسل جي لحاظ کان eGFR ماڊلز کي ڊزائين ڪرڻ درستگي ۽ ڪلينڪل نتيجن تي گہرا ۽ مختلف اثر پئجي سگهن ٿا؛ تنهن ڪري، چونڊيل طور تي درستگي تي ڌيان ڏيڻ يا نتيجن جي هڪ حصي تي ڌيان ڏيڻ قدر جي فيصلن کي ظاهر ڪري ٿو ۽ شفاف فيصلي سازي کي لڪائي سگهي ٿو. آخرڪار، قومي ڪم ڪندڙ گروپ هڪ نئون فارمولا پيش ڪيو جيڪو ڪارڪردگي ۽ انصاف جي مسئلن کي متوازن ڪرڻ لاءِ نسل تي غور ڪرڻ کان سواءِ ٻيهر نصب ڪيو ويو. هي مثال واضح ڪري ٿو ته هڪ سادي ڪلينڪل فارمولا ۾ انساني قدرن ۾ ڪيترائي داخلا نقطا آهن.
ڪلينڪل فارمولن جي مقابلي ۾ جن ۾ صرف ٿوري تعداد ۾ اڳڪٿي ڪندڙ اشارا آهن، LLM اربين کان سوين اربين پيرا ميٽرز (ماڊل وزن) يا وڌيڪ تي مشتمل ٿي سگهي ٿو، جنهن ڪري اهو سمجهڻ ڏکيو ٿي پوي ٿو. اسان "سمجهڻ ۾ مشڪل" ڇو ٿا چئون ٿا اهو سبب آهي ته گھڻن LLMs ۾، سوالن ذريعي جواب حاصل ڪرڻ جو صحيح طريقو نقشو نه ٿو ڪري سگهجي. GPT-4 لاءِ پيرا ميٽرز جو تعداد اڃا تائين اعلان نه ڪيو ويو آهي؛ ان جي اڳوڻي GPT-3 ۾ 175 ارب پيرا ميٽر هئا. وڌيڪ پيرا ميٽرز جو مطلب ضروري ناهي ته مضبوط صلاحيتون هجن، ڇاڪاڻ ته ننڍا ماڊل جن ۾ وڌيڪ ڪمپيوٽيشنل چڪر شامل آهن (جهڙوڪ LLaMA [وڏي ٻولي ماڊل ميٽا AI] ماڊل سيريز) يا ماڊل جيڪي انساني موٽ جي بنياد تي نفيس ترتيب ڏنل آهن اهي وڏن ماڊلز کان بهتر ڪارڪردگي ڏيکاريندا. مثال طور، انساني جائزي وٺندڙن جي مطابق، InstrumentGPT ماڊل (1.3 ارب پيرا ميٽرز سان هڪ ماڊل) ماڊل آئوٽ پُٽ نتيجن کي بهتر ڪرڻ ۾ GPT-3 کان بهتر ڪارڪردگي ڏيکاري ٿو.
GPT-4 جي مخصوص تربيتي تفصيل اڃا تائين ظاهر نه ڪيا ويا آهن، پر پوئين نسل جي ماڊلز جي تفصيل جن ۾ GPT-3، InstrumentGPT، ۽ ٻيا ڪيترائي اوپن سورس LLM شامل آهن، ظاهر ڪيا ويا آهن. اڄڪلهه، ڪيترائي AI ماڊل ماڊل ڪارڊ سان گڏ ايندا آهن؛ GPT-4 جو جائزو ۽ سيڪيورٽي ڊيٽا ماڊل ٺاهڻ واري ڪمپني OpenAI پاران مهيا ڪيل ساڳئي سسٽم ڪارڊ ۾ شايع ڪيو ويو آهي. LLM جي تخليق کي تقريبن ٻن مرحلن ۾ ورهائي سگهجي ٿو: ابتدائي پري ٽريننگ اسٽيج ۽ فائن ٽيوننگ اسٽيج جنهن جو مقصد ماڊل آئوٽ پُٽ نتيجن کي بهتر بڻائڻ آهي. پري ٽريننگ اسٽيج ۾، ماڊل کي هڪ وڏو ڪارپس مهيا ڪيو ويندو آهي جنهن ۾ اصل انٽرنيٽ ٽيڪسٽ شامل آهي ته جيئن ان کي ايندڙ لفظ جي اڳڪٿي ڪرڻ جي تربيت ڏني وڃي. هي بظاهر سادو "خودڪار مڪمل ٿيڻ" وارو عمل هڪ طاقتور بنيادي ماڊل پيدا ڪري ٿو، پر اهو نقصانڪار رويي جو سبب پڻ بڻجي سگهي ٿو. انساني قدر پري ٽريننگ اسٽيج ۾ داخل ٿيندا، جنهن ۾ GPT-4 لاءِ پري ٽريننگ ڊيٽا چونڊڻ ۽ پري ٽريننگ ڊيٽا مان فحش مواد جهڙي نامناسب مواد کي هٽائڻ جو فيصلو شامل آهي. انهن ڪوششن جي باوجود، بنيادي ماڊل اڃا تائين نه ته مفيد ٿي سگهي ٿو ۽ نه ئي نقصانڪار آئوٽ پُٽ نتيجن کي شامل ڪرڻ جي قابل ٿي سگهي ٿو. فائن ٽيوننگ جي ايندڙ مرحلي ۾، ڪيترائي مفيد ۽ بي ضرر رويا سامهون ايندا.
فائن ٽيوننگ اسٽيج ۾، ٻولي ماڊلز جو رويو اڪثر ڪري نگراني ڪيل فائن ٽيوننگ ۽ انساني موٽ جي بنياد تي مضبوط ڪرڻ واري سکيا ذريعي وڏي پيماني تي تبديل ڪيو ويندو آهي. نگراني ڪيل فائن ٽيوننگ اسٽيج ۾، ڀرتي ڪيل ٺيڪيدار عملو فوري لفظن لاءِ جوابي مثال لکندو ۽ ماڊل کي سڌو سنئون تربيت ڏيندو. انساني موٽ جي بنياد تي مضبوط ڪرڻ واري سکيا جي مرحلي ۾، انساني جائزو وٺندڙ ماڊل آئوٽ پُٽ نتيجن کي ان پٽ مواد جي مثالن جي طور تي ترتيب ڏيندا. پوءِ مٿي ڏنل مقابلي جي نتيجن کي "انعام ماڊل" سکڻ لاءِ لاڳو ڪندا ۽ مضبوط ڪرڻ واري سکيا ذريعي ماڊل کي وڌيڪ بهتر بڻائيندا. حيرت انگيز گهٽ سطح جي انساني شموليت انهن وڏن ماڊلز کي بهتر بڻائي سگهي ٿي. مثال طور، انسٽرومينٽ جي پي ٽي ماڊل ڪراؤڊ سورسنگ ويب سائيٽن مان ڀرتي ڪيل تقريبن 40 ٺيڪيدار اهلڪارن جي هڪ ٽيم استعمال ڪئي ۽ هڪ اسڪريننگ ٽيسٽ پاس ڪيو جنهن جو مقصد مختلف آبادي گروپن جي ترجيحن لاءِ حساس تشريح ڪندڙن جي هڪ گروپ کي چونڊڻ هو.
جيئن ته اهي ٻه انتهائي مثال، يعني سادو ڪلينڪل فارمولا [eGFR] ۽ طاقتور LLM [GPT-4]، ظاهر ڪن ٿا، انساني فيصلي سازي ۽ انساني قدر ماڊل آئوٽ پُٽ نتيجن کي شڪل ڏيڻ ۾ هڪ لازمي ڪردار ادا ڪن ٿا. ڇا اهي AI ماڊل پنهنجي متنوع مريض ۽ طبيب جي قدرن کي پڪڙي سگهن ٿا؟ طب ۾ AI جي استعمال کي عوامي طور تي ڪيئن رهنمائي ڪجي؟ جيئن هيٺ ذڪر ڪيو ويو آهي، طبي فيصلي جي تجزيي جو ٻيهر جائزو انهن مسئلن جو هڪ اصولي حل فراهم ڪري سگهي ٿو.
طبي فيصلي جو تجزيو ڪيترن ئي طبيبن لاءِ واقف نه آهي، پر اهو امڪاني دليلن جي وچ ۾ فرق ڪري سگهي ٿو (فيصلو ڪرڻ سان لاڳاپيل غير يقيني نتيجن لاءِ، جيئن ته ڇا شڪل 1 ۾ ڏيکاريل متنازع ڪلينڪل منظرنامي ۾ انساني واڌ هارمون کي استعمال ڪرڻ گهرجي) ۽ غور فڪر (انهن نتيجن سان ڳنڍيل ذاتي قدرن لاءِ، جن جي قيمت کي "افاديت" جي طور تي مقدار ۾ بيان ڪيو ويو آهي، جهڙوڪ مرد جي قد ۾ 2 سينٽي ميٽر واڌ جي قيمت)، پيچيده طبي فيصلن لاءِ منظم حل فراهم ڪرڻ. فيصلي جي تجزيي ۾، طبيبن کي پهريان هر نتيجي سان لاڳاپيل سڀني ممڪن فيصلن ۽ امڪانن کي طئي ڪرڻ گهرجي، ۽ پوءِ هر نتيجي سان لاڳاپيل مريض (يا ٻي پارٽي) افاديت کي شامل ڪرڻ گهرجي ته جيئن سڀ کان وڌيڪ مناسب آپشن چونڊيو وڃي. تنهن ڪري، فيصلي جي تجزيي جي صحيحيت ان تي منحصر آهي ته ڇا نتيجو سيٽنگ جامع آهي، انهي سان گڏ ڇا افاديت جي ماپ ۽ امڪان جو اندازو صحيح آهي. مثالي طور تي، هي طريقو يقيني بڻائڻ ۾ مدد ڪري ٿو ته فيصلا ثبوت تي ٻڌل آهن ۽ مريض جي ترجيحن سان هم آهنگ آهن، انهي ڪري مقصدي ڊيٽا ۽ ذاتي قدرن جي وچ ۾ فرق کي گهٽائي ٿو. هي طريقو ڪيترن ئي ڏهاڪن اڳ طبي ميدان ۾ متعارف ڪرايو ويو هو ۽ انفرادي مريض جي فيصلي سازي ۽ آبادي جي صحت جي تشخيص تي لاڳو ڪيو ويو هو، جهڙوڪ عام آبادي کي ڪولوريڪٽل ڪينسر جي اسڪريننگ لاءِ سفارشون مهيا ڪرڻ.
طبي فيصلي جي تجزيي ۾، افاديت حاصل ڪرڻ لاءِ مختلف طريقا تيار ڪيا ويا آهن. گھڻا روايتي طريقا سڌو سنئون انفرادي مريضن کان قدر حاصل ڪندا آهن. سڀ کان آسان طريقو ريٽنگ اسڪيل استعمال ڪرڻ آهي، جتي مريض ڊجيٽل پيماني تي هڪ خاص نتيجي لاءِ پنهنجي ترجيح جي سطح جو جائزو وٺندا آهن (جهڙوڪ 1 کان 10 تائين هڪ لڪير وارو اسڪيل)، جنهن ۾ انتهائي انتهائي صحت جا نتيجا (جهڙوڪ مڪمل صحت ۽ موت) ٻنهي سرن تي واقع آهن. وقت جي مٽاسٽا جو طريقو هڪ ٻيو عام طور تي استعمال ٿيندڙ طريقو آهي. هن طريقي ۾، مريضن کي اهو فيصلو ڪرڻ جي ضرورت آهي ته اهي خراب صحت جي عرصي جي بدلي ۾ ڪيترو صحتمند وقت گذارڻ لاءِ تيار آهن. معياري جوا جو طريقو افاديت کي طئي ڪرڻ لاءِ هڪ ٻيو عام طور تي استعمال ٿيندڙ طريقو آهي. هن طريقي ۾، مريضن کان پڇيو ويندو آهي ته اهي ٻن اختيارن مان ڪهڙو ترجيح ڏين ٿا: يا ته هڪ مخصوص امڪان (p) (t) سان عام صحت ۾ ڪجهه سال جيئرو رهن، ۽ 1-p امڪان سان موت جو خطرو برداشت ڪن؛ يا ته ڪراس هيلٿ حالتن هيٺ t سالن تائين جيئڻ کي يقيني بڻايو. مريضن کان ڪيترائي ڀيرا مختلف p-قدرن تي پڇو جيستائين اهي ڪنهن به آپشن لاءِ ڪا ترجيح نه ڏيکارين، ته جيئن افاديت جو حساب مريضن جي جوابن جي بنياد تي ڪري سگهجي.
انفرادي مريضن جي ترجيحن کي حاصل ڪرڻ لاءِ استعمال ٿيندڙ طريقن کان علاوه، مريضن جي آبادي لاءِ افاديت حاصل ڪرڻ لاءِ طريقا پڻ تيار ڪيا ويا آهن. خاص طور تي فوڪس گروپ بحث (مريضن کي گڏ ڪري مخصوص تجربن تي بحث ڪرڻ) انهن جي نقطه نظر کي سمجهڻ ۾ مدد ڪري سگهي ٿو. گروپ افاديت کي مؤثر طريقي سان گڏ ڪرڻ لاءِ، مختلف منظم گروپ بحث طريقا تجويز ڪيا ويا آهن.
عملي طور تي، ڪلينڪل تشخيص ۽ علاج جي عمل ۾ افاديت جو سڌو سنئون تعارف تمام گهڻو وقت وٺندڙ آهي. حل جي طور تي، سروي سوالنامي عام طور تي آبادي جي سطح تي افاديت اسڪور حاصل ڪرڻ لاءِ بي ترتيب چونڊيل آبادي ۾ ورهايا ويندا آهن. ڪجهه مثالن ۾ يورو ڪول 5-dimensional سوالنامو، 6-dimensional يوٽيلٽي ويٽ شارٽ فارم، هيلٿ يوٽيلٽي انڊيڪس، ۽ ڪينسر اسپيسيفڪ يورپي ڪينسر ريسرچ اينڊ ٽريٽمينٽ آرگنائيزيشن ڪوالٽي آف لائف سوالنامو ڪور 30 ٽول شامل آهن.
پوسٽ جو وقت: جون-01-2024




