ارائه مدلی برای پیش بینی بقای بیماران مبتلا به ملانوم بر اساس الگوریتم های داده کاوی
محورهای موضوعی : فناوری اطلاعات و ارتباطاتفریناز صناعی 1 , سید عبدالله امین موسوی 2 * , عباس طلوعی اشلقی 3 , علی رجب زاده قطری 4
1 - دانشجوی دکتری رشته مدیریت فناوری اطلاعات،گرایش کسب کار هوشمند ، گروه مدیریت فناوری اطلاعات ،دانشکده مدیریت واقتصاد، واحد علوم تحقیقات، دانشگاه آزاد اسلامی،تهران ،ایران
2 - عضو هیات علمی( استادیار) ،گروه مدیریت صنعتی ، دانشکده مدیریت ، واحد تهران مرکز، دانشگاه آزاد اسلامی،تهران،ایران
3 - دانشگاه آزاد اسلامی واحد علوم و تحقیقات
4 - Tarbiat Modarres University
کلید واژه: داده کاوي, پیش بیني, ملانوم, بقاي بیماري, شبکه عصبي, درخت تصمیم گیري,
چکیده مقاله :
مقدمه: ملانوم جزء شایعترین سرطان تشخیصي و دومین علت مرگ ناشي از سرطان در میان افراد است. تعداد مبتلایان به آن در حال افزایش است. ملانوم، نادرترین و بدخیم ترین نوع سرطان پوست است.در شرایط پیشرفته توانایي انتشار به ارگانهاي داخلي را دارد و ميتواند منجر به مرگ شود. طبق برآوردهاي انجمن سرطان آمریکا براي ملانوم در ایالاتمتحده براي سال 2022 عبارتاند از: حدود 99،780 ز افراد مبتلابه ملانوم تشخیص داده شدند و حدود 7،650 نفر در اثر ملانوم جان خود را از دست ميدهند. لذا هدف از این مطالعه، طراحي بهبود دقت الگوریتم براي پیش بیني بقاي این بیماران است. روش پژوهش: روش حاضر کاربردي، توصیفي- تحلیلي و گذشتهنگر است. جامعه پژوهش را بیماران مبتلابه سرطان ملانوم پایگاه داده مرکز تحقیقات کشوري سرطان دانشگاه شهید بهشتي ) 1۳87 تا 1۳91 ( که تا 5 سال مورد پیگیري قرارگرفته بودند، تشکیل داده است. مدل پیشبیني بقاي ملانوم بر اساس شاخص هاي ارزیابي الگوریتم هاي داده کاوي انتخاب شد. یافته ها: الگوریتم هاي شبکه عصبي، بیز ساده، شبکه بیزي، ترکیب درخت تصمیم گیري با بیز ساده، رگرسیون لجستیک، J48 ، ID3 بهعنوان مدل هاي استفاده شده ي پایگاه داده کشور انتخاب شدند . عملکرد شبکه عصبي در همه شاخصهاي ارزیابي ازلحاظ آماري نسبت به سایر الگوریتم هاي منتخب بالاتر بود. نتیجه گیري: نتایج مطالعه حاضر نشان داد که شبکه عصبي با مقدار 97 / 0 ازلحاظ دقت پیش بیني عملکرد بهینه دارد. بنابراین مدل پیش بیني کننده بقاي ملانوم، هم ازلحاظ قدرت تمایز و هم ازلحاظ پایایي، عملکرد بهتري از خود نشان داد؛ بنابراین، این الگوریتم به عنوان مدل پیش بیني بقاي ملانوم پیشنهاد شد
Background/Purpose: Among the most commonly diagnosed cancers, melanoma is the second leading cause of cancer-related death. A growing number of people are becoming victims of melanoma. Melanoma is also the most malignant and rare form of skin cancer. Advanced cases of the disease may cause death due to the spread of the disease to internal organs. The National Cancer Institute reported that approximately 99,780 people were diagnosed with melanoma in 2022, and approximately 7,650 died. Therefore, this study aims to develop an optimization algorithm for predicting melanoma patients' survival. Methodology: This applied research was a descriptive-analytical and retrospective study. The study population included patients with melanoma cancer identified from the National Cancer Research Center at Shahid Beheshti University between 2008 and 2013, with a follow-up period of five years. An optimization model was selected for melanoma survival prognosis based on the evaluation metrics of data mining algorithms. Findings: A neural network algorithm, a Naïve Bayes network, a Bayesian network, a combination of decision tree and Naïve Bayes network, logistic regression, J48, and ID3 were selected as the models used in the national database. Statistically, the studied neural network outperformed other selected algorithms in all evaluation metrics. Conclusion: The results of the present study showed that the neural network with a value of 0.97 has optimal performance in terms of reliability. Therefore, the predictive model of melanoma survival showed a better performance both in terms of discrimination power and reliability. Therefore, this algorithm was proposed as a melanoma survival prediction model.
1. Zamanian Azodi M, Azizi Jalilian F. Early detection of cancer and proteomics. Journal of Ilam University of Medical Sciences 2013; 21 (1): 112-22. (Persian)
2. Shariatzadeh MA, Hamta A, Solimani M, et al. Determination of chromosomal changes in DMBA-induced skin cancer in SD rat strains. J Arak Uni Med Sci 2009; 12 (2): 73-87. (Persian)
3. Howlader N, N.A., Krapcho M, Miller D, Brest A, Yu M, Ruhl J, Tatalovich Z, Mariotto A, Lewis DR, Feuer EJ, Cronin KA. SEER Cancer Statistics Review, 19752016. 2018 December, 11, 2019 2020].
4. Seyed Elham Hosseini Fadafen, Emad Fatemizadeh, “Diagnosis of skin cancer by extracting features from images“Shhab Dansh Institute(2016)
5 Hoseini. (25/06/1391). Available: http://www.fbme.ir/category/6. [1] A. Hoseini. (25/06/1391). Available: http://www.fbme.ir/category/6
6. David A. Kirchar DA, Mark R, et al. Melanoma brain metastasis: mechanisms, models and medicine. J Mol Sci 2016; 17 (7): 1-29.
7 .Wrobel, S., M. Przybylo, and E. Stepien, The Clinical Trial Landscape for Melanoma Therapies. J Clin Med, 2019. 8(3).
8. Longo D, Casper D, Jameson L, et al. Harrison’s principles of internal medicine.18th ed. New york; Mc Graw-Hill 2012; 1945-65.
9. L. Sophia, and M. S. Pallavi. “Predicting Protein in Cancer Diagnosis Using Effective Classification and Feature Selection Technique,” IEEE International Conference on Communication and Signal Processing (ICCSP), pp. 156-159, 2018
10. Burd, C.E., et al., Mutation-Specific RAS Oncogenicity Explains NRAS Codon 61 Selection in Melanoma. Cancer Discovery, 2014. 4(12): p. 1418.
11. S. Winiarti, H. Yuliansyah, and A. A. Purnama, “Identification of Toddlers’ Nutritional Status using Data Mining Approach,” International Journal of Advanced Computer Science and Applications, Vol. 9, No. 1, pp. 164 - 169, 2018.
12. Kim, R. H. & Meehan, S. A. Immunostain use in the diagnosis of melanomas referred to a tertiary medical center: a 15-year retrospective review (2001–2015). J. Cutan. Pathol. 44, 221–227 (2017).
13. Roebuck H, Moran K, MacDonald DA, Shumer S, McCune RL. Assessing Skin Cancer Prevention and Detection Educational Needs: An Andragogical Approach. The Journal for Nurse Practitioners. 2015;11(4):40916
14. Alizadeh S, Ghazanfari M & Teimorpour B. Data mining and knowledge discovery. 2nd ed. Tehran: Publication of Iran University of Science and Technology; 2011: 70-250[Book in Persian].
15. Witten I. Frank E.Hall M. Data mining : Practical machin learning tools techniques: Morgan Kaufinann: 2011
16. Habif, T.P., Campbell, J.L., Chapman, S., and Dinulos, J., Skin disease: diagnosis and treatment, Elsevier Mosby, 2010 .
17. Han J. Kamber M,Pei J. Data mining: Concepts and techniques: Publishers Inc.: 2011
18. Razavi AR Applications of knowledge discovery in quality registries - predicting recurrence of breast cancer and analyzing non-compliance with a clinical guideline: Institutionen för medicinsk teknik; 2015.
19 Masilamani, G. D. Praveenkumar, and R.Gayathri. “Comparative Study on Skin Cancer Using the Approach of Data Mining,” Int. J. Res. Appl. Sci. Eng. Tech, no. 4, 2016
20. Liu Peng LL. A review of missing data treatment methods .2005
21 Ameri H, Alizadeh S & Barzegari A. Knowledge extraction of diabetics’ data by decision tree method. Health Management
2013; 16(53): 58-72[in Persian]
22. Magnani M. Techniques for dealing with missing . Data in knowledge discovery Department of Computer Science, Universitiy of Bologna.2004
23 K. Q. Kanaan. “Classification of human skin diseases using data mining,” International Journal of Advanced Engineering Research and Sci, Vol. 4, no. 1, 2017.
24. Aftarczuk K, Kozierkiewicz A. Evaluation of selected data mining algorithms implemented in Medical Decision Support Systems. Report of Institute of Information Science & Engineering, University of Technology. Wroclaw 2009; (1).
25. Mahmoodi MS, Mahmoodi SA, Haghighi F, Mahmoodi SM. Determining the stage of breast cancer by data mining algorithms. ijbd. 2014;7(2):36-44.
26. Sarafi Nejad A, Saeid AH, Rose I.M, Rowhanimanesh AR. Modeling a Data Mining Decision Tree and Propose a New Model for the Diagnosis of Skin Cancer by Immunohistochemical Staining Methods. Journal of Health and Biomedical Informatics 2014; 1(1): 54-62.[Persian].
27. Dehghan P, Mogharabi M, Zabbah I, Layeghi K & Maroosi A. Modeling Breast cancer using data mining methods. Journal of Health and Biomedical Informatics 2018; 4(4): 266-78[Article in Persian].
28. Tahmasebian S, Ghazisaeedi M, Langarizadeh M, Mokhtaran M, Mahdavi-Mazdeh M, Javadian P. Applying data mining techniques to determine important parameters in chronic kidney disease and the relations of these parameters to each other. J Renal Inj Prev 2017; 6(2): 83–7.
29. Martınez AM, Webb GI, Chen S, Zaidi NA. Scalable learning of Bayesian network classifiers. Journal of Machine Learning Research. 2016;17(44):1-35
30. Finkelstein J, Jeong IC. Machine learning approaches to personalize early prediction of asthma exacerbations. Ann N Y Acad Sci 2017;1387(1):153- 65.
31. Ahmed K, Jesmin T, Rahman MZ. Early Prevention and Detection of Skin Cancer Risk using Data Mining. International Journal of Computer Applications 2013;62(4):1 -6.
32. Gopalakrishnan, V. et al. Gut microbiome modulates response to anti-PD-1 immunotherapy in melanoma patients. Science 359, 97–103 (2018).
33. Hira Beenish, Muhammad Fahadad International Conference on Computing and Information Technology, University o f Tabuk, Kingdom o f Saudi Arabia. Volume: 01, Issue: ICCIT- 1441, Page No.: 44 - 47, 9 & 1 9 Sep. 2020
34. McLaughlin JM, Fisher JL, Paskett ED. Marital status and stage at diagnosis of cutaneous melanoma: results from the Surveillance Epidemiology and End Results (SEER) program, 1973–2006. Cancer. 2011;117(9):1984–
1993
35. Chen, S., et al., Targeting MC1R depalmitoylation to prevent melanomagenesis in
redheads. Nature Communications, 2019. 10(1): p. 877.
36. N. R. Aaron, and T. M. Khoshgoftaar, “Modernizing analytics for melanoma with a large-scale research dataset,” In 2017 IEEE International Conference on Information Reuse and Integration (IRI), pp. 551 - 558, 2017.
37. Thongkam J. Xu GD, Zhang YC,Huang FC Toward breast cancer survivability prediction models through improving training space. 2009 Dec:36(10):12200-9.
38. Gibert K, Sanchez-Marre M, Codina V editors . Choosing the right data mining technique: Classification of methods and intelligent recommendation. Proceeding the IEMSs fifth biennial meeting international congress on environmental modeling and software ;2015
39. Witten I. Frank E.Hall M. Data mining : Practical machine Learning tools and techniques: Morgan Kaufinann: 2011.
40 Lee, C., Collichio, F., Ollila, D. & Moschos, S. Historical review of melanoma treatment and outcomes. Clin. Dermatol. 31, 141–147 (2013).
410 Dehghan P, Mogharabi M, Zabbah I, Layeghi K & Maroosi A. Modeling Breast cancer using data mining methods. Journal of Health and Biomedical Informatics 2018; 4(4): 266-78[Article in Persian].
42. H. Safigholi, A. S. Meigooni, and W. Y. J. M. p. Song, "Comparison of 192Ir, 169Yb, and 60Co high-dose rate brachytherapy sources for skin cancer treatment," vol. 44, no. 9, pp. 4426-4436, 2017.
43. Kasạcian A, Abadi A-R ، Mehrabi Y ،Mousavi-Jarahi A-R. Estimating to relative survival of skin cancer patients referring to imam khomeini cancer institute during 1990-95 Knowledge & Health. 2009:4(3):1-7. [In Persian].
44. U.-O. Dorj, K.-K. Lee, J.-Y. Choi, M. J. M. T. Lee, and Applications, "The skin cancer classification using deep convolutional neural network," pp. 1-16, 2018.
45. Jonsdottir T. Hvannberg ET, Sigurdsson H, Sigurdsson S. The feasibility of constructing a predictive outcome model for breast cancer using the tools of data mining . Expert Systems with Applications. 2008 Jan;34(1):108-18.
46. Yu CT, Chao CM, Cheng BW. Prediction of surv using three artificial intelligence techniques. Journal of Theoretical and applied Information Technology. 2014;60(1):179-83. 99.
47. Zhe Tang, Yuancheng Su, Er Meng Joo, Fang Qi,Li Zhang, Jianyong Zhou, “A local binary pattern based texture descriptors for classification of tea leaves”, NEUCOM15529, May. 2015.
48. Maimon O.Rokach L.Data mining and knowledge discover handbook;springer Verlag New York, Inc.; 2010
49. Kim, R. H. & Meehan, S. A. Immunostain use in the diagnosis of melanomas referred to a tertiary medical center: a 15-year retrospective review (2001–2015). J. Cutan. Pathol. 44, 221–227 (2017).
550. Gopalakrishnan, V. et al. Gut microbiome modulates response to anti-PD-1 immunotherapy in melanoma patient Science 359,97-103(2018).
51. MK Keleş, Tehnički vjesnik, Breast Cancer Prediction and Detection Using Data Mining Classification Algorithms, 2019, Sarıçam Adana, Turkey
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال پانزدهم، شماره 57 و58 ، پاییز و زمستان 1402 صفحات:1 الی19 |
|
Design and implementation of a survival model for patients with melanoma based on data mining algorithms
Farinaz Sanaei*, Seyyed Abdolah Amin Mousavi**, Abbas Toloie Eshlaghi***, Ali Rajabzadeh Ghatari****
*Ph.D. student, Information Technology Management, Department of Information Technology Management, Faculty of Management and Economics, Islamic Azad University, Science and Research Branch, Tehran, Iran
**Assistant Professor, Department of Industrial Management, Faculty of Management, Islamic Azad University, Central Tehran Branch, Tehran, Iran
***Professor, Department of Information Technology Management, Faculty of Management and Economics, Islamic Azad University, Science and Research Branch, Tehran, Iran
****Professor, Industrial Management Department, Faculty of Management and Economics, Tarbiat Modares University, Tehran, Iran
Abstract
Background/Purpose: Among the most commonly diagnosed cancers, melanoma is the second leading cause of cancer-related death. A growing number of people are becoming victims of melanoma. Melanoma is also the most malignant and rare form of skin cancer. Advanced cases of the disease may cause death due to the spread of the disease to internal organs. The National Cancer Institute reported that approximately 99,780 people were diagnosed with melanoma in 2022, and approximately 7,650 died. Therefore, this study aims to develop an optimization algorithm for predicting melanoma patients' survival.
Methodology: This applied research was a descriptive-analytical and retrospective study. The study population included patients with melanoma cancer identified from the National Cancer Research Center at Shahid Beheshti University between 2008 and 2013, with a follow-up period of five years. An optimization model was selected for melanoma survival prognosis based on the evaluation metrics of data mining algorithms.
Findings: A neural network algorithm, a Naïve Bayes network, a Bayesian network, a combination of decision tree and Naïve Bayes network, logistic regression, J48, and ID3 were selected as the models used in the national database. Statistically, the studied neural network outperformed other selected algorithms in all evaluation metrics.
Conclusion: The results of the present study showed that the neural network with a value of 0.97 has optimal performance in terms of reliability. Therefore, the predictive model of melanoma survival showed a better performance both in terms of discrimination power and reliability. Therefore, this algorithm was proposed as a melanoma survival prediction model.
Keywords: data mining, prediction, melanoma, disease survival, neural network, decision tree.
ارائه مدلی برای پیشبینی بقای بیماران مبتلابه ملانوم بر اساس الگوریتمهای دادهکاوی
فریناز صناعی*، سید عبداله امین موسوی**×، عباس طلوعی اشلقی***، علی رجبزاده قطری****
*دانشجوی دکتری مدیریت فناوری اطلاعات، گروه مدیریت فناوری اطلاعات، دانشکده مدیریت و اقتصاد، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران
** استادیار، گروه مدیریت صنعتی، دانشکده مدیریت، واحد تهران مرکز، دانشگاه آزاد اسلامی، تهران، ایران
استاد، گروه مدیریت فناوری اطلاعات، دانشکده مدیریت و اقتصاد، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران
استاد، گروه مدیریت صنعتی، دانشکده مدیریت و اقتصاد، دانشگاه تربیت مدرس، تهران، ایران
تاریخ دریافت:14/07/1401 تاریخ پذیرش:28/11/1401
نوع مقاله:پژوهشی
چکیده
مقدمه: ملانوم جزء شایعترین سرطان تشخیصی و دومین علت مرگ ناشی از سرطان در میان افراد است. تعداد مبتلايان به آن در حال افزايش است. ملانوم، نادرترين و بدخیمترین نوع سرطان پوست است.در شرايط پيشرفته توانايي انتشار به ارگانهای داخلي را دارد و میتواند منجر به مرگ شود. طبق برآوردهای انجمن سرطان آمریکا برای ملانوم در ایالاتمتحده برای سال 2022 عبارتاند از: حدود 99،780 ز افراد مبتلابه ملانوم تشخیص داده شدند و حدود 7،650 نفر در اثر ملانوم جان خود را از دست میدهند. لذا هدف از این مطالعه، طراحی بهبود دقت الگوریتم برای پیشبینی بقای این بیماران است.
روش پژوهش: روش حاضر کاربردی، توصیفی- تحلیلی و گذشتهنگر است. جامعه پژوهش را بیماران مبتلابه سرطان ملانوم پایگاه داده مرکز تحقیقات کشوری سرطان دانشگاه شهید بهشتی (۱۳۸7 تا ۱۳91) که تا ۵ سال مورد پیگیری قرارگرفته بودند، تشکیل داده است. مدل پیشبینی بقای ملانوم بر اساس شاخصهای ارزیابی الگوریتمهای دادهکاوی انتخاب شد.
یافتهها: الگوریتمهای شبکه عصبی، بیز ساده، شبکه بیزی، ترکیب درخت تصمیمگیری با بیز ساده، رگرسیون لجستیک، J48، ID3 بهعنوان مدلهای استفادهشدهی پایگاه داده کشور انتخاب شدند. عملکرد شبکه عصبی در همه شاخصهای ارزیابی ازلحاظ آماری نسبت به سایر الگوریتمهای منتخب بالاتر بود.
نتیجهگیری: نتایج مطالعه حاضر نشان داد که شبکه عصبی با مقدار 97/0 ازلحاظ دقت پیشبینی عملکرد بهینه دارد. بنابراین مدل پیشبینی کننده بقای ملانوم، هم ازلحاظ قدرت تمایز و هم ازلحاظ پایایی، عملکرد بهتری از خود نشان داد؛ بنابراین، این الگوریتم بهعنوان مدل پیشبینی بقای ملانوم پیشنهاد شد.
واژگان کلیدی: دادهکاوی، پیشبینی، ملانوم، بقای بیماری، شبکه عصبی، درخت تصمیمگیری
×نویسنده مسئول:سید عبداله امین موسوی ، a.mousavi@iauctb.ac.ir
1. مقدمه
سرطان به گروهی از بیماریها اطلاق میشود که با رشد کنترل نشده و گسترش سلولهای غیرطبیعی مشخص میگردد. چنانچه این رشد غیرطبیعی مهار نشود به مرگ منجر میشود]1[. ملانوم بدخیم کشنده و تهاجمیترین نوع سرطان پوست است ]2[.
خطرناکترین ویژگی ملانوم این است که میتواند بهطور گستردهای در سراسر بدن از طریق عروق لنفاوی و رگهای خونی گسترش یابد؛ بنابراین تشخیص زودهنگام یک عامل کلیدی برای پیشآگهی این بیماری است]3[.
|
|
برآوردهای انجمن سرطان آمریکا برای ملانوم در ایالاتمتحده برای سال 2022 عبارتاند از: حدود 99،780 ملانوم جدید تشخیص داده میشود (حدود 57180 نفر در مردان و 42600 نفر در زنان). انتظار میرود حدود 7650 نفر در اثر ملانوم (حدود 5080 مرد و 2570 زن) جان خود را از دست دهند. نرخ ملانوم طی چند دهه گذشته بهسرعت در حال افزایش است، اما این با افزایش سن متفاوت بوده است ]4[.
درحالحاضر با توجه به کشنده بودن ملانوم در ایران، این بیماری عامل مهم مرگومیر و آسیبهای اجتماعی خواهد بود، لذا بهداشت سرطان و تصمیمگیری مدیریت هوشمند از مهمترین اولویتهای نظام سلامت کشور است و پیشگیری، غربالگری و درمان اولیه سرطان از اولویت بالایی برخوردار است]5[. این مهم نیازمند شناخت عوامل مؤثر بر بروز ملانوم بوده و اگر این شناخت در قالب مدلهای دادهکاوی ارائه گردد، از دقت وکارآیی بیشتری برخوردار خواهد بود. برقراری نظام ملی ثبت سرطان، بهطوریکه دربرگیرنده کلیهی عوامل مؤثر بر بروز ملانوم باشد، میتواند در شناخت الگوی حاکم بر بروز ملانوم مؤثر بوده و چنانچه الگوی موردنظر بهدرستی تبیین شود میتواند نقش بسزایی در کاهش بروز ملانوم داشته باشد.
پيشرفت فنّاوری آسیبشناسی پوستي نقش قابلتوجهی در تشخيص و بالا بردن نرخ بقا در اين بيماري داشته است. براي مثال، بيماران مبتلابه ملانوم كمتر يا برابر با 75/0 میلیمتر ضخامت، یک پیشآگهی خوب داشته است]6[؛ و بيشتر از %93 از آنها ميزان بقاي 5 ساله خود رادارند ]7[. بنابراين، تشخيص زودهنگام براي كاهش مرگومیر مربوط به ملانوم بسيار مهم است]8[. درپژوهشحاضر،برای اولین بار در کشور، با اعمال الگوریتمهای دادهکاویبرپایگاهدادهیکشور و مقایسه مدلهای پیشبینی، دقیقترین مدل بقای ملانوم استفاده شد تا سیاستگذاران بهداشتی، کشورها در کنترل هر چهبهتر مرگومیر سرطان پوست افزایش کیفیت زندگی، امید به زندگی بیماران و مدیریت بهینه تصمیمگیری کسبوکار و صنعتسلامت یاری نماید]9[. باپیشرفتهاییکهدرزمینهی دادهکاوی صورت گرفته است، ثابتشده که روشهای بهکاررفته، ازلحاظ قدرت و صحت پیشبینی بقا، عملکرد بهتری دارند]10[. همچنین به علت وجود روابط غیرخطی بین متغیرهای پیشبینی کننده و متغیر هدف، روشهای استفادهشده در حوزه دادهکاوی اینگونه روابط را با خطای کمتری تحلیل میکنند]11[.
بر اساس مطالعات پژوهشگران، پژوهش مشابه و گستردهای در حوزه استفاده از روشهای دادهکاوی در پیشبینی بقای ملانوم در سطح کشور و دانشگاههای مختلف ازجمله دانشگاههای علوم پزشکی صورت نپذیرفته است و مطالعات انجامشده بر اساس دادههای آماده سایر کشورها بوده است.
ازلحاظ نو بودن در جامعه موردبررسی، لازم به ذکر است تاکنون بر روی بانک اطلاعاتی مرکز تحقیقات سرطان کشوری دانشگاه شهید بهشتی مطالعهای جهت بررسی پیشبینی بقای ملانوم انجامنشده است. در پژوهشهای دیگر فقط گزارش صحت، حساسیت و ویژگی برای پیشبینی مدلها استفادهشده است]12[و]13[. درحالیکه در این پژوهش از مقدار شاخص ترجیح تطبیق یافته که از اثرات متعادلسازی است، استفادهشده است که جز بارزترین نکات قابلتمایز با پژوهشهای دیگر است.
در این مطالعه بقای بیماری ملانوم ازلحاظ آماری و هوش مصنوعی موردبررسی قرارگرفته است. این دو رویکرد صرفاً جهت مقایسه نتایج روشهای آماری و هوش مصنوعی نبوده است. بلکه در جهت افزایش آگاهی نسبت به موضوع بقای کلیه بیماران مبتلابه ملانوم با توجه به نقاط قوت هریک از روشها بوده است. ازآنجاییکه در این پژوهش تعداد متغیرهای بیشتر، در بازه گستردهتر بر روی کل بیماران مبتلابه ملانوم در سطح کشور بررسیشده است، لذانسبتبه پژوهشهای گذشته عملکرد موفقیتآمیزتری خواهد داشت.
2. پیشینه تحقیق
تحقیقات ثابت کرده است که اکثر بیماران مبتلابه ملانوم مخصوصاً در مراحل پایینتر، حداقل تا ۵ سال بعد از تشخیص زنده ماندهاند یا پاسخ آنها به درمان حداقل تا آن فاصله زمانی مثبت بوده است. در صورت عدم درمان و مداوا، پیشبینی میزان بقای 5 ساله بیمار از 99٪ تا 14٪ کاهش مییابد [14].
درنهایت ميزان بقا 5 ساله بيماران در ايران 5/28% تخمين زدهشده كه اين درصد پایینتر از کشورهای دیگر بود [15]. در مقام مقایسه، در این تحقیق که در آن 781 بیمار و تعداد 4 متغیر بررسیشده است تحقیق جاری با بررسی تعداد بیماران 4118 نفر بررسیشده که حدود 3337 بیمار از تحقیق مذکور بیشتر بوده، با توجه به این نکته که در این پژوهش 10 متغیر موردبررسی قرار گرفت که از تحقیق فوق 6 متغیر بیشتر مورد تحلیل و بررسی قرارگرفته، مطالعه گستردهتری انجامشده است. دقت شبکه عصبی 97% برآورد بقای بیماران مبتلابه ملانوم را بعد از پنج سال داشته است که در مقایسه با عملکرد پژوهش مطرحشده میزان صحت و دقت آن سنجیده نشده است. ضمناً ذكر نشده كه سلولهای ملانوسيتي گیرندهای براي هورمونهای جنسي داشته باشند پس قاعدتاً نبايد تفاوتي بين بقاء مردان و زنان وجود داشته باشد. از سیستمهای هوشمند و دادهکاوی نیز استفادهنشده است.
در سال 1387 عابدی و مقدس زاده درباره تعیین تابع بقا ارزیابی روشهای مختلف رگرسیون کاکس با رگرسیون چند متغیره، همراه با جدول طول عمر در سرطان پوست، 199بیمار مبتلابه سرطان پوست را بررسی کرده، بعد از استخراج اطلاعات موردنظر از پروندههای پزشکی، وضعیت سلامت بیماران بهصورت تلفنی،پیگیری شده و پیشامد نهایی موردبررسی قرار گرفت. نتایج حاصله عبارتاند از:توابع بقا برآورد شده توسط روش جدول طول عمر و حد حاصلضرب نشان میدهد که نرخ بقا یکساله برابر 94/0است و نرخ مخاطره در سال اول برابر 063/0 است. مدل مخاطرات متناسب کاکس که بر دادههای تحقیق برازش یافته بصورت زیر است:
(1)
در مقایسه با پژوهش ما تعداد بیماران بررسیشده بسیار کمتر بوده و بررسی روی سرطان پوست غیرملانومی بوده است و در این تحقیق 199 بیمار و تعداد 5 متغیر بررسیشده است. تحقیق جاری با بررسی 4118تعداد بیماران مبتلا شده و 10 متغیر (که تأثیر بیشتري درزمینهي بقا دارند)، مطالعه گستردهتری انجام داده است. ضمناً در این مطالعه از روشهای معمول پرکاربرد آماری مانند تحلیل کاکس استفاده کردهاند و طراحی مدل پیشبینی نداشتهاند، درحالیکه در مطالعه ما از روشهای بهروز و هوش مصنوعی استفادهشده است و ترکیب سیستمهای هوشمند و نرمافزارهای آماری دقت و صحت بالاتری نسبت به سیستمهای آماری محض دارد.
3. روششناسی پژوهش
نوع پژوهش: هدف پژوهش حاضر ازنظر ماهیت کاربردی و ازنظر هدف به روش توصیفی- تحلیلی گذشتهنگر و ازنظر زمان بهصورت مقطعی انجام شد.
مراحل انجام پژوهش: با توجه با اهداف مراحل انجام پژوهش به دو مرحله مستقل تقسیم میشود:
1.3 مرحله اول: استفاده از الگوریتمهای دادهکاوی در پایگاه داده بومی (دادههای سرطانی کل کشور)
1.1.3 جامعه پژوهش: بیماران مبتلابه ملانوم بین سالهای ۱۳۸7 تا ۱۳91 که تا ۱۳۹1 در کل کشور پیگیری شدهاند.
3.1.2 نمونه پژوهش (شامل حجم نمونه و روش نمونهگیری)
تعداد کل بیماران موردبررسی و تحقیق 7690 نفر است. بیمارانی که بعد از تشخیص ملانوم در آنها، کمتر از ۵ سال پیگیری شدهاند، حذف شدند. همچنین بیمارانی که قبل از رسیدن به پنجمین سال پیگیری بیماری فوت کرده و علت فوت آنها غیر از ملانوم بود نیز حذف شدند؛ که درنهایت به 4118 نفر رسیدند.
3.1.3 ابزار گردآوری دادهها
دادههای پروندهها بر اساس فرم جمعآوری داده استخراج شد. در ایجاد این فرم که دربرگیرنده متغیرهای بااهمیت در پیشبینی بقای ملانوم و توضیحات مربوط به مقادیر متغیرها است، از مطالعات، پژوهشها و تحقیقات مربوط بهپیشآگهیملانومکه توسط پژوهشگر و نهایتاً با مشورت و نظر تخصصی 5 پزشک متخصص پوست، ایجاد شد. فرم جمعآوری داده در جدول (2) آورده شده است که طبق توضیحات فوق متغیرهای دخیل در بقای ملانوم، بر اساس مطالعه مقالات و راهنماهای بالینی مربوط به ملانوم شناسایی شد و در فرم زیر قرار گرفت.
جدول 2. چکلیست دادههای ملانوم برای استخراج متغیرهای موردنیاز از پروندههای بیماران سرطان کل کشور
نام متغیر | مقادیر متغیر |
1-سن | بر اساس سن یادداشت شده در پرونده |
2-ضخامت تومور | بر اساس ضخامت تومور اندازهگیری شده و درج در پرونده I: less than or equal to 1 mm II: 1.01-2 mm III: 2.01-4 mm IV: greather than or equal 4 >= mm
|
3-جنس | مرد=1 زن=2 |
4-ارتشاح لنفوسیتی | 1=خفیف 2=متوسط 3=شدید |
5-وضعیت تأهل | 1=مجرد 2- متأهل 3=دوجنسی 9=نامشخص |
6-درجه بیماری | 1=Grade I 2=Grade II 3=Grade III 4=Grade IIII 9=NOS |
7-محل تومور | 0=Skin of lip (پوست لب) 1=Eyelid (پلک چشم) 2=External ear (گوش خارجی) 3=Skin of other face ) بقیه جاهای صورت) 4= Skin of scalp and neck(سرو گردن) 5= Skin of trunk (تنه) 6= Skin of upper limb and shoulder(اندام فوقانی و شانه) 7= Skin of lower limb and hip(اندام تحتانی و لگن) 8= Overlapping lesion of skin(بینابین نواحی) 9=NOS (تشخیص داده نشده) |
8-مرحله بیماری (سرطان) | 1= IA(1) 2= IB(1) 3= IIA(2) 4= IIB(2) 5 = IIC(2) 6= IIIA(3) 7= IIIB(3) 8= IIIC(3) 9= IV(4)
|
9-رفتار | 0 = خوشخیم 1 = نامشخص ازلحاظ خوشخیمی یا بدخیمی 2 = کارسینوم درجا 3 = بدخیم اولیه 6 = بدخیم ثانویه (متاستاتیک) 9 = نامشخص ازلحاظ اولیه یا ثانویه |
10-اشعه درمانی | 1=بله 2=خیر |
4.1.3 روش گردآوری دادهها
محقق بهصورت حضوری به محیط پژوهش مراجعه کرده است. فرم مذکور بر اساس مطالعه متون تحقیقات، پژوهشهای بقای بیماران مبتلابه ملانوم و نظرخواهی از متخصصین جراحی پوست ایجادشده است نظرخواهی از متخصصان جراحی پوست به روش مصاحبه و بهصورت جداگانه انجامشده، سپس بر اساس فرم استخراج داده، متغیرهای موردنیاز، از پروندههایی که شرایط قرار گرفتن در نمونهگیری را دارا بودند، استخراج شد. برای رعایت مسائل اخلاقی، برخی مشخصات بیماران (متغیرها) محرمانه ماند. خصوصیات متغیرها با توجه به کدگذاري بینالمللی سرطانها2 ICD-O)) (که این طبقهبندی سرطانها بر اساس ICD-O طبق توصیه (سازمان بهداشت جهانی) WHO3 صورت گرفته است تا بتوان در مقیاسهای منطقهای، ملی، بینالمللی اطلاعات را مقایسه نمود.) کدگذاري شده بود به همراه سایر اطلاعات دموگرافیک بیماران (سن، جنس، محل سکونت) موردبررسی قرار گرفت.
2.3 روش تحلیل دادهها
یکی از روشهای بسیار قوی برای پیادهسازی و اجرای پروژههای دادهکاوی متدلوژی CRISP است [17]. در این پژوهش مدل پیشنهادی بر اساس CRISP که شامل پنج گام که در شکل (1) به نمایش گذاشتهشده است و به شرح ذیل انجام میشود [18]. هریک از این فازها خود شامل زیر بخشهایی میشوند. حرکت روبهجلو و عقب بین فازهای مختلف نیاز است [19]، زیرا ورودی هر فاز به خروجی فاز مرحله قبل وابسته است [20]. در شکل (2) گامهای روش ذکرشده با تمام مراحل تحقیق منطبق شده است.
شکل 1. مراحل اصلی دادهکاوی در مدل crisp
شکل 2. گامهای روش crisp و مدل پیشنهادی
1.3.2 شناخت سیستم
در این مرحله به شناخت سیستم موردنظر پرداخته میشود و سپس اهداف موردنظر و عوامل موفقیت کلیدی سیستم تعیین و بازنگری میگردد. طبق نظر متخصصان پوست، با توجه به رشد روزافزون سرطانهای پوست، هزینههای سرسامآور درمان این بیماری سرطانهای دیگر و عوارض شدیدی که روی اعضای حیاتی بدن در درازمدت میگذارد [21]، بررسی دادههای جمعآوریشده در رابطه با این بیماری در تشخیص زودرس روش درمان بیماران جدید و مدیریت سیستم تصمیمیار پزشکی میتواند مفید باشد. بیماران جدید میتوانند تا حد ممکن از توصیههای پزشکی تجویزشده متناسب با بیماران دستهای که در آن قرارگرفتهاند، بهره ببرند.
2.2.3 شناخت دادهها و آمادهسازی آنها
در این مرحله به جمعآوری دادههای اولیه، توصیف دادهها، بازرسی و بررسی دادهها و اعتبار سنجی کیفیت دادهها پرداختهشده است. مطالعهی حاضر از نوع توصیفی- مقطعی بوده و مجموعه دادههای آن متعلق به مرکز تحقیقات کشوری سرطان وابسته به دانشگاه شهید بهشتی بیمارستان شهدای تجریش تهران است که بیماران مبتلابه ملانوم بین سالهای ۱۳۸7 تا ۱۳91 در کل کشور پیگیری شدند.
شناخت و پیشپردازش دادهها (آمادهسازی): مجموعه داده ملانوم که در این مرحله از پژوهش استفاده شد،5 فایل اکسل جداگانه که هرکدام متعلق به یک سال بود (از سال 1387 تا سال 1391) و در هر فایل کلیه بیماران مبتلابه انواع سرطان پوست در آن قرار داشت که طبق استاندارد ICD-O افراد مبتلابه ملانوم در هر فایل جدا و انتخابشده و همگی دریک فایل اکسل4 تجمیع شدند. دادههای پژوهش مربوط به مرکز تحقیقات کشوری سرطان وابسته به دانشگاه شهید بهشتی بیمارستان شهدای تجریش تهران بود که بعد از گردآوری داده توسط پژوهشگران ایجاد شد. این فایل حاوی 7690 رکورد و ۱۷ متغیر بود. برخی از متغیرها مانند شماره پرونده، نام و نام خانوادگی، نام پدر، آدرس بیماران، کد پستی، نام مرکز، شماره تلفن ثابت و موبایل بیماران است که به علت رعایت اصل محرمانگی، این متغیرها از مجموعه داده حذف گردید.
افزایش گرداوری و ثبت روزافزون دادههای پیچیده در دنیای پزشکی، دلیل استفاده از فرایند دادهکاوی از پایگاه داده است [22].
به علت وجود دادههای ازدسترفته و تکراری و همچنین متغیرهایی با اسامی نامفهوم و نیاز به مدیریت دقیق این چالشها، مراحل شناخت و آمادهسازی داده، مهمترین مراحل در دادهکاوی بوده و بیشترین زمان صرف شده در استخراج دانش از پایگاه دادهها به این مراحل اولیه معطوف میشوند [23]. درواقع مرحله دوم و سوم از متدلوژی CRISP در این گام بررسی و اجرا میگردد.
برای بررسی دقیقتر و جزئیتر و همچنین اجرای عملیات پیشپردازش دادهها از قبیل مدیریت مقادیر ازدسترفته و پرت، مجموعه داده با محیط نرمافزار SPSSوارد گردید. جدول 3 و 4 و 5 توزیع متغیرهای پیشبینی کننده و متغیرهای پیشبینی کننده پیوسته و متغیر وابسته را نشان میدهند.
جدول 3. متغیرهای پیشبینی کننده در مجموعه داده ملانوم مرکز تحقیقات کشوری سرطان
اسامی متغیر گروهی | تعداد مقادیر منحصربهفرد |
جنس | 2 |
ارتشاح لنفوسیتی | 3 |
وضعیت تأهل | 4 |
درجه بیماری | 5 |
محل تومور | 10 |
مرحله سرطان | 9 |
رفتار | 6 |
اشعه درمانی | 2 |
جدول 4. متغیرهای پیوسته پیشبینی کننده در مجموعه داده ملانوم مرکز تحقیقات کشوری سرطان
| میانگین | انحراف معیار | بازه (محدوده) |
سن | 25/59 | 33/19 | 101-1 |
ضخامت تومور | 39/2 | 24/2 | 05/9-01/0 |
تعداد میتوز | 06/2 | 998/1 | 13-1 |
جدول 5. توزیع متغیر وابسته پایگاه داده کشوری
دسته | تعداد رکورد | درصد |
0: عدم بقا | 1404 | 1/34 |
1: بقا | 2714 | 9/65 |
جمع کل | 4118 | 100 |
متغیر وابسته، متغیری از نوع دوتایی بود که صفر و یک به ترتیب عدم بقا و بقا را نشان میدادند. برای تعیین متغیر وابسته، از مجموعه داده از نرمافزار SPSSبه نرمافزار اکسل وارد شد. متغیرهای «کدگذاری مجدد زمان بقا»، «کدگذاری مجدد وضعیت حیاتی» و «علت مرگ» در تعیین متغیر وابسته دخیل بودند. متغیر «کدگذاری مجدد زمان بقا» از چهار کاراکتر تشکیل میشود که دو نویسه اول نشانگر سال پی گیری و دو نویسه بعدی نشانگر ماه پی گیری بودند. ابتدا هر یک از اعداد در ستونی جداگانه تقسیمبر صد شدند و سپس با بهکارگیری دستور ذیل، متغیر وابسته ایجاد شد. شکل (3)گویای قطعه کد نوشتهشده است.
1-If STR5 >=5 year and VSR6=alive then
2-Record=1
3-Else if STR<5 year and COD7=melanom then
4-Record=0
5-Else
Ignore the Record-6
7-End if
شکل 3. نمایش تکه کد برای بررسی بقا
رکوردهایی که در هیچیک از گروههای بقا و عدم بقا قرار نگرفته بودند، حذف شدند و تعداد رکوردها به 4118 رکورد رسید. اگر میزان مقادیر ازدسترفته مجموعه دادهها کمتر از 1 در صد باشد، در فرآیند استخراج دانش خللی ایجاد نمیکند، بین 1 تا 5 درصد قابل مدیریت، بین 5 تا 15 درصد مستلزم اعمال روشهای پیچیده برای مدیریت و بیشتر از 15 درصد ممکن است بهصورت جدی بر هر نوع تفسیردانشی تأثیرگذار باشد [24]؛ بنابراین برای مدیریت این مقادیر، بهجای حذف آنها که باعث از دست رفتن اطلاعات ارزشمندی میشود از خطمشیهای زیر استفاده شد. البته لازم به ذکر است که برای اعمال خطمشیهای ذیل باید مقادیر ازدسترفته بهصورت کاملاً تصادفی رخداده باشند [25].
خطمشی اول: اگر یک متغیر در بیش از ۵۰ درصد رکوردها با مقادیر ازدسترفته مواجه باشد، در مجموعه داده موردمطالعه متغیر اشعه درمانی مقدار ازدسترفتهاش بالای 50 درصد بود که نهایتاً منجر به حذف این متغیر گردید.
خط: مشی دوم: اگر یک متغیر در کمتر از یک درصد رکوردها با مقادیر ازدسترفته مواجه باشد، در آن صورت اگر از نوع عددی باشد میانگین مقادیر موجود در آن متغیر جایگزین مقادیر ازدسترفته میشود و اگر متغیر از نوع اسمی یا ترتیبی باشد در این صورت مد مقادیر موجود در آن متغير جایگزین مقادیر ازدسترفته میشود. در مجموعه موردمطالعه برای متغیرهای «وضعیت تأهل» و «تعداد میتوز» از این خطمشی استفاده شد.
خطمشی سوم: اگر متغیر در کمتر از ده درصد از رکوردها با مقادیر ازدسترفته مواجه باشد، در آن صورت با توجه به نوع متغیر، مقدار میانگین یا مد در مقادیر موجود آن متغیر در هر کلاس محاسبهشده و با توجه به کلاس رکوردی که در متغیر موجود با مقدار ازدسترفته مواجه است، مقدار ازدسترفته مواجه است، مقدار میانگین یا مد مربوط به همان کلاس جایگزین میشود [24]. مقادیر ازدسترفته متغیر «مرحله سرطان» از این خطمشی به دست آمد.
خطمشی چهارم: برای متغیرهایی که بیش از ۱۰ درصد مقادیر ازدسترفته داشتند از الگوریتمهای موجود در طبقهبندی برای برآورد مقادیر ازدسترفته در آن متغیر و پر کردن آن استفاده شد. در این روش متغیری که دارای اعداد ازدسترفته است ابتدا بهصورت فیلد هدف یا کلاس وارد مطالعه شده و سایر متغیرها بهصورت ورودی تعریف میشوند. پس از به دست آوردن دقت بالا در ایجاد مدل پیشبینی، الگوریتم شبیهترین رکورد موجود در پایگاه داده که دارای متغیر ازدسترفته نیستند را جایگزین مقادیر ازدسترفته متغیر هدف میکند. یکی از نکات مثبت این خطمشی بهاینعلت است که به خاطر وجود همبستگیهایی که معمولاً بین متغیرها وجود دارد، روش مذکور از این همبستگیها برای ایجاد مدل پیشبینی مقادیر ازدسترفته استفاده میکند. مدل پیشبینی دستهبندی برای برآورد مقادیر ازدسترفته متغیرهای کیفی و مدل پیشبینی رگرسیون برای برآورد مقادیر ازدسترفته متغیرهای کمی کاربرد دارند مقادیر ازدسترفته متغیرهای ارتشاح لنفوسیتی، درجه بیماری، محل تومور، ضخامت تومور با این خطمشی جایگذاری شدند. در جدول (6) کلیه متغیرها و مقادیر ازدسترفته به تفکیک و درصد به نمایش درآمده است.
جدول 6. مقادیر ازدسترفته متغیرهای پیشبینی کننده پایگاه داده کشوری
متغیرها | تعداد مقادیر ازدسترفته | درصد |
جنس | 371 | 9 |
ارتشاح لنفوسیتی | 1647 | 40 |
وضعیت تأهل | 21 | 5/0 |
درجه بیماری | 713 | 3/17 |
محل تومور | 980 | 8/23 |
مرحله سرطان | 91 | 2/2 |
سن | 0 | 0 |
ضخامت تومور | 643 | 6/15 |
تعداد میتوز | 25 | 6/0 |
اشعه درمانی | 2306 | 56 |
رفتار | 873 | 2/21 |
3.2.3 مدلسازی
برای ارائه مدل پیشبینی کننده بقای ملانوم با استفاده از مجموعه داده سرطان کل کشور، الگوریتمهای شبکه عصبی، بیزی ساده، شبکه بیزی، ترکیب درخت تصمیمگیری با بیز ساده، الگوریتم رگرسیون لجستیک و الگوریتم ID3 و الگوریتم درخت تصمیمگیری j48 بکار گرفته شد. کلیه الگوریتمهای فوقالذکر با استفاده از نرمافزار وکا اجرا شدند. دلیل استفاده از این نرمافزار،برخورداربودنوکا از قابلیتهای متنوع پیشپردازش دادهها، در برگرفتن تمام الگوریتمهای حوزه هوش مصنوعی و همچنین متنباز بودن این نرمافزار بود. همچنین نرمافزار وکا بهعنوان یک نرمافزار دانشگاهی و آکادمیک شناخته میشود.
برای ایجاد شبکه عصبی از ساختار معمول آنکه پرسپترون چندلایه است استفادهشده است. ورودیهای شبکه عصبی را دخل در بقای سرطان پوست و خروجی آن را متغير هدف یا بقای بیمار تشکیل دادند [26]. بنابراین، شبکه عصبی در پژوهش حاضر از10 ورودی (متغیرهای پیشبینی کننده) و یک خروجی (مقادیر متغیر هدف) تشکیلشده است. در اکثر پژوهشها بر توانایی شبکههای دولایه تأکید شده است. برای تعیین لایههای مخفی به پژوهشهایی که درزمینه دادهکاوی در حوزه بالینی انجامشده بوداستنادگردید [27]. در اکثر پژوهشها بر توانایی شبکههای دولایه تأکید شده است البته لازم به ذکر است که از این دولایه، لابه خروجی و دیگری لایه مخفی است. ساختار شبکه عصبی پژوهش حاضر در شکل (4) آورده شده است.
شکل 4. ساختار کلی شبکه عصبی دستهبندی بقای مبتلایان به ملانوم
4.2.3 ارزیابی
پس از مدلسازی میباید به ارزیابی نتایج حاصل از مدل پرداخت. در اغلب موارد، مقایسه الگوریتمهای دادهکاوی در شناسایی اینکه کدامیک از آنها در تحلیل مجموعه داده کاوش شده، عملکرد بهتری داشته است، امری ضروری است. بعضی مواقع نیز، اندازهگیری عملکرد یک الگوریتم با پارامترها و تنظیمهای مختلف، مدنظر است [28].
نتایج ارزیابی باعث بهبود مدل شده و مدل را قابلاستفاده میکند. در این مرحله اعتبار مدل بررسی میشود، زیرا روشهای مدلسازی مختلف در شرایط مختلف، رفتارهای متفاوتی از خود نشان میدهند. برای مقایسه این روشها با یکدیگر از شاخصهای متفاوتی استفاده میکنند. در اغلب موارد، مقایسه الگوریتمهای دادهکاوی در شناسایی اینکه کدامیک از آنها در تحلیل مجموعه داده کاوش شده، عملکرد بهتری داشته است، امری ضروری است. بعضی مواقع نیز، اندازهگیری عملکرد یک الگوریتم با پارامترها و تنظیمهای مختلف، مدنظر است یک روش سنجش عملکرد الگوریتمها، اندازهگیری صحت آنهاست. برای اندازهگیری صحت از فرمول زیر استفاده میشود.
فرمول فوق، جمع کل بیمارانی که برچسب دسته آنها در اصل مثبت و منفی بوده و توسط الگوریتم نیز بهدرستی، شناساییشدهاند را بر جمع کل بیماران (اعم از درست یا اشتباه پیشبینیشده) تقسیم میکند؛ بنابراین، این فرمول عملکرد کلی الگوریتم را نشان میدهد.
دیگر معیارهای مقایسه بین الگوریتمهای مختلف شامل: سرعت، قدرت8، مقیاسپذیری9و قابلیت فهم الگوریتمها میباشند.
منظور از قدرت الگوریتم نحوه تعامل آن با دادههای ناقص است، مقیاسپذیری، درباره مدیریت حجم زیاد دادهها توسط الگوریتم است. هراندازه توضیح و درک مدل بهدستآمده از الگوریتم، آسان باشد، به همان اندازه قابلیت فهم آن بالاست.
هنگام مطالعه یک مدل پیشبینی در حوزه پزشکی، آشنایی با نحوه تشخیص موارد با برچسبهای مختلف، مانند پرخطر/کمخطر یا سالم/ بیمار توسط مدل مهم است، لذا، اندازهگیری حساسیت10 و ویژگی11 الگوریتم یا الگوریتمهای تشکیلدهنده مدل، اهمیت پیدا میکند. در ذیل، فرمولهای مربوط به حساسیت و ویژگی ذکرشده است.
همچنین شاخصهای دیگری مانند دقت12، نرخ فراخوانی13 و اندازهگیری14F وجود دارند که از آنها نیز بهره خواهیم گرفت.
نرخ فراخوانی، نسبت تعداد موارد بازیابی شده و مرتبط به تعداد کل موارد مرتبط و دقت نسبت تعداد موارد بازیابی شده و مرتبط به تعداد کل موارد بازیابی شده است.
اندازهگیریF نیز از میانگین هارمونیک نرخ فراوانی و دقت محاسبه میشود.
آزمون کاپا برای سنجش میزان انطباق بین تشخیص واقعی با تشخیص سیستم استفادهشده است. بهمنظور کسب اطمینان از تصادفی نبودن خروجی سیستم، نتایج حاصل از ارزیابی سیستم با تشخیص واقعی مقایسه گردید و برای این منظور از آزمون آماری کاپا استفاده شد. بیشترین مقدار کاپا یک است که تأثیر شانس در پاسخها است.
(2)
با استفاده از شاخصهای فوقالذکر عملکرد الگوریتمهای استفادهشده در پایگاه داده سرطان کشوری شهید بهشتی اعمال شدند و مورد مقایسه قرار گرفتند. همچنین ویژگیهای الگوریتمی که بر مبنای شاخصهای فوق نسبت به سایر الگوریتمها عملکرد نهایی بهتری داشت استخراجشده و با نظر پزشکان متخصص مورد مقایسه قرار گرفت.
در دنیای پزشکی برای فائق آمدن بر محدودیتهای حساسیت و ویژگی، از منحنی مشخصه عملکرد15 استفاده میشود. همچنین برای ارزیابی عملکرد مدلهای ایجادشده توسط دادهکاوی نیز، این منحنی کاربرد دارد.
AUC روشی برای کمی سازی صحت یک الگوریتم در تشخیص تعلق رکوردهای آموزشی به دستههای مختلف است. ازلحاظ مفهوم، AUC عددی است که با محدوده5/0(بدون صحت) تا 1 (صحت کامل) مشخص میشود. در حالت کلی، تفسیر AUC با مقادیر مختلف به این صورت است:
· 5/0 تا7/0: صحت صفرتا پایین
· 7/0 تا 9/0: صحت متوسط
· بزرگتر از 9/0: صحت بالا
هنگام مقایسه یک مدل با AUC بالا نسبت به مدلی با AUC کوچکتر، برای انتخاب مدل بهتر، فقط بزرگی مقدار AUC کافی نیست، بلکه باید مقدار آن ازلحاظ آماری معنادار باشد. امکان دارد بهعنوانمثال پیشبینی الگوریتم درباره فوتیهای ناشی از ملانوم با مقدار واقعی آن در مجموعه داده تفاوت داشته باشد. اندازهگیری این تفاوت کالیبراسیون نام دارد. هراندازه تفاوت این دو پیشبینی کم باشد، نتیجهگیری میشود که کالیبراسیون مدل دستهبندی خوب است. یکی از آزمونهای مهمی که کالیبراسیون را بررسی میکند. آمار کای دو هوسمر ولمشو16 است. تفاوت کالیبراسیون با منحنی مشخصه عملکرد در این است که اولی پایایی مدل و دومی قدرت وجه تمایز آن را نشان میدهد [28].
بعد از استفاده از الگوریتمهای مختلف در نرمافزار وکا و پیدا کردن الگوریتمی که بتواند دقیقتر شانس بقای بیماران مبتلابه ملانوم را تشخیص دهد. مدل مفهومی پیشبینی کننده بقای بیماران با استفاده از الگوریتمهای مورداستفاده در طرح، در قالب یک طرح گرافیکی رسم میکنیم. سپس از بین پایگاه داده منتخب، دقیقترین مدل پیشبینی کننده بقای افراد مبتلابه ملانوم را با استفاده از آزمون ANOVA،FERIDMANS در نرمافزار SPSS تعیین میکنیم تا مشخص شود مدل انتخابشده با سایر مدلها ازلحاظ شاخصهای عملکردی تفاوت معناداری را دارد یا خیر. سپس برای مقایسه دوبهدوی مدلها (الگوریتمها) با یکدیگر از آزمون ویکاکسیون17 استفاده شد تا فقط مدلهایی که ازلحاظ عملکرد تفاوت معناداری داشتند برای مقایسه با مدلهای تعیینشده پایگاه داده انتخاب شوند؛ و در انتها برای تعیین مدل منتخب از آزمون من ویتنی18 استفاده میکنیم.
توسعه 5.2.3
ساخت مدل، پایان یک پروژه نیست و هدف از پروژههای دادهکاوی کشف دانش و استفاده از دانش کشفشده بهصورت عملی در آینده است. در حقیقت هدف از انجام مراحل مختلف کشف دانش، دستیابی به نتایجی است که بتوان از آنها در دنیای واقعی و برای بهبود کارایی سازمانها استفاده کرد.
3.3 مرحله دوم: مقایسه عملکرد الگوریتمهای دادهکاوی بادانش متخصصین سرطان پوست
این مرحله جهت مقایسه عملکرد الگوریتمهای دادهکاوی بادانش متخصصین پوست، در پیشبینی بقای بیماران مبتلابه ملانوم در پایگاه داده سرطان کل کشور انجامشده است. پزشکان متخصص سرطان پوست و پروندههای بیماران مبتلابه ملانوم بین سالهای 1387 تا 1392 که در سال 1398 پیگیری شدهاند، بر اساس محدودیتهایی که داشتند و میتوانستند در اختیار پژوهشگر قرار دهند،100رکورد را پیشنهاد کردند.
چکلیستی مبتنی بر صفتهای بیماران بستریشده مبتلابه (ملانوم) بود. این چکلیست بر اساس ویژگیهای بالینی و دموگرافیکی بیماران است. در این چکلیست علائم بالینی، بیولوژیکی و پاتولوژیکی بیماران فهرست بندی شده و در مرحله بعد از متخصصان خواسته شد تا احتمال زنده ماندن بیمار را در ۵ سال بعد از تشخیص، با زدن علامتی بر محور مقیاس آنالوگ بصری مشخص کنند. این چکلیست از پایاننامه رضوی اقتباس و روایی آن نیز تائید شده است.
این مرحله برای اعتبار سنجی مراحل قبلی و مقایسه مدل ایجادشده بادانش متخصصان سرطان پوست اجرا شد. رکوردهای استفادهشده در این مرحله، قبل از شروع مرحله اول جداشده و در پایگاه داده دیگری نگهداری شدند. علت جداسازی این بود که الگوریتمهای دادهکاوی که در مراحل قبل برای ایجاد مدل بهینه پیشبینی بقای سرطان پوست بهکاررفتهاند بر روی این رکوردها عمل آموزش انجام ندهند، چون در این صورت این رکوردها نمیتوانند بهدرستی میزان خطای مدل پیشبینی را مشخص کنند.
مدلهای بهینه پیشبینی که از پایگاه دادههای کشور انتخابشدهاند به ترتیب برای پیشبینی بقای هر یک از این رکوردها بهکاررفته و احتمال پیشبینی آنها برای هر رکورد ثبت شد. رکوردهای فوق به متخصصان سرطان پوست در قالب چکلیست داده شد تا پیشبینی آنها نیز به دست آید. سپس، این پیشبینیها با استفاده از سطح زیر منحنی مشخصه عملکرد و مقایسه این سطوح با یکدیگر توسط روش دوبهدو19 موردبررسی قرار گرفتند تا درنهایت مدل بهینه پیشبینی بقای (ملانوم) انتخاب شود.
بیمارانی که احتمال زنده ماندن آنها ۵ سال بعد از تشخیص سرطان پوست (ملانوم) ۵۰ درصد یا کمتر از آن باشد در دسته فوتیها بیشتر از ۵۰ درصد در دسته زنده ماندهها قرار گرفت. علت انتخاب این معیار برابر بودن اولیه و پیشفرض وزن پیشبینیهای موارد بقای اشتباه با موارد فوت اشتباه بود. چون در پزشکی، پیشبینیهای موارد بقای اشتباه قابلقبولتر از پیشبینی موارد فوت اشتباه است[28]. لذا برای مدیریت این مسئله منحنی مشخصه عملکرد که قابلیت پیشبینی همه موارد بقا و فوت را فراتر از معیارهای پیشفرض دارد، برای پیشبینیهای متخصصان ملانوم رسم و با منحنی بهترین الگوریتم که در مراحل قبلی مشخصشده است، مقایسه گردید. برای سنجش پایایی پیشبینی متخصصان و الگوریتمها از آزمون Hosmer Lemeshow goodness-of-fit استفاده شد [29].
4. یافتهها
بررسی نتایج حاصل از دادههای 7 الگوریتم دادهکاوی که متغیرهای بهکارگرفته شده در شکل (5) به نمایش گذاشتهشده است، (در نرمافزار وکا) مورداستفاده جهت بررسی بقای افراد مبتلابه ملانوم را نشان میدهد که از میان هفت الگوریتم برای پیشبینی بقای بیماران مبتلابه ملانوم، الگوریتم شبکه عصبی ازلحاظ صحت، حساسیت و ویژگی بالاتر از دیگر الگوریتمها بود.
شکل 5. نمایش گرافیکی فیلدها
جدول 7. حساسیت و صحت و ویژگی الگوریتمهای پیشبین بقای بیماران مبتلابه سرطان پوست در پایگاه داده کل کشور
مدل | صحت | حساسیت | ویژگی |
شبکه بیزی | 80/90 | 14/93 | 18/86 |
J48 | 20/93 | 16/97 | 47/85 |
شبکه عصبی | 50/93 | 79/97 | 03/91 |
رگرسیون لجستیک | 70/92 | 35/96 | 54/85 |
ترکیب درخت تصمیم و بیز ساده | 30/90 | 23/90 | 45/90 |
بیزی ساده | 30/91 | 65/93 | 45/89 |
ID3 | 30/91 | 62/93 | 75/86 |
از میان هفت الگوریتم مورداستفاده برای پیشبینی بقای بیماران مبتلابه ملانوم طبق جدول (7) الگوریتم شبکه عصبی ازلحاظ صحت، حساسیت و ویژگی بالاتر از دیگر الگوریتمها بود.
همچنین شاخص کاپا (عملکرد) برای الگوریتمهای استفادهشده در پژوهش در پایگاههای داده کشور در جدول (8) است:
جدول 8. عملکرد کاپا الگوریتمهای پایگاه داده کشور
الگوریتم | Kappa |
شبکه عصبی | 852/0 |
J48 | 844/0 |
رگرسیون لجستیک | 833/0 |
شبکه بیزی | 804/0 |
بیزی ساده | 806/0 |
ID3 | 805/0 |
درخت تصمیم و بیزی ساده | 789/0 |
طبق آمار جدول (7 و 8) کاملاً میتوان عملکرد الگوریتمهای دادهکاوی اجراشده در پایگاه داده کل کشور را پیشبینی کرد. الگوریتم پایگاه داده کشوری در شاخصهای صحت، دقت، حساسیت و ویژگی شبکه عصبی تعیین شد. در حوزه پزشکی، پیشبینی مواردی که منجر به ناخوشی یا مرگ میشوند از اهمیت بیشتری نسبت به پیشبینی موارد غیر آن برخوردار است. شاخصی که قدرت الگوریتم را برای پیشبینی این موارد بررسی میکند، ویژگی است؛ بنابراین مشاهده میشود که ویژگی الگوریتمهای اجراشده در پایگاه داده کشوری کاملاً قابلقبول است. همچنین با توجه به اینکه پایگاه داده کشور متعادلسازی شده لذا محاسبه شاخص کاپا نیز ضروری است که در الگوریتم شبکه عصبی 852/0 بود. کلاً الگوریتمهای استفادهشده در پایگاه داده کشوری بالأخص شبکه عصبی با اطمینان بیشتری، قادر به پیشبینی بیماران جدید مبتلا به ملانوم هستند.
جدول 9. نرخ فراخوانی،ROC اندازهگیری F الگوریتمهای پیشبین بقای بیماران مبتلابه ملانوم در پایگاه داده کل کشور
الگوریتمها | نرخ فراخوانی | ROC | دقت | اندازهگیری F |
شبکه بیزی | 80/90 | 40/95 | 80/90 | 80/90 |
J48 | 20/93 | 70/93 | 20/93 | 10/93 |
شبکه عصبی | 50/93 | 10/96 | 97 | 40/93 |
رگرسیون لجستیک | 70/92 | 60/95 | 70/92 | 60/92 |
ترکیب درخت تصمیم و بیز ساده | 30/90 | 70/95 | 70/90 | 40/90 |
بیزی ساده | 30/91 | 70/95 | 30/91 | 30/91 |
ID3 | 30/91 | 40/95 | 28/91 | 30/91 |
همانطور که در جدول (9) نشان دادهشده است نرخ فراخوانی الگوریتمهای بیزی، درخت تصمیم، شبکه عصبی، رگرسیون لجستیک، ترکیب درخت تصمیم و بیز ساده، بیز ساده و ID3 به ترتیب: 80/90، 20/93، 50/93، 70/92، 30/90، 30/91، 30/91 است. همچنین ترتیب پارامتر ROC برای الگوریتمهای بیزی، درخت تصمیم، شبکه عصبی، رگرسیون لجستیک، ترکیب درخت تصمیم و بیز ساده، بیزی ساده و ID3 به ترتیب: 40/95، 70/93، 10/96، 60/95، 70/95، 70/95، 40 /95 و برای پارامتر اندازهگیریF برای الگوریتمهای ذکرشده به ترتیب: 80/90، 10/93، 40/93،60/92، 40/90، 30/91، 30/91 است.
ارزیابی عملکرد متخصصین
سطح معنیدار تفاوت بین زیر منحنی مشخصهی عملکرد بیز ساده و متخصص یک 039/0، متخصص دو 022/0، متخصص سه 04/0، متخصص چهار 023/0 و متخصص پنج 059/0 بوده است (آلفا=05/0). سطح معنیدار تفاوت بین مشخصه عملکرد الگوریتم درخت تصمیمگیری با بیز ساده با متخصصین سرطان پوست به ترتیب عبارت است از: 058/ 0، 04/0، 059/0، 042/0 و 077/0 (آلفا: 05/0). همچنین سطح معنیدار تفاوت بین مشخصه عملکرد شبکه بیزی با متخصصین سرطان پوست به ترتیب: 059/0، 042/0، 061/0، 430/0 و 079/0 (آلفا=05 / 0) بود. سطح معنیدار تفاوت بین مشخصه عملکرد شبکه عصبی با متخصصین سرطان پوست عبارت است از: 019/ 0، 001/ 0، 002/ 0، 002 / 0 و 038/ 0 (آلفا=05/ 0). سطح معنیدار تفاوت بین مشخصه عملکرد ID3 با متخصصین سرطان پوست به ترتیب: 081/0، 042/0، 063/0، 065/0و1/0، (آلفا=05/ 0). سطح معنیدار تفاوت بین مشخصه درخت تصمیمگیری با متخصصین سرطان پوست به ترتیب عبارت است از: 087/0، 07/0، 088/0، 071/ 0 و 107/ 0 (آلفا=05/ 0). سطح معنیدار تفاوت بین مشخصه عملکرد رگرسیون لجستیک با متخصصین سرطان پوست به ترتیب: 091/0، 073/0،8 08/ 0، 077 /0 و 111/ 0 (آلفا=05/0) بود.
در جداول10 و 11،که ماتریس اغتشاش20 هستند پیشبینیهای انجامشده بهوسیله متخصصان و الگوریتمها به همراه مقایسه آنها با مقادیر واقعی گنجاندهشده است.
جدول 10. بررسی ماتریس اغتشاش پیشبینیهای انجامشده توسط 5 متخصص سرطان پوست و مقایسه آنها با موارد به وقوع پیوسته 100 رکورد پایگاه دادههای کشوری
| به وقوع پیوسته | متخصص 1 | متخصص 2 | متخصص 3 | متخصص 4 | متخصص 5 | |||||
زنده | مرده | زنده | مرده | زنده | مرده | زنده | مرده | زنده | مرده | ||
زنده | 67 | 61 | 6 | 63 | 4 | 60 | 7 | 62 | 5 | 57 | 10 |
مرده | 33 | 13 | 20 | 16 | 17 | 12 | 21 | 15 | 18 | 9 | 24 |
جدول 11. بررسی ماتریس اغتشاش پیشبینیهای انجامشده توسط الگوریتمهای مورداستفاده دادهکاوی و مقایسه آنها با موارد به وقوع پیوسته 100 رکورد پایگاه دادههای کشوری
| به وقوع پیوسته | شبکه عصبی | J48 | شبکه بیزی | بیزی ساده | رگرسیون لجستیک | |||||
زنده | مرده | زنده | مرده | زنده | مرده | زنده | مرده | زنده | مرده | ||
زنده | 67 | 47 | 20 | 57 | 10 | 56 | 11 | 51 | 16 | 58 | 9 |
مرده | 33 | 1 | 32 | 9 | 24 | 8 | 25 | 3 | 30 | 10 | 23 |
الگوریتمهای اجراشده در پایگاه داده بومی بر روی 100 رکورد از مجموعه رکوردهای متعلق به همین پایگاه داده که در پایگاه جداگانه قرارگرفته بودند، اجرا گردیدند. سپس پنج نفر از متخصصین سرطان پوست پیشبینیهای خود را در رابطه با اطلاعات مربوط به این 100 رکورد انجام دادند. نتایج بهدستآمده از این 7 الگوریتم و متخصصان سرطان پوست درباره 100 رکورد جمعآوریشده و منحنیهای مشخص عملکرد آنها رسم گردید. در جدول (12)، بخش زیر منحنی مشخصهی عملکرد21 الگوریتمها و متخصصان پوست را نشان میدهد.
پس از انجام بررسی ماتریس اختلاط، آماره لمشو، مقادیرchi-squared و-value p برای متخصصین سرطان پوست و برای الگوریتمهای اجرا کرده و در یافتهها مقایسه میشوند.
ترکیب بیزی ساده و درخت تصمیم | ID3 | ||
زنده | مرده | زنده | مرده |
55 | 12 | 56 | 11 |
7 | 26 | 9 | 24 |
مقایسه عملکرد الگوریتمهای دادهکاوی پایگاه داده کشور با پیشبینیهای متخصصین سرطان پوست
پس از انجام آماره هاسمر- لم شو، مقادیر chi-squared و-value p برای متخصصین سرطان پوست و برای الگوریتمهای اجراشده طبق جداول زیر به دست آمد.
جدول 12. سطح زیر منحنی عملکرد الگوریتمها و متخصصین سرطان پوست برای 100 رکورد پایگاه داده کشور
الگوریتمها | شاخص عملکرد سطح زیر منحنی |
بیزی ساده | 843/0 |
ترکیب درخت تصمیم و بیز ساده | 811/0 |
بیزی شبکه | 811/0 |
شبکه عصبی | 879/0 |
ID3 | 771/0 |
J48 | 76/0 |
رگرسیون لجستیک | 751/0 |
متخصص 1 | 751/0 |
متخصص 2 | 698/0 |
متخصص 3 | 732/0 |
متخصص 4 | 716/0 |
متخصص 5 | 762/0 |
جدول 13. مقدار کای دو و p-Value متخصصین سرطان پوست با استفاده از آزمون هاسمر-لمشو
افراد | کای 2 | p-Value |
متخصص 1 | 02/7 | 12/0 |
متخصص 2 | 03/6 | 13/0 |
متخصص 3 | 002/2 | 74/0 |
متخصص 4 | 63/3 | 16/0 |
متخصص 5 | 004/1 | 88/0 |
جدول 14. مقدار کای دو و p الگوریتمهای دادهکاوی با استفاده از آزمون هاسمر-لمشو
الگوریتم | کای 2 | p-Value |
بیز ساده | 8/0 | 9/0 |
ترکیب درخت تصمیمگیری و بیز ساده | 863/0 | 87/0 |
شبکه بیزی | 945/0 | 764/0 |
شبکه عصبی | 743/0 | 97/0 |
ID3 | 12/1 | 75/0 |
رگرسیون لجستیک | 19/1 | 65/0 |
J48 | 1/1 | 78/0 |
در شکل (6) منحنی ROC سه الگوریتم برتر ازنظر عملکرد، با سه متخصص برتر مورد مقایسه قرار گرفت است.
شکل 6. مقایسهی منحنی ROC سه الگوریتم برتر پایگاه دادههای بومی با سه متخصص برتر
با توجه به شکل بالا مشخصگردیدکه سطح زیر منحنیROC الگوریتمها نسبت به متخصصین بیشتر است. در بین متخصصین نیز سطح زیر منحنی متخصص 5 از سایر متخصصین بیشتر است.
با توجه به اینکه مقدار AUC بین 9/0 تا 1 بوده است. قدرت. تشخیص آزمون بسیار عالی است؛ بنابراین قدرت تشخیص آزمون با دقت بسیار بالایی انجامشده است.
در حالت کلی الگوریتمهای (مدلهای) اجراشده در پایگاه داده کشوری ازلحاظ عملکرد در شاخصهای ارزیابی نسبت به یکدیگر ازلحاظ آماری تفاوت معنیداری داشتند:
0001 /0 = 2X
P< 001/0
برای مقایسه دوبهدوی مدلهای (الگوریتمهای) اجراشده در پایگاه داده کشوری با یکدیگر از آزمونهای ویلکاکسون استفاده شد. همچنین تصحيح بونفرونی22 برای مقایسههای دوبهدو مدلها بکار رفت و بنابراین تفاوت معنیداری مدلها با یکدیگر در سطح معنیداری 007/0 گزارش شد. نتایج نشان دادند که تفاوت مدلهای شبکه عصبی، بیز ساده، شبکه بیزی و ترکیب درخت تصمیمگیری با بیز ساده با ID3,J48 و رگرسیون لجستیک در شاخصهای ارزیابی ازلحاظ آماری با یکدیگر تفاوت معناداری دارند. درحالیکه عملکرد الگوریتمهای شبکه عصبی، بیز ساده و شبکه بیزی و ترکیب درخت تصمیمگیری با بیز ساده با یکدیگر ازلحاظ آماری متفاوت نبودند. لذا مدلهای شبکه عصبی، بیز ساده، شبکه بیزی و ترکیب درخت تصمیمگیری با بیز ساده، از پایگاه داده کشوری انتخاب شدند.
برای تعیین مدل نهایی از بین مدلهای انتخابشده از پایگاه داده کل کشور، آزمون من ویتنی استفاده شد که نتایج نشان داد که عملکرد مدل شبکه عصبی در همه شاخصهای ارزیابی در پایگاه داده کشوری نسبت به سایر مدلها بالاتر بوده و ازلحاظ آماری تفاوت معنیداری دارد. در ذیل نتایج همه مدلها آورده شده است:
001/0, p< 18/2- z= و ۸=U: شبکه عصبی
05/0p> ,38/0z= - و 5/21= U: بیز ساده
05/0p> ,57/0z= - و 20U=: شبکه بیزی
05/0p> , 34/1 z=- و 14 U=: ترکیب درخت تصمیم با بیز ساده
در پایگاه داده کل کشور الگوریتم شبکه عصبی ازلحاظ شاخصهای ارزیابیشده نسبت به سایر الگوریتمها برتری داشت. در شکل 7 مدل نهایی در نرمافزار وکا با توجه به مقایسه الگوریتمها در محیط KnowledgeFlow به اجرا درآمد.
شکل 7. نرمافزار وکا مدل نهایی (اجراشده)
5. بحث و نتیجهگیری
دادهکاوی رویدادههای پزشکی از اهمیت بالایی برخوردار است و طراحی سیستمهای تصمیمیار هوشمند، جهت یاریرساندن به پزشکان درزمینهی تشخیص نوع بیماری یا انتخاب نوع درمان مناسب و مدیریت بهینه تصمیمگیری در کسبوکار وزارت بهداشت و درمان، با کمک دادهکاوی میتواند کمک شایانی درزمینهی نجات جان انسانها انجام دهد. در همین راستا در پژوهش حاضر الگوریتم شبکه عصبی با بهترین عملکرد به پیشبینی بقای بیماران مبتلابه ملانوم پرداخته است. پژوهش حاضر باهدف طراحی مدل پیشبینی بقای بیماران مبتلابه ملانوم بر اساس الگوریتمهای دادهکاوی با استفاده از روش دادهکاوی بهوسیله نرمافزار دادهکاوی وکا و مدیریت هوشمندانه تصمیمیار، انجام گردید. از مزایای آن میتوان بهدقت و صحت پیشبینی بالا و ارائهی راهحلهای مختلف جهت بیشتر شدن شانس بقای افراد مبتلابه سرطان ملانوم اشاره کرد. در این پژوهش از مجموع داده موجود در مرکز سرطان کل کشور دانشگاه شهید بهشتی استفاده گردید؛ و با انتخاب الگوریتمهای شبکهی عصبی، ID3، ترکیب درخت تصمیم و بیزی ساده، بیزی ساده، رگرسیون لجستیک، شبکه بیزی و j48، طراحی و ارزیابیها صورت گرفت. در این بررسی نشان داده شد که شبکه عصبی در پارامترهای صحت، دقت، حساسیت و ویژگی از همهی الگوریتمهای ذکرشده بالاتر بود.
پیشنهادها برای مطالعات بعدی پژوهشگران
· پیشنهاد میشود، پیشبینی بقای ملانوم با پیگیری بیش از 5 سال انجام شود.(10 الی 15 سال)
· پیشنهاد میشود، از معماریهای مختلف الگوریتم شبکه عصبی برای پیشبینی بقای ملانوم و مقایسه عملکرد آنها استفاده شود.
· پیشنهاد میشود، عملکرد مدل ایجاد در پایگاه داده بومی با پایگاههای داده منتخب سایتهای مختلف مقایسه شود.
· پیشنهاد میشود، از الگوریتمهای درخت تصمیمگیری برای غربال کردن متغیرهای کماهمیت و ادغام خروجی آن در شبکه عصبی برای پیشبینی بقای ملانوم، استفاده شود.
· پیشنهاد میشود، مراکز دادهکاوی بیماران مختلف در کنار مراکز پژوهشی بیماری ایجاد شود؛ که بعد از فرآیند دادهکاوی و ایجاد مدل در قالب نرمافزار حمایت از تصمیمگیری بالینی وارد صنعت کند. تا در راستای پژوهشهای دانشبنیان نیز قابلاجرا شود.
[1] Zamanian Azodi M, Azizi Jalilian F. Early detection of cancer and proteomics. Journal of Ilam University of Medical Sciences 2013; 21 (1): 112-22. (Persian)
[2] N. R. Aaron, and T. M. Khoshgoftaar, “Modernizing analytics for melanoma with a large-scale research dataset,” In 2017 IEEE International Conference on Information Reuse and Integration (IRI), pp. 551 - 558, 2017.
[3] Howlader N, N.A. Krapcho M, Miller D, Brest A, Yu M, Ruhl J, Tatalovich Z, Mariotto A, Lewis DR, Feuer EJ, Cronin KA. SEER Cancer Statistics Review, 19752016. 2018 December, 11, 2019 2020].
[4] Seyedeh Elham Hosseini Fadafen, Emad Fatemizadeh, “Diagnosis of skin cancer by extracting features from images“Shhab Dansh Institute(2016).
[5] R. Dolfe, and K. Matinzadeh, “Investigating Skin Cancer with Unsupervised Learning”, Project Thesis, ETH Royal Institute of Technology 2019.
[6] Kim, R. H. & Meehan, S. A. Immunostain use in the diagnosis of melanomas referred to a tertiary medical center: a 15-year retrospective review (2001–2015). J. Cutan. Pathol. 44, 221–227 (2017).
[7] David A. Kirchar DA, Mark R, et al. Melanoma brain metastasis: mechanisms, models and medicine. J Mol Sci 2016; 17 (7): 1-29.
[8] Wrobel, S. M. Przybylo, and E. Stepien, The Clinical Trial Landscape for Melanoma Therapies. J Clin Med, 2019. 8(3).
[9] K. Q. Kanaan. “Classification of human skin diseases using data mining,” International Journal of Advanced Engineering Research and Sci, Vol. 4, no. 1, 2017.
[10] L. Sophia, and M. S. Pallavi. “Predicting Protein in Cancer Diagnosis Using Effective Classification and Feature Selection Technique,” IEEE International Conference on Communication and Signal Processing (ICCSP), pp. 156-159, 2018
[11] MK Keleş, Tehnički vjesnik, Breast Cancer Prediction and Detection Using Data Mining Classification Algorithms, 2019, Sarıçam Adana, Turkey
[12] S. Winiarti, H. Yuliansyah, and A. A. Purnama, “Identification of Toddlers’ Nutritional Status using Data Mining Approach,” International Journal of Advanced Computer Science and Applications, Vol. 9, No. 1, pp. 164 - 169, 2018.
[13] Mahmoodi MS, Mahmoodi SA, Haghighi F, Mahmoodi SM. Determining the stage of breast cancer by data mining algorithms. ijbd. 2014;7(2):36-44.
[14] Dehghan P, Mogharabi M, Zabbah I, Layeghi K & Maroosi A. Modeling Breast cancer using data mining methods. Journal of Health and Biomedical Informatics 2018; 4(4): 266-78[Article in Persian].
[15] Ismaili N, Mohaghegh MA, Safai Faraq Z, Emami Razavi SZ, Chavoshi M, Emami Razavi S H. 5-year survival rate of malignant melanoma in Iran, Modval Scientific Journals, 1386: (11)3:1263-1263
[16] Hira Beenish, Muhammad Fahadad International Conference on Computing and Information Technology, University o f Tabuk, Kingdom o f Saudi Arabia. Volume: 01, Issue: ICCIT- 1441, Page No.: 44 - 47, 9 & 1 9 Sep. 2020
[17] Suma, V., & Hills, S. M. (2020). Data Mining based Prediction of Demand in Indian Market for
Refurbished Electronics. Journal of Soft Computing Paradigm (JSCP), 2(03), 153-159.
[18] . Martınez AM, Webb GI, Chen S, Zaidi NA. Scalable learning of Bayesian network classifiers. Journal of Machine Learning Research. 2016;17(44):1-35
[19] Wang, Haoxiang. "IoT based Clinical Sensor Data Management and Transfer using Blockchain Technology." Journal of ISMAC 2, no. 03 (2020): 154-159.
[20] Ameri H, Alizadeh S & Barzegari A. Knowledge extraction of diabetics’ data by decision tree method. Health Management
2013; 16(53): 58-72[in Persian]
[21] Ahmed K, Jesmin T, Rahman MZ. Early Prevention and Detection of Skin Cancer Risk using Data Mining. International Journal of Computer Applications 2013;62(4):1 -6.
[22] Gibert K, Sanchez-Marre M, Codina V editors . Choosing the right data mining technique: Classification of methods and intelligent recommendation. Proceeding the IEMSs fifth biennial meeting international congress on environmental modeling and software ;2015.
[23] Witten I. Frank E.Hall M. Data mining : Practical machine Learning tools and techniques: Morgan Kaufinann: 2011.
[24] R. Arulmurugan, K. R. Sabarmathi, and H. Anandakumar, “Classification of sentence level sentiment analysis using cloud machine learning techniques,” Cluster Computing, vol. 22, no. S1, pp. 1199–1209, Sep. 2017.
[25] Sarafi Nejad A, Saeid AH, Rose I.M, Rowhanimanesh AR. Modeling a Data Mining Decision Tree and Propose a New Model for the Diagnosis of Skin Cancer by Immunohistochemical Staining Methods. Journal of Health and Biomedical Informatics 2014; 1(1): 54-62.[Persian].
[26] U.-O. Dorj, K.-K. Lee, J.-Y. Choi, M. J. M. T. Lee, and Applications, "The skin cancer classification using deep convolutional neural network," pp. 1-16, 2018.
[27] Yu CT, Chao CM, Cheng BW. Prediction of surv using three artificial intelligence techniques. Journal of Theoretical and applied Information Technology. 2014;60(1):179-83. 99.
[28 ] Razavi AR Applications of knowledge discovery in quality registries - predicting recurrence of breast cancer and analyzing non-compliance with a clinical guideline: Institutionen för medicinsk teknik; 2015.
[29] Gopalakrishnan, V. et al. Gut microbiome modulates response to anti-PD-1 immunotherapy in melanoma patients. Science 359, 97–103 (2018).
[1] Modernizing Medicine to reach these goals
[2] International Classification of Diseases for Oncology
[3] World Health Organization
[4] Excel
[5] Survival Time Record (STR)
[6] Vital Status Record(VSR)
[7] Cause ofDeath (COD)
[8] Robustness
[9] Scalability
[10] Sensitivity
[11] Specificity
[12] Precision
[13] Recall
[14] F-measure
[15] Receiver Operating Characteristic (ROC)
[16] Hosmer and Lemeshoe" s2 statistic
[17] Wilcoxon
[18] Maan-Whitney
[19] pair-wise
[20] Confusion matrix
[21] Areas under the ROC curve (AUC)
[22] Bonferroni