Faculty Profile

تاریخ به‌روزرسانی: 1404/03/08

شاهو زارعی

دانشکده علوم پایه / گروه آمار

Theses Faculty

پایان‌نامه‌های کارشناسی‌ارشد

Robust semi-supervised learning via model-based classification
1403
‎In a standard classification framework‎, ‎a meticulously selected collection of reliable training data is employed to develop a decision rule designed to reliably classify unlabeled cases within the test set‎. ‎This method has a considerable limitation‎, ‎it requires a substantial quantity of labeled cases to facilitate effective learning‎. ‎Due to the manual nature of labeling‎, ‎the process can be highly laborious and time consuming‎. ‎For this reason‎, ‎semi-supervised approaches have been developed to address these difficulties‎. ‎Within this educational context‎, ‎there exists a limited collection of classified instances for each class‎, ‎alongside a substantial collection of uncategorized instances‎. ‎The goal is to utilize the unlabelled examples in order to enhance the process of learning‎. ‎The existence of unreliable labeled observations‎, ‎including outliers and inaccurately labeled data‎, ‎can severely impair the classifier’s performance‎. ‎This danger is especially significant when the training dataset is somewhat small‎, ‎as it may lack adequate information to mitigate these mistakes‎. ‎The work presented here introduces a robust modification to the model-based classification framework‎, ‎integrating the concepts of impartial trimming and incorporating constraints on the ratio between the maximum and minimum eigenvalues of the group scatter matrices‎. ‎In order to achieve these goals‎, ‎in the First chapter‎, ‎we describe the classification preparations‎, ‎the evaluation of the results‎, ‎and the types of classification methods‎. ‎The Second chapter will include the model-based classification‎, ‎Semi-supervised classification and the concept of attribute and class noise‎, ‎and outliers and its effect on the classification‎. ‎In the Third chapter‎, ‎robust model-based classification for attribute and class noise is discussed in detail and we introduce a new technique called RUPCLASS along with the parameter estimation method with the EM algorithm‎. ‎In the Fourth chapter‎, ‎using several simulations and analysis of heart failure data in Pakistan‎, ‎we put the described methods and algorithms into practical use and evaluation‎. ‎Finally‎, ‎in the Fifth chapter‎, ‎conclusions and future work.
خوشه‌بندی‌ استوار مبتنی بر مدل با آمیخته خبرگان و توزیع α-پایدار
1403
خوشه‌بندی یک روش تحلیل داده و از نوع یادگیری بدون نظارت می‌باشد که در آن مجموعه‌ای از داده‌های ناهمگن به گروه‌ها یا اصطلاحا خوشه‌هایی تقسیم می‌شوند. به طوری‌که بیشترین تفاوت در بین خوشه‌ها و بیشترین تشابه درون خوشه‌ها وجود داشته باشد. در روش‌های معمولی خوشه‌بندی مبتنی بر مدل از متغیرهای کمکی استفاده نمی‌شود. یک راه برای استفاده از متغیرهای کمکی استفاده از مدل‌های آمیخته رگرسیونی است. در این مدل‌ها فقط در توزیع در نظر گرفته شده برای خوشه‌ها از متغیرهای کمکی استفاده می‌شود. یک روش جدید برای استفاده از متغیرهای کمکی هم درتوزیع خوشه‌ها و هم در وزن‌های آمیخته، مدل آمیخته خبرگان است. معمولا در این مدل توزیع مولفه‌های آمیخته یا شبکه‌های خبره، نرمال در نظر گرفته می‌شود. اما وجود داده‌های دورافتاده می‌تواند بر کیفیت خوشه‌بندی تاثیرگذار باشد. مشخص است که توزیع نرمال در مدل کردن داده‌های دورافتاده ضعیف عمل می‌کند. برای رفع این مشکل در این پایان‌نامه به جای توزیع نرمال برای خبرگان، از توزیع ‎$ t $‎ استفاده می‌شود که نسبت به داده‌های دورافتاده استوارتر است. یکی دیگر از مشکلات مربوط به مدل‌های آمیخته معمولی وجود خطای اندازه‌گیری در مشاهدات است. اگر داده‌های در اختیار همراه با خطای اندازه‌گیری باشند، این امر می‌تواند باعث کاهش کیفیت خوشه‌بندی و تولید خوشه‌های جعلی و بیش برازشی شود. معمولا برای بررسی و مدل کردن خطای اندازه‌گیری فرض می‌شود که این نوع خطا دارای توزیع نرمال است. اما در عمل موقعیت‌هایی وجود دارد که خطاها بسیار بزرگ یا بسیار کوچک یا به اصطلاح دورافتاده هستند. در این حالت فرض نرمال بودن غیر واقعی و موجب کاهش دقت استنباط می‌شود. به همین خاطر ما در حالت یک متغیره توزیع ‎$ \alpha $-‎پایدار متقارن را برای مدل کردن خطاهای اندازه‌گیری مورد استفاده قرار می‌دهیم، که می‌تواند بستگی به مقدار ‎$ \alpha $‎ خطای اندازه‌گیری نرمال، خفیف و شدید را مدل کند. در فصل اول پایان‌نامه مقدمات خوشه‌بندی مانند معرفی دقیق، مفهوم فاصله و تشابه، معیارهای ارزیابی و انواع روش خوشه‌بندی را توضیح می‌دهیم. فصل دوم خوشه‌بندی مبتنی بر مدل از نظر تئوری و نحوه اجرا، مدل آمیخته خبرگان، خوشه‌بندی مبتنی بر مدل همراه با متغیرهای کمکی، مدل آمیخته نرمال خبرگان و مدل آمیخته ‎$ t $‎ خبرگان مورد بررسی قرار می‌گیرند. در فصل سوم خوشه‌بندی استوار مبتنی بر مدل، خطای اندازه‌گیری، روش ‎$MCLUST$‎ ، ‎$MCLUST-ME$‎ و توزیع ‎$ \alpha $‎ -پایدار به طور دقیق بیان می‌شود. سرانجام در فصل چهارم روش‌های ذکر شده در فصل سوم با شبیه‌سازی و تحلیل داده‌های واقعی، مورد ارزیابی و مقایسه قرار می‌گیرند.
آمیخته مدل‌های خبره برای خوشه‌بندی با متغیر‌های کمکی
1402
خوشه‌بندی یک ابزار بسیار مفید آماری از نوع یادگیری بدون نظارت در یادگیری ماشین و علم داده‌ها محسوب می‌شود. در این روش، داده‌ها بدون نیاز به کوچک‌ترین راهنمایی به خوشه‌های مشابه تقسیم می‌شوند. داده‌ها درون خوشه بیشترین شباهت و بین خوشه‌ها بیشترین تفاوت را دارند. این فن آماری در تلخیص مشاهدات، تشخیص الگو و ارتباط بین مشاهدات کاربرد دارد. در این پایان‌نامه روش‌های خوشه‌بندی مبتنی بر مدل مورد بررسی قرار می‌گیرد. در این حالت فرض می‌شود، که داده‌ها از یک توزیع آمیخته‌ی متناهی که مولفه‌های آن اغلب دارای یک توزیع مشخص مانند توزیع نرمال می‌باشند، آمده باشند. امروزه مشخص شده است، که اطلاعات کمکی می‌تواند در خوشه‌بندی کردن بهتر و درست‌تر داده‌ها کمک کند. اما در خوشه‌بندی مبتنی بر مدل آمیخته معمولی از متغیرهای کمکی استفاده نمی‌شود. برای استفاده از اطلاعات کمکی می‌توان از مدل‌های آمیخته رگرسیونی استفاده کرد. در تحقیق حاضر، نوع جدیدی از خوشه‌بندی که اساس آن بر وجود اطلاعات اضافی در قالب متغیر‌های کمکی هم در خوشه‌ها و هم در وزن‌های آمیخته است، مورد بررسی قرار می‌گیرد. این روش مدل آمیخته خبرگان نامیده می‌شود. اگر متغیر کمکی در قسمت‌ وزن‌‌های آمیخته که به آن متغیر همراه گفته می‌شود درست انتخاب شود، تفسیر نتایج خوشه‌بندی واضح‌تر و معمولا باعث افزایش دقت خوشه‌بندی می‌شود. در فصل اول پایان‌نامه، مقدمات پایه خوشه‌بندی، مثال‌هایی از کابردهای واقعی آن، الگوریتم‌های مختلف خوشه‌بندی و استفاده از شاخص‌های ‌ارزیابی برای خوشه‌بندی توضیح و بررسی می‌شوند. در فصل دوم، مدل‌های آمیخته متناهی و استنباط در مدل‌ه‍ای آمیخته بر اساس الگوریتم ‎$EM$‎ و فن ‎$Mclust$‎ و همچنین مرور مختصری بر مدل‌های آمیخته رگرسیونی بیان می‌شود. در فصل سوم خوشه‌بندی مبتنی بر مدل خبرگان نرمال و استنباط در این مدل به طور دقیق بیان می‌شود. در فصل چهارم، با استفاده از شبیه‌‌سازی و استفاده از داده‌های واقعی مختلف شامل مشخصات اندام‌های مختلف بدن گونه سمندر کوهستانی دریوگین در دو جنس نر و ماده و همچنین داده‌های شراب ایتالیایی، مدل‌ها و الگوریتم‌های معرفی شده مورد ارزیابی و مقایسه قرار می‌گیرند.
خوشه بندی مبتنی بر مدل برای داده های با خطای اندازه گیری
1401
وقتی هدف تفکیک و تخصیص داده های ناهمگن، به گروه هایی همگن باتوجه به یک معیار شباهت باشد، خوشه بندی یک ابزار آماری بسیار مفید است. در اغلب کاربردها به علت پیچیدگی های محاسباتی، از خطای اندازه گیری صرف نظر می شود، که ممکن است منجر به نتایج خوشه بندی نادرست شود. بنابراین ما در این پایان نامه، به خوشه بندی داده ها با روش های مختلف در حضور خطای اندازه گیری و تاثیر این خطا بر خوشه بندی می پردازیم. به طور خاص، مدل آمیخته ی چندمتغیره گاوسی را مورد مطالعه قرار داده و فن ‎MCLUST‎ را به حالت داده های همراه با خطای اندازه گیری تعمیم می دهیم. برای رسیدن به این اهداف در فصل اول مقدمات خوشه بندی، ارزیابی نتایج و انواع روش های خوشه بندی را بیان می کنیم. فصل دوم خوشه بندی مبتنی بر مدل و مفهوم خطای اندازه گیری و تاثیر آن بر خوشه بندی را شامل خواهد شد. در فصل سوم خوشه بندی مبتنی بر مدل در حضور خطای اندازه گیری مورد بحث دقیق قرار گرفته و فن جدیدی با نام ‎MCLUST-ME‎ به همراه روش برآورد پارامترها با الگوریتم ‎ EM‎را معرفی می کنیم. هم چنین در این فصل الگوریتم ‎K-means‎ را به حالت داده های با خطای اندازه گیری گسترش می دهیم. در فصل چهارم با استفاده از چندین شبیه سازی و تحلیل داده های مسکن شهر بوستون، روش ها و الگوریتم های بیان شده را مورد استفاده عملی و ارزیابی قرار می دهیم. سرانجام در فصل پنجم نتیجه گیری و پیشنهادات بیان می شود.
بررسی روش های خوشه بندی مبتنی بر مدل با تابع های مفصل
1401
خوشه بندی یکی از ابزارهای مهم آماری در تحلیل های چند متغیره به منظور گروه بندی و کشف ساختارهای پنهان موجود در داده هاست. از لحاظ آماری خوشه بندی اغلب مبتنی بر مدل است، بدین معنی که فرض می شود داده ها از یک مدل آمیخته معمولاً گاوسی آمده باشند. با وجود این توزیع آمیخته گاوسی معمولاً برای داده هایی با شکل غیر بیضوی مناسب نیست. همچنین نمی تواند برخی از ساختارهای وابستگی موجود در داده ها را مدل کند. برای رفع این مشکل می توان از مفصل ها استفاده نمود. این کار دو مزیت اصلی دارد. اول: انتخاب مفصل مناسب می توان شکل های متنوع تری از داده ها را بررسی کند. دوم: انتخاب صریح توزیع های حاشیه ای اجازه مدل سازی داده های چند متغیره با حالت های مختلف (گسسته و پیوسته) با مولفه های همبسته و ناهمتوزیع را می دهد. ‎\noindent‎ برای این منظور در این پایان نامه، ابتدا در فصل اول ضمن تعریف خوشه بندی، اهمیت، کاربردها و روش های مختلف خوشه بندی به اختصار بیان شده است. همچنین معیارهایی جهت مقایسه روش های مختلف خوشه بندی و تابع مفصل تعریف شده اند. در فصل دوم خوشه بندی مبتنی بر مدل آمیخته گاوسی را به طور نسبتاً مفصلی مورد بحث قرار داده ایم. در این فصل ضمن تعریف فن ‎$MCLUST$‎ که بر اساس تجزیه ماتریس واریانس-کوواریانس است، روش برآورد پارامترها با استفاده از الگوریتم ‎$EM$‎ از جنبه های نظری و محاسباتی تشریح شده است. در فصل سوم، ضعف های روش مبتنی بر مدل در خوشه بندی داده های با وابستگی دمی و دم سنگین بیان، و استفاده از تابع مفصل برای رفع این ضعف ها بررسی شده است. همچنین، روش های نظری و محاسباتی با استفاده از روش ‎$IFM$‎ و الگوریتم ‎$ECM$‎ جهت برآورد پارامترها نیز تشریح شده است. علاوه براین، با تحلیل مثال های شبیه سازی شده و واقعی، کارایی و افزایش دقت در خوشه بندی مبتنی بر مدل تابع مفصل نشادن داده شده است.
برآورد کوچک ناحیه بیزی با توزیع ‎$t$‎ برای متغیرهای کمکی با خطای اندازه گیری
1401
معروف ترین مدل سطح ناحیه در برآورد کوچک ناحیه، مدل فی-هریوت است، که از اطلاعات کمکی برای بهبود دقت برآوردگرها استفاده می کند. معمولاً در ثبت و جمع آوری اطلاعات کمکی از طریق پرسشنامه یا اندازه گیری های مختلف به علت عدم دقت پاسخگو یا وسیله اندازه گیری امکان وجود خطای اندازه گیری وجود دارد. برای مدل کردن این نوع خطا معمولاً از توزیع نرمال استفاده می شود. در مسایل کاربردی مثلاً بررسی داده های درآمد، این امکان وجود دارد که بعضی از این خطاها خیلی کوچک یا خیلی بزرگ اندازه گیری شده باشند. وجود این نوع خطا باعث می شود نتوان پارامترهای کوچک ناحیه را به طور دقیق پیش بینی کرد. برای رفع این مشکل در این پایان نامه، توزیع ‎$t$‎ را جایگزین توزیع نرمال می کنیم و با استفاده از رهیافت بیز سلسله مراتبی برآورد پارامترهای کوچک ناحیه را به دست می آوریم. برای این منظور، ابتدا در فصل اول مفاهیم برآورد کوچک ناحیه و خطای اندازه گیری را بیان می کنیم. در فصل دوم به بررسی روش های بیزی و به خصوص بیز سلسله مراتبی در برآورد کوچک ناحیه پرداخته می شود. در فصل سوم مدل سطح ناحیه با خطای اندازه گیری نرمال و توزیع ‎$t$‎ را به طور کامل توضیح می دهیم. نهایتا در فصل چهارم با مطالعات شبیه سازی مختلف و تجزیه و تحلیل داده های هزینه و درآمد خانوار در سطح کشور و در سطح استان کردستان به ارزیابی و مقایسه مدل های بررسی شده می پردازیم.