مروری بر یادگیری نیمه نظارتی برای طبقه بندی متن

خلاصه

روزانه حجم عظیمی از داده تولید می شود که منجر به چالش های کلان داده می شود. یکی از آنها مربوط به متن کاوی به ویژه طبقه بندی متن است. برای انجام این کار معمولاً به مجموعه بزرگی از داده‌های برچسب‌گذاری شده نیاز داریم که می‌تواند گران، زمان‌بر یا دشوار باشد. با در نظر گرفتن این سناریو یادگیری نیمه نظارت شده (SSL)، شاخه ای از یادگیری ماشین که مربوط به استفاده از داده های برچسب دار و بدون برچسب است، از نظر حجم و دامنه گسترش یافته است. از آنجایی که هیچ نظرسنجی اخیری برای بررسی اجمالی نحوه استفاده از SSL در طبقه بندی متن وجود ندارد، هدف ما پر کردن این شکاف و ارائه یک بررسی به روز از SSL برای طبقه بندی متن است. ما ۱۷۹۴ اثر از ۵ سال گذشته را از IEEE Xplore، ACM Digital Library، Science Direct و Springer بازیابی می کنیم. سپس ۱۵۷ مقاله برای درج در این بررسی انتخاب شدند. ما دامنه برنامه، مجموعه داده ها، و زبان های به کار رفته در آثار. نمایش متن و الگوریتم های یادگیری ماشین. ما همچنین آثار را پس از طبقه‌بندی اخیر SSL خلاصه و سازماندهی می‌کنیم. درصد داده‌های برچسب‌گذاری‌شده، معیارهای ارزیابی و نتایج به‌دست‌آمده را تجزیه و تحلیل می‌کنیم. در نهایت، برخی از محدودیت ها و روندهای آتی در این منطقه را ارائه می دهیم. هدف ما ارائه یک طرح کلی از منطقه و همچنین اطلاعات مفید برای تحقیقات فعلی به محققان و متخصصان است.

مقدمه

طبق برآورد Statista ( 2022 ) ، تعداد کاربران اینترنت در سراسر جهان تا سال ۲۰۲۳ به ۵.۳ میلیارد خواهد رسید . دنیای دیجیتال تعداد بی شماری دانلود و آپلود داده را به ویژه در قالب متن ترویج می کند. حجم قابل توجهی از داده‌های متنی تولید شده است، انجام پردازش دستی این محتوا زمان‌بر، پرهزینه و دشوار است. الگوریتم های دلخواه هستند که به طور خودکار اسناد را طبقه بندی می کنند و به وظایف متن کاوی کمک می کنند (حسنی و همکاران ۲۰۲۰ ).

از آنجایی که متون منبعی غنی از اطلاعات هستند، تکنیک هایی که به طور خودکار متن را به صورت مقرون به صرفه تجزیه و تحلیل و ساختار می دهند برای کاربردهای دانشگاهی و تجاری بسیار مورد توجه هستند. هدف طبقه بندی متن، اختصاص یک دسته از پیش تعریف شده به یک متن است. این یکی از وظایف اصلی در پردازش زبان طبیعی (NLP) با چندین کاربرد است. طبقه بندی متن معمولاً به رویکردهای نظارت شده، بدون نظارت و نیمه نظارت تقسیم می شود (Thangaraj and Sivakami ۲۰۱۸)). نظارت گران ترین است زیرا به داده های برچسب گذاری شده بستگی دارد، رایج ترین الگوریتم های بررسی شده SVM، درخت تصمیم، KNN و شبکه های عصبی هستند. یادگیری بدون نظارت زمانی اتفاق می‌افتد که داده‌های برچسب‌گذاری شده در دسترس نباشد و عملکرد همیشه خوب نباشد. متداول‌ترین الگوریتم‌های مورد بررسی K-Means، خوشه‌بندی سلسله مراتبی و c-means فازی هستند. نیمه نظارت زمانی استفاده می شود که داده های برچسب دار کمی و داده های بدون برچسب زیادی وجود داشته باشد. الگوریتم‌های رایج مورد بررسی عبارتند از: روش‌های هم‌آموزشی co-training، خودآموزی، SVM انتقالی و روش‌های مبتنی بر ‘نمودار گراف.

داده‌های آموزشی یک گلوگاه در طبقه‌بندی متن است و یک چالش بزرگ فرآیند برچسب‌گذاری است که شامل یک حاشیه‌نویس انسانی است که محتوا را تفسیر و دسته‌بندی می‌کند. این کار وقت گیر و پرهزینه است. بنابراین، تکنیک‌های یادگیری ماشینی مانند یادگیری نیمه نظارت شده (SSL) که داده‌های برچسب‌گذاری‌شده کمی را در نظر می‌گیرند و به آن‌ها اجازه می‌دهند تا برای هر برنامه کاربردی مقیاس شوند، می‌توانند تجزیه و تحلیل بلادرنگ را فعال کنند. به این ترتیب، رویکردهای نیمه نظارت شده به یک موضوع تحقیقاتی داغ تبدیل می‌شوند که از داده‌های چند برچسب‌گذاری شده استفاده می‌کند و سپس اسناد بدون برچسب را طبقه‌بندی می‌کند (Zhou ۲۰۲۱ ؛ Van Engelen and Hoos ۲۰۲۰ ). تکنیک‌های NLP و SSL در حوزه‌های مختلفی مانند تحلیل احساسات ترکیب و به کار گرفته شده‌اند (سیلوا و همکاران ۲۰۱۶ ؛ هان و همکاران ۲۰۲۰ ؛ لی و همکاران ۲۰۱۹).ابهام‌زدایی از معنای کلمه (Duarte و همکاران ۲۰۲۱ ؛ لی و همکاران ۲۰۱۹ )، تشخیص اخبار جعلی (Benamira و همکاران ۲۰۱۹ ) و طبقه‌بندی متن (Linmei et al. ۲۰۱۹ ؛ Alam et al. ۲۰۱۸ )، به نتایج جالبی رسیدند.

ایده ترکیب داده‌های برچسب‌دار و بدون برچسب برای مدت طولانی مورد بررسی قرار گرفته است، زمانی که برخی از نویسندگان طبقه‌بندی‌کننده‌های ساختمانی را با حداکثر احتمال با آزمایش تمام تخصیص‌های کلاسی پیشنهاد کردند (هارتلی و رائو ۱۹۶۸؛ روز 1969 ) . از آن زمان تاکنون، رویکردهای متفاوتی برای SSL ارائه شده است. در Van Engelen و Hoos ( ۲۰۲۰ ) یک طبقه‌بندی پیشنهاد شد که تکنیک‌ها را به روش‌های لفاف، پیش پردازش بدون نظارت، ذاتا نیمه نظارتی و مبتنی بر نمودار تقسیم می‌کند. در سال‌های گذشته، برخی از نظرسنجی‌ها الگوریتم‌های طبقه‌بندی متن را ارائه کردند (کوثری و همکاران ۲۰۱۹ ؛ کاظم ۲۰۱۹ )، رویکردهای یادگیری عمیق اصلی مورد استفاده در طبقه‌بندی متن (مینایی و همکاران، ۲۰۲۱) ، تکنیک های انتخاب ویژگی (Deng et al. ۲۰۱۹ )، با این حال، تا آنجا که می دانیم هیچ بررسی بر روی تکنیک های SSL برای طبقه بندی متن متمرکز نشده است، که تمرکز ما هستند.

یکی از مشکلات بررسی شده در SSL، عملکرد تخریب طبقه‌بندی کننده در مورد کمیت داده بدون برچسب اضافه شده به مجموعه ثابتی از داده‌های برچسب‌گذاری شده است. نیگام و همکاران ( ۲۰۰۰ ) از حداکثر کردن انتظار (EM) همراه با یک طبقه‌بندی مولد برای بررسی نمونه‌های بدون برچسب و برچسب‌گذاری شده در طبقه‌بندی متن استفاده کرد. Cozman و Cohen ( ۲۰۰۲ ) برآوردگر حداکثر احتمال و طبقه بندی کننده مولد را با تمرکز بر خطاهای مدل سازی برای ارزیابی اثر نمونه های بدون برچسب تجزیه و تحلیل کردند. اخیراً بنیطالبی دهکردی و همکاران. ( ۲۰۲۲ ) نشان داد که داده های بدون برچسب از توزیع های بدون محدودیت می تواند باعث کاهش دقت روش های SSL شود.

طبقه بندی متون اساس بسیاری از کاربردهایی است که قبلا ذکر شد، مانند تجزیه و تحلیل احساسات، تشخیص هرزنامه و تقلب، ابهام زدایی از معنای کلمه و غیره، که تبدیل به یک موضوع بزرگ در زمینه هوش مصنوعی شده است. هدف این مقاله بازیابی و تحلیل رویکردهای اصلی طبقه‌بندی متن به‌ویژه استفاده از SSL است و نقاط قوت و ضعف آنها را ارائه می‌کند. این مطالعه برای حوزه علوم کامپیوتر بسیار مهم است تا به محققان و متخصصان کمک کند تا روندهای تحقیقاتی فعلی را بشناسند، مدل های سفارشی سازی شده را توسعه دهند و از توسعه پروژه و کشف دانش حمایت کنند. اطلاعات فشرده در اینجا می تواند به بهینه سازی منابع و به حداکثر رساندن دقت کمک کند.

این کار تلاشی برای بازیابی و زمینه سازی رویکردهای اصلی SSL برای طبقه بندی متن و همچنین پیشرفت های اخیر آن است. ما به انتشارات ۵ سال گذشته در چهار کتابخانه دیجیتال (ACM، IEEE Xplore، Science Direct و Springer) دسترسی داریم. در ابتدا ۱۷۹۴ مقاله انتخاب شد، پس از اعمال معیارهای خروج، ۱۵۷ مقاله برای ورود به این مرور انتخاب شدند. مشارکت‌های اصلی این کار عبارتند از: (من) اصطلاحات اصلی، حوزه‌ها و وظایف مورد بررسی را شناسایی کنید. (ii) بازیابی مجموعه داده های مورد استفاده. (iii) نمایش متن اصلی مورد استفاده را شناسایی کنید. (IV) الگوریتم های اصلی مورد استفاده را تشخیص دهد. (v) کارها را در تکنیک های SSL سازماندهی کنید. (vi) درصد داده های برچسب گذاری شده و نتایج به دست آمده توسط رویکردهای SSL را در مجموعه داده ها پیدا کنید. (vii) نقاط قوت، محدودیت ها،

بخش ۲ روش بکار گرفته شده برای بازیابی و انتخاب مقالاتی که در این بررسی گنجانده می شوند را ارائه می دهد. بخش ۳ نتایج را در قالب گرافیکی نشان می دهد تا دید و تفسیر را تسهیل کند، علاوه بر بحث مختصری در مورد نتایج. بخش ۴ کارهای تقسیم شده به رویکردهای اصلی SSL را ارائه می دهد. بخش ۵ تجزیه و تحلیل مقایسه ای از نتایج به دست آمده توسط آثار در وظایف اصلی و مجموعه داده ها را نشان می دهد. بخش ۶ مزایا و محدودیت های تکنیک ها را ارائه می کند. بخش ۷ فرصت های آینده در این منطقه را ارائه می دهد و بخش ۸ مقاله را به پایان می رساند.

بخش ۲ روش شناسی

این بخش روش بکار گرفته شده برای انجام بازبینی و بازیابی آثار را ارائه می دهد. بخش ۲.۱ سؤال تحقیق را ارائه می دهد که کار را هدایت می کند. بخش ۲.۲ منابع و عبارات جستجوی مورد استفاده برای تحقیق را ارائه می دهد. بخش ۲.۳ فرآیند انتخاب و معیارهای حذف را ارائه می کند. بخش ۲.۴ اطلاعات اصلی را که از مقالات استخراج می کنیم ارائه می کند.

۲.۱ سوال تحقیق

سوال اصلی: کدام رویکردها در طبقه‌بندی متن نیمه نظارتی هستند که در سال‌های اخیر به نتایج مرتبط دست یافته‌اند؟

برای پاسخ به سوال اصلی، ما دانش محور را با در نظر گرفتن رویکردهای نیمه نظارت شده، نمایش متن، وظایف طبقه بندی متن، الگوریتم های یادگیری ماشین، زبان ها، دامنه ها و مجموعه داده ها ایجاد کردیم.

۲.۲ منابع و عبارات جستجو

ابتدا، ما جستجو را در پایان مارس ۲۰۲۱ در چهار کتابخانه دیجیتال با در نظر گرفتن انتشارات ۵ سال گذشته انجام دادیم: کتابخانه دیجیتال ACM،پاورقی۱ IEEE Xplore،پاورقی۲ Science Directپاورقی۳ و اسپرینگر.پاورقی۴ عنوان ، چکیده ، و کلمات کلیدی فیلدهایی هستند که برای توضیح بیشتر عبارت جستجو برای انتخاب مقالات در ACM و Science Direct استفاده کردیم. ما از فیلد All Metadata در IEEE Xplore استفاده کردیم. با این حال، در کتابخانه Springer، تعداد مقالات بازگردانده شده بسیار بیشتر از کتابخانه های دیگر بود، با توجه به اینکه مقالات را بر اساس فیلدها جدا نمی کند، در عوض، تمام متن مورد تجزیه و تحلیل قرار می گیرد. عبارت جستجوی مورد استفاده در کتابخانه ها عبارت بودند از: (طبقه بندی متن) و (نیمه نظارت) . در پایان فوریه ۲۰۲۲، روند بررسی را به‌روزرسانی می‌کنیم. ما در این مرحله دوم از همان کتابخانه ها و کلمات کلیدی استفاده کردیم.

۲.۳ روش انتخاب مقالات

مقالات برگشتی را با عبارت جستجو انتخاب کردیم و عناوین، چکیده ها و کلمات کلیدی آنها را خواندیم. زمانی که در مورد مناسب بودن مقاله برای نظرسنجی پیشنهادی تردید داشتیم، روش و آزمایشات را خواندیم. ما مقالاتی را رد می کنیم که حداقل یک معیار حذف را داشته باشند. معیارهای خروج از مطالعه عبارت بودند از:

  • تاریخ انتشار مقاله قبل از تاریخ اولیه جستجو بود.
  • زبان مقاله به غیر از انگلیسی؛
  • بررسی سیستماتیک، بررسی، و انتشار فصل.
  • مقاله بدون آزمایش;
  • هیچ دسترسی؛
  • برای هدف پیشنهادی مناسب نیست؛

۲.۴ استراتژی استخراج اطلاعات

ما مقاله‌های منتخب را با توجه به موارد زیر که استخراج اطلاعات را هدایت می‌کردند، مطالعه کامل کردیم:

  • عنوان، سال انتشار، کشور، کتابخانه؛
  • دامنه برنامه؛
  • هدف، واقعگرایانه؛
  • زبان مجموعه داده؛
  • نمایش متن؛
  • رویکرد نیمه نظارتی؛
  • الگوریتم های یادگیری ماشینی و/یا روش یادگیری عمیق؛
  • طبقه بندی باینری و/یا چند کلاسه و/یا چند برچسبی.
  • معیارهای ارزیابی؛
  • نتایج طبقه بندی

بخش ۳ نتایج و بحث

این بخش نتایج به دست آمده از بررسی را ارائه می دهد. شکل ۱ روند بررسی را نشان می دهد. ما با استراتژی جستجو به ۱۷۹۴ مقاله دست یافتیم. از این گروه ۱۶۳۷ مقاله بر اساس معیارهای خروج رد شدند. بدین ترتیب ۱۵۷ مقاله برای انجام مطالعه کامل و استخراج اطلاعات انتخاب شدند. سپس، ما یک تجزیه و تحلیل کمی انجام دادیم تا اطلاعات طبقه‌بندی متن نیمه نظارت شده را در بر بگیرد.

شکل ۱ – فرآیند بررسی به SSL برای طبقه بندی متن. 
ما به چهار کتابخانه دیجیتال دسترسی داریم: ACM، IEEE Explore، Science Direct و Springer. 
با استفاده از استراتژی جستجو، ما ۱۷۹۴ مقاله را بازیابی می کنیم. 
پس از اعمال معیارهای خروج، ۱۵۷ مقاله برای ورود به این مرور انتخاب شدند

در ادامه، بخش. ۳.۱ تعداد انتشارات در هر سال و در هر کشور را نشان می دهد. بخش ۳.۲ اصطلاحات، حوزه ها و وظایف اصلی تحقیق شده را ارائه می کند. بخش ۳.۳ مجموعه داده های رایج مورد استفاده را نشان می دهد. بخش ۳.۴ نمایش های متن و بخش را ارائه می دهد. ۳.۵ رویکردهای SSL بررسی شده است.

۳.۱ انتشارات در سال و هر کشور

شکل ۲ تولیدات علمی در سال را نشان می دهد. از سال ۲۰۱۹ افزایش استفاده از شبکه های عصبی مصنوعی (ANN) در فرآیند نیمه نظارت شده وجود داشته است. سال‌های ۲۰۱۶، ۲۰۱۷ و ۲۰۱۸ دارای ۱۷ نشریه بودند که مهندسی ویژگی یا رویکردهای نیمه‌نظارت‌شده را با استفاده از ANN بررسی کردند. در سال ۲۰۱۹، ۱۹ نشریه از ANN، ۲۰۲۰، ۲۰۲۱ استفاده کردند و دو ماه اول سال ۲۰۲۲ در مجموع ۴۰ مقاله در مورد ANN استفاده کردند.

شکل ۲ -تعداد مقالات منتشر شده بر اساس سال

ما ۳۳ کشور را شناسایی می کنیم که مقالات طبقه بندی متن نیمه نظارت شده را منتشر کرده اند. شکل ۳ تعداد مقالات منتشر شده در هر کشور را نشان می دهد، ما کشورهایی را با حداقل چهار مقاله به دلایل بصری و زیبایی شناختی در نظر گرفتیم. چین، ایالات متحده آمریکا (ایالات متحده آمریکا) و هند کشورهایی هستند که بیشترین تولیدات را داشتند. چین ۵۵ مقاله منتشر کرد که ۰۲/۳۵ درصد از کل مقالات تولید شده توسط همه کشورهای فهرست‌بندی شده در این نظرسنجی را نشان می‌دهد. پس از آن ایالات متحده آمریکا با ۲۳ مقاله و هند با ۱۵ مقاله به ترتیب ۱۴.۶۵ درصد و ۹.۵۵ درصد از کل مقالات منتشر شده را داریم.

برزیل، ایتالیا و بریتانیا هر کدام پنج مقاله منتشر کردند. آلمان، ایران، ژاپن، کره و ویتنام با چهار مقاله منتشر شده در هر کشور. ترکیه سه مقاله منتشر کرد و ۲۱ کشور باقیمانده هر کدام یک یا دو مقاله منتشر کردند. مشخص است که چین از ایالات متحده پیشی گرفته و بزرگترین تولید کننده مقالات علمی در جهان است. با این حال، ایالات متحده همچنان یک نیروگاه علمی با انتشارات سطح بالا در نظر گرفته می شود (Tollefson ۲۰۱۸ ).

شکل ۳ – انتشارات در هر کشور

۳.۲ اصطلاحات، دامنه ها و وظایف کاوش شده

بیشتر تحقیقات NLP در اصطلاحات انگلیسی به کار گرفته شد، ما ۱۲۷ مقاله را شناسایی کردیم که مطابق با ۷۷.۴۳٪ از مقالات تجزیه و تحلیل شده است که در شکل ۴ نشان داده شده است . علیرغم تعداد کمی از مقالات منتشر شده، ما ۱۵ اصطلاح غیر از انگلیسی را شناسایی می کنیم که طبقه بندی متن را به زبان طبیعی خود بررسی کرده اند. چینی ها ۱۸ مقاله (۱۰.۹۸%)، ویتنامی ۴ (۲.۴۴%)، عربی، ایتالیایی و پرتغالی برزیلی ۲ مقاله در هر زبان داشتند. هر یک از ۱۱ زبان باقیمانده یک مقاله منتشر شده بود.

شکل ۴ – اصطلاحات مورد بررسی در مقالات

ما ۱۶ دامنه را به همراه برنامه های SSL متمایز می کنیم. مقالات مرتبط با بیش از یک دامنه وجود دارد، بنابراین، همانطور که در شکل ۵ نشان داده شده است، تعداد مقالات توزیع شده در دامنه ها ۲۲۰ بود . ما فقط هفت دامنه را به دلایل مشاهده ارائه می کنیم. اخباربا ۵۶ مقاله (۲۵.۴۵%) بیشترین استفاده را در طبقه بندی متون داشت. اکثر مجموعه داده های News معیارهای قابل دسترسی با نتایج شناخته شده و تأیید شده هستند، مانند ۲۰ گروه خبری، و رویترز ۲۱۵۷۸. در تجارت الکترونیک، قبل از اینکه مشتریان اقدام به خرید یا استخدام یک سرویس کنند، معمول است که آنها اطلاعاتی را از مصرف کنندگان در مورد برخی موارد خاص جستجو کنند. برندها یا خدمات تجزیه و تحلیل احساسات از شرکت های تجارت الکترونیک برای درک احساس مصرف کنندگان در مورد اقلام خود برای تصمیم گیری پشتیبانی می کند. ما تعداد فزاینده‌ای از مقالات منتشر شده در حوزه بررسی محصولات و خدمات را در طول سال‌های مورد تجزیه و تحلیل مشاهده کردیم، در مجموع ۴۸ مقاله (۲۱.۸۲%) را می‌شماریم، که در آن‌ها Amazon، Yelp، TripAdvisor، Movie Review و IMDB مجموعه داده‌های رایج مورد استفاده بودند.

در حال حاضر، تقریباً ۴۰۰ میلیون کاربر توییتر در جهان با ۲۰۶ میلیون کاربر فعال در روز وجود دارد (Dean ۲۰۲۲ ). بنابراین، شبکه‌های اجتماعی مطالب فراوانی را تولید می‌کنند که می‌تواند برای درک رفتار اجتماعی و پیامدهای آن مورد بررسی قرار گیرد، به‌عنوان مثال، تحلیل احساسات، تشخیص رویدادهای اضطراری، اهداف سیاسی، تشخیص اخبار جعلی، و مطالعات اپیدمیولوژیک. دامنه شبکه اجتماعی دارای ۲۵ (۱۱.۳۶%) مقاله در مورد تحلیل احساسات یا طبقه بندی متن کوتاه بود. بحث انجمندارای ۷ مقاله (۳.۱۸%)، دامنه شامل بحث های آنلاین از طریق یک پلت فرم وب است که در آن کاربران دانش خود را به اشتراک می گذارند و در مورد یک موضوع تعیین شده بحث می کنند، و داده های متنی تولید شده را می توان برای وظایف طبقه بندی متن، یعنی طبقه بندی سؤال، اعمال کرد.

در دامنه صفحات وب ، مقالات عمدتاً از مجموعه داده های WebKB یا DBpedia استفاده می کردند و مجموع مقالات ۲۶ (۱۱.۸۲٪) بود. دامنه مقالات علمی دارای ۲۲ مقاله (۱۰.۰۰%) بود که عمدتاً مربوط به طبقه بندی گره بود. حوزه سلامت با ۱۴ مقاله (۶.۳۶%) و مجموعه داده Ohsumed در مورد چکیده های پزشکی بیشترین استفاده را داشته است. دامنه های مختلف موارد فوق دارای مقالات کمتری بودند: ایمیل، اسناد ثبت اختراع، آگهی اینترنتی، نقل قول، حقوق و آموزش. بنابراین، این دامنه های ارائه شده توسط Others در مجموع ۲۲ (۱۰.۰۰٪) مقاله داشتند.

شکل ۵ – تعداد مقالات منتشر شده در هر دامنه

طبق شکل ۶ طبقه بندی متن را به هفت وظیفه سازماندهی می کنیم . برخی از مقالات در بیش از یک کار اعمال شدند، سپس ما ۱۷۷ مقاله در وظایف توزیع کردیم. وظیفه طبقه بندی متن عمومی مربوط به اخبار، صفحات وب، مقالات علمی و اسناد بود که در ۷۲ مقاله (۴۰.۶۸%) مورد بررسی قرار گرفت. سپس، تحلیل احساسات با ۴۲ مقاله، ۲۳.۷۳ درصد از کل را تشکیل می دهد. تکلیف Short Text Classification 33 (18.64%) مقاله داشت، در این مورد، جملات و میکروبلاگینگ را زمانی در نظر گرفتیم که برای کار تجزیه و تحلیل احساسات استفاده نمی شود، به عنوان مثال تشخیص طعنه، تشخیص قصد، تشخیص اطلاعات غلط، تشخیص شایعه، تشخیص طعنه، نظرات جعلی و غیره راپرسش، گره، موضوع و طبقه بندی چند زبانه به ترتیب دارای ۱۱ (۶.۲۱%)، ۹ (۵.۰۹%)، ۸ (۴.۵۲%) و ۲ (۱.۱۳%) مقاله بودند.

شکل ۶ – وظایف طبقه بندی متن

۳.۳ مجموعه داده ها

جدول ۱ مجموعه داده های استفاده شده توسط دامنه (چینی -zh و ویتنامی -vi)

برای مشاهده جدول اینجا کلیک کنید

جدول ۱ مجموعه داده های معیاری را نشان می دهد که بیشترین استفاده را در آزمایش ها داشته اند و مجموعاً ۲۲ مجموعه داده را شامل می شود. با این حال، ما ۱۱۴ مجموعه داده دیگر را شناسایی می کنیم، اما آنها خاص هستند که آنها را برای مقایسه احتمالی بین روش های نیمه نظارت غیرممکن می کند. دامنه خبری در مجموع ۶۰ مقاله (۳۴.۶۸ درصد) داشت که ۲۰ گروه خبری و رویترز با ۵۰ مقاله بر مجموعه داده های AG News و Sogou News برتری داشتند، آخرین مورد یک معیار چینی است. در مورد یک متن کوتاه، دامنه های شبکه اجتماعی و بررسی محصول و خدمات دارای ۶۶ (۳۸.۱۵٪) مقاله بودند که برای تجزیه و تحلیل احساسات، تشخیص ربات اجتماعی، تشخیص بررسی فریبنده و طبقه بندی هرزنامه استفاده می شد. در حوزه شبکه اجتماعی، توییتر به زبان انگلیسی با ۱۲ مقاله و Weibo به زبان چینی با ۴ مقاله کاملاً بررسی شدند. در حوزه بررسی محصول و خدمات، مجموعه بررسی فیلم و IMDB دارای ۲۱ مقاله (۱۲.۱۴%) و دسته بندی محصولات آمازون (کتاب، DVD، الکترونیک، آشپزخانه، موسیقی، ویدئو) دارای ۱۵ مقاله (۸.۶۷%) بود. مجموعه داده های Yelp، TripAdvisor، و ویتنامی در مجموع ۱۴ مقاله داشتند، آنها نظرات کاربران از رستوران ها، هتل ها و مکان ها هستند. حوزه علمی و پزشکی شامل ۳۴ (۱۹.۶۵٪) مقاله مرتبط با انتشارات علمی است و اکثر آنها با رویکرد مبتنی بر نمودار تجربه شده اند زیرا ساختارهای مجموعه داده های معیار برای طبقه بندی گره مناسب هستند: CiteSeer، PubMed و DBLP. در دامنه صفحه وب، ۷ مقاله (۴.۰۵%) از مجموعه داده WebKB استفاده کردند که توسط صفحات وب از گروه های علوم کامپیوتر دانشگاه های مختلف تشکیل شده است. در نهایت، مجموعه داده TREC با ۶ مقاله (۳.۴۷٪) برای طبقه بندی سوالات.

۳.۴ نمایش متن

جدول ۲انواع مختلف روش‌های مهندسی ویژگی یا نمایش متن و مقادیر اعمال شده در فرآیند طبقه‌بندی متن را به ترتیب نزولی نشان می‌دهد. علی‌رغم اینکه روش‌های ساده شده (BoW) و فرکانس معکوس فرکانس سند (TF–IDF)، هنوز کاملاً مورد استفاده قرار می‌گیرند. Word2Vec، fastText و GloVe مدل‌های زبانی هستند که معنای واژگانی را مدیریت می‌کنند، دو مورد اول مبتنی بر ANN و آخرین مورد بر اساس هم‌روی کلمه است. Word2Vec و پسوندهای آن، به عنوان مثال Sent2Vec، و Doc2Vec 22 مقاله مرتبط با آنها داشتند. FastText پنج مقاله و GloVe چهار مقاله داشت. BERT، DistilBERT، ALBERT و ELMo روش‌های جاسازی کلمه حساس به زمینه هستند، ما ۱۳ مقاله را با اشاره به ۳ روش اول و ۲ مقاله به آخرین مورد شناسایی می‌کنیم. ما ۳۵ مقاله را شناسایی کردیم که روش‌های یادگیری عمیق را برای ایجاد یا بهبود جاسازی کلمات پیاده‌سازی کردند. تحلیل معنایی پنهان (LSA) و تخصیص دیریکله نهفته (LDA) هشت مقاله داشتند. کسب اطلاعات و اطلاعات متقابل سه مقاله داشتند.

جدول ۲ پر استفاده ترین نمایش متن

برای مشاهده جدول ۲ اینجا کلیک کنید

مقایسه ای با روش های مهندسی ویژگی مبتنی بر ANN و بر اساس وقوع/فرکانس مدت در شکل ۷ نشان داده شده است .

شکل ۷ – روش های مهندسی ویژگی مبتنی بر شبکه عصبی و وقوع اصطلاح

ANN در طول سال ها با چهار مقاله در سال ۲۰۱۷ و ۹ مقاله در سال ۲۰۱۸ کاربرد فزاینده ای داشته است. با این حال، سال ۲۰۱۹ با ۱۶ مقاله، سپس سال ۲۰۲۰ با ۱۹ مقاله و ۲۴ مقاله در سال ۲۰۲۱ افزایش شدیدی داشته است. ساده ترین روش های نمایش متن از سال ۲۰۱۷ در استفاده از آنها کاهش یافته است. اگرچه در سال ۲۰۲۱ تعداد مقالات با استفاده از روش های سنتی دو برابر شده است. در مقایسه با سال ۲۰۲۰. در بسیاری از موارد، روش‌های نمایش متن سنتی برای مقایسه با بازنمایی‌های برداری متنی یا/و به عنوان ورودی به شبکه عصبی مصنوعی استفاده شد.

شکل ۸فراوانی مقالات منتشر شده در طول سال‌ها با استفاده از روش‌های ANN و روش‌های مبتنی بر وقوع مدت و فراوانی مدت را با جزئیات بیشتری نشان می‌دهد. Word2Vec و برنامه های افزودنی آن بین سال های ۲۰۱۶ تا ۲۰۱۸ افزایش داشته اند، اما در سال های بعد عملاً ثابت ماندند. مدل‌های از پیش آموزش‌دیده‌شده حساس به زمینه در آزمایش‌ها در سال ۲۰۱۹ با BERT و در سال‌های ۲۰۲۰ و ۲۰۲۱ آزمایش‌هایی با استفاده از ELMo نیز ظاهر شدند. آزمایش‌هایی با الگوریتم‌های یادگیری عمیق با استفاده از لایه جاسازی آن‌ها دو مقاله در سال ۲۰۱۶، یک مقاله در سال ۲۰۱۷، سه مقاله در سال ۲۰۱۸ و تعداد بیانی مقاله منتشر شده در سال‌های بعد داشت. GloVe بر اساس ماتریس های همزمانی از Corpus است و مانند Word2Vec و fastText به زمینه حساس نیست. GloVe یک مقاله در سال ۲۰۱۸ و ۲۰۱۹ و دو مقاله در سال ۲۰۲۲ داشت.

شکل ۸ – روش های مهندسی ویژگی در سال

۳.۵ رویکردهای نیمه نظارتی

همانطور که در شکل ۹ نشان داده شده است، ما طبقه بندی پیشنهادی توسط ون انگلن و هوس ( ۲۰۱۹ ) را برای دسته بندی رویکردهای نیمه نظارت شده دنبال کردیم . در عین حال، ما این جرات را داشتیم که رویکردهای جدیدی را در طیف الگوریتم‌های نیمه‌نظارت‌شده درج کنیم تا زمانی که روش با طبقه‌بندی مطابقت نداشت، از دسته‌بندی مقالات اطمینان حاصل کنیم. بنابراین، با توجه به ویژگی روش اصلی، ما مقالات باقی‌مانده را در رویکردهای یادگیری انتقال و ماشین‌های بردار پشتیبانی انتقالی (TSVM) و نه شناسایی (NI) گروه‌بندی می‌کنیم. برای رویکرد یادگیری انتقال، ما مقالاتی را جدا می‌کنیم که به طور مشترک از تعداد محدودی از داده‌های هدف برچسب‌گذاری شده و مقدار زیادی از داده‌های هدف بدون برچسب در آموزش استفاده می‌کنند. دو مقاله مربوط به TSVM بود، سه مقاله در مورد رویکرد مورد استفاده نظر موافقی ندارند.

شکل ۹ – رویکردهای نیمه نظارت شده به ازای هر مقاله منتشر شده

با ۳۱ مقاله، تکنیک مبتنی بر نمودار بیشترین استفاده را داشت. تا سال ۲۰۱۸، ۱۵ مقاله از ۱۷ مقاله با روش نمودار مربوط به ANN نبودند. با این وجود، از سال ۲۰۱۹، ۱۱ مقاله از ۱۶ مقاله ANN و نمودارها را ترکیب کردند. پس از سال ۲۰۱۹، ۳۰ مقاله از رویکرد خودآموزی استفاده کردند، از این ۲۱ مقاله از روش‌های سنتی در مهندسی ویژگی و الگوریتم‌های طبقه‌بندی متن استفاده کردند و ۹ مقاله از ANN استفاده کردند. سومین رویکرد پرکاربرد مدل‌های تولیدی با مجموع ۲۲ مقاله بود که در آن ۱۴ مقاله ANN را اعمال کردند. سپس استخراج ویژگی، کلاستر-سپس-برچسب، آموزش مشترک، یادگیری انتقال، مبتنی بر اغتشاش، تقویت، TSVM و NI و منیفولدها به ترتیب با ۱۷، ۱۶، ۱۳، ۱۰، ۸، ۵، ۵ و ۲ مقاله . بدون در نظر گرفتن سه روش اول پرکاربرد،

همانطور که در پاراگراف قبل مشاهده می شود، در طول سال ها تمایل به رویکردهای نیمه نظارتی با استفاده از ANN وجود داشته است. شکل ۱۰ به وضوح رفتار الگوریتم های سنتی و ANN را از سال ۲۰۱۶ نشان می دهد. افزایش ANN و کاهش در الگوریتم های سنتی در ناحیه نیمه نظارت شده وجود داشته است. اگرچه استفاده از الگوریتم های سنتی کاهش یافته است، اما تا سال ۲۰۱۸ نسبت به ANN برتری دارد. به نظر می رسد سال ۲۰۱۹ نقطه وارونگی باشد، از این پس ANN در رویکردهای نیمه نظارت شده غالب است.

شکل ۱۰ – الگوریتم‌های سنتی در مقابل الگوریتم‌های شبکه عصبی اعمال شده برای رویکردهای نیمه‌نظارت‌شده

مقایسه ANN و الگوریتم های سنتی اعمال شده در رویکردهای نیمه نظارت شده در شکل ۱۱ نشان داده شده است . در مورد مقالات با الگوریتم های سنتی، فرکانس SVM 33 (18.54%)، Naive Bayes با ۲۲ (۱۲.۳۶%)، و درخت تصمیم با ۱۴ (۷.۸۷%) بود. درخت تصمیم شامل الگوریتم‌های CART، J48، جنگل تصادفی و C4.5 است. سپس الگوریتم های رگرسیون لجستیک، k-نزدیک ترین همسایه (kNN)، K-Means و EM به ترتیب با ۱۳، ۱۱، ۴ و ۴ مقاله.

شکل ۱۱ – الگوریتم های سنتی و شبکه های عصبی

الگوریتم های ANN با روش های خود گروه بندی شدند: حافظه کوتاه مدت (LSTM) و واحد بازگشتی دروازه ای (GRU)، شبکه عصبی نمودار (GNN)، شبکه عصبی کانولوشنال (CNN)، bi-LSTM و bi-GRU، BERT، و عصبی. شبکه (متفرقه)، یعنی الگوریتم های متفرقه، اما بیشتر از تعداد. شبکه عصبی (متفرقه) با ۲۱ مقاله (۱۱.۸۰%) شامل انواع مختلف الگوریتم ها، به عنوان مثال پرسپترون چند لایه (MLP)، رمزگذار خودکار، شبکه نردبانی، شبکه باور عمیق (DBN)، و شبکه کپسولی است. LSTM و GRU در ۱۶ مقاله استفاده شد، در حالی که bi-LSTM و bi-GRU در ۸ مقاله استفاده شد و الگوریتم‌های شبکه عصبی بازگشتی (RNN) شامل ۲۴ مقاله (۱۳.۴۸٪) است. CNN، GNN و BERT به ترتیب در ۱۴، ۱۲ و ۶ اعمال شدند.

بخش ۴ یادگیری نیمه نظارتی برای طبقه بندی متن

در این قسمت کارهای اصلی را با استفاده از SSL و متن کاوی ارائه می کنیم. ما موضوعات را به دنبال طبقه بندی ارائه شده توسط Van Engelen و Hoos ( ۲۰۲۰ ) تقسیم می کنیم. بخش ۴.۱ رویکردهای مبتنی بر نمودار را ارائه می کند. بخش ۴.۲ رویکردهای پیش پردازش بدون نظارت، به ویژه روش‌های استخراج ویژگی و خوشه‌ای از برچسب را ارائه می‌کند. بخش ۴.۳ روش‌های بسته‌بندی، به‌ویژه خودآموزی، تمرین مشترک و تقویت را ارائه می‌کند. بخش ۴.۴ رویکردهای ذاتی SSL، به ویژه مدل‌های مبتنی بر اغتشاش، منیفولدها و مولد را ارائه می‌کند. ما همچنین روش های یادگیری انتقالی را در بخش قرار می دهیم. ۴.۵ و سایر رویکردها در بخش. ۴.۶ .

۴.۱ مبتنی بر نمودار

روش‌های SSL مبتنی بر نمودار، برچسب‌ها را به گره‌های بدون برچسب در یک گراف ساخته شده منتشر می‌کنند ، جایی که یک مجموعه ای که توسط گره های برچسب دار و مجموعه گره های بدون برچسب تشکیل شده است . V مجموعه ای از گره ها است، به طوری که نشان دهنده نقاط داده است. E با یک ماتریس W مرتبط است که برای هر جفت گره و یک وزن لبه غیر منفی . وزن لبه نشان دهنده شباهت بین گره ها است.G = ( V، E) در جایی که   V={Vl∪Vu}

به دلیل اشکال در ترجمه فرمول ها و علائم و به هم ریختگی متن، اصل متن به صورت تصویر در زیر قرار داده میشود.

روش های مبتنی بر نمودار در زمینه های مختلف، به عنوان مثال اخبار، صفحات وب، سلامت و مقالات علمی استفاده شده است. ما مقالات را بر اساس زمینه یا وظایف طبقه بندی متن گروه بندی می کنیم تا روش های آنها را شرح دهیم. با توجه به طبقه‌بندی اخبار، روشی مبتنی بر یادگیری مثبت و بدون برچسب (PUL) با انتشار برچسب (LP) برای به حداقل رساندن تلاش برچسب‌گذاری اخبار توسط سوزا و همکاران پیشنهاد شد. ( ۲۰۲۱ ). استخراج سند منفی با مسیرهای گراف بر اساس الگوریتم دایکسترا توسط Carnevali و همکاران ارائه شد. ( ۲۰۲۱ ). آنها از نمودارهای پراکنده برای ساخت گراف و توابع هارمونیک میدان گاوسی (GFHF) و سازگاری محلی و جهانی (LLGC) برای طبقه بندی استفاده کردند. نویسندگان یاداو و همکاران. ( ۲۰۱۹) معیارهای فاصله/شباهت (هنجار اقلیدسی L2؛ شباهت کسینوس؛ بهبود شباهت sqrt- کسینوس) را برای اندازه‌گیری تأثیر آن بر کیفیت ساخت نمودار (میانگین درجه گره و انحراف استاندارد درجه گره) مقایسه کرد. استخراج محتوای مرتبط از صفحات وب خبری توسط بوز و موکرجی ( ۲۰۱۹ ) انجام شد. صفحه وب به عنوان یک نمودار نشان داده شد که در آن عناصر متن گره هستند و وزن لبه ها شباهت بین گره ها را نشان می دهد. تعداد کمی از گره‌ها در نمودار با استفاده از روش‌های اکتشافی و گره‌های باقی‌مانده با مقیاس وزنی شباهت به گره‌های برچسب‌گذاری شده برچسب‌گذاری شدند.

یک الگوریتم مبتنی بر نمودار برای حل نارسایی برچسب با استفاده از LP در مجموعه داده اخبار توسط گونگ و همکاران مورد مطالعه قرار گرفت. ( ۲۰۱۷ ). آنها دو معیار، یعنی Graph Trend Filtering ad Smooth Eigenbase Pursuit را بررسی کردند تا با فیلتر کردن برچسب های پر سر و صدا اولیه، نادرستی برچسب را کنترل کنند. ویدمن و وربرن ( ۲۰۱۷ ) یک نمودار ساختند که از گره‌های اسناد و گره‌های ویژگی‌ها استفاده می‌کرد که ترتیب کلمات در آن حفظ می‌شد. ارتباط به دو صورت شکل گرفت، یعنی در میان گره های سند و گره های ویژگی ها، و ویژگی های گره ها بر اساس کلمات. یک نمایش ماتریسی از نمودار با ویژگی های استخراج شده به LP بر اساس شباهت زمینه با استفاده از شاخص جاکارد ساخته شد. ژائو و همکاران در یک شبکه کانولوشنال گراف (GCN) مبتنی بر ادغام چند سر، برای طبقه‌بندی متن اخبار اعمال شده‌اند. (۲۰۲۲ ) بر روی اطلاعات ساختاری نمودار متنی برای تعبیه کلمه پیش از آموزش به عنوان ویژگی گره اولیه متمرکز شد. گره های مهم از طریق ادغام چند سر از دیدگاه های چندگانه ارزیابی و انتخاب شدند.

در زمینه اخبار، برخی از کارها نمودار k -partite را برای طبقه بندی متن مورد بررسی قرار دادند، جایی که راس ها به k مجموعه های مختلف تقسیم می شوند. یک نمودار سه جانبه توسط Ganiz ( 2016 ) ایجاد شد . معناشناسی در مسیرهای هم‌روی مرتبه بالاتر بین کلمات مورد سوء استفاده قرار گرفت که اصطلاحات موجود در اسناد بدون برچسب را به اصطلاحات در اسناد برچسب‌دار مرتبط می‌کرد. علاوه بر این، این روش قادر به تخمین احتمالات شرطی کلاس برای عبارات موجود در اسناد بدون برچسب بود. روسی و همکاران ( ۲۰۱۷) مجموعه‌های متنی را توسط شبکه ناهمگن دوبخشی نشان می‌دهد، جایی که اشیاء اسناد و اصطلاحات هستند و اگر اصطلاحی در سند وجود داشته باشد، اصطلاح و سند به هم متصل می‌شوند. برچسب اصطلاحات مرتبط با استفاده از یک تابع خطی وزنی به یک سند جدید منتشر شد.

در یک طبقه بندی متن چینی برای اخبار، زو و همکاران. ( ۲۰۱۸ ) روشی را بر اساس پسوند نمونه ویکی پدیا (WSE) توسعه داد. یک نمودار شبکه با مفاهیم و پیوندهای آنها از ویکی پدیا استخراج شد. پسوند تولید شده با همبستگی داده‌های نمونه برچسب‌گذاری شده و مفاهیم موجود در ویکی‌پدیا با استفاده از TF–IDF انجام شد و سپس ارزش معنادار هر مفهوم برای هر دسته محاسبه شد. علاوه بر این، برای گسترش بیشتر نمونه، WSEs با پیوند (WSE-L) پیشنهاد شد، یعنی یک روش توسعه نمونه پیشرفته. پس از آن، برای کنترل تعداد نمونه آموزشی، یک شرط محدود کننده برای WSE-L قرار داده شد. ژانگ و همکاران ( ۲۰۱۹a) یک طبقه بندی متن خبری را بر اساس یک نمودار هستی شناسی دامنه از خوشه بندی مفهومی نیمه نظارت شده بررسی کرد. برای مقابله با مشکل WSD، چارچوبی از یادگیری هستی شناسی طبقه بندی چینی مطابق با مدل ساختاری گراف هستی شناسی دامنه توسعه داده شد.

روش تشخیص اخبار جعلی نیمه نظارت شده بر اساس GNN توسط Benamira و همکاران مورد بررسی قرار گرفت. ( ۲۰۱۹ ). دستکش مقالات خبری تولید شد و شباهت‌های متنی بین متون توسط kNN همراه با فواصل اقلیدسی در فضای جاسازی تولید شد. GCN و Attention GNN برای کار طبقه بندی استفاده شد. برای وظیفه تشخیص اطلاعات غلط، ابدالی و همکاران. ( ۲۰۲۱ ) سه جنبه از یک مقاله خبری را مطالعه کرد که با یک مدل برای هر جنبه ترکیب و به عنوان یک تانسور/ماتریس مدل‌سازی شدند. یک رویکرد سلسله مراتبی برای یافتن الگوهای نهفته برگرفته از آن جنبه‌ها پیشنهاد شد. نمودار نزدیکترین همسایه ها با مقالات موجود در فضای تعبیه شده برای استنتاج برچسب نیمه نظارت شده مقالات خبری ناشناخته ساخته شد.

در برخورد با یک کار طبقه بندی متن کوتاه، جی و همکاران. ( ۲۰۲۱ ) یک تشخیص رویداد ترافیک اجتماعی جریانی را از طریق محاسبات چند لبه بر اساس شبکه اطلاعات ناهمگن (HIN) و روش خوشه‌بندی پیشنهاد کرد. GNN همراه با HIN برای به دست آوردن وزن های فرا مسیر بهینه برای تشخیص رویداد ترافیک برای اندازه گیری روابط بین متون اجتماعی استفاده شد. نمونه باینری GCN و نمونه باینری نمودار توجه شبکه (GAT) برای رسیدگی به مشکل تعداد زیادی از دسته‌های رویداد ترافیک و تعداد کمی از نمونه‌ها در هر دسته ساخته شد. ژائو و همکاران ( ۲۰۲۲) فراتر از طبقه بندی اخبار همانطور که قبلا توضیح داده شد، روش طبقه بندی متن کوتاه را نیز به کار برد. فرض صافی برای سوال یادگیری چند برچسبی انتقالی در Sun و همکاران به کار گرفته شد. ( ۲۰۱۸ ) با هدف بهره برداری از همبستگی در فضای ویژگی و فضای برچسب. الگوریتم آموزشی و مدل‌سازی مبتنی بر فاکتورسازی ماتریس غیر منفی (NMF) که از مجاورت نمونه‌ها و برچسب‌ها از مجموعه آموزشی آموخته شده بود، پیشنهاد شد. با استفاده از یک الگوریتم بهینه‌سازی حداقل مربعات غیرمنفی، برچسب‌ها مورد بهره‌برداری و انتشار قرار گرفتند.

در زمینه وظیفه طبقه‌بندی متن کوتاه، GNN مبتنی بر هسته برای طبقه‌بندی نمودار در شبکه‌های اجتماعی و بررسی فیلم‌ها توسط Ju و همکارانش مورد بررسی قرار گرفت. ( ۲۰۲۲ ). هسته های گراف با GNN ترکیب شدند تا به طور موثر نمایش گراف را یاد بگیرند و از شباهت نمودار برای پیش بینی استفاده کردند. WordNet برای WSD در Billal و همکاران استفاده شد. ( ۲۰۱۷) و یک نمودار ضعیف به هم پیوسته از طریق کلمات پیکره با synset های آنها برای استخراج اجزای متصل ایجاد کرد، که در آن یک جزء گره ها (کلمات) هستند و یال ها روابط معنایی بین اجزا هستند. علاوه بر این، در یک طبقه بندی چند برچسبی، روش های نمودار نیمه نظارت شده برای استخراج سوژه ها از شبکه اجتماعی پیشنهاد شد. در آزمایش‌ها از شبکه‌های عصبی تکثیر عمیق پشت عمیق طبقه‌بندی استفاده شد.

برای کار طبقه بندی متن کوتاه در یانگ و همکاران. ( ۲۰۲۱a )، جاسازی اطلاعات ناهمگن توسط GAT ناهمگن انجام شد. مکانیسم توجه دو سطحی برای یادگیری وزن‌ها و درک اهمیت انواع مختلف همسایه‌ها به کار گرفته شد. Xu و Li ( ۲۰۱۷ ) یک روش طبقه بندی احساسات را بر اساس الگوریتم LP توسعه دادند. این روش محتوای متن و اطلاعات کاربر را برای ایجاد شباهت بر اساس اولویت امتیاز بازبین و ویژگی‌های متن ترکیب کرد. شباهت زیاد بین اولویت امتیازدهی و ویژگی‌های متنی که امکان انتشار امتیازها به نظرات بدون برچسب را فراهم می‌کند.

وانگ و همکاران در مورد طبقه بندی متن کوتاه در زبانی غیر از انگلیسی. ( ۲۰۱۷ ) یک مطالعه مقایسه ای عملکرد الگوریتم با بررسی آنلاین چینی از چند دامنه برای حل مشکلات استحکام و وابستگی میدانی انجام داد. چارالامپاکیس و همکاران ( ۲۰۱۶ ) طنزی را در مجموعه ای از توییت های سیاسی یونانی که در مورد طبقه بندی آموزشی-جمعی تحقیق می کردند، شناسایی کرد. هدف این بود که بین توئیت های کنایه آمیزی که به احزاب و رهبران سیاسی یونان در دوره پیش از انتخابات مه ۲۰۱۲ اشاره می کند، و نتایج واقعی انتخابات آنها رابطه پیدا شود. گوو و همکاران ( ۲۰۱۶) بر تجزیه و تحلیل اعتبار پست های آنفولانزای منتشر شده در Sina Weibo از طریق کاربر، محتوا و پست متمرکز شده است. یک شبکه گراف مارکوف بدون جهت با متغیرهای تصادفی برای مدل‌سازی وابستگی‌ها در بین گره‌ها و برای گرفتن تعاملات بین ویژگی‌ها استفاده شد.

در زمینه علمی، با توجه به اهمیت اطلاعات خارجی گره ها برای بهبود عملکرد یادگیری بازنمایی، لیو و همکاران. ( ۲۰۱۸a ) از روش جاسازی شبکه توجه سلسله مراتبی استفاده کرد که ادغام بین ویژگی‌های متن و برچسب گره‌ها را برای یادگیری جاسازی‌های شبکه رابطه‌ای سلسله مراتبی برای مقالات علمی انجام داد. دو لایه bi-GRU برای یادگیری سلسله مراتبی اعمال شد: یک لایه ویژگی‌های پنهان کلمات را با توجه سطح کلمه برای به دست آوردن ویژگی‌های واژگانی استخراج می‌کند و دیگری ویژگی‌های پنهان جملات را با توجه در سطح جمله برای به دست آوردن ویژگی‌های متنی استخراج می‌کند. زو و همکاران ( ۲۰۲۱) تحقیق تصادفی و GNN با استفاده از اطلاعات جهانی و محلی برای رسیدگی به مقالات علمی. اطلاعات جهانی توسط ویژگی های جهانی حفظ شد. مجموعه ای از GNN های هسته موازی برای یادگیری جنبه های مختلف ویژگی های جهانی از پیش آموزش دیده و ویژگی های خام نمودار استفاده شد. یانگ و همکاران ( ۲۰۲۱b ) GCN های چند لایه را برای رسیدگی به پیچیدگی و محاسبات اضافی و مشکل بیش از حد برازش GCN ها مورد بررسی قرار داد. یک GCN چند لایه ساده شده با حذف که GCN های کم عمق را گسترش می دهد در متون علمی استفاده شد.

در متون علمی، خو و همکاران. ( ۲۰۲۰ ) سازگاری برچسب با GNN را بررسی کرد که علاوه بر شباهت به وزن تجمع بین دو گره، توزیع برچسب را برای هر گره ایجاد کرد. این روش از نسبت گره‌های همسایه با برچسب یکسان، و گره‌های هدف و گره‌های غیر متصل که برچسب‌های یکسانی دارند، بهره می‌برد. آکوجوبی و همکاران ( ۲۰۲۰) استراتژی توجه مکرر را برای رسیدگی به مشکل تعداد زیادی از گره های همسایه به کار برد که باید تجزیه و تحلیل شوند و از ویژگی های استقرایی در طبقه بندی گره نیمه نظارت شده با استفاده از مقالات علمی استفاده کرد. راه رفتن روی نمودار بر اساس توجه مکرر آموخته شد که اطلاعات نویز را کاهش داد، فرآیند تصمیم‌گیری را تفسیر کرد و وابستگی برچسب کلاس را استنباط کرد. GAT برای انتشار برچسب توسط Huang و همکاران استفاده شد. ( ۲۰۲۱ )، و نمودار با در نظر گرفتن ویژگی های مجموعه داده های استنادی ساخته شد. بردار جاسازی هر گره بر اساس همسایگی آنها ایجاد شد. یک مکانیسم توجه برای یادگیری نمایش گره‌های همسایه گره‌های هدف اعمال شد، سپس گره‌هایی با شباهت زیاد به گره‌های هدف، وزن‌های بالاتر و گره‌های شباهت کم وزن کمتری داشتند.

برای طبقه‌بندی متن علمی، یک نمودار لنگر پویا برای یادگیری ویژگی‌های محلی و جهانی به طور مشترک توسط وانگ و همکاران توضیح داده شد. ( ۲۰۲۱ ). یک معماری دو شاخه ای ساخته شد، یک شاخه سازگاری تک نمونه ای بود که ویژگی های محلی را با عبارت منظم سازی سازگاری یاد گرفت، و دیگری از خروجی های شاخه قبلی برای ساخت پویا یک گراف لنگر استفاده کرد. شاخه جاسازی گراف ویژگی های کلی در نمودار را با از دست دادن گزارش پیش بینی زمینه آموخت. تیمسینا و همکاران ( ۲۰۱۶ ) SSL های مختلف از جمله انتشار برچسب همراه با هسته تابع پایه شعاعی را برای انتخاب مقالات برای بررسی های سیستماتیک پزشکی بررسی کرد. در Kontonatsios و همکاران. ( ۲۰۱۷)، یک روش یادگیری فعال برای کمک به غربالگری استنادی در بررسی های بالینی و بهداشت عمومی پیشنهاد شد. این رویکرد مبتنی بر فرض خوشه‌ای بود و از انتشار برچسب به نقل‌قول‌های بدون برچسب همسایه استفاده کرد که توسط معیار تشابه کسینوس اعمال شده در فضای ویژگی پشتیبانی می‌شد.

۴.۲ پیش پردازش بدون نظارت

۴.۲.۱ استخراج ویژگی

پیش پردازش بدون نظارت دسته‌ای از روش‌های استقرایی است که از داده‌های بدون برچسب و برچسب‌گذاری شده در مراحل جدا شده استفاده می‌کنند، جایی که مرحله بدون نظارت را می‌توان با استخراج ویژگی انجام داد. در NLP، استخراج ویژگی، داده های متن خام را به ویژگی های عددی تبدیل می کند که قادر به بهبود عملکرد طبقه بندی کننده است. استخراج ویژگی یک روش SSL است که بر روی داده‌های بدون برچسب انجام می‌شود و به دنبال استخراج اطلاعات مرتبط از داده‌های خام است و از یک مرحله تنظیم دقیق نظارت شده استفاده می‌کند (van Engelen and Hoos 2019 ) .

در زمینه اخبار، با استفاده از CNN برای طبقه بندی چند برچسبی، لی و همکاران. ( ۲۰۱۸ ) فرآیند زیر را ارائه کرد: کلمات از اسناد قانونی استخراج شدند و Word2Vec واژه‌های embeddings را تولید کرد. دو نمایش تعبیه یادگیری تولید داده های آموزشی. پیش بینی مناطق هدف با مناطق ویژگی با آموزش. دو تعبیه نمایش برای طبقه بندی متن در CNN ادغام شدند. جیانگ و همکاران ( ۲۰۱۸) DBN و رگرسیون سافت مکس را ترکیب کرد و یک الگوریتم ترکیبی را تشکیل داد، که در آن ویژگی‌ها توسط DBN آموخته شدند، و رگرسیون سافت مکس همراه با چند نمونه برچسب‌گذاری شده آموزش داده شد. در مرحله تنظیم دقیق، پارامترهای سیستم با الگوریتم Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) با حافظه محدود بهینه شدند که از تخمین ماتریس هسین معکوس و تابع هزینه با بسط تیلور مرتبه دوم استفاده کرد.

با رویکردی به وظیفه تحلیل احساسات، پان و همکاران. ( ۲۰۲۰ ) از شبکه نردبانی استفاده کرد که مقدار کمی از داده های برچسب گذاری شده را با تعداد زیادی بررسی بدون برچسب و داده های افزوده شده به طور موثر یکپارچه کرد. این روش دارای دو مدل است، مدل اول با استفاده از Word2Vec، BERT، DistilBERT یا ALBERT، از ویژگی‌های زمینه‌ای از داده‌های بدون برچسب استفاده می‌کند. مدل دوم شبکه نردبانی به همراه مدل رمزگذار و رمزگشا بود. برای طبقه بندی احساسات، سان و همکاران. ( ۲۰۱۹a ) روشهای تنظیم دقیق BERT را بررسی کرد. پیش‌آموزش بیشتر درون وظیفه و درون دامنه، عملکرد طبقه‌بندی متن را افزایش داد و کار را با داده‌های کوچک بهبود بخشید. برای طبقه بندی تاثیر، چاولا و همکاران. ( ۲۰۱۹) یک شبکه عصبی عمیق را در محیطی با داده های برچسب گذاری شده محدود معرفی کرد، این روش رمزگذاری خودکار دنباله به دنباله، کانولوشن-دکانولوشنال بود. طبقه بندی توییت ها در Baecchi و همکاران مورد بررسی قرار گرفت. ( ۲۰۱۵ )، با توجه به قطبیت آنها، با در نظر گرفتن اطلاعات متنی و تصویری. یک طرح جدید با ترکیب یک CBOW با نمونه‌برداری منفی و رمزگذارهای خودکار حذف نویز برای بهره‌برداری از مجموعه منابع در مقیاس وب و ویژگی‌های بصری قوی به‌دست‌آمده از یادگیری بدون نظارت پیشنهاد شد.

جهانبخش و همکاران برای کارهای تجزیه و تحلیل احساسات در زبان‌هایی غیر از انگلیسی. ( ۲۰۲۰ ) مدلی را بر اساس ویژگی های محتوا و زمینه برای راستی آزمایی شایعات فارسی تحقیق کرد. ویژگی‌های مبتنی بر محتوا مجموعه‌ای از ویژگی‌های سبک نوشتاری بودند، و ویژگی‌های مبتنی بر زمینه، کنش‌های گفتاری اسناد شایعه و جاسازی‌های کلمه متنی بودند که توسط دو مدل BERT موازی استخراج شدند. در Guellil et al. ( ۲۰۲۱) رویکردی برای تحلیل احساسات پیام های عربی استخراج شده از رسانه های اجتماعی پیشنهاد شد. هر دو عربی و عربیزی (از نویسه‌گردانی عربی‌زی و ترجمه عربی‌زی به عربی استفاده می‌کرد) با روش در نظر گرفته شد و Word2Vec مرتبط با الگوریتم‌های کلاسیک استفاده شد. علاوه بر این، الگوریتم‌های Word2Vec و fastText به همراه یادگیری عمیق (CNN، LSTM، bi-LSTM) نیز اعمال شدند. دی کاپوا و پتروسینو ( ۲۰۱۷ ) با مدل ANN مبتنی بر DBN آزمایش کردند که نمایش ویژگی ها را از داده های برچسب دار و بدون برچسب آموخت. این روش برای مقابله با عدم قطعیت داده ها برای تجزیه و تحلیل احساسات ساخته شد و زبان ایتالیایی را پذیرفت. Yadav and Bhojane ( ۲۰۱۹) یک رویکرد SSL برای تجزیه و تحلیل احساسات در اسناد زبان هندی ایجاد کرد. نویسندگان با سه رویکرد کار کردند: ANN با کلمات از پیش طبقه بندی شده. طبقه بندی با استفاده از SentiWordNet هندی. طبقه بندی با ANN و جملات از پیش طبقه بندی شده.

این پاراگراف طبقه بندی متن در زبان های ژاپنی و چینی را خلاصه می کند. برای زبان ژاپنی، شناسایی بخش خودکار درخواست‌ها برای اسناد نقل قول توسعه داده شد. ویژگی‌های جدید به دست آمده از داده‌های بدون برچسب برای بهبود عملکرد، به عنوان مثال ویژگی‌های واژگان، ویژگی‌های خوشه کلمات با Word2Vec، و ویژگی‌های خوشه با محدودیت‌ها معرفی شدند (Hidetaka و Wang 2019 ) . برای پیش‌بینی بار چینی، او و همکاران. ( ۲۰۱۹) یک مدل کپسول بهبود یافته توالی ساخته شده توسط: یک لایه ورودی که در آن کلمات توصیف واقعیت یک مورد به کپسول اولیه تبدیل می‌شوند، توضیح داده شده است. چندین لایه seq-caps، یک لایه نمایش معنایی پیشرفته را از توصیف واقعیت تولید می‌کند و دیگری اطلاعات توالی توصیف واقعیت را بازیابی می‌کند. توجه مکانیسم، یک واحد باقیمانده جدید تعمیم را بهبود بخشید و اطلاعات کمکی را برای پیش‌بینی شارژ ارائه کرد. در لایه خروجی، تمام بردارهای ویژگی از لایه‌های seq-caps متعدد مسطح و با بردار زمینه جهانی الحاق شدند، سپس از شبکه کاملاً متصل و تابع softmax برای تولید احتمال استفاده شد.

در یک دامنه صفحه وب، Geraci و Papini ( ۲۰۱۸ ) به طور خودکار مجموعه ای از نمونه ها را برای استفاده به عنوان مجموعه آموزشی ساختند. این روش از همبستگی قوی بین نمایش متن URL ها و متن از صفحه وب استفاده کرد، بنابراین مجموعه ای از صفحات وب در هر کلاس ساخته شد. بردارهای ویژگی ها در هر جفت کلاس/URL ساخته شدند و برای برچسب گذاری URL ها با رتبه بندی کلاس ها استفاده شدند. در مک نالتی و همکاران. ( ۲۰۲۱ )، رویکردی که اسناد HTML را در تحقیقات و غیر پژوهشی بر اساس ویژگی‌های ساختاری، محتوایی و رسمی طبقه‌بندی می‌کند، مورد بررسی قرار گرفت. در لیدر و همکاران. ( ۲۰۱۹میلیون‌ها صفحه وب تجاری عمومی استخراج شدند و از BERT چند زبانه برای به دست آوردن نمایش متنی متون و طبقه‌بندی متن چند برچسبی CNN استفاده کردند. با توجه به این واقعیت که برچسب های گم شده بر عملکرد طبقه بندی برای یادگیری چند برچسبی تأثیر می گذارد، چنگ و همکاران. ( ۲۰۲۱ ) به یادگیری چند برچسبی گمشده با غیرتعادل بر اساس رمزگذار خودکار دو سطحی به طبقه بندی صفحه وب نزدیک شد. رمزگذار خودکار دو سطحی با توجه به تداخل نویز در فضای ویژگی و همبستگی بین ویژگی‌ها و برچسب‌ها ساخته شد.

برای طبقه بندی جملات، مدل fastText توسط Agibetov و همکارانش تحلیل شد. ( ۲۰۱۸ ) در جملات زیست پزشکی. مدل‌های SSL از طریق آموزش بدون نظارت در مورد پیش‌بینی زمینه‌های کلمه یا وظایف بازسازی جملات از قبل آموزش داده شدند و سپس از طبقه‌بندی نظارت شده پایین دستی استفاده کردند.

۴.۲.۲ Cluster-and-label

این یک روش استقرایی است که از داده های بدون برچسب و برچسب در دو مرحله مانند استخراج ویژگی استفاده می کند. مرحله بدون نظارت شامل خوشه بندی داده ها است.

در زمینه اخبار، Jedrzejowicz و Zakrzewska ( ۲۰۲۰ ) یک رویکرد ترکیبی توسط الگوریتم LDA و Word2Vec ارائه کردند. این روش با استفاده از موضوعات به روشی بدون نظارت، اسناد را به دسته‌هایی خوشه‌بندی کرد. نتایج نمونه‌برداری گیبس جمع‌شده برای LDA به‌دست آمد و هر موضوع با واژه‌های جاسازی‌شده، شبیه به نماینده‌ترین واژه‌های موضوع، از طریق متریک فاصله کسینوس گسترش یافت. برای یک سند جدید توزیع کلمه-موضوع برای هر کلمه از سند محاسبه شد، سپس موضوع به سندی که بیشترین تعداد تخصیص موضوع کلمه را داشت اختصاص داد. برای طبقه بندی اخبار، Barman and Chowdhury ( ۲۰۱۸) از نقشه خودسازماندهی کوهونن برای استخراج گروه ها از متون استفاده کرد و نمونه های بدون برچسب هر گروه بر اساس رای گیری برچسب کلاس با اعضای برچسب دار گروه برچسب گذاری شدند. کلاس‌های جدید در طی فرآیند خوشه‌بندی تا طبقه‌بندی متن اخبار در گورو و همکاران شناسایی شدند. ( ۲۰۱۶ ). نمونه های بسیار دور از همه خوشه ها در فرآیند خوشه بندی یک یا چند خوشه خبری را تشکیل دادند. خوشه جدید که به طور کامل توسط نمونه های بدون برچسب تشکیل شده است، کلاس جدید را نشان می دهد، بنابراین نمونه ها برچسب گذاری شدند.

برای طبقه بندی مقالات خبری آنلاین، کریشنامورتی و همکاران. ( ۲۰۱۸ ) از دو روش خوشه‌بندی افزایشی استفاده کرد. روشی که من برای هر سند جدید محاسبه کردم شباهت کسینوس آن با تمام اسناد اصلی است. روش دوم هنگام محاسبه مقادیر تشابه کسینوس سند جدید با خوشه‌ها، از مرکز خوشه‌های اصلی به جای همه نقاط داده استفاده کرد. یک روش کاشت انتخابی برای به دست آوردن یک مجموعه منسجم از مرکز اولیه بر اساس حداکثر پوشش ویژگی اجرا شد. ویلهاگرا و همکاران ( ۲۰۲۰) یک رویکرد خوشه‌بندی عمیق برای خوشه‌بندی اسناد و یادگیری ویژگی از طریق الگوریتم K-Means، شبکه سیامی کانولوشنال (CSN) و محدودیت‌های زوجی (محدودیت پیوند نمی‌تواند و محدودیت پیوند الزامی) ارائه کرد. CSN و محدودیت‌های زوجی برای یادگیری یک نمایش کم‌بعد استفاده شدند، بردارهای ویژگی با انجام شدند که آنها را با فاصله معنایی نزدیک‌تر یا دورتر می‌کند.L1�۱

با این حال، در حوزه اخبار، توماس و رسمیپریا ( ۲۰۱۶ ) خوشه هایی با نمونه هایی با برچسب های یکسان تشکیل دادند و آنها با مرکز و برچسب هایشان شناسایی شدند. فاصله بین نمونه‌های بدون برچسب و مرکزهای خوشه‌های برچسب‌گذاری شده محاسبه شد، که در آن حداقل فاصله، هدف خوشه را تا نمونه بدون برچسب برای افزودن و برچسب‌گذاری مشخص می‌کرد. معیارهای شباهت عبارت بودند از فاصله اقلیدسی، اندازه گیری تشابه کسینوس، اندازه گیری شباهت برای پردازش متن (SMTP)، و ضریب تاس. برای طبقه بندی اخبار، یک درخت خوشه نیمه نظارت شده (SSC) بی طرفانه توسط Sun و همکاران پیشنهاد شد. ( ۲۰۲۰) که در آن فرآیند یادگیری فقط از داده های بسیار کمی برچسب گذاری شده و یک الگوریتم هرس مبتنی بر خطای اطمینان استفاده می کند. الگوریتم K-Means برای تولید درخت SSC استفاده شد، جایی که هر سطح از این درخت سلسله مراتبی به صورت بالا به پایین ساخته شد و از خطای اطمینان برای هرس درخت استفاده شد. با یک استراتژی جهانی مبتنی بر فرض ضعیف خوشه برای کشف داده های بدون برچسب، روش پیشنهادی مشکل حداکثر محلی را حل کرد.

برای کار طبقه‌بندی متن کوتاه، Ng و Carley ( ۲۰۲۱ ) داستان‌های بررسی شده مربوط به ویروس کرونا را بررسی کردند. در خوشه‌بندی K-Means شش موضوع انتخاب شد و هر داستان بر اساس فاصله اقلیدسی تا مرکز خوشه در فضای پیش‌بینی‌شده به یک عدد خوشه اختصاص یافت. طبقه‌بندی‌کننده BoW برای برچسب‌گذاری نوع داستان با استفاده از فاصله کسینوس، و طبقه‌بندی‌کننده BERT برای برچسب‌گذاری داستان هدف با استفاده از نزدیک‌ترین جاسازی برداری یافت شده از طریق کوچک‌ترین فاصله کسینوس ساخته شد. Buza and Revina ( ۲۰۲۰) طبقه بندی سری های زمانی را بهبود بخشید و آن را در طبقه بندی متن کوتاه اعمال کرد. پیش از این، نمونه‌های برچسب‌دار و بدون برچسب با خوشه‌بندی سلسله‌مراتبی انباشتگی تک پیوندی محدود خوشه‌بندی شدند. سپس، در خوشه‌های سطح بالای تولید شده، نمونه‌های بدون برچسب در هر خوشه با دانه‌هایشان برچسب‌گذاری شدند. با این حال، پیچیدگی محاسبات فاصله بود . با توجه به محاسبات فاصله مورد استفاده در روش قدیمی، زمانی که مجموعه داده به قسمت های (c) تقسیم شد و محاسبه شد ، پیچیدگی به . بنابراین، نویسندگان بر این منطق برای کاهش هزینه محاسباتی تکیه کردند.

یک روش طبقه بندی متن کوتاه بر اساس نمایش بردارهای کلمه وزن دار توسط ژانگ و همکاران ارائه شد. ( ۲۰۱۹b ). آنتروپی متقابل مورد انتظار در داده‌های برچسب‌گذاری شده برای استخراج مجموعه ویژگی‌های دسته‌بندی قوی استفاده شد. برای کاهش پراکندگی ابعادی بالا از ویژگی‌های متون کوتاه، بردارهای کلمه تولید و برای نمایش بردارهای ویژه که اطلاعات معنایی متون کوتاه را افزایش می‌دهند، استفاده شدند. این روش شباهت کسینوس کل بردارهای ویژه و مرکز کلاس مجازی را محاسبه کرد، جایی که مرکز کلاس مجازی نشان دهنده مقدار میانگین بردارهای ویژه است. مرکز کلاس واقعی نمونه های برچسب گذاری شده بر اساس شباهت نرمال شده محاسبه شد. شباهت بین مرکز خوشه‌بندی و مرکز کلاس واقعی داده‌های برچسب‌گذاری شده برای طبقه‌بندی نمونه‌های بدون برچسب استفاده شد.

در کار تحلیل احساسات رسانه های اجتماعی، نگوین ( ۲۰۱۶ ) از مفهوم سازگاری عاطفی با LP مبتنی بر طیف و برچسب های نظارت از راه دور یا برچسب های پر سر و صدا استفاده کرد. LP بر اساس یک ماتریس شباهت بود که از یک هسته گاوسی بر اساس ویژگی های متنی استفاده می کرد. در خوشه‌بندی عاطفی، سازگاری بر روی سه پیش‌بینی‌کننده مختلف بر اساس سه منبع واژگانی با استفاده از روش نسبت واژگان ساخته شد. طبقه‌بندی‌کننده احساسات نهایی با پیش‌بینی‌های مرجع و داده‌های برچسب‌گذاری‌شده حوزه هدف ساخته شد. نامروتا سریدار و همکاران. ( ۲۰۲۰) متن رسانه اجتماعی را با احساسات متعدد با درجات مختلف شناسایی و مرتبط کرد. جاسازی‌های کلمه برای کل مجموعه داده توییتر آموزش داده شد، سپس شباهت سطح توییتر بین توییت‌های بدون برچسب و برچسب‌گذاری شده بر اساس فاصله انتقال دهنده کلمه محاسبه شد.

دو محقق طبقه بندی متن کوتاه را به زبان ویتنامی انجام دادند. اول، ها و همکاران. ( ۲۰۱۸a ) یک الگوریتم طبقه‌بندی چند برچسبی سازگار بازگشتی با خوشه‌بندی نیمه نظارت شده انجام داد. روش اولین برچسب (λ) به عنوان تعداد بیشتری از وقوع درL2که مجموعه ای از برچسب های ممکن است که مجموعه داده برچسب گذاری شده ممکن است داشته باشد. خوشه ها بر اساس ایجاد شدندλو سه برچسب کلان تولید کردλ۱،λ۲، وλ۳به عنوان مجموعه برچسب شبیه سازی شده مجموعه ای از خوشه ها (D1،D2، وD3) مرتبط با برچسب هاλ۱،λ۲،λ۳تولید شد. دوم، ها و همکاران. ( ۲۰۱۸b ) یک روش مدل‌سازی موضوع مادام‌العمر را پیشنهاد کرد که بر یادگیری سوگیری در سطح دامنه بر اساس معیار نزدیکی دامنه پیشنهادی، و یک چارچوب کاربردی برای طبقه‌بندی چند برچسبی بر اساس خوشه‌بندی نیمه نظارت شده به متون ویتنامی متمرکز بود.

در حوزه طبقه بندی علمی، Varghese et al. ( ۲۰۱۸ ) از یک الگوریتم خوشه‌بندی بدون نظارت با حداقل مجموعه داده آموزشی برای خوشه‌بندی فرآیند برچسب‌گذاری برای کاهش تلاش دستی در فرآیند بررسی سیستماتیک مطالعات سم‌شناسی استفاده کرد.

۴.۳ روش های Wrapper

۴.۳.۱ خودآموزی

رویکرد خودآموزشی بخشی از روش‌های پوششی است که منطق چنین روش‌هایی تولید شبه برچسب‌ها به داده‌های بدون برچسب و اضافه کردن داده‌های برچسب‌دار اضافی تولید شده به همراه داده‌های برچسب‌دار موجود برای آموزش یک طبقه‌بندی کننده استقرایی است.

در زمینه اخبار، اصلاحی در روش خودآموزی برای کاهش حساسیت الگوریتم یادگیری به نویز موجود در داده‌های برچسب‌گذاری شده با استفاده از خلاصه‌های تولید خودکار توسط Villatoro-Tello و همکاران انجام شد. ( ۲۰۱۶ ). کمک دیگر به تحقیق، یک استراتژی جدید مبتنی بر فاصله برای انتخاب نمونه‌های برچسب‌گذاری شده با اطمینان در هر تکرار خودآموزی بود که به حفظ مقادیر بالای همگنی در بین کلاس‌ها کمک کرد. در Pavlinek و Podgorelec ( ۲۰۱۷ )، مدل موضوعی برای نمایش متن با هدف بهبود عملکرد در روش SSL مورد بررسی قرار گرفت. روش طبقه‌بندی متن خبری مبتنی بر مدل‌های موضوعی خودآموزی و LDA برای تقویت مجموعه‌های داده برچسب‌گذاری شده بسیار کوچک با محتوای بدون برچسب پیشنهاد شد. در کومار و همکاران. (۲۰۲۱ ) یک چارچوب جدید از طبقه‌بندی‌کننده‌های باینری، مسئله آستانه را برای بهبود عملکرد برچسب‌گذاری شبه در SSL معمولی برای طبقه‌بندی متن با استفاده از یک مجموعه داده جدید حذف کرد.

در برخورد با زمینه اخبار و احساسات، یک روش ترکیبی جدید برای طبقه‌بندی ساخته شد که از ارزش‌های معنایی مبتنی بر کلاس و وزن اصطلاحات استفاده می‌کرد (Altınel and Ganiz ۲۰۱۶ ). معانی کلمات برای کلاس محاسبه شد و امتیاز معنی برچسب ها را برای نمونه های بدون برچسب تعریف کرد. پس از آن، Class Weighting Kernel ماتریس مبتنی بر کلاس را ساخت که وزن کلمات را برای هر کلاس نشان می دهد. سپس، بر اساس یک ماتریس مبتنی بر کلاس، یک ماتریس هموارسازی معنایی متقارن ترم به ترم برای محاسبه شباهت/هسته بین اسناد ایجاد شد. تابع هسته در اجرای الگوریتم SVM به همراه طبقه‌بندی‌کننده حداقل بهینه‌سازی متوالی Platt تعبیه شده است. با این حال، برای طبقه بندی اخبار و احساسات، Altnel و همکاران. ( ۲۰۱۷) همراه با یک محاسبه معنا، میانگین نمرات کلمات در محدوده کلاس ها محاسبه شد. برچسب‌گذاری نمونه از محاسبه معنا به روشی نیمه نظارتی برای ساختن یک هسته هموارسازی معنایی برای SVM استفاده کرد.

در زمینه وظیفه تحلیل احساسات، خان و همکاران. ( ۲۰۱۷ ) برای کاهش مشکلات موجود در دسترس نبودن داده ها، پراکندگی داده ها و وابستگی به دامنه، یادگیری ماشین را همراه با واژگان احساسات گنجانده است. پایگاه دانش احساسات ساخته شد که منجر به ایجاد دو واژگان احساسی به نام‌های Senti-IG و Senti-Cosine با استفاده از مدل‌های ریاضی مانند Gain اطلاعات و Cosine Similarity برای واژگان SentiWordNet شد تا نمرات احساس تجدیدنظر شده ایجاد شود. سیستمی توسط Zaghdoudi و Glomann ( ۲۰۲۱ ) برای خودکارسازی فعالیت های تحقیقاتی کاربر در وب توسعه داده شد. روش جایگزینی مترادف برای تقویت داده ها و LSTM برای تجزیه و تحلیل احساسات استفاده شد. برای طبقه بندی احساسات و موضوع، شیانگ و یین ( ۲۰۲۱) ترکیبی از شبکه عصبی عمیق bi-GRU و مجموعه زمانی گسترش یافت که نمونه‌های بدون برچسب با برچسب‌های شبه برچسب‌گذاری شدند. یک روش بدون برچسب طعنه توسط لی و همکاران ارائه شد. ( ۲۰۲۰ ) برای تشخیص طعنه متنی در شبکه های اجتماعی با استفاده از الحاق نمایش محتوا بر اساس CNN و تعبیه اولویت طعنه آمیز همراه با مجموعه داده اصلی متعادل و اصلی-نامتوازن.

طبقه بندی SSL به احساسات به عنوان یک مشکل یادگیری تقویتی مبتنی بر مدل از خودآموزی در Li and Ye ( ۲۰۱۸ ) الهام گرفته شده است. یک چارچوب مبتنی بر شبکه متخاصم پیشنهاد شد، اما بر خلاف بسیاری از دیگر رویکردهای SSL مبتنی بر شبکه متخاصم (GAN)، چارچوب نیازی به بازسازی داده‌های ورودی نداشت و از این رو می‌توان برای طبقه‌بندی متن نیمه‌نظارت‌شده استفاده کرد. در بانرجی و همکاران. ( ۲۰۱۸) طبقه بندی احساسات از طریق داده های مثبت و بدون برچسب انجام می شد، زمانی که طبقه مثبت یک رویداد نادر در بررسی مشتریان بود. مرحله اول به دنبال برچسب گذاری داده ها برای موارد غیرقابل گزارش و جدید بود و احتمالات کلاس قبلی را با استفاده از امتیاز احساسات، امتیاز کلمه کلیدی و امتیاز شباهت (با استفاده از جاسازی های LSA یا GloVe) تخمین زد. مرحله دوم از یک طبقه‌بندی کننده لجستیک تنظیم‌شده با آنتروپی استفاده کرد که آنتروپی قسمت خلفی اندازه‌گیری شده روی نمونه‌های بدون برچسب را جریمه کرد.

در لی و کیم ( ۲۰۱۷)، روش برچسب‌گذاری احساسات برای تولید نمونه‌های شبه برچسب‌گذاری شده با اطمینان با پارامتر آستانه مورد بررسی قرار گرفت که به منظور غنی‌سازی طبقه‌بندی‌کننده احساسات اولیه به مجموعه آموزشی اضافه شد. در هر تکرار، خودآموزی با بردارهای جاسازی پیوسته انجام شد. چهار آزمایش انجام شد: طبقه‌بندی احساسات برای اثبات اثر برچسب‌گذاری احساسات. آزمایشی برای شناسایی اینکه آیا برچسب‌گذاری احساسات با آستانه اطمینان پایین‌تر می‌تواند دقت طبقه‌بندی را بهبود بخشد و تعیین اینکه آیا بین واریانس مدل احساسات مشترک/موضوع و دقت طبقه‌بندی همبستگی وجود دارد یا خیر انجام شد. یک آزمایش برای اعتبار سنجی بیشتر؛ با افزایش اندازه داده‌های برچسب‌گذاری‌شده اولیه با انسان، آزمایشی برای تجزیه و تحلیل عملکرد روش پیشنهادی انجام شد.

در زمینه متن کوتاه، شولمن و سیمو ( ۲۰۲۱ ) روشی مبتنی بر یادگیری عمیق را برای کمک به کاربران در شبکه‌های اجتماعی آنلاین پیشنهاد کردند تا از پست‌های پشیمان‌آمیز و افشای اطلاعات حساس خودداری کنند. یک رویکرد خودآموزی نیمه نظارت شده برای برچسب‌گذاری تدریجی پیام‌های شبکه‌های اجتماعی آنلاین و ایجاد مجموعه‌ای در مقیاس بزرگ به کار گرفته شد. Word2Vec و fastText برای ایجاد جاسازی های کلمه خاص دامنه استفاده شد. اطلاعات کاربر برای کاهش پراکندگی داده ها در طبقه بندی جملات در سناریوهای اجتماعی توسط Ma و همکاران استفاده شد. ( ۲۰۲۰). عبارت منظم‌سازی مبتنی بر بالا برای کمک به پیش‌بینی اعمال شد و در خودآموزی، شبه برچسب‌گذاری‌شده کاهش نویز توسط یک انتخابگر نمونه داشت. یک ELMo از پیش آموزش‌دیده برای متن‌سازی جاسازی‌های کلمه و لایه softmax برای خروجی توزیع احتمال بر روی کلاس‌ها استفاده شد. دیوکادز و همکاران ( ۲۰۱۷ ) الگوریتم‌هایی را به منظور خودکارسازی طبقه‌بندی الزامات کاربردی و غیرعملکردی موجود در بررسی‌های فروشگاه App اعمال کرد.

برای متن کوتاه، روش پیش‌بینی برچسب توسط استانوجویچ و همکاران پیشنهاد شد. ( ۲۰۱۹ ) که احتمالاتی را برای هدایت انتخاب برچسب ها برای هر پست از داده های بدون برچسب بر اساس تعداد کمی از نمونه های برچسب دار پیش بینی کرد. این روش زمینه های اضافی را از داده های بدون برچسب با یادگیری مدل، به عنوان مثال fastText، و مدل های یادگیری عمیق، به دست آورد. با چارچوب SSL برای متن کوتاه، Ghosh و Desarkar ( ۲۰۲۰) عملکرد طبقه‌بندی‌کننده آموزش‌دیده در مجموعه کوچک برچسب‌گذاری شده را بهبود بخشید که نمونه‌های بسیار مطمئنی از داده‌های بدون برچسب برای داده‌های آموزشی برچسب‌گذاری شده را در خود جای داده است. یک معیار برای انتساب کلاس و انتخاب نمونه ها محدودیت در تعداد نمونه در هر کلاس بود و معیار دیگر بر اساس آستانه کلاس خاص بود که تخصیص نمونه ها به کلاس را محدود می کرد.

برای طبقه‌بندی متن کوتاه، کاریسانی و کاریسانی ( ۲۰۲۱ ) یک مدل SSL عصبی را بر اساس یک الگوریتم کلاسیک خودآموزی پیشنهاد کردند که برای مقابله با داده‌های شبکه اجتماعی بدون آستانه بود. این روش مشکل رانش معنایی را مدیریت کرد و اسناد برچسب‌گذاری شده قبلی را اصلاح کرد. این رویکرد تکراری بود و توسط دو طبقه‌بندی‌کننده شبکه عصبی که یکدیگر را معکوس می‌کنند شکل گرفت. در هر تکرار، یک طبقه بندی کننده مجموعه ای تصادفی از اسناد بدون برچسب را به دست آورد و آنها را برچسب گذاری کرد. این مجموعه برای مقداردهی اولیه طبقه‌بندی‌کننده دیگر مورد استفاده قرار گرفت تا توسط مجموعه اسناد برچسب‌گذاری شده آموزش داده شود. سه روش نیمه نظارت شده برای طبقه بندی بلیط ها به صورت دودویی از داده های سیستم ردیابی اشکال در Pohl و همکاران استفاده شد. ( ۲۰۲۰، و قطبیت های احساسات به عنوان یکی از ویژگی های خودآموزی استفاده شد. Wulan و Supangkat ( ۲۰۱۷ ) یک خودآموزی نیمه نظارتی را برای طبقه بندی پیام های انگیزشی پیشنهاد کردند که ممکن است فراگیرنده را برای مطالعه برانگیزد.

در زمینه زبان های دیگر به جز انگلیسی، Duong و Anh ( ۲۰۲۱ ) از افزایش داده آسان، به عنوان مثال جایگزینی مترادف، تعویض تصادفی، درج تصادفی و حذف تصادفی برای تجزیه و تحلیل احساسات در متون ویتنامی استفاده کردند. علاوه بر این، تبدیل نحو-درخت و تکنیک‌های تقویت داده‌های ترجمه برگشتی. برای تجزیه و تحلیل احساسات، Nguyen Nhat Dang و Duong ( ۲۰۱۹ ) آزمایش های مختلفی از جمله بسیاری از تکنیک های پیش پردازش و تکمیل واژگان معنایی انجام داده اند. علاوه بر این، جایگزینی مترادف و تکنیک‌های افزایش داده‌های مبادله تصادفی، دقت طبقه‌بندی‌کننده‌ها را بهبود بخشید. یین و همکاران ( ۲۰۱۸ ) از روش SSL، طبقه‌بندی کننده SVM (SLAS) و مدل CART برای طبقه‌بندی احساسات استفاده کرد.

در لی و همکاران ( ۲۰۱۷a )، تعداد زیادی از نمونه‌های بدون برچسب در مجموعه داده‌ها بر اساس شباهت بین نمونه‌ها به صورت تکراری برچسب‌گذاری شدند. یک الگوریتم جدید طبقه‌بندی متن کوتاه چینی نیمه نظارت شده بر اساس شباهت ترکیبی و مرکز کلاس توسعه داده شد. خان و زبیر ( ۲۰۲۰ ) مدلی را برای طبقه‌بندی چند زبانه (انگلیسی و اردو رومی) توییت‌ها به یک مدل چند طبقه پیشنهاد کردند. روش SSL بر اساس یک مجموعه ویژگی از مجموعه داده برچسب‌گذاری شده بود، نمونه‌های بدون برچسب برچسب‌گذاری شدند و مدل با آنها به طور مشترک و کوچک‌ترین مجموعه برچسب‌گذاری شده قبلی مجددا آموزش داده شد. عمر و همکاران ( ۲۰۲۱) بر طبقه بندی متن کوتاه در شبکه اجتماعی متمرکز شد و یک مجموعه داده استاندارد عربی را با استفاده از حاشیه نویسی دستی و تکنیک های حاشیه نویسی نیمه نظارتی ساخت. یکی از چندین آزمایش، خودآموزی بود که برای برچسب گذاری پست های بدون برچسب باقی مانده با کلاس احساسات استفاده شد.

در حوزه سلامت، یک تحلیل مقایسه‌ای بر روی روش‌های مختلف SSL با هدف رسیدگی به مشکل مجموعه داده‌های آموزشی کوچک به الگوریتم‌های طبقه‌بندی متن در مرور سیستماتیک پزشکی انجام شد (Liu et al. 2018b ) . خودآموزی با پخش برچسب برای شناسایی مطمئن ترین نمونه های بدون برچسب یکی از روش های نیمه نظارتی مورد استفاده بود. حسن و همکاران ( ۲۰۲۰) واکنش های نامطلوب دارویی و عوارض جانبی را از گزارش بیمار در رسانه های اجتماعی به همراه یک روش نیمه نظارت شده شناسایی کرد. این روش بر اساس یک فیلد تصادفی شرطی با یک مجموعه داده کوچک برچسب‌گذاری شده بود که به طور مکرر مجموعه آموزشی را با جملات برچسب‌دار با اطمینان بالا که از مجموعه بزرگی از داده‌های بدون برچسب می‌آمد، تقویت می‌کرد. علاوه بر این، این روش به تدریج علائم و فرهنگ لغت‌های عوارض جانبی را با مطمئن‌ترین اصطلاحات پزشکی افزایش داد. بنابراین، با طبقه بندی صحیح اصطلاحات، جملاتی که قبلا رد شده بودند را می توان به داده های آموزشی اضافه کرد.

در زمینه صفحه وب، لین و همکاران. ( ۲۰۱۷ ) یک شناسایی دیدگاه رقابتی را بر اساس سازگاری دیدگاه در سطح کاربر ارائه کرد که متون طبقه بندی شده با کیفیت بالا را از مجموعه بدون برچسب انتخاب کرد و به طور مکرر طبقه بندی کننده را تقویت کرد. این روش طبقه‌بندی‌کننده‌های چشم‌انداز را با توزیع‌های سند-موضوع استخراج‌شده از متون با استفاده از NMF اصلاح کرد. شباهت چند نمای SSL برای طبقه بندی صفحات وب توسط Wu و همکاران طراحی شده است. ( ۲۰۱۹). این روش تبدیل‌های چند نما-فردی و یک تبدیل قابل اشتراک‌گذاری را آموخت. بنابراین، ویژگی و اشتراک دیدگاه های مختلف مورد بررسی قرار گرفت. اطلاعات برچسب نمونه‌های برچسب‌گذاری‌شده و اطلاعات شباهت نمونه‌های بدون برچسب از هر دو جنبه درون دید و مصاحبه استفاده شد. هدف کلی با ترکیبی از شرایط حفظ شباهت چند نمای نیمه نظارت شده، طراحی آماری غیرهمبسته چند نمای (برای کاهش اطلاعات در بین نماها برای یادگیری ویژگی‌های خاص نما با تبدیل دیدگاه-فرد با استفاده از ماتریس کوواریانس)، و از دست دادن طبقه بندی اینل۲ ، 1- norm_ل۲،۱-���مترتنظیم‌کننده پایه برای تبدیل‌های خاص مشاهده که در ردیف‌ها پراکنده بودند، استفاده شد، سپس ویژگی‌های متمایز را می‌توان برای هر نما انتخاب کرد.

۴.۳.۲ آموزش مشترک

این رویکرد یک روش نیمه نظارت شده و بخشی از روش‌های پوشش است که از الگوریتم‌های نظارت شده برای برچسب‌گذاری تکراری نمونه‌های بدون برچسب استفاده می‌کند. خصوصیات آموزش مشترک با استفاده از دو یا چند نمای متمایز از داده‌های برچسب‌گذاری شده برای آموزش تکراری طبقه‌بندی‌کننده‌ها ارائه می‌شود. در هر تکرار، مطمئن‌ترین پیش‌بینی از هر طبقه‌بندی‌کننده به داده‌های برچسب‌گذاری‌شده طبقه‌بندی‌کننده‌های دیگر منتقل می‌شود.

در زمینه خبری، یک طبقه‌بندی متن مشارکتی با یک مدل موضوع نظارت شده برای شناسایی رابطه معنایی بین موضوع و دسته توسط ژانگ و همکاران ترکیب شد. ( ۲۰۲۱a ). نماها با نمایش ویژگی‌های مختلف برای آموزش دو طبقه‌بندی‌کننده تولید شدند، و این رویکرد یک روش محاسبه اطمینان را بر اساس فاصله توزیع پسین و استراتژی نمونه‌گیری برای انتخاب نمونه‌های بدون برچسب معتبر اتخاذ کرد. خو و همکاران ( ۲۰۱۶) با مشکلات یادگیری با برچسب ضعیف با داده های آموزشی چند نمایه سروکار داشت، که در آن بردارهای شبه برچسب برای انتقال اطلاعات در بین نماهای مختلف استفاده شد. یک عملگر پروجکشن پیشنهاد شد، که پیش‌بینی‌ها را با در نظر گرفتن محدودیت‌های مختلف در داده‌های دارای برچسب ضعیف از سناریوهای یادگیری مختلف، به بردارهای شبه برچسب تبدیل کرد. الگوریتم آموزش مشترک با نظارت چند نمایه برای طبقه بندی متن اخبار توسط ایگلسیاس و همکاران استفاده شد. ( ۲۰۱۶ )، که در آن یک نمای BoW و یک نمای جدید از BoW بر اساس مدل‌های پنهان مارکوف (HMM) تولید شد. یک گروه سند برای هر برچسب ساخته شد و HMM ها گروه ها را نشان دادند. طبقه بندی یک سند جدید با حداکثر مقدار احتمال پس از تجزیه و تحلیل احتمال سند تولید شده توسط هر یک از HMM ها داده شد.

برای تجزیه و تحلیل احساسات، یک رویکرد ترکیبی جدید که تعبیه‌های وابسته به زمینه را بر اساس مدل زبان ELMo همراه با آموزش مشترک در یک چشم‌انداز یکپارچه ترکیب می‌کند، مورد بررسی قرار گرفت. این طبقه بندی در یک شبکه اجتماعی آنلاین یک موسسه بانکی مستقیم آلمانی توسط Graef ( 2021 ) انجام شد . اقتباسی توسط النشوان و همکاران انجام شد. ( ۲۰۱۹ ) در روش هم‌آموزشی به طبقه‌بندی چند کلاسه تا تحلیل احساسات در انجمن‌های پزشکی آنلاین درباره بیماری لایم و لوپوس.

در محدوده سوال و تکلیف طبقه بندی متن کوتاه. تکلیف طبقه‌بندی سؤالات درمان دارویی با استفاده از روش هم‌آموزشی در انجمن‌های پزشکی توسط bi-LSTM و bi-GRU توسط وانگ و رن ( ۲۰۱۹ ) بررسی شد. روش زیرفضای تصادفی برای هم‌آموزی (RASCO) و زیرفضای تصادفی مرتبط (Rel-RASCO) برای خودکارسازی طبقه‌بندی در بررسی‌های App Store توسط Deocadez و همکاران استفاده شد. ( ۲۰۱۷ ). RASCO تقسیم‌بندی ویژگی‌های تصادفی انجام داد، در حالی که Rel-RASCO نتیجه اصلاح RASCO بود که ایده‌های زیرفضای ویژگی تصادفی را تغییر داد و برای انتخاب زیرفضاهای ویژگی مرتبط جستجو کرد. طرح جدیدی برای CNN در طبقه بندی متن کوتاه SSL توسط شایق و همکاران ارائه شد. ( ۲۰۱۹). مجموعه داده از طریق مدل‌سازی موضوعی برای آموزش طبقه‌بندی‌کننده‌های مستقل به نمای‌های مستقل تقسیم شد. kNN نماها را بر اساس شباهت موضوعی با طبقه‌بندی‌کننده‌های کمکی برای پیش‌بینی برچسب اسناد به دسته‌های منحصربه‌فرد گروه‌بندی کرد. این روش از مترادف‌های Words برای تقویت مجموعه داده‌ها علاوه بر آموزش برچسب‌گذاری شده اصلی استفاده کرد. یک چارچوب جدید برای یادگیری از شبکه غنی از متن توسط ژانگ و همکاران ارائه شد. ( ۲۰۲۱b ). با الگوریتم آموزش مشترک و اشتراک ویژگی، دو ماژول به طور مشترک آموزش داده شدند، یک ماژول تجزیه و تحلیل متن برای جاسازی متن توسط BERT، و یک ماژول GNN برای انتشار اطلاعات طبقه بندی شده. مدل GNN از نمونه‌گیری همسایگی و تجمع مبتنی بر توجه استفاده کرد، دو ماژول دارای سوگیری‌های استقرایی متفاوتی بودند. SSL در جینگ ( ۲۰۱۸) اعمال شد) برای شناسایی نظرات جعلی آنلاین با نمایش ویژگی های پویا و استاتیک به عنوان نما.

با مجموعه داده‌های صفحه وب، گوخال و فاسلی ( ۲۰۱۷ ) یک رویکرد SSL آموزشی برای مشکل شناسایی چند طبقه‌ای برای طبقه‌بندی نقض حقوق بشر پیشنهاد کردند. یک روش عمیق چند برچسب‌گذاری شده که دو دیدگاه را برای طبقه‌بندی متن با پیاده‌سازی دو شبکه عصبی عمیق ترکیب می‌کرد، توسط Kihlman و Fasli ( 2021 ) برای طبقه‌بندی نقض حقوق بشر پیشنهاد شد . این روش، داده‌های نویز را به طبقه‌بندی‌کننده‌ها اضافه می‌کند تا یاد بگیرند که داده‌های نویز را متمایز کرده و داده‌ها را تصحیح کنند و بنابراین دقت طبقه‌بندی را بهبود می‌بخشند.

در زمینه علمی، مشکل کمبود دید در Guo ( ۲۰۱۸ ) مورد بررسی قرار گرفت، این روش به دنبال شناسایی داده های مضر و اصلاح آنها، کاهش اثرات آنها، یعنی کاهش وزن آنها در مجموعه آموزشی به طبقه بندی علمی بود.

۴.۳.۳ تقویت

در روش‌های تقویت شبه برچسب‌گذاری شده، مجموعه طبقه‌بندی‌کننده توسط زبان‌آموزان پایه وابسته تشکیل می‌شود. این روش با استفاده از نمونه‌های بدون برچسب، مدل‌ها را با یادگیرندگان پایه نظارت‌شده آموزش می‌دهد، در هر تکرار یادگیری، روش شبه‌برچسب‌هایی تولید می‌کند که با نمونه‌های برچسب‌گذاری‌شده ترکیب می‌شوند. علاوه بر این، در هر تکرار یادگیری، مدل‌ها برای ایجاد یک مدل طبقه‌بندی واحد ترکیب می‌شوند (van Engelen و Hoos ۲۰۱۹ ).

در زمینه اخبار، Tanha ( ۲۰۱۹ ) یک تابع از دست دادن چند کلاسه جدید را با استفاده از کلمات رمز جدید برای رسیدگی به مشکل طبقه بندی متن چند طبقه نیمه نظارت شده بررسی کرد. در تابع ضرر چند کلاسه، یک عبارت هزینه حاشیه داده‌های برچسب‌گذاری‌شده و دیگری عبارت منظم‌سازی داده‌های بدون برچسب بود. به منظور هدایت یادگیری پایه برای تخصیص شبه برچسب به داده های بدون برچسب، تابع ضرر شباهت زوجی و پیش بینی های طبقه بندی کننده را ترکیب کرد. مجموعه‌ای از توابع شباهت متفاوت جدید برای بهبود عملکرد طبقه‌بندی با استفاده از الگوریتم‌های مختلف یادگیری فاصله/متریک، و تقویت چارچوب‌ها برای استخراج یک الگوریتم از تابع ضرر پیشنهادی استفاده شد.

شکل جدیدی از چارچوب تقویتی برای یادگیری تابع شباهت بهینه به مسئله طبقه بندی متن اخبار چند طبقه توسط Tanha ( ۲۰۱۸ ) پیشنهاد شد. این روش اطلاعات شباهت بین داده‌های برچسب‌دار و بدون برچسب را با پیش‌بینی‌های طبقه‌بندی‌کننده ترکیب کرد تا برچسب شبه را برای نمونه‌های بدون برچسب تخصیص دهد. بر اساس فرض خوشه‌ای و رویکرد به حداکثر رساندن حاشیه برای مورد چند کلاسه، یک تابع ریسک جدید برای مسئله طبقه‌بندی نیمه نظارت شده چند طبقه معرفی شد. وزن‌هایی به تمام نقاط داده اختصاص داده شد که برای یافتن یک طبقه‌بندی بهینه جدید و کاهش تابع ریسک استفاده شد و از چارچوب تقویتی برای یادگیری توابع شباهت ضعیف استفاده شد. مدل طبقه بندی نهایی با ترکیبی از طبقه بندی کننده های ضعیف و توابع شباهت شکل گرفت. برای طبقه بندی اخبار، لیو و همکاران. ( ۲۰۱۶) بسط AdaBoost را با مثال های Universum، که در آن خطای آموزشی با حاصلضرب ضریب نرمال سازی محدود می شود، توضیح داد.

در کار تجزیه و تحلیل احساسات، توییت‌های بدون برچسب خودکار که بر اساس مکان از ایالات متحده جمع‌آوری شده‌اند همراه با شکلک‌هایی برای تولید داده‌های آموزشی توسط حنافی و همکاران پیشنهاد شده‌اند. ( ۲۰۱۸ ). ویژگی‌ها از داده‌های برچسب‌گذاری شده با روش‌های آماری و بدون نظارت، به‌عنوان مثال TF-IDF و Word2Vec، استخراج شدند. روش‌های کلاسیک (SVM، MaxEnt) و یادگیری عمیق (LSTM، CNN) با هم ترکیب شدند و یک مدل واحد ایجاد کردند.

در زبان‌هایی غیر از انگلیسی، لی و همکاران. ( ۲۰۱۷b ) از یک طبقه‌بندی گروهی بر اساس روش‌های Bagging و AdaBoost برای طبقه‌بندی سؤالات چینی استفاده کرد. یک فناوری ساده ویرایش داده‌ها بر اساس kNN به کار گرفته شد تا به مدل طبقه‌بندی با برچسب‌های خطای پیش‌بینی‌شده از نمونه‌های بدون برچسب آسیب وارد نشود. روش‌های گسترش TF-IDF و واژگانی- معنایی مشتق‌شده از Tongyici Cilin با طبقه‌بندی‌کننده‌های Naive Bayes، J48graft و J48 استفاده شد. روش بسط معنایی با TF-IDF در روش‌های نظارت شده و نیمه نظارت شده مقایسه شد.

۴.۴ ذاتاً نیمه نظارتی

۴.۴.۱ مبتنی بر اغتشاش

روش‌های نیمه نظارت ذاتی نمونه‌های بدون برچسب را به تابع هدف اضافه می‌کنند و آنها یک بهینه‌سازی تابع هدف مستقیم را انجام می‌دهند. این روش‌ها توابع هدف را تغییر می‌دهند تا داده‌های بدون برچسب را شامل شوند، بنابراین آنها را بزرگ‌نمایی روش‌های نظارت شده در نظر می‌گیرند و به یادگیرندگان پایه نظارت شده وابسته نیستند. یکی دیگر از ویژگی های این روش ها وابستگی آنها به یکی از مفروضات SSL است. حداکثر حاشیه به فرض چگالی کم بستگی دارد و مرز تصمیم باید در یک ناحیه با چگالی کم باقی بماند، در حالی که روش مبتنی بر اغتشاش مستقیماً فرض صافی را در بر می گیرد (van Engelen and Hoos 2019 ) .

آشفتگی های محلی نمونه های متضاد را ایجاد می کنند که نتایج تغییرات نامحسوس در نمونه ها هستند. استحکام مدل پیش‌بینی در برابر اغتشاشات محلی، یک فرض همواری پیش‌فرض است. بنابراین، پیش بینی تغییرات نامحسوس یا نویز در نمونه و نمونه بدون تغییر باید مشابه باشد. از نمونه های بدون برچسب می توان استفاده کرد زیرا شباهت به برچسب های واقعی نمونه ها بستگی ندارد.

در زمینه بررسی اخبار و محصول و خدمات، یک روش طبقه‌بندی چند برچسبی که همبستگی‌های برچسب را در منظم‌سازی سازگاری ادغام می‌کرد، در Qiu و همکاران توضیح داده شد. ( ۲۰۲۰ ). منظم‌سازی سازگاری به مدل کمک کرد که همان کلاس را برای یک نمونه بدون برچسب پیش‌بینی کند، حتی اگر آشفته بود. این روش از مدل میانگین متحرک نمایی و ماتریس همبستگی برچسب برای ایجاد یک هدف دقیق برای هر نمونه بدون برچسب استفاده کرد و از تکنیک مخلوط کردن برای محاسبه منظم‌سازی سازگاری استفاده کرد. میاتو و همکاران ( ۲۰۱۷) آموزش دشمنی مجازی (VAT) را از تصاویر به طبقه بندی متن گسترش داد. تعبیه‌های متن دچار آشفتگی شدند زیرا مالیات بر ارزش افزوده از ورودی‌های پیوسته استفاده می‌کند، اغتشاش مجازی تقریبی متخاصم استفاده شد که مطابق با بسط تیلور درجه دوم بود و روش توان اعمال شد.

در زمینه بررسی محصول و خدمات، بر اساس مدل CBOW، ژانگ و همکاران. ( ۲۰۲۰) اغتشاشات مناسب را برای تولید متون متضاد که برای فریب ناظران انسانی با کنترل بردارهای جهت آشفتگی قابل خواندن هستند، تجزیه و تحلیل کردند. اغتشاش ها با بافت همسایگی کلمات برخورد می کنند. در همین حال، آنها از متون نقد محصول و فیلم برای افزایش استحکام مدل با Adversarial Training برای منظم کردن مدل طبقه بندی استفاده کردند و آن را به کارهای نیمه نظارت شده با مالیات بر ارزش افزوده گسترش دادند. این روش نشان داد که متون و متون اصلی دشمنان تولید شده معنای مشابهی دارند، آنها قابل تفسیر و اشتباه برای انسان هستند و مالیات بر ارزش افزوده استحکام مدل را بهبود می بخشد. این روش مدلی را برای دفاع در برابر حملات متن مخالف قابل خواندن آموزش داد. لی و ستی ( ۲۰۲۰) یک پارتیشن بندی لایه چارچوب برای ورودی متن گسسته پیشنهاد کرد که ترکیب شدΠΠ-مدل یا ترکیب زمانی برای طبقه بندی متن کوتاه. یک شبکه عصبی به دو بخش تقسیم شد، یک بخش با لایه های پایین تر برای ویژگی استخراج کننده و اضافه کردن نویز سیستماتیک در ورودی، و دیگری با لایه های بالاتر. با ورودی آشفته، از روش SSL برای آموزش استفاده از لایه‌های بالاتر استفاده شدΠΠ-مدل و ترکیب زمانی.

برای زمینه علمی، سان و همکاران. ( ۲۰۱۹b ) مالیات بر ارزش افزوده را برای از دست دادن نظارت شده GCN برای بهبود عملکرد در طبقه بندی مقالات علمی بررسی کرد. بنابراین، الگوریتم‌های GCN Sparse VAT (GCNSVAT) و GCN Dense VAT (GCNDVAT) نتایجی بودند که در آن آشفتگی‌های دشمن مجازی روی ویژگی‌های پراکنده و متراکم درج شدند. همچنین در زمینه مقالات علمی، به دلیل حساسیت از GCN به اختلالات، Hu et al. ( ۲۰۲۱ ) از آموزش خصمانه با در نظر گرفتن ساختار نمودار برای کاهش تأثیر اختلالات ویژگی از یک گره همسایه استفاده کرد.

برای زبان چینی، با در نظر گرفتن فرض صافی، یک طبقه‌بندی متن کوتاه چند طبقه نیمه نظارت شده برای شناسایی و طبقه‌بندی رویدادهای اضطراری با معماری یادگیری عمیق توسط لیو و همکاران پیشنهاد شد. ( ۲۰۲۱ ). واگرایی Kullback-Leibler فاصله بین دو پیش‌بینی را اندازه‌گیری کرد: نمونه‌های تمیز و نسخه آشفته آنها. در هوانگ و همکاران. ( ۲۰۲۰ aاین چارچوب دو مرحله‌ای SSL برای طبقه‌بندی پتنت چینی بر اساس تئوری حل مسئله اختراعی ارائه شد. این روش از یک LSTM استاندارد و لایه ادغام با توجه نرم و ادغام k-Max برای استخراج ویژگی استفاده کرد. این روش مدل را با داده های بدون برچسب از قبل آموزش داد، سپس از یک تابع هدف ترکیبی برای آموزش مدل طبقه بندی متن استفاده کرد. تابع هدف مختلط ترکیبی از توابع آنتروپی متقاطع، کمینه سازی آنتروپی، و توابع ضرر خصمانه و مجازی بود.

۴.۴.۲ منیفولدها

منیفولدها بخشی از روش های ذاتی نیمه نظارتی هستند. فرض منیفولد می‌گوید که نقاط داده در چند منیفولد با ابعاد پایین‌تر قرار دارند که فضای ورودی را تشکیل می‌دهند و نقاط داده اگر در یک منیفولد با ابعاد پایین‌تر قرار داشته باشند، برچسب یکسانی دارند (van Engelen and Hoos 2019 ) .

برای تحلیل احساسات، گوپتا و همکاران. ( ۲۰۱۸ ) از نمایش ویژگی های یادگیری با Doc2Vec، پیش آموزش، و منظم سازی چندگانه برای آموزش یک مدل طبقه بندی احساسات استفاده کرد. تنظیم چندگانه از ترکیبی از داده های خارجی و درون دامنه استفاده می کند و برای آموزش یک مدل آماری برای استفاده از منابع داده برچسب دار و بدون برچسب استفاده شده است. پارک و همکاران ( ۲۰۱۹) یک روش نمایش توزیع شده نیمه نظارت شده را پیشنهاد کرد که تفاوت توزیع اسناد را بسته به احساسات با استفاده از اسناد با برچسب جزئی منعکس می کرد. تابع هدف جدید به دست آمده است که جاسازی سند به بهترین وجه مناسب برای اطلاعات احساسات برای طبقه بندی احساسات است. جاسازی‌های اسناد با یک محدودیت مربوط به فرض چندگانه و دیگری مربوط به فرض صاف بودن طبقه‌بندی‌کننده احساسات در نمایش‌های آموخته‌شده به دست آمد.

۴.۴.۳ مدل های مولد

حتی منیفولدها، روش‌های مبتنی بر اغتشاش، و مدل‌های مولد نیز ذاتاً نیمه نظارت هستند. با این حال، متفاوت از این روش ها، که تنها هدف آنها استنباط تابعی برای طبقه بندی نقاط داده است، روش های مولد هدف اصلی مدل سازی فرآیندی هستند که داده ها را تولید می کند. مدل های مخلوط، GAN ها و رمزگذارهای خودکار متغیر (VAE) نمونه هایی از روش های مدل تولیدی هستند.

فرض کنید هر مشاهده از مجموعه داده از یک توزیع خاص، یعنی توزیع گاوسی می آید. حداکثر احتمال یا EM برای استنباط پارامتر توزیع، مانند میانگین و واریانس استفاده می شود. سپس با روش مدل مولد مخلوط توزیع p ( x ,  y) مدلسازی می شود و می توان نمونه هایی را ترسیم کرد و از مدل برای طبقه بندی استفاده کرد. GAN ها معماری های یادگیری عمیق برای آموزش مدل های مولد هستند. GAN ها به یادگیری توزیع با تابع ضرر بر اساس بازی حاصل جمع صفر بین دو بازیکن (Generator و Discriminator) نزدیک می شوند، که در آن مجموع هزینه های بازیکن صفر است. Generator برای فریب دادن متمایز کننده با تولید نمونه هایی مشابه با توزیع داده های آموزشی آموزش دیده است، در حالی که Discriminator به روش نظارت شده، نمونه ها را به عنوان واقعی یا تقلبی طبقه بندی می کند (Goodfellow 2017 ) .

VAE توسط رمزگذار و رمزگشا تشکیل می شود، این یک مدل مولد عمیق است که می تواند نمونه ها را با استفاده از فضای پنهان تولید کند. هر نقطه داده x به عنوان تولید شده از بردار متغیرهای پنهان z تلقی می شود . VAEها p ( z ) را به یک توزیع ساده محدود می‌کنند تا نمونه‌گیری را تسهیل کنند، یعنی توزیع استاندارد گاوسی چند متغیره. بر اساس نقطه داده x ، رمزگذار پارامترهای را تعیین می کندp ( z∣ x )پ(�∣ایکس)توزیع در حالی که رمزگشا تبدیل از p ( z ) را به یک توزیع پیچیده تر انجام می دهدp ( x∣ z _)پ(ایکس∣�). برای ایجاد بازسازی های x ، یک نمونه از توزیع p ( z ) گرفته می شود، بنابراین یک بردار z نمونه از رمزگشا عبور می کند و در وزن ها ضرب می شود، یک بایاس اضافه می شود و یک تابع فعال سازی اعمال می شود. یک تابع هزینه ترکیبی با واگرایی Kullback-Leibler بین توزیع خلفیp ( z∣ x )پ(�∣ایکس)و مقداری توزیع ساده قبلی p ( z )، و هزینه بازسازی خروجی رمزگذار خودکار برای داده های ورودی توسط رمزگذار و رمزگشا که به طور همزمان آموزش داده می شوند به حداقل می رسد. رمزگشا به عنوان یک مدل مولد استفاده می شود (van Engelen and Hoos ۲۰۱۹ ).

در زمینه خبری، فرآیند تولیدی برای متغیرهای کلمات و پاسخ توسط سلیمانی و میلر ( ۲۰۱۶a ) به کار گرفته شد. این رویکرد ترکیبی از مدل‌های موضوعی شرطی کلاس برای کشف موضوعات و پیش‌بینی برچسب‌های کلاس به شیوه‌ای نیمه‌نظارت‌شده بر اساس این فرض است که اسناد یک کلاس نسبت‌های موضوعی مشابهی دارند. فرض منیفولد و خوشه توسط Xie و همکاران معرفی شد. ( ۲۰۱۹) برای منظم کردن طبقه بندی کننده در مدل های مولد عمیق. روش‌ها عدم تغییر طبقه‌بندی‌کننده را نسبت به اغتشاش‌های محلی در زیر منیفولد داده‌های هر خوشه و خروجی‌های طبقه‌بندی متمایز برای نقاط داده در خوشه‌های مختلف تشویق می‌کنند که توانایی تمایز طبقه‌بندی کننده را ایجاد می‌کند. روش‌های تقویت داده‌ها از طریق یک ژنراتور و یک فیلتر برای طبقه‌بندی موضوع و تحلیل احساسات توسط Queiroz Abonizio و Barbon Junior ( ۲۰۲۰ ) پیشنهاد شد. ژنراتور نمونه‌های جدیدی را سنتز کرد و فیلتر نمونه‌های باکیفیت را گرفت.

هنوز در چارچوب اخبار. BERT با GAN های نیمه نظارت شده در Croce و همکاران ترکیب شدند. ( ۲۰۲۰ ) به طبقه بندی متن. ژنراتور نمونه‌های جعلی را بر اساس توزیع داده‌ها تولید کرد و مدل BERT به عنوان تمایز استفاده شد. با استفاده از اطلاعات از برچسب های سلسله مراتبی برای تولید موضوعات، آگاروال ( ۲۰۲۱ ) یک LDA سلسله مراتبی نیمه نظارت شده را پیاده سازی کرد: یک مدل گرافیکی احتمالی برای کشف موضوعات پنهان از اسناد خبری توسط نمونه گیبس. در تشخیص ناهنجاری متنی، Steyn و de Waal ( ۲۰۱۶ ) طبقه‌بندی کننده چندجمله‌ای Naive Bayes را با یک الگوریتم EM تقویت‌شده بهبود دادند. برای طبقه بندی متن سلسله مراتبی بر اساس یک مدل تولیدی، Xiao و همکاران. ( ۲۰۱۹) یک الگوریتم یادگیری حساس به هزینه مسیر را پیشنهاد کرد. رویکرد اعمال شده حداکثرهای EM و محلی بر اساس پارامترهای طبقه‌بندی کننده Naive Bayes در داده‌های برچسب‌دار به دست آمد.

برای کار طبقه‌بندی متن کوتاه، با استفاده از معماری عمیق مبتنی بر هسته همراه با GAN نیمه‌نظارت‌شده، کروس و همکاران. ( ۲۰۱۹ ) چگونگی بهبود استحکام معماری‌های عمیق را با بهره‌برداری از فضای بیانی که اطلاعات زبانی غنی را رمزگذاری می‌کند، بررسی کرد. نجاری و همکاران ( ۲۰۲۲ ) GAN را برای تشخیص ربات اجتماعی مبتنی بر متن سفارشی کرد که در آن GAN از یک لایه LSTM مشترک به عنوان یک کانال مشترک بین مولد و طبقه‌بندی کننده برای مدیریت محدودیت همگرایی Seq-GAN سنتی استفاده کرد. تشخیص هرزنامه بر اساس GAN در Stanton و Irissappane ( ۲۰۱۹) مورد بررسی قرار گرفت)، ویژگی ها توسط ANN آموخته شدند، و روش بررسی های هرزنامه/غیر هرزنامه مشابهی را در رابطه با مجموعه آموزشی ایجاد کرد. RNN چند لایه با واحدهای بازگشتی دردار، سلول پایه برای نشان دادن مولد و تمایز بود. آقاخانی و همکاران ( ۲۰۱۸ ) GAN را برای تشخیص مرورهای فریبنده با استفاده از دو مدل تفکیک‌کننده و یک مدل مولد تغییر داد تا با یادگیری از هر دو توزیع بررسی‌های صادقانه و فریبنده، از مشکلات فروپاشی مد جلوگیری کند. GAN منظم (ScoreGAN) در Shehnepoor و همکاران توسعه داده شد. ( ۲۰۲۲ ) برای تشخیص بررسی تقلب به دلیل محدودیت GAN ها با وظیفه. نمایش متن توسط GLoVe با یک امتیاز الحاق شده بود، و تمایزکننده آموزش دید تا نظراتی را که از ژنراتور می‌آمدند برچسب‌گذاری کند.

در زمینه زبان های دیگر به جز انگلیسی، Song و همکاران. ( ۲۰۱۶ ) با استفاده از زبان چینی، یک الگوریتم مبتنی بر ساختار یادگیری عمیق و DBN نیمه نظارت شده، دسته بندی متن جدیدی را پیشنهاد کرد. DBN بر اساس ماشین های محدود بولتزمن است که ANN به روشی بدون نظارت با الگوریتم یادگیری سریع به نام واگرایی کنتراست آموزش داده شده است. در مرحله تنظیم دقیق، طبقه‌بندی‌کننده رگرسیون softmax داده‌های خروجی DBN را دریافت کرد و از الگوریتم انتشار پس‌انداز برای ساخت یک شبکه بهینه استفاده کرد. لیو و همکاران ( ۲۰۲۰) یک بازیابی اختراع متقابل دامنه با ویژگی های عملکردی، فنی و دامنه ایجاد کرد. این رویکرد ابزار تقسیم‌بندی کلمات چینی را به دلیل ویژگی‌های خاص زبان به کار می‌برد. Naive Bayes به‌عنوان طبقه‌بندی‌کننده استفاده شد و با توجه به سطح اولیه پایه عملکردی، و الگوریتم EM به‌عنوان طبقه‌بندی‌کننده نهایی آموزش دید. روش طبقه بندی خودکار ثبت اختراع چینی در لی و همکاران ارائه شده است. ( ۲۰۱۷ )، بر اساس مبنای عملکردی و نظریه ساده بیز با هدف استخراج موثر اطلاعات پنهان از متون ثبت اختراع و ارائه بیشتر این اطلاعات برای پشتیبانی از فرآیند طراحی نوآوری محصول بود.

برای کار تجزیه و تحلیل احساسات، Duan و همکاران. ( ۲۰۲۰ ) روشی را برای طبقه بندی احساسات در نظرات پیام سهام پیشنهاد کرد. این روش، قطار و مجموعه تست را با هم در نظر گرفت تا از محبت پیام‌های کوتاه جلوگیری کند، ویژگی‌های استنباط‌شده جامع‌تر بود در مقابل ویژگی‌های روش‌های سنتی یادگیری که فقط از مجموعه قطار استفاده می‌کردند. مدل هیجان مولد به کار گرفته شد و یک متن را به عنوان توزیع احتمال در فضای هیجانی هفت بعدی تعریف کرد و احساس را به عنوان توزیع احتمال بر روی کلمات نشان داد. طبقه‌بندی احساسات سطح جنبه نیمه نظارت شده بر اساس VAE با اطلاعات جنبه در رمزگذار/رمزگشا و طبقه‌بندی‌کننده احساسات سطح جنبه توسط Fu و همکاران پیشنهاد شد. ( ۲۰۱۹). این روش فقط وظیفه سطح جنبه-مقوله را در نظر گرفت و مدل جاسازی کلمه موضوعی جاسازی کلمه خاص جنبه را یاد گرفت. این روش توسط LSTM مبتنی بر توجه با تعبیه جنبه به عنوان نمایش ویژگی و طبقه‌بندی پشتیبانی می‌شود. علاوه بر این، یک LSTM مشروط به عنوان رمزگشای VAE برای معرفی برچسب متنی به رمزگشا اعمال شد. طبقه بندی احساسات بر اساس VAE شرطی همراه با مکانیسم توجه توسط Yu و همکاران توضیح داده شد. ( ۲۰۱۹ ). اطلاعات معنایی نهفته اما-بند با ادغام مکانیسم توجه در VAE شرطی برای بهبود طبقه بندی با مدل یکپارچه شد.

در زمینه علمی، برای مشکلات یادگیری چند برچسبی در نمودارهای نسبت داده شده به طبقه بندی اسناد علمی، Akujuobi و همکاران. ( ۲۰۱۸ ) یک مدل مولد عمیق را پیشنهاد کرد. بر اساس GANs، Anokye و Kahanda ( ۲۰۲۱ ) روش جدیدی به نام BioSGAN را برای کار طبقه‌بندی هم‌ذکر پروتئین-فنوتیپ توسعه دادند. برای بهبود عملکرد طبقه‌بندی‌کننده‌های بهینه‌شده با AUC با متون علمی، Fujino و Ueda ( ۲۰۱۶ ) از مدل‌های مولد برای کمک به ادغام نمونه‌های بدون برچسب در مدل استفاده کردند. برای استنباط طبقاتی در سطح سند و جمله، سلیمانی و میلر ( ۲۰۱۶b) یک مدل موضوع چند برچسبی را بررسی کرد. این روش موضوعات موجود در مجموعه را پیدا کرد، ارتباط بین موضوعات و برچسب‌های کلاس را یاد گرفت، برچسب‌ها برای اسناد جدید پیش‌بینی شد، و تداعی‌های برچسب را برای هر جمله در اسناد انجام داد.

۴.۵ یادگیری انتقالی

با توجه به انطباق دامنه، یک روش یادگیری انتقالی را می توان با در دسترس بودن داده های هدف برچسب گذاری شده به رویکردهای بدون نظارت و نیمه نظارت تقسیم کرد (عبدی و هاشمی ۲۰۲۱ ) . در این نظرسنجی، ما یادگیری انتقالی را به عنوان یک رویکرد نیمه نظارت شده تعریف می کنیم، زمانی که یک روش از مقدار کمی از داده های هدف برچسب دار و داده های هدف بدون برچسب بزرگ و کافی استفاده می کند.

در زمینه اخبار، برای رگرسیون لجستیک باینری، وانگ و همکاران. ( ۲۰۱۹ ) از روش یادگیری انتقال فرضیه خصوصی با منبع چندگانه استفاده کرد. داده‌های هدف برچسب‌گذاری‌شده کمیاب با استفاده از داده‌های بدون برچسب با ضمانت حفظ حریم خصوصی متفاوت دقیق درمان شدند. وزن تخصیص یافته به هر فرضیه منبع بر اساس رابطه آن با هدف تعیین شد، سپس انتقال منفی کاهش یافت. لی و دای ( ۲۰۱۸) بر مشکل مقادیر کم برچسب گذاری شده در هدف غلبه کنید تا یک مجموعه اعتبار سنجی استخراج شود که نمونه ها را از مجموعه داده منبع بر اساس گروه بندی مجدد مجموعه داده پویا استخراج می کند. یک الگوریتم یادگیری انتقال دانش استقرایی جدید ادغام شده با رویکرد انتخاب مجموعه کاهش خطا مبتنی بر رتبه اصلاح شده برای رسیدگی به توزیع‌های مختلف در هر دو حوزه منبع و هدف برای طبقه‌بندی متن اخبار استفاده شد.

در کار بین زبانی، مون و کاربونل ( ۲۰۱۶ ) به دنبال یادگیری وظایف هدف جدید با اطلاعات برچسب محدود با استفاده از مجموعه داده‌های منبع با ویژگی‌های ناهمگن و فضاهای برچسب بودند. این رویکرد برچسب‌های منبع و هدف ناهمگن را در همان جاسازی کلمه Skip-gram ترسیم کرد تا رابطه کلاسی معنایی آنها را به دست آورد. در دسته بندی متن بین زبانی، هوانگ و همکاران. ( ۲۰۲۰b ) یک الگوریتم جدید با نام یادگیری ویژگی‌های متمایز ناهمگن و LP برای یادگیری ویژگی‌های متمایز با سازگاری برچسب از طریق دو پیش‌بینی خاص دامنه، و LP از طریق بهره‌برداری از اطلاعات ساختاری داده‌ها، ارائه کرد.

هنوز در کار بین زبانی است. برای یادگیری انتقال ناهمگن، سوخیجا و کریشنان ( ۲۰۱۹ ) از یک رویکرد جدید استفاده کردند، یعنی یادگیری انتقال ناهمگن ناشی از وب با انتخاب نمونه به طبقه‌بندی متن چند زبانه. یک الگوریتم جدید Feature Space Remapping دامنه ها را با فضاهای ویژگی و برچسب ناهمگن بدون تکیه بر یک نمونه یا تطابق ویژگی بین دامنه منبع و مقصد مرتبط می کند. بر اساس دانش ناشی از وب، برچسب‌ها در دو حوزه از نظر معنایی تراز شدند، سپس به مطابقت برای تراز کردن ویژگی‌های ناهمگن دامنه منبع و مقصد رسیدند. با یک روش جدید یادگیری انتقال افتراقی نیمه نظارت شده، کانگ و همکاران. ( ۲۰۱۹) با طبقه بندی متن بین زبانی مقابله کرد. داده‌های بدون برچسب در زبان مبدأ و مقصد برای تنظیم توزیع متفاوت ویژگی‌ها در داده‌های برچسب‌گذاری‌شده هدف استفاده شد. علاوه بر یک طبقه‌بندی تک زبانه برای یک انتقال کارآمد، که در آن طبقه‌بندی‌کننده با داده‌های برچسب‌گذاری شده در زبان مبدأ آموزش داده شده است.

در تکلیف تحلیل احساسات، متاپاتی و همکاران. ( ۲۰۱۹ ) با یک روش نیمه نظارت شده برای تجزیه و تحلیل احساسات دوگانه به مشکل تغییر قطبی مرتبط با یک حوزه تطبیقی ​​که آموزش را با برچسب کمیاب که در حوزه های مختلف تطبیق داده شده است، آزمایش کرد. این رویکرد به دلیل مشکل وابستگی بین اصطلاحات دور در مرورها، یادگیری عمیق مشارکتی را اعمال کرد: LSTM به پیش‌بینی توالی و ویژگی‌های استخراج‌شده CNN پرداخت. برای تحلیل احساسات، عبدی و هاشمی ( ۲۰۲۱).) یک نمایش تمایزآمیز جدید از داده ها را با تکنیک تطبیق دامنه نوآورانه آموخت. نمونه‌های حوزه منبع و هدف در یک فضای ویژگی جدید جاسازی شدند، بنابراین با نمونه‌ها در فضای ویژگی پنهان مشترک، این روش اختلاف بین توزیع منبع و هدف را به حداقل رساند در حالی که اطلاعات ساختاری داده‌ها حفظ می‌شد.

واژگان سازگار دامنه با تحلیل احساسات با استفاده از حداکثر آنتروپی با خوشه‌بندی دوبخشی توسط Deshmukh و Tripathy ( 2017 ) ساخته شد . مجموعه داده های پیش پردازش شده منبع و هدف به عنوان ورودی گرفته شد، یک طبقه بندی آنتروپی اقتباس شده اعمال شد، و یک الگوریتم خوشه بندی گراف دو بخشی بین کلمات رایج و غیر معمول ساخته شد. خوشه بندی عدم تطابق بین کلمات خاص دامنه منبع و دامنه هدف را کنترل کرد. در حوزه‌های متعدد با منابع چندگانه تخصصی، یادگیری مبتنی بر یادگیری چند نمونه‌ای را انتقال می‌دهند، Song and Park ( ۲۰۱۸ ) پست‌های هدف را شناسایی کردند. این روش از نمونه‌های مثبت برای انتقال دانش در سراسر حوزه‌ها استفاده کرد، بنابراین موارد منفی کاذب که بر یادگیری چند نمونه‌ای تأثیر می‌گذارند، درمان شدند.

۴.۶ سایرین

در این بخش، روش‌های نیمه نظارتی را توصیف می‌کنیم که با طبقه‌بندی پیشنهادی ون انگلن و هوس ( ۲۰۱۹ ) مطابقت ندارند .

این پاراگراف مقالاتی را که در آنها روش‌ها در زمینه خبری به کار گرفته شده است، توضیح می‌دهد. الگوریتم TSVM مبتنی بر بهینه‌سازی کلنی مورچه‌ها برای حل مسئله بهینه‌سازی SVMs استنتاج انتقال توسط یو و همکاران ارائه شد. ( ۲۰۱۶ ). بر اساس PUL، ساکای و همکاران. ( ۲۰۱۷ ) منطقه اعمال شده تحت روش بهینه سازی منحنی (AUC). داده‌های بدون برچسب به بهبود عملکرد تعمیم در روش‌های بهینه‌سازی PU و نیمه نظارت‌شده AUC بدون مفروضات توزیعی محدود کمک کردند. گونه ها و همکاران ( ۲۰۱۶) فرآیندی برای کشف چارچوب‌های ارتباطی موجود در مقالات خبری آنلاین با زمینه‌های موضوعی اجتماعی-محیطی مرتبط ایجاد کرد. NMF با TF-IDF برای کشف فریم ها از طریق فرآیند آشکارسازی روابط پنهان در مقالات ترکیب شد. اختلافات مشتری به طور خودکار بر اساس دلایل اصلی آنها در Severin و همکاران طبقه بندی شد. ( ۲۰۱۹ ). مقوله‌ها و کلیدواژه‌های آن‌ها در یک مرحله نظارت شده از روش تعریف شد، سپس اختلافات در دسته‌های مناسب قرار گرفتند. بنابراین، برچسب‌گذاری دستی مجموعه داده آموزشی کاهش می‌یابد.

در زمینه اخبار چین، بخش کوچکی از اسناد به طور خودکار با دقت بالا بر اساس پایگاه‌های واژگانی به عنوان منابع معنایی خارجی برچسب‌گذاری شدند (Xu et al. ۲۰۱۷ ). اسناد برچسب دار و تعداد زیادی از اسناد بدون برچسب برای تشکیل داده های آموزشی و یک TSVM و بازپخت قطعی برای ساخت رویکرد SSL ترکیب شدند.

بخش ۵ تجزیه و تحلیل نتایج در هر مجموعه داده

مقایسه بین روش‌های یادگیری ماشینی به دلیل وجود پارامترهای متعددی که در فرآیند یادگیری دخیل هستند، پاسخ قابل اعتمادی تولید نمی‌کند. برای مثال، در روش نیمه نظارتی، مقدار داده‌های برچسب‌دار و بدون برچسب، معیارهای ارزیابی و زیرمجموعه‌های مجموعه داده‌های مورد استفاده در آزمایش‌ها همیشه برابر نبودند. قطعاً ما این ادعا را نداریم که در مورد روش های نیمه نظارتی قضاوت کنیم، در غیر این صورت هدف ما این است که از طریق رصد، منطقه را روشن کنیم. بخش های فرعی زیر رویکردهای نیمه نظارت شده در هر مجموعه داده و نتایج به دست آمده توسط نویسندگان مقاله را نشان می دهد. بخش ۵.۱ مجموعه داده ۲۰ گروه خبری را ارائه می کند. بخش ۵.۲ مجموعه داده رویترز ۲۱۵۷۸ را ارائه می دهد. بخش ۵.۳مجموعه داده های رویترز RCV1 و RCV2 را ارائه می دهد. بخش ۵.۴ مجموعه داده های بررسی فیلم را ارائه می کند. بخش ۵.۵ مجموعه داده های توییتر را ارائه می دهد. بخش ۵.۶ مجموعه داده های Amazon، Yelp و TripAdvisor را ارائه می دهد. بخش ۵.۷ مجموعه داده های علمی را ارائه می کند. بخش ۵.۸ مجموعه داده های پزشکی را ارائه می دهد. بخش ۵.۹ مجموعه داده های AG News، DBpedia و WebKB را ارائه می کند. بخش ۵.۱۰ مجموعه داده های TREC را ارائه می دهد. بخش ۵.۱۱ مجموعه داده های چینی و ویتنامی را ارائه می دهد.

۵.۱ 20 مجموعه داده گروه های خبری

نتایج آزمایش‌ها روی مجموعه داده‌های ۲۰ گروه خبری در جدول ۳ نشان داده شده است که دارای ۲۴ مقاله است که پنج مورد از آنها آزمایش‌هایی را با ANN انجام داده‌اند. رویکردهای SSL علاوه بر ANN توسط ژائو و همکاران مورد تحقیق قرار گرفت. ( ۲۰۲۲ ) که همراه با GCN از مدل های پیشرفته در پنج مجموعه داده معیار بهتر عمل کرد.

در جیانگ و همکاران. ( ۲۰۱۸ )، DBN از الگوریتم پایه کلاسیک در مقیاس های داده های مختلف مجموعه داده های مورد استفاده فراتر از ۲۰ گروه خبری پیشی گرفت. در بهینه‌سازی تنظیم دقیق، L-BFGS نسبت به نزول گرادیان مناسب‌تر بود. در Vilhagra و همکاران. ( ۲۰۲۰ )، CSN برای نمایش عصبی عمیق داده‌های ورودی براساس محدودیت‌های زوجی از MPC-KMeans و الگوریتم K-Means معمولی در شش مجموعه داده بهتر عمل کرد و عملکرد آن با تعداد محدودیت‌های ارائه‌شده افزایش یافت. LDA و Word2Vec بر خطوط پایه در Jedrzejowicz و Zakrzewska ( ۲۰۲۰ ) غلبه کردند. GAN-BERT توسعه یافته توسط Croce و همکاران. ( ۲۰۲۰ ) در مقایسه با BERT نتایج برتری را نشان داد. GAN-BERT با ۱٪ از داده های برچسب گذاری شده F به دست آورد۱۱-امتیاز بالاتر از ۴۰٪ در حالی که نتیجه BERT زیر ۲۰٪ بود. علاوه بر این، GAN-BERT تا ۴۰ درصد از داده‌های برچسب‌گذاری‌شده نسبت به پایه برتر بود.

جدول ۳ ۲۰ مجموعه داده های گروه های خبری با رویکرد SSL

برای مشاهده جدول ۳ اینجا کلیک کنید

۱۹ نویسنده باقی مانده از الگوریتم هایی غیر از ANN در نمایش متن و همچنین در توسعه مدل طبقه بندی استفاده کردند. در ویدمن و وربرن ( ۲۰۱۷ )، نتایج قادر به اثبات مزیت SSL مبتنی بر نمودار نسبت به پایه یادگیری نظارت شده نبودند. گورو و همکاران ( ۲۰۱۶ ) کارایی و استحکام مدل پیشنهادی را در تشخیص کلاس‌های ناشناخته به طور کارآمد نشان داد. سان و همکاران ( ۲۰۲۰ ) از دقت طبقه بندی برتری نسبت به الگوریتم های پیشرفته SSL برخوردار بود. Pavlinek و Podgorelec ( ۲۰۱۷ ) نشان دادند که روش خودآموزی و LDA هنگامی که در ترکیب با چندجمله‌ای Naive Bayes استفاده می‌شود، دقت را نسبت به روش‌های قابل مقایسه انجام می‌دهد. آلتنل و همکاران ( ۲۰۱۷) با برچسب گذاری نمونه های بدون برچسب بر اساس امتیازات معنی کلمات برای تقویت مجموعه آموزشی، ارزشمند بود و دقت نمونه های آزمایشی دیده نشده قبلی را افزایش داد. Altınel و Ganiz ( ۲۰۱۶ ) از منابع فراوانی از نمونه های بدون برچسب برای بهبود دقت استفاده کردند، به خصوص زمانی که تعداد نمونه های برچسب گذاری شده محدود بود. ایگلسیاس و همکاران ( ۲۰۱۶ ) دقت طبقه‌بندی‌کننده‌های متن را بهبود بخشید. ژانگ و همکاران ( ۲۰۲۱a ) با نتایج آزمایش های مقایسه ای نشان داد که روش عملکرد طبقه بندی خوبی دارد. یداو و همکاران ( ۲۰۱۹) متریک شباهت sqrt- کسینوس را با هنجار اقلیدسی L2 و شباهت کسینوس مقایسه کرد که نتایج برتر را در کیفیت ساخت نمودار و طبقه‌بندی/استنتاج نشان داد. بارمن و چاودوری ( ۲۰۱۸ ) اثربخشی را در تخصیص برچسب‌ها به مجموعه‌ای از داده‌های بزرگ بدون برچسب با کمک یک مجموعه داده برچسب‌دار بسیار کوچک نشان دادند.

در لیو و همکاران ( ۲۰۱۶ ) Universum از طبقه‌بندی‌کننده‌ها پشتیبانی می‌کند که برچسب‌های کمی در دسترس باشد. فوجینو و اوئدا ( ۲۰۱۶ ) از روش های پایه بهتر عمل کردند، این رویکرد عملکرد طبقه بندی باینری نامتعادل را بهبود بخشید. سلیمانی و میلر ( ۲۰۱۶a ) از عملکرد هر دو مدل موضوعی استاندارد نیمه نظارت شده و تحت نظارت پیشی گرفتند. Steyn and de Waal ( ۲۰۱۶ ) عملکرد خوبی با طبقه بندی متن داشتند. با این حال، نتایج در شناسایی اسناد متنی غیرعادی به دلیل این واقعیت که داده‌های بدون برچسب، میزان عدم تعادل کلاس را از طریق EM افزایش می‌دهند، دقت کاهش یافته را نشان می‌دهند. شیائو و همکاران ( ۲۰۱۹ ) بهبودهایی را در اثربخشی الگوریتم نشان داد. وانگ و همکاران ( ۲۰۱۹لی و دای ( ۲۰۱۸ ) نسبت به خطوط پایه پیشرفت داشتند، از الگوریتم‌های غیرانتقال خطوط پایه، الگوریتم‌های یادگیری انتقال پیشرفته با نیازهای ذخیره‌سازی کمتر و سرعت طبقه‌بندی بالاتر بهتر عمل کردند. یو و همکاران ( ۲۰۱۶ ) بر خطوط پایه الگوریتم‌های TSVM با در نظر گرفتن دقت طبقه‌بندی و شاخص‌های کارایی اجرا غلبه کرد. ساکای و همکاران ( ۲۰۱۷ ) با الگوریتم‌های پایه زمان محاسبات کوتاه بیشتر شد.

۵.۲ پایگاه داده رویترز ۲۱۵۷۸

نتایج با مجموعه داده رویترز ۲۱۵۷۸ که مجموعه ای از اسناد با مقالات جدید است، مطابق جدول ۴ ارائه شده است . ANN توسط چهار نویسنده استفاده شد که سه نفر قبلاً توضیح داده شده بودند. کومار و همکاران ( ۲۰۲۱ ) همراه با MLP به افزایش عملکرد رقابتی در طبقه‌بندی‌کننده‌های مبتنی بر SSL-Cascading (افزایش ۷%) دست یافتند. بر اساس رتبه (افزایش ۵٪) نسبت به پایه SSL.

جدول ۴ پایگاه داده رویترز ۲۱۵۷۸ با رویکرد SSL

برای مشاهده جدول ۴ اینجا کلیک کنید

۱۰ نویسنده باقی مانده از الگوریتم هایی غیر از ANN در نمایش متن و همچنین در توسعه مدل طبقه بندی استفاده کردند. چهار مقاله قبلاً نتایج را قبلاً خلاصه کرده بودند. کارنوالی و همکاران ( ۲۰۲۱ ) از الگوریتم های پیشرفته بر اساس مدل فضای برداری یا الگوریتم های نمودارها بر حسب F بهتر عمل کرد.۱۱-نمره. این روش عملکرد طبقه‌بندی را از ۱۰% در هنگام استفاده از یک سند برچسب‌دار به ۲۸% با ۳۰ سند برچسب‌دار بهبود بخشید. روسی و همکاران ( ۲۰۱۷ ) ساخت نمودار را تسهیل کرد، ویلاتورو-تلو و همکاران. ( ۲۰۱۶ ) نشان داد که انتخاب اسناد برچسب‌گذاری شده با اطمینان عملکرد را در سراسر تکرار بهبود می‌بخشد، زمانی که خلاصه‌های متن کوتاه به عنوان مجموعه داده‌های برچسب‌گذاری شده استفاده می‌شوند. در Tanha ( ۲۰۱۹ )، درخت تصمیم به عنوان یادگیرنده پایه از الگوریتم های پایه نظارت شده و نیمه نظارت شده بهتر عمل کرد. Tanha ( ۲۰۱۸ ) از پیشرفته ترین روش های تقویت برای SSL چند کلاسه پیشی گرفت. توماس و رسمیپریا ( ۲۰۱۶ ) دقت بهتری با SMTP برای محاسبه فاصله داشتند.

۵.۳ مجموعه داده های رویترز RCV1 و RCV2

مجموعه داده‌های رویترز RCV1 و RCV2 مجموعه‌ای از مقالات خبری هستند که برای طبقه‌بندی بین زبانی و چند برچسبی استفاده می‌شوند. نتایج رویکردهای SSL مطابق جدول ۵ ارائه شده است . پنج نویسنده از رویکرد ANN استفاده کردند، لی و همکاران. ( ۲۰۱۸ ) از CNN برای طبقه بندی چند برچسبی استفاده کرد و عملکرد را در مقایسه با ANN سنتی بهبود بخشید. شایق و همکاران ( ۲۰۱۹ ) از CNN استفاده کرد و به نتایجی معادل با چندین الگوریتم پیشرفته نظارت شده و SSL دست یافت. در کیو و همکاران. ( ۲۰۲۰)، مدل زبان fastText 300 بعدی از پیش آموزش داده شده و CNN به عنوان طبقه بندی متن چند برچسبی از دو راه حل یادگیری چند برچسبی نظارت شده بهتر عمل کرد و در مقایسه با دو روش SSL مبتنی بر منظم سازی سازگاری، این رویکرد در ۱۹ و ۱۶ شاخص ارزیابی بر آنها غلبه کرد. بصورت جداگانه. میاتو و همکاران ( ۲۰۱۷ ) با LSTM و bi-LSTM به عملکرد پیشرفته‌ای در مجموعه داده RCV1 با نرخ خطای ۵.۵۴% دست یافت. علاوه بر این، این روش در کارهای مختلف طبقه بندی متن به پیشرفته ترین روش دست یافت. Moon and Carbonell ( ۲۰۱۶ ) وظیفه طبقه بندی متن غیرزبانی را بهبود بخشیدند.

جدول ۵ رویترز RCV1 و مجموعه داده RCV2 با رویکرد SSL

برای مشاهده جدول اینجا کلیک کنید

هفت مقاله باقیمانده از الگوریتم‌هایی غیر از ANN استفاده کردند و نتایج به ترتیب خلاصه می‌شوند. گونگ و همکاران ( ۲۰۱۷ ) بر روش‌های پایه در متریک دقت غلبه کرد. علاوه بر این، زمانی که نویز برچسب وجود داشت، روش بهتر از روش پایه GFHF عمل کرد. خو و همکاران ( ۲۰۱۶ ) با CoL(2-لایه) (۷۱.۷۳%) و CoL(3-layer) (72.45%) از روش های SSL موجود بهتر عمل کرد که بهترین نتیجه را بدست آورد (۶۹.۳۴%). سوخیجا و کریشنان ( ۲۰۱۹) از SHFR-RF 3.5-7٪، SHDA-RF با ۲.۵-۳٪، DAMA با ۷-۱۵٪ و Co-HTL با ۱.۵-۳.۵٪ در هر تنظیم انتقال بین زبانی بهتر عمل کرد. برای مجموعه داده چندزبانه رویترز چندزبانه، این روش نسبت به جنگل تصادفی پایه، بهبود عملکرد داشت و بر رویکردهای انتقال پیشرفته در سه وظیفه مختلف انتقال در دنیای واقعی غلبه کرد. هوانگ و همکاران ( ۲۰۲۰b ) از چندین روش انطباق پایه بهتر عمل کرد حتی اگر تفاوت توزیع به طور قابل ملاحظه ای زیاد بود. کانگ و همکاران ( ۲۰۱۹ ) اهمیت کلی عملکرد را به ترتیب با ۸۹.۲٪ و ۸۵.۴٪ دقت در بیش از ۲۰ کار طبقه بندی یک در مقابل یک و طبقه بندی یک در برابر همه نشان داد. در حالی که بهترین خط پایه به ترتیب ۸۸.۴% و ۸۴.۲% بود.

۵.۴ مجموعه داده های بررسی فیلم

جدول ۶ نتایج آزمایش ها را در مجموعه داده های مرور فیلم نشان می دهد، آزمایش ها با ANN توسط ۱۴ مقاله انجام شده است. جو و همکاران ( ۲۰۲۲ ) از GNN برای نمایش نمودارهای یادگیری استفاده کرد. در مجموعه داده چند کلاسه IMDB کمی کمتر از خط پایه بود که ۴۳.۷٪ دقت داشت. در مجموعه داده باینری IMDB، با تغییر مقادیر داده‌های برچسب‌گذاری شده، این روش بهترین عملکرد را در مقایسه با الگوریتم‌های پایه به دست آورد. تنها با ۵٪ از داده های برچسب گذاری شده، روش تقریباً ۶۷.۰٪ از دقت را به دست آورد. GAT توسط Yang et al. ( ۲۰۲۱a ) از روش‌های پیشرفته در هر دو یادگیری انتقالی و استقرایی بهتر عمل کرد. پان و همکاران ( ۲۰۲۰) LN، Word2Vec، BERT، DistilBERT، یا ALBERT، مدل رمزگذار و رمزگشا را اعمال کرد. این روش برای تجزیه و تحلیل احساسات مؤثر بود، ALBERT با در نظر گرفتن ۴ درصد از داده‌های برچسب‌گذاری شده به ۸۳.۴ درصد دقت دست یافت و از LSTM و SVM نظارت شده بهتر عمل کرد. تابع هزینه تفاوت بین رمزگذار تمیز و رمزگذار نویز را کاهش داد.

تنظیم دقیق مدل زبانی از پیش آموزش‌دیده BERT برای طبقه‌بندی احساسات توسط Sun و همکاران به کار گرفته شد. ( ۲۰۱۹a ). پیش‌آموزش بیشتر درون وظیفه و درون دامنه، عملکرد طبقه‌بندی متن را افزایش داد و کار را با داده‌های کوچک بهبود بخشید. رویکرد پیشنهادی به جدیدترین هنر در هشت مجموعه داده طبقه‌بندی متن دست یافت. Li and Ye ( ۲۰۱۸ ) با رویکرد GAN و با استفاده از جاسازی کلمات عصبی برای نمایش متن، LSTM به عنوان تمایزگر از روش‌های پیشرفته رقیب بهتر عمل کرد. bi-GRU توسط Xiang و Yin ( ۲۰۲۱) پیاده سازی شد) و این روش با خطوط پایه نیمه نظارت شده مقایسه شد که نشان دهنده بهبود ۷٪ بود در حالی که برخی از خطوط پایه مانند Virtual Adversarial 2٪ بهبود یافتند. با این حال، مدل به دقت ۸۹.۰٪ در مقابل ۹۴٪ دقت از مدل Virtual Adversarial دست یافت. برای تولید متون متخاصم، ژانگ و همکاران. ( ۲۰۲۰ ) از CBOW استفاده کرد و bi-LSTM را به کار برد که از روش های مبتنی بر آموزش خصمانه، مالیات بر ارزش افزوده و خط پایه بدون اغتشاش بهتر عمل کرد. همراه با مدل زبان BERT و ANN، Li و Sethy ( ۲۰۲۰ ) نتایج قابل مقایسه با خط پایه نظارت شده داشتند.

جدول ۶ مجموعه داده های IMDB و بررسی فیلم (MR) با رویکرد SSL

برای مشاهده جدول ۶ اینجا کلیک کنید

ANN و Doc2Vec در رویکرد منیفولد توسط گوپتا و همکاران استفاده شد. ( ۲۰۱۸ ). این روش در یک تنظیم پیکره واحد و همچنین دو تنظیمات متقابل به دست آمده بود، به ویژه زمانی که بخش کوچکتری از آموزش برچسب گذاری شده بود. در دو تنظیمات متقابل، نظم‌دهی نیمه‌نظارت‌شده بهتر از آموزش تحت نظارت خط پایه بود. با استفاده از VAE و مکانیسم توجه در رویکرد مدل تولیدی، یو و همکاران. ( ۲۰۱۹ ) از روش های نیمه نظارت شده خط پایه بهتر عمل کرد، و این روش به دقت ۸۰.۷ درصد در برابر بهترین خط پایه Aux-LSTM (79.5٪) با ۱۰ هزار داده بدون برچسب دست یافت. Aux-LSTM با ۱k، ۲k و ۴k داده های بدون برچسب عملکرد بهتری داشت، اما CVAE-Attention با ۱۰k داده بدون برچسب بهترین عملکرد را به دست آورد.

پنج نویسنده باقی مانده از ۱۷ مقاله، الگوریتم هایی غیر از ANN را بررسی کردند. گانیز ( ۲۰۱۶ ) باλ�= ۱ به ۸۸.۰۰٪ دقت در مجموعه داده IMDB دست یافت که بیش از ۱۰٪ با نزدیکترین رقیب خود تفاوت داشت، زمانی که اندازه مجموعه داده آموزشی فقط ۱.۰٪ بود و اندازه داده بدون برچسب ۷۹.۰٪ بود. در مجموعه داده ۱۱۵۰haber، روش باλ = 1�=۱به دقت بیش از ۹۰.۰٪ با ۱٪ از داده ها به عنوان مجموعه آموزشی برچسب زده شده است. این روش از الگوریتم نیمه نظارت شده پایه در مجموعه داده WebKB4 باλ = 0.5�=۰.۵دستیابی به دقت حدود ۷۷.۰٪ با ۱.۰٪ به عنوان مجموعه آموزشی با برچسب. خان و همکاران ( ۲۰۱۷ ) هنگامی که روش انتخاب مدل معرفی شد، به طور میانگین ۲ تا ۳ درصد بهبود داشت. این رویکرد از پیشرفته ترین رویکردهای نیمه نظارت شده و نظارت شده در مجموعه داده کورنل MR بهتر عمل کرد.

۵.۵ مجموعه داده توییتر

جدول ۷ مجموعه داده های توییتر را در آزمایش ها نشان می دهد، که در آن ۹ مقاله از ۱۲ مقاله ANN را اعمال کردند. نامروتا سریدار و همکاران. ( ۲۰۲۰ ) توسط Word2Vec برای کل مجموعه داده توییتر جاسازی کلمه ایجاد کرد و یکی از یادگیرندگان مبتنی بر MLP بود. این روش دارای بهترین برچسب‌های کلی و برچسب‌های کلاس فردی در بین خطوط پایه بود. در Baecchi و همکاران. ( ۲۰۱۵ )، CBOW با نمونه گیری منفی و رگرسیون لجستیک دقت را در مقایسه با نمایش CBOW بهبود بخشید. Stanojevic و همکاران با استفاده از مدل زبان fastText و مدل های یادگیری عمیق. ( ۲۰۱۹ ) با گرفتن زمینه های اضافی از داده های بدون برچسب، از الگوریتم های جایگزین بهتر عمل کرد. این روش با مدل‌های طبقه‌بندی پیشرفته یکسان شد.

در Karisani و Karisani ( ۲۰۲۱ )، BERT و ANN بر الگوریتم‌های پایه در مجموعه داده ADR، مجموعه داده زلزله زمانی که داده‌ها با برچسب N = 500 و در مجموعه داده محصول غلبه می‌کنند. این رویکرد از طبقه‌بندی‌کننده‌های نیمه‌نظارت‌شده موجود در تنظیمات چندگانه بهتر عمل کرد. با Word2Vec، LSTM و CNN، حنفی و همکاران. ( ۲۰۱۸ ) با استفاده از یک گروه رای گیری ساده، دقت مدل های فردی را بیش از ۱٪ بهبود بخشید. این روش با ۱۷۰ هزار داده آموزشی، یعنی تنها با استفاده از ۱۰ درصد از مدل‌های پایه، به دقت نزدیک به نتایج پیشرفته دست یافت. GAN با یک LSTM مشترک پیاده سازی شده توسط نجاری و همکاران. ( ۲۰۲۲ ) نتایج مناسبی برای تشخیص ربات داشت. کی روش آبونیزیو و باربون جونیور ( ۲۰۲۰) از DistilGPT-2 به عنوان مولد، و DistilBERT به عنوان تمایزکننده برای تقویت مجموعه داده های رسانه های اجتماعی در دنیای واقعی با غلبه بر تکنیک های افزایش متن اخیر استفاده کرد.

سه نویسنده زیر از ANN استفاده نکرده اند. نگوین ( ۲۰۱۶ ) زمانی که تنها چند نمونه برچسب‌گذاری شده استفاده می‌شد، از تمام روش‌های پایه دیگر با عملکرد دقت بهتر عمل کرد. Ghosh و Desarkar ( ۲۰۲۰ ) به Macro-F1 61.18% در مقابل ۵۸.۶۸% از خط پایه دست یافتند، هر دو مدل با SVM در مجموعه داده FIRE16، و ۸۶.۶۰% در مقابل ۸۵.۲۳% خط پایه در مجموعه داده SMERP17 به دست آوردند. آزمایشات روی سه مجموعه داده مرتبط با فاجعه نشان داد که نتایج بهبود در عملکرد کلی نسبت به یک رویکرد نظارت شده استاندارد افزایش یافته است. در حسن و همکاران. ( ۲۰۲۰ )، هنگامی که کلاس های علائم و عوارض جانبی در یک کلاس واحد ترکیب شدند، امتیاز برای MedHelp و Twitter بیشتر بهبود یافت. بهبود Macro-F11و Micro-F11امتیاز مدل نیمه نظارت شده زمانی که از فرهنگ لغت علائم و عوارض استفاده نمی شد و اندازه آموزش کمتر از ۵۰ درصد بود حدود ۱% بود.

جدول ۷ مجموعه داده های توییتر با رویکرد SSL

برای مشاهده جدول ۷ اینجا کلیک کنید

۵.۶ مجموعه داده های آمازون، Yelp و TripAdvisor

جدول ۸ نتایج آزمایش‌ها با مجموعه داده‌های آمازون، Yelp و TripAdvisor را با رویکردهای SSL نشان می‌دهد. از ۲۲ مقاله، ۱۶ آزمایش با ANN در برخی از مراحل کار طبقه بندی انجام دادند. با رمزگذاری خودکار کانولوشنال-دکانولوشن، چاولا و همکاران. ( ۲۰۱۹ ) با ۱% داده‌های برچسب‌گذاری‌شده و پیشرفته‌ترین روش برای بازسازی متن در مجموعه داده بررسی هتل و همچنین داده‌های ایمیل Enron، از سطح پایه طبقه‌بندی احساسات در مجموعه داده Yelp بهتر عمل کرد. ویژگی های یادگیری مشترک، با پیش آموزش و زبان مربوط به داده ها، عملکرد مدل را برای پیش بینی اثر در مجموعه داده Enron-FFP بهبود بخشید. در Zaghdoudi و Glomann ( ۲۰۲۱ )، LSTM به دقت حدود ۸۷.۰٪ در طبقه بندی چند برچسبی دست یافت. ژانگ و همکاران (۲۰۲۱b ) علاوه بر طبقه بندی، BERT را برای جاسازی و GNN را با تجمع مبتنی بر توجه اعمال کرد. در مجموعه داده‌های دسته‌بندی محصول با ۶۸۳ دسته و تنها سه سند اولیه در هر دسته، دقتی را به دست آورد که تنها کمتر از ۲٪ از مدل BERT نظارت‌شده آموزش‌دیده با حدود ۵۰ هزار سند برچسب‌دار بود. با استفاده از Word2Vec، پارک و همکاران. ( ۲۰۱۹ ) در مقایسه با روش های بازنمایی سنتی در مجموعه داده های آمازون و Yelp، پیش بینی احساسات بهتری داشت.

با استفاده از GAN، LSTM به عنوان یک مولد، و CNN به عنوان یک تمایز، Shehnepoor و همکاران. ( ۲۰۲۲ ) از روش های پایه بهتر عمل کرد. آقاخانی و همکاران ( ۲۰۱۸ ) با Word2Vec و GAN، LSTM به عنوان یک مولد، و CNN به عنوان یک تمایز، همان عملکرد را از نظر دقت نشان دادند که رویکردهای پیشرفته‌ای که از یادگیری ماشین نظارت شده استفاده می‌کردند. Stanton و Irissappane ( ۲۰۱۹ ) از جاسازی کلمه تولید شده توسط ANN و RNN چند لایه با GRUها به عنوان سلول پایه برای نشان دادن مولد و RNN برای تشخیص دهنده استفاده کردند. آزمایش‌ها نشان داد که وقتی داده‌های برچسب‌گذاری‌شده محدود هستند، این روش از تکنیک‌های نظارت‌شده و نیمه‌نظارت‌شده پیشی گرفت. LSTM برای نشان دادن پیش‌بینی توالی و CNN برای استخراج ویژگی‌ها، Mathapati و همکاران. ( ۲۰۱۹) نشان داد که همکاری عمیق در رابطه با Naive Bayes، CNN یا LSTM دقت بهتری دارد. با استفاده از تعبیه کلمه ANN، عبدی و هاشمی ( ۲۰۲۱ ) در مقایسه با رویکردهای مدرن تطبیق دامنه بدون نظارت و نیمه نظارت به نتایج برتر دست یافتند.

مقالات باقی مانده از ANN در هیچ مرحله ای از طبقه بندی متن استفاده نکردند، برخی از آنها قبلاً نتایج خلاصه شده قبلی را داشتند. طبقه بندی احساسات با استفاده از اطلاعات بازبین، بر این اساس با Xu و Li ( 2017 ) بهبود یافت . در Deshmukh and Tripathy ( ۲۰۱۷ )، دقت به دست آمده با روش پایه ۷۸.۱۴٪ تا ۸۰.۰۴٪ بود، در حالی که دقت روش پیشنهادی از ۷۱.۶۵ تا ۹۶.۸۹٪ بود.

جدول ۸ مجموعه داده های آمازون، Yelp، و TripAdvisor بر اساس رویکرد SSL

برای مشاهده جدول ۸ اینجا کلیک کنید

۵.۷ مجموعه داده های علمی

جدول ۹ نتایج رویکردهای SSL را در مجموعه داده های علمی نشان می دهد. در رویکرد مبتنی بر نمودار و ANN، زو و همکاران ( ۲۰۲۱ ) از GNN برای یادگیری جنبه های مختلف ویژگی های جهانی از پیش آموزش دیده و ویژگی های خام نمودار استفاده کرد. این روش به نتایج پیشرفته SSL در هر دو نمودار ساده و نسبت داده شده دست یافت. با سازگاری برچسب GNN، Xu et al. ( ۲۰۲۰ ) از GNN های سنتی در طبقه بندی گره ها بهتر عمل کرد. وانگ و همکاران ( ۲۰۲۱ ) همراه با CNN و شاخه تعبیه گراف برای یادگیری ویژگی های جهانی از رویکردهای مقایسه ای در مجموعه داده های CiteSeer و Cora با بهبود دقت ۲.۴٪ و ۳.۹٪ بهتر عمل کردند. در PubMed، عملکرد مدل پیشنهادی تنها ۰.۷٪ کمتر از خط پایه بود. یانگ و همکاران (۲۰۲۱b ) از یک GCN چند لایه ساده شده استفاده کرد که در آن محاسبات اضافی با حذف غیرخطی‌ها و ادغام ماتریس‌های وزن بین لایه‌های معمولی گراف انجام می‌شد. این روش با سرعت اجرای پیچیدگی گراف ساده (SGC) مطابقت داشت و GCN و SGC را در پنج وظیفه پایین دستی بهتر انجام داد.

اضافه برازش Overfitting با افزایش ویژگی از لایه حذف توسط Hu و همکاران کاهش یافت. ( ۲۰۲۱ ) با CNN. علاوه بر این، این روش استحکام و عملکرد تعمیم GCN ها را به طور موثر بهبود بخشید، و عملکرد را در سناریویی که برچسب های کمیاب برای آموزش در دسترس بود، بهبود بخشید. الگوریتم های GCNSVAT و GCNDVAT توسط Sun و همکاران به کار گرفته شد. ( ۲۰۱۹b )، و این روش اثربخشی را تحت اندازه‌های آموزشی مختلف در مجموعه داده‌های علمی نشان داد. هوانگ و همکاران ( ۲۰۲۱ ) همراه با GAT از معیارها پیشی گرفت و به پیشرفته ترین عملکرد در Cora، CiteSeer و PubMed دست یافت. تعبیه شبکه توجه Attention network embedding توسط دو لایه bi-GRU توسط لیو و همکاران اعمال شد. ( ۲۰۱۸a) که از روش های پایه بهتر عمل کرد. آکوجوبی و همکاران ( ۲۰۲۰ ) از یک استراتژی توجه مکرر recurrent-attention strategy استفاده کرد، این روش برای کار در هر دو تنظیمات انتقالی و استقرایی انعطاف پذیر بود. در تنظیمات transductive، مدل عملکرد مشابهی را در مقایسه با GCN از خود نشان داد، اما در همه تنظیمات از همه روش‌های پایه دیگر بهتر عمل کرد. آزمایش‌های گسترده در چهار مجموعه داده نشان داد که روش پیشنهادی از چندین روش پیشرفته بهتر عمل می‌کند. آکوجوبی و همکاران ( ۲۰۱۸ ) ANN را اعمال کرد و بر خطوط پایه غلبه کرد. Anokye and Kahanda ( ۲۰۲۱) با استفاده از MLP، و bi-LSTM به عملکرد پیشرفته‌تری برای طبقه‌بندی اعتبار یک هم‌ذکر در سطح جمله از ادبیات زیست‌پزشکی دست یافتند که بر اساس یادگیری ماشین سنتی با F-max 81.0% عملکرد بهتری داشت.

۵ مقاله از ۱۸ مقاله از روش‌های مختلفی استفاده کردند. Guo ( ۲۰۱۸ ) پس از ۴۰ تکرار با مشاهده ۱ به ضریب خطای حدود ۸% و پس از ۴۵ تکرار با نمای ۲ در مجموعه داده‌های دوره‌ها به ۱۰% رسید و پس از ۳۰ تکرار با مشاهده ۱ و ۵% به ضریب خطای حدود ۹% دست یافت. پس از ۳۰ تکرار با View 2 در مجموعه تبلیغات. نتایج نشان داد که رویکرد پیشنهادی از آموزش اولیه و آموزش مشترک DCPE در مجموعه داده‌های دوره‌ها و تبلیغات بهتر عمل می‌کند. مقالات باقی مانده قبلا شرح داده شده است.

جدول ۹ مجموعه داده های علمی با رویکرد SSL

برای مشاهده جدول ۹ اینجا کلیک کنید

۵.۸ مجموعه داده های پزشکی

نتایج حاصل از مجموعه داده های پزشکی علاوه بر رویکردهای SSL در جدول ۱۰ ارائه شده است . دو نویسنده GNN را پیاده سازی کردند. بدون شبکه عصبی مصنوعی، سلیمانی و میلر ( ۲۰۱۶b ) به عملکرد برچسب‌گذاری بهتری نسبت به روش‌های پایه دست یافتند و کیفیت موضوعات (احتمال بالاتر داده‌های دیده نشده) را حتی در مقایسه با سایر روش‌های نیمه نظارت شده مانند LDA افزایش دادند. علاوه بر این، رویکرد پیشنهادی از چندین روش پایه در مورد برچسب‌گذاری اسناد و جملات و همچنین احتمال ورود به سیستم مجموعه آزمون بهتر عمل کرد.

جدول ۱۰ مجموعه داده های پزشکی با رویکرد SSL

برای مشاهده جدول ۱۰ اینجا کلیک کنید

۵.۹ AG News، DBpedia، مجموعه داده های WebKB

نتایج مجموعه داده های AG News، DBpedia و WebKB در جدول ۱۱ ، ۷ از ۱۴ مقاله پیاده سازی شده ANN ارائه شده است. در Xie et al. ( ۲۰۱۹ )، رمزگذار و طبقه‌بندی‌کننده پیاده‌سازی شده شبکه‌های LSTM وانیلی بودند و رمزگشا LSTM شرطی را اعمال کرد. بدون ANN، وو و همکاران. ( ۲۰۱۹ ) با افزایش نسبت تعداد نمونه های آموزشی برچسب دار به تعداد کل نمونه های آموزشی از ۱۰ به ۹۰ درصد، طبقه بندی صفحات وب را با خطوط پایه انجام داد. آزمایش‌ها با مجموعه داده‌های صفحات وب که به طور گسترده مورد استفاده قرار می‌گیرند نشان داد که رویکرد پیشنهادی به طور قابل‌توجهی بهتر از یادگیری ویژگی‌های چند نمایش نیمه نظارت شده نیمه‌نظارت است.

جدول ۱۱ AG News، DBpedia، مجموعه داده های WebKB با رویکرد SSL

برای مشاهده جدول ۱۱ اینجا کلیک کنید

۵.۱۰ مجموعه داده TREC

جدول ۱۲ مجموعه داده TREC و رویکردهای SSL را نشان می دهد که در آن دو مقاله از شش مقاله از ANN استفاده می کردند. با بازنمایی عصبی عمیق، لیو و همکاران. ( ۲۰۱۸a ) از الگوریتم های MPC-KMeans و K-Means معمولی بهتر عمل کرد. همراه با مدل زبان BERT و تنها ۶۰ نمونه برچسب، Li و Sethy ( ۲۰۲۰ ) نتیجه بهتری نسبت به ULMFiT نیمه نظارت شده با ۱۰۰ نمونه برچسب داشتند.

جدول ۱۲ مجموعه داده TREC با رویکرد SSL

برای مشاهده جدول ۱۲ اینجا کلیک کنید

۵.۱۱ مجموعه داده های چینی و ویتنامی

جدول ۱۳ مجموعه داده های چینی، ویتنامی و رویکردهای SSL را نشان می دهد. جی و همکاران ( ۲۰۲۱ ) GNN و انواعی از GNN، به عنوان مثال GCN نمونه باینری و نمونه باینری GAT را اعمال کرد. روش پیشنهادی نسبت به اکثر روش‌های طبقه‌بندی متن در جریان تشخیص رویداد ترافیک اجتماعی برتر بود. همراه با DBN، سونگ و همکاران. ( ۲۰۱۶ ) ویژگی های انتزاعی را استخراج کرد که منجر به بهبود عملکرد طبقه بندی کننده شد که بهتر از الگوریتم SVM بود. مدل زبان BERT و یادگیری عمیق توسط لیو و همکاران به کار گرفته شد. ( ۲۰۲۱ ). با ۷۰۰ نمونه برچسب‌گذاری شده، BERT به ۸۷.۵٪ و رویکرد پیشنهادی ۹۲.۱٪ دقت در مجموعه داده Weibo را به دست آورد.

۱۲ مقاله باقیمانده ANN را اعمال نکردند. گوو و همکاران ( ۲۰۱۶ ) به بهبود دقت ۲.۸٪ و کلی ۵.۲٪ دست یافت و در تشخیص پست های آنفولانزای معتبر در Sina Weibo از خطوط پایه بهتر عمل کرد. ژانگ و همکاران ( ۲۰۱۹a ) به ترتیب در مجموعه داده‌های PKU و FD به دقت طبقه‌بندی ۹۶.۷% و ۹۸.۱% دست یافت و از بهترین الگوریتم پایه عملکرد بهتری داشت. با استفاده از اخبار سوهو و متون از مجموعه داده های دانشگاه فودان، ژو و همکاران. ( ۲۰۱۸ ) با ۳۰ درصد بسط نمونه از روش پایه بهتر عمل کرد. بر اساس گسترش ۱۰۰ نمونه، WSE با Naive Bayes بهترین نتیجه را با اندازه گیری F 72.5٪ تقریباً در مجموعه داده Sohu به دست آورد. WSE با SVM بهترین نتیجه را در متن از دانشگاه فودان با F11-اندازه ۷۵% تقریبا. در ها و همکاران ( ۲۰۱۸b )، زمانی که اندازه مجموعه داده فعلی کوچک بود، بهبود حدود ۲٪ بود. رویکرد پیشنهادی نسبت به روش پایه برای همه گروه‌های آزمایش با حدود ۱ درصد بهبود عملکرد بهتری داشت. ویژگی های ساخته شده از این رویکرد، پشتیبانی از طبقه بندی بود و با ۲۰ موضوع، بهترین نتیجه ۷۸.۷۷٪ را به دست آورد.

جدول ۱۳ مجموعه داده های چینی -zh و ویتنامی -vi با رویکرد SSL

برای مشاهده جدول ۱۳ اینجا کلیک کنید

در ها و همکاران ( ۲۰۱۸a )، آزمایش‌ها در دو مجموعه داده، بررسی‌های ویتنامی و ایمیل‌های انگلیسی Enron، اثرات مثبتی را نشان دادند. دقت طبقه‌بندی‌کننده‌ها برای تقریباً همه مجموعه‌های داده آزمایش‌شده توسط Nguyen Nhat Dang و Duong ( ۲۰۱۹ ) بهبود یافت. با اف۱۱-امتیاز ۸۶.۲% و تکنیک های افزایش آسان داده ها، Duong و Anh ( ۲۰۲۱ ) قطبیت احساسات ویتنامی را بهبود بخشید، نتیجه به دست آمد F11-امتیاز ۸۵.۲%. یین و همکاران ( ۲۰۱۸ ) در مقایسه با الگوریتم kNN و SLAS در پنج جنبه، سیاست، اقتصاد، آموزش، سرگرمی و علم و فناوری به نتایج بهتری دست یافت. خو و همکاران ( ۲۰۱۷ ) بیش از ۹۵ درصد دقت را تا ۱۰ درصد از اسناد برچسب دار به دست آورد. TSVM با ۹۶.۳٪ دقت و DA (96.6٪) بهترین نتایج را در Netease Dataset 1 در مقابل ۸۶.۸٪ از SVM پایه به دست آوردند. در Netease Dataset 2، TSVM (95.8٪) و DA (96.7٪) در مقابل ۹۲.۳٪ از SVM پایه داشت. در مجموعه داده Sogou 1، TSVM (92.6٪) و DA (94.6٪) در مقایسه با ۹۴.۷٪ از SVM پایه داشت. در نهایت، TSVM (96.5٪)، و DA (96.4٪) در Sogou Dataset 2 در مقابل ۹۳.۲٪ از SVM پایه بود.

بخش ۶ مزایا و محدودیت های آثار

مزایا و محدودیت های هر دسته از رویکردهای SSL به شرح زیر است.

GNN به حجم عظیمی از داده‌های برچسب‌گذاری‌شده برای یادگیری نمایش‌های موثر نمودار برای پشتیبانی از شباهت نمودار برای پیش‌بینی نیاز دارد. بر این اساس، با Xu و همکاران. ( ۲۰۲۰ )، GCN در جمع‌آوری اطلاعات از گره‌ها با ویژگی‌ها یا ویژگی‌های مشابه محدود است، به این دلیل که ماتریس تجمع منحصراً به ساختار گراف بستگی دارد. علیرغم نتایج عالی با GAT، ماتریس تجمع بر اساس گره‌های مجاور منحصراً و برودی و همکاران است. ( ۲۰۲۱ ) نشان داد که توجه از GAT محدود است، یعنی توجه ایستا است.

در رویکرد خوشه-سپس-برچسب، فضای ویژگی کم‌بعد و متراکم قالب مناسبی برای بهبود الگوریتم‌های خوشه‌بندی است، زیرا ابعاد بالا و پراکندگی در خوشه‌بندی اسناد، عملکرد طبقه‌بندی متن را کاهش می‌دهد. در یک سناریوی متن کوتاه با در نظر گرفتن طول سند، مشکل بیشتر برجسته است، ویژگی‌ها ابعاد بالا و بسیار پراکنده هستند. علاوه بر این، مشکل دیگر مربوط به اطلاعات جانبی است، کیفیت محدودیت‌ها در الگوریتم‌های خوشه‌بندی نیمه نظارت شده اساسی هستند.

در رویکرد استخراج ویژگی، جاسازی‌ها از نواحی متنی داده‌های بدون برچسب آموخته می‌شوند و سپس یک شبکه عصبی را به قسمت نظارت شده اعمال می‌کنند. بخش بدون نظارت رویکرد استخراج ویژگی از ویژگی‌های متنی یا استاتیک بهره می‌برد و آنها را در یک ANN نظارت شده ادغام می‌کند. این رویکرد از یک مدل زبان از پیش آموزش‌دیده (Word2Vec، BERT، در میان دیگران) یا شبکه‌های عصبی مصنوعی مانند CNN و DBN با استفاده از لایه‌های جاسازی شده برای مدیریت ورودی متن استفاده کرده است. با این حال، تعبیه‌های Word2Vec و ایستا در رابطه با ماندگاری معنای کامل اسناد محدود می‌شوند، عناصری با همان معنی را در جملات مختلف تشخیص نمی‌دهند و چند معنایی را در نظر نمی‌گیرند. علاوه بر این، وابستگی به یک مجموعه عظیم وجود دارد و آنها شامل کلمات خارج از واژگان مجموعه آموزشی نیستند.۲۰۱۹ ). با پیدایش بازنمایی متن متنی و مدل‌های زبانی مبتنی بر ترانسفورماتور، واژه‌ها شروع به تفسیر از متن خود کردند. با این حال، ترانسفورماتور و مکانیسم توجه برای ردیابی دنباله های طولانی با مشکل مواجه هستند و مقادیر زیاد (میلیون ها یا میلیاردها) پارامترهای استفاده شده و/یا اندازه بدنه آموزش را گران و کند می کند.

رویکرد خودآموزی به دنبال انتخاب نمونه هایی است که با اطمینان پیش بینی شده اند تا مجموعه آموزشی را تقویت کنند. با این حال، پارامتر آستانه همیشه برای انتخاب‌کننده نمونه مناسب نیست، و بدون انتخاب شبه برچسب‌های مطمئن، خطاها بر طبقه‌بندی کننده تأثیر می‌گذارند تا از نویز یاد بگیرد، یعنی خطاها دوباره خود را تقویت می‌کنند. محدودیت دیگر، داده های کمیاب برچسب گذاری شده است. در رویکرد یادگیری انتقال، یک مشکل در تطبیق دامنه، اختلاف بین نمونه‌های منبع برچسب‌گذاری شده و نمونه‌های هدف است، استراتژی‌های شبه برچسب به نمونه‌های هدف بدون برچسب راهی برای رسیدگی به این مشکل است. با این حال، برچسب های کاذب در معرض اطلاعات پر سر و صدا هستند.

رویکرد هم‌آموزشی دو طبقه‌بندی کننده را بر روی داده‌های آموزشی مشابه با دیدگاه‌های متفاوت برای هر طبقه‌بندی‌کننده، بر اساس این فرض که داده‌های آموزشی دارای دو نمای مستقل هستند، آموزش می‌دهد. دیدگاه‌ها با روش‌های بازنمایی متن محدود می‌شوند و بازنمایی متن متنی برای ایجاد دیدگاه‌های مستقل رویکرد آموزشی یکپارچه هنوز چندان مورد بررسی قرار نگرفته است (Graef 2021) .، و همچنین شبکه های عمیق به عنوان الگوریتم یادگیری ضروری. علاوه بر این، زمانی که نمونه‌های بدون برچسب نامطمئن به آموزش برچسب‌دار اضافه می‌شوند، آموزش هم‌زمان نیز همین مشکل را در رویکرد خودآموزی دارد. در رویکرد تقویت، تابع شباهت زوجی به داده‌های برچسب‌دار و بدون برچسب اعمال می‌شود و بنابراین شبه برچسب‌های قابل اعتمادتری را به نمونه‌های بدون برچسب اختصاص می‌دهد. با این حال، اندازه گیری شباهت نامناسب عملکرد الگوریتم را به خطر می اندازد (Tanha ۲۰۱۹ ).

در رابطه با رویکرد مبتنی بر آشفتگی، تعبیه کلمات پیوسته در آموزش خصمانه برای اجازه دادن به آشفتگی های بی نهایت کوچک به دلیل ماهیت گسسته متن و نمایش آن در بردارهای تک بعدی با ابعاد بالا استفاده می شود. اغتشاش در متون دشوارتر از حوزه تصویر است که فضای پیوسته است. اغتشاش در متون به دلیل مشکل مثال‌های خصمانه غیرقابل تفسیر، کیفیت مثال‌ها را تحت تأثیر قرار می‌دهد. مدل ها به گونه ای آموزش داده می شوند که با مثال هایی بر اساس جهت مخالف، یعنی جهتی که مدل آسیب پذیرتر است، صاف باشند. در حمله جعبه سفید، تولید دشمنان یک روش مبتنی بر گرادیان بر روی جاسازی کلمات است، سپس کیفیت دشمنان با معیارهای فاصله مرتبط است.

در رویکرد مدل مولد، GAN ها بسیار کاربردی بود (۳۶.۳۶%). GAN ها مشکلاتی دارند که به طور کامل حل نشده اند، به عنوان مثال، کیفیت متن، فروپاشی حالت، ناپایداری آموزش، و ناپدید شدن گرادیان. فروپاشی جزئی شایع‌تر از فروپاشی حالت است، زمانی اتفاق می‌افتد که ژنراتور نمونه‌های واقعی و متنوعی تولید کند، اما تنوع بسیار کمتر از توزیع واقعی داده‌ها است. GAN ها با همگرایی مشکل دارند، به روز رسانی پارامترها توابع هزینه تفکیک کننده و ژنراتور را تغییر می دهد و ممکن است شیب صعود برای یک بازیکن و نزول گرادیان برای بازیکن دیگر رخ دهد. برای برخی از بازی ها، گرادیان ها همگرا می شوند و تعادل حاصل می شود. با این حال، طبق بازی، همیشه نمی توان به تعادل رسید.

مشاهده کردیم که ۷۸ (۴۹.۶۸٪) مقاله در زمینه متون کوتاه از یک شبکه اجتماعی، بررسی محصول و خدمات، و بحث در انجمن برای بررسی وظایفی مانند تجزیه و تحلیل احساسات، تشخیص رویدادهای ظهور، تشخیص اخبار جعلی و طبقه بندی سؤال منتشر شد. یک متن کوتاه بسیار پراکنده است و ساختار زبانی عجیبی دارد، که آن را همچنان یک مشکل چالش برانگیز برای یک شبکه عصبی عمیق است که عملکرد آن از پیکره ساختاریافته می‌آید. اگر ساختار مجموعه ویژگی به طور کامل متن را نشان ندهد، در نتیجه وظایف تجزیه و تحلیل احساسات تحت تأثیر قرار می گیرند. سپس، پراکندگی ابعادی بالا از ویژگی های متون کوتاه را می توان بیشتر مورد بررسی قرار داد.

یکی دیگر از محدودیت های مشاهده شده در این منطقه مربوط به استفاده از زبان های متفاوت از انگلیسی است. تنها ۲۳ درصد از آثار به بررسی زبان‌های دیگر مانند چینی، ویتنامی، ایتالیایی، پرتغالی و غیره پرداخته‌اند. به این ترتیب، یافتن منابع برای زبان‌های دیگر، مانند مدل‌های زبان از پیش آموزش‌دیده‌شده در زبان‌های مختلف، مجموعه‌ها و غیره دشوار است. برای این، تعداد کمی از آثاری است که طبقه بندی چند زبانه را بررسی می کنند (حدود ۱٪). علاوه بر این، زبان های شرقی با زبان های غربی بسیار متفاوت هستند، به این ترتیب، مدل های زبانی واقعی نمی توانند برای این زبان ها موثر باشند.

درصد داده های برچسب گذاری شده بسیار متفاوت است، از کمتر از ۱ تا ۵۰%. حتی در همان مجموعه داده، توافق نظری در مورد استفاده از درصد ثابتی از داده‌های برچسب‌گذاری شده وجود ندارد که مقایسه کارها را دشوار می‌کند. این نیز با معیارهای ارزیابی اتفاق می‌افتد، فقط دقت بیشترین استفاده را دارد و دقت و یادآوری تقریباً هیچ کاغذی آنها را محاسبه نمی‌کند. این یک محدودیت در این زمینه است زیرا بسیاری از مقالات طبقه بندی چند کلاسه را بررسی می کنند و دقت اندازه گیری مشخص شده در این مورد نیست.

بخش ۷ روند تحقیق فعلی در طبقه بندی متن SSL

ما شش روند اصلی آینده را شناسایی کردیم: مدل زبانی ANN برای نمایش متن، الگوریتم‌هایی برای بهینه‌سازی فراپارامتر hyper-parameter optimization، هوش مصنوعی قابل توضیح (explainable artificial intelligence=XAI) (مجموعه روش‌هایی که به کاربران امکان می‌دهد نتایج و خروجی ایجاد شده توسط الگوریتم‌های یادگیری ماشین را بهتر درک کنند)، روش منظم‌سازی regularization ، توسعه منابع برای زبان های متفاوت از انگلیسی و تجزیه و تحلیل عملکرد تخریب degradation در SSL متناسب با نمونه های بدون برچسب.

با در نظر گرفتن تکنیک های به کار رفته برای نمایش متن، رشد مدل های ANN برای تولید جاسازی های کلمه بوده است. به خصوص پس از سال ۲۰۱۹، تعداد مقالات ANN از الگوریتم های سنتی پیشی گرفت، همانطور که در شکل ۱۰ نشان داده شده است . از زمان Word2Vec، مدل های مختلفی مانند ELMo، BERT، AlBERT، GPT-2، GPT-3 ارائه شده است. بر این اساس، در شکل ۸ ، Word2Vec و پسوندهای آن از سال ۲۰۱۶ رشد کرده بودند، در همین حال، از سال ۲۰۱۹ عملاً تثبیت شدند. مدل BERT از پیش آموزش دیده حساس به زمینه در سال ۲۰۱۹ و ELMo در سال ۲۰۲۰ ظاهر شد که در مجموع ۱۶ مقاله را شامل می شود. با این حال، آزمایش‌ها با جاسازی کلمه word embedding به عنوان بخشی یا لایه ای از مدل یادگیری عمیق، بیشترین کاربرد را در مقایسه با مدل زبان جاسازی کلمه داشتند.

ما تجسم‌سازی‌ها و تحلیل‌هایی را ارائه می‌کنیم که نشان می‌دهد جاسازی‌های کلمات آموخته‌شده از نظر کیفیت بهبود یافته است و مدل کمتر مستعد برازش بیش از حد است. تمرکز زیادی روی ANN برای نمایش متن وجود داشته است و یک روند فعلی است. مدل‌ها می‌توانند اطلاعات معنایی و نحوی را در دنباله‌های محلی کلمات متوالی ضبط کنند. با این حال، آنها ممکن است همزمانی جهانی کلمات را درک نکنند. رویکردهای جدید با استفاده از GNN می تواند بر برخی از این مشکلات غلبه کند و می تواند زمینه جدیدی برای بررسی باشد. این مدل‌ها می‌توانند با گرفتن ویژگی‌های متنی، معنایی و نحوی از متون به دقت بالایی منجر شوند. با این حال، لازم است محدودیت GNN ها در ادغام اطلاعات از گره ها با ویژگی های مشابه در نظر گرفته شود زیرا ماتریس مجاورت منحصراً به ساختار گراف بستگی دارد. 

GNN با مکانیزم توجه برای ساخت یک ماتریس تجمع بر اساس اطلاعات جاسازی شده استفاده شده است. این روش می تواند از بهبود مدل زبان بهره مند شود و می تواند روابط بهتری را بین گره ها در ساختار گراف ایجاد کند. با این وجود، تحقیقات بیشتری برای فراتر رفتن از گره های همسایه در تشکیل ماتریس مجاورت ضروری است. علاوه بر این، GNN ها از نظر محاسباتی برای آموزش گران هستند و به مجموعه های بزرگی نیاز دارند.

با توجه به ماهیت گسسته داده‌های متنی، اغتشاش‌ها در جاسازی‌های کلمه پیوسته اعمال می‌شوند که باعث عدم تفسیرپذیری می‌شوند. بنابراین، در این مورد، آموزش خصمانه به عنوان یک روش منظم سازی اعمال می شود. مالیات بر ارزش افزوده توسعه آموزش خصمانه برای طبقه بندی متن نیمه نظارت شده است، مشکلات مربوط به مالیات بر ارزش افزوده توسط لی و کیو ( ۲۰۲۰ ) بررسی شد و نتایج بهبود را نشان داد. با این حال، مالیات بر ارزش افزوده زمینه‌ای است که می‌توان آن را با توجه به آشفتگی متنی در متون و روش مبتنی بر گرادیان بررسی کرد.

آموزش خصومت‌آمیز، GAN‌ها و تعبیه‌های متنی را می‌توان در حوزه طبقه‌بندی متن نیمه‌نظارت‌شده با هم ترکیب کرد و مورد بهره‌برداری قرار داد. GAN ها از مشکل بی ثباتی رنج می برند، و تحقیقات به تلاش هایی برای تثبیت GAN ها نیاز داشته است، از جمله GAN ها و آموزش خصمانه مرتبط برای بهبود استحکام تمایزگر و تثبیت آموزشی GAN های اعمال شده در مجموعه داده های تصویر (Sajeeda and Hossain 2022 ) . با این حال، ما روش های ترکیبی را در یک حوزه طبقه بندی متن نیمه نظارت شده پیدا نکردیم. علاوه بر این، مدل‌های زبانی از پیش آموزش‌دیده‌شده برای دامنه خاص می‌تواند نسبت به حوزه عمومی بهبود یابد. خانواده‌های BERT، ELECTRA و GPT در یک دامنه عمومی و خاص می‌توانند همراه با آموزش خصمانه و GAN مورد بررسی قرار گیرند.

تعداد کمی از مقالات مشکل عملکرد تخریب را در رابطه با داده های بدون برچسب بررسی کردند. خودآموزی از مشکل رانش معنایی رنج می‌برد، کاریسانی و کاریسانی ( ۲۰۲۱ ) از آموزش دو مرحله‌ای برای مقابله با این مشکل استفاده کردند و نشان دادند که در حالی که تعداد نمونه‌های بدون برچسب رشد می‌کرد، عملکرد افت نکرد. Altınel and Ganiz ( ۲۰۱۶ ) و Altnel et al. ( ۲۰۱۷ ) از نمونه های بدون برچسب استفاده کرد، با این حال، تجزیه و تحلیل در رابطه با رشد نمونه های برچسب دار و کاهش نمونه های بدون برچسب در مجموعه داده های مختلف عملکرد بهتری را نشان داد. استفاده از GAN برای تشخیص هرزنامه نظر، Stanton و Irissappane ( ۲۰۱۹هنگامی که تعداد نمونه های بدون برچسب افزایش یافت، عملکرد کمی کاهش یافت. با این حال، هنوز فضا برای بررسی کاهش عملکرد بالقوه هنگام در نظر گرفتن داده‌های بدون برچسب وجود دارد.

موضوعات دیگری که در طبقه بندی متن نیمه نظارت شده نیز به بررسی بیشتری نیاز دارند، الگوریتم های بهینه سازی فراپارامتر و XAI هستند. ما متوجه شکافی در مطالعات مربوط به تنظیم خودکار فراپارامتر و قابلیت تفسیر برای تشخیص رفتار مدل‌ها شدیم. علاقه فزاینده ای به توضیح پذیری در برخی از حوزه ها، مانند تشخیص پزشکی یا حوزه های قانونی وجود دارد. اگرچه مدل‌هایی برای یادگیری ماشینی قابل توضیح برای مدل‌های آموزش‌دیده در متن وجود دارد، ما آثار کمی را می‌یابیم که درک مفهومی تولید جاسازی و مدل‌های SSL یا کاوش IA قابل توضیح برای طبقه‌بندی متن را بررسی می‌کنند.

علاوه بر این، راه طولانی پیش رو مستلزم کاوش در زبان های جدید و توسعه منابع برای زبان های متفاوت از انگلیسی است. رویکردهای پژوهشی میان رشته‌ای که شامل برنامه‌های کاربردی در زمینه‌های مختلف است احتمالاً نیز افزایش خواهد یافت.

بخش ۸ نتیجه گیری

طبقه‌بندی متن نیمه‌نظارت‌شده به دلیل توانایی آن در کاهش هزینه‌های حاشیه‌نویسی و دستیابی به نتایج رقابتی، اهمیت بیشتری پیدا می‌کند. این نظرسنجی با انتخاب ۱۵۷ مقاله از سال ۲۰۱۷ تا ۲۰۲۲ شکاف را در این موضوع پر کرد. ما الگوریتم‌ها و نتایج طبقه‌بندی اصلی، مجموعه داده‌ها، رویکردهای SSL و همچنین محدودیت‌های آنها را ارائه کردیم.

این مطالعه تنها بر تکنیک‌های مبتنی بر SSL برای طبقه‌بندی متن تمرکز می‌کند و به رویکردهای نظارت‌شده و بدون نظارت نمی‌پردازد. از مقالات بازیابی شده، نشان دادن یک طبقه بندی خاص برای یک مشکل خاص غیر عملی است. با این حال، تکنیک‌های مختلف طبقه‌بندی متن در کاربردهای مختلف شناسایی شده‌اند و اطلاعات ارائه‌شده در این مطالعه می‌تواند به راهنمایی در انتخاب بهترین رویکردها کمک کند.

این بررسی همچنین به انتشار مجموعه داده های مورد استفاده در حوزه متن کاوی SSL کمک می کند و در جداول ۳ تا ۱۳ تمام مجموعه داده های ذکر شده در مقالات را به همراه برخی اطلاعات مربوط به رویکرد و نتایج به دست آمده توسط کارها ارائه می دهد. به‌ویژه در جدول ۱۳ ، مجموعه داده‌هایی را به زبان‌هایی غیر از انگلیسی ارائه می‌کنیم تا محققان بیشتری را برای استفاده از آنها تشویق کنیم.

در نهایت، ما همچنین بسیاری از روندهای تحقیقاتی را ارائه می دهیم که می تواند توسط محققان و متخصصان در این منطقه مورد توجه قرار گیرد.

یادداشت

  1. کتابخانه دیجیتال ACM: http://portal.acm.org/ .
  2. IEEE Xplore: http://ieeexplore.ieee.org/.
  3. Science Direct: http://www.sciencedirect.com/ .
  4. https://link.springer.com/ .

منابع

  • Abdali S, Shah N, Papalexakis E (2021) تشخیص چند جنبه ای نیمه نظارت شده اطلاعات غلط با استفاده از تجزیه مشترک سلسله مراتبی. در: یادگیری ماشین و کشف دانش در پایگاه های داده علم داده کاربردی و آهنگ آزمایشی. ECML PKDD 2020، صفحات ۴۰۶-۴۲۲. شابک ۹۷۸-۳-۰۳۰-۶۷۶۶۹-۸
  • عبدی ل، هاشمی س (۲۰۲۱) انطباق دامنه باینری با حداکثرسازی استقلال. Int J Mach Learn Cybern 12:09Google Scholar 
  • Abonizio QH, Junior BS (2020) Pre-trained data augmentation for text classification. In: Intelligent systems, 2020. Springer, pp 551–۵۶۵. ISBN 978-3-030-61377-8
  • Agarwal R (2021) طبقه بندی اسناد مبتنی بر عبارات از LDA سلسله مراتبی نیمه نظارت شده. در: ۲۰۲۱ دومین کنفرانس بین المللی محاسبات، اتوماسیون و مدیریت دانش (ICCAKM)، ۲۰۲۱، صفحات ۳۳۲-۳۳۷
  • آقاخانی ح، ماچیری ا، نیلی زاده س، کروگل سی، ویگنا جی (۲۰۱۸) تشخیص بررسی های فریبنده با استفاده از شبکه های متخاصم مولد. در: ۲۰۱۸ IEEE امنیت و کارگاه های حریم خصوصی (SPW)، ۲۰۱۸، صفحات ۸۹-۹۵
  • Agibetov A, Blagec K, Xu H, Samwald M (2018) مدل های تعبیه عصبی سریع و مقیاس پذیر برای طبقه بندی جملات زیست پزشکی. BMC Bioinform 19:541Google Scholar 
  • Akujuobi U, Sun K, Zhang X (2018) استخراج مجموعه داده های محبوب تاپ از طریق یک مدل مولد عمیق. در: کنفرانس بین المللی IEEE 2018 در مورد داده های بزرگ (Big Data)، ۲۰۱۸، صفحات ۵۸۴-۵۹۳
  • Akujuobi U، Zhang Q، Yufei H، Zhang X (2020) پیاده روی توجه مکرر برای طبقه بندی نیمه نظارت شده. در: مجموعه مقالات سیزدهمین کنفرانس بین المللی جستجوی وب و داده کاوی، WSDM 20، ۲۰۲۰، صفحات ۱۶-۲۴. شابک ۹۷۸۱۴۵۰۳۶۸۲۲۳
  • Alam F, Joty S, Imran M (2018) یادگیری نیمه نظارتی مبتنی بر نمودار با شبکه‌های عصبی کانولوشن برای طبقه‌بندی توییت‌های مرتبط با بحران. در: دوازدهمین کنفرانس بین المللی AAAI در وب و رسانه های اجتماعی، ۲۰۱۸
  • Alnashwan R، Sorensen H، O’Riordan A (2019) طبقه‌بندی گفتمان پزشکی آنلاین با آموزش مشترک اصلاح شده. در: ۲۰۱۹ پنجمین کنفرانس بین المللی IEEE در مورد خدمات و برنامه های کاربردی محاسبات داده های بزرگ (BigDataService)، ۲۰۱۹، صفحات ۱۳۱-۱۳۷
  • Altınel B, Ganiz M (2016) یک الگوریتم ترکیبی نیمه نظارتی جدید برای طبقه بندی متن با معناشناسی مبتنی بر کلاس. سیستم مبتنی بر دانش ۱۰۸:۰۶Google Scholar 
  • Altnel B, Ganiz MC, Diri B (2017) Instance labeling in semi-supervised learning with meaning values of words. Eng Appl Artif Intell 62(C):152–۱۶۳. ISSN 0952-1976
  • Anokye F، Kahanda I (2021) BioSGAN: طبقه بندی مشترک فنوتیپ پروتئین با استفاده از شبکه های متخاصم مولد نیمه نظارت شده. در: ۲۰۲۱ IEEE سی و چهارمین سمپوزیوم بین المللی سیستم های پزشکی مبتنی بر کامپیوتر (CBMS)، ۲۰۲۱، صفحات ۴۶۸-۴۷۳
  • Baecchi C، Uricchio T، Bertini M، Del Bimbo A (2015) یک رویکرد یادگیری ویژگی چندوجهی برای تجزیه و تحلیل احساسات چند رسانه ای شبکه اجتماعی. Multimed Tools Appl 75:05Google Scholar 
  • Banerjee D، Prabhat G، Bhowal R (2018) iCASSTLE: الگوریتم طبقه بندی نامتعادل برای یادگیری متن نیمه نظارت شده. در: ۲۰۱۸ هفدهمین کنفرانس بین المللی IEEE در مورد یادگیری ماشین و برنامه های کاربردی (ICMLA)، ۲۰۱۸، صفحات ۱۰۱۲-۱۰۱۶
  • بنیطالبی-دهکردی ع، گوجار پی، ژانگ ای (۲۰۲۲) AuxMix: یادگیری نیمه نظارتی با داده های بدون برچسب نامحدود. arxiv:2206.06959
  • Barman D، Chowdhury N (2018) یک رویکرد جدید نیمه نظارتی برای طبقه بندی متن. Int J Inf Technol 12:1-11Google Scholar 
  • Benamira A, Devillers B, Lesot E, Ray AK, Saadi M, Malliaros FD (2019) شبکه های عصبی نیمه نظارت شده و گراف برای تشخیص اخبار جعلی. در: کنفرانس بین المللی پیشرفت در تجزیه و تحلیل شبکه های اجتماعی و استخراج، ۲۰۱۹. IEEE، صفحات ۵۶۸-۵۶۹
  • Billal B, Fonseca A, Sadat F, Lounis H (2017) یادگیری نیمه نظارت شده و تحلیل متن رسانه های اجتماعی به سمت طبقه بندی چند برچسبی. در: کنفرانس بین المللی IEEE 2017 در مورد داده های بزرگ (Big Data)، ۲۰۱۷، صفحات ۱۹۰۷-۱۹۱۶
  • Bose J, Mukherjee S (2019) Semi-supervised method using Gaussian random fields for boilerplate removal in web browsers. In: 2019 IEEE 16th India Council international conference (INDICON), 2019, pp 1–۴
  • برودی اس، آلون یو، یاهاو ای (۲۰۲۱) شبکه های توجه گراف چقدر حواسشان جمع است؟ https://doi.org/10.48550/arXiv.2105.14491
  • Buza K, Revina A (2020) تسریع رویکرد موفقیت برای مجموعه داده های صنعتی عظیم. در: کنفرانس بین المللی ۲۰۲۰ در مورد نوآوری ها در سیستم های هوشمند و برنامه های کاربردی (INISTA)، ۲۰۲۰، صفحات ۱-۶
  • Carnevali JC، Rossi RG، Milios E، de Andrade Lopes A (2021) یک رویکرد مبتنی بر نمودار برای یادگیری مثبت و بدون برچسب. Inf Sci 580:655-672. ISSN 0020-0255
  • Charalampakis B, Spathis D, Kouslis E, Kermanidis K (2016) مقایسه بین تکنیک های متن کاوی نیمه نظارت شده و تحت نظارت در تشخیص کنایه در توییت های سیاسی یونان. Eng Appl Artif Intell 51:50-57. ISSN 0952-1976
  • Chawla K، Khosla S، Chhaya N (2019) رمزگذار-رمزگشا کانولوشنال دردار برای پیش بینی تأثیر نیمه نظارت شده. در: پیشرفت در کشف دانش و داده کاوی، ۲۰۱۹. Springer, Cham, pp 237-250
  • Cheeks LH، Stepien TL، Wald DM (2016) کشف چارچوب های خبری: کاوش متن، محتوا و مفاهیم در منابع خبری آنلاین برای رسیدگی به ناامنی آب در منطقه جنوب غربی. در: ۲۰۱۶ IEEE هفدهمین کنفرانس بین المللی استفاده مجدد و یکپارچه سازی اطلاعات (IRI)، ۲۰۱۶، صفحات ۴۵۴-۴۶۲
  • Cheng Y، Song F، Qian K (2021) یادگیری چند برچسبی با عدم تعادل مبتنی بر رمزگذار خودکار دو سطحی وجود ندارد. Appl Intel 51:6997–۷۰۱۵Google Scholar 
  • Cozman F, Cohen I (2002) داده های بدون برچسب می توانند عملکرد طبقه بندی طبقه بندی کننده های مولد را کاهش دهند. انجمن تحقیقات هوش مصنوعی فلوریدا
  • Croce D, Castellucci G, Basili R (2019) Kernel-based generative adversarial networks for weakly supervised learning. In: AI*IA 2019—advances in artificial intelligence. AI*IA 2019. Lecture notes in computer science, 2019, vol 11946, pp 336–۳۴۷. ISBN 978-3-030-35165-6
  • Croce D، Castellucci G، Basili R (2020) GAN-BERT: یادگیری خصمانه مولد برای طبقه‌بندی متن قوی با مجموعه‌ای از نمونه‌های برچسب‌گذاری شده. در: مجموعه مقالات پنجاه و هشتمین نشست سالانه انجمن زبانشناسی محاسباتی، ۲۰۲۰، به صورت آنلاین. انجمن زبانشناسی محاسباتی، صفحات ۲۱۱۴-۲۱۱۹
  • روز NE (1969) برآورد اجزای مخلوطی از توزیع های نرمال. Biometrika 56 (3): 463-474MathSciNet ریاضی Google Scholar 
  • De Souza M, Nogueira B, Rossi R, Marcacini R, dos Santos B, Rezende S (2021) یک رویکرد یادگیری مثبت و بدون برچسب مبتنی بر شبکه برای تشخیص اخبار جعلی. Mach Learn 111(10):3549–۳۵۹۲MathSciNet ریاضی Google Scholar 
  • Dean B (2022) چند نفر در سال ۲۰۲۲ از توییتر استفاده می کنند؟ (آمار جدید توییتر). http://www-cs-faculty.stanford.edu
  • Deng X, Li Y, Weng J, Zhang J (2019) انتخاب ویژگی برای طبقه بندی متن: یک بررسی. Multimed Tools Appl 78(3):3797-3816Google Scholar 
  • Deocadez R, Harrison R, Rodriguez D (2017) طبقه بندی خودکار الزامات از فروشگاه های App: یک مطالعه مقدماتی. در: ۲۰۱۷ IEEE بیست و پنجمین کنفرانس بین المللی الزامات مهندسی کنفرانس (REW)، ۲۰۱۷، صفحات ۳۶۷-۳۷۱
  • Deshmukh JS، Tripathy AK (2017) طبقه بندی متن با استفاده از رویکرد نیمه نظارت شده برای چند دامنه. در: ۲۰۱۷ کنفرانس بین المللی فناوری های نوپا در مهندسی، ۲۰۱۷، صفحات ۱-۵
  • Di Capua M، Petrosino A (2017) یک رویکرد یادگیری عمیق برای مقابله با عدم قطعیت داده ها در تجزیه و تحلیل احساسات. در: منطق فازی و برنامه های محاسباتی نرم. WILF 2016. نکات سخنرانی در علوم کامپیوتر، جلد ۱۰۱۴۷، ص ۱۷۲-۱۸۴. شابک ۹۷۸-۳-۳۱۹-۵۲۹۶۱-۵
  • Duan J, Luo B, Zeng J (2020) یادگیری نیمه نظارتی با مدل مولد برای طبقه بندی احساسات پیام های سهام. Expert Syst Appl 158:113540. ISSN 0957-4174
  • Duarte JM, Sousa S, Milios E, Berton L (2021) تجزیه و تحلیل عمیق ابهام‌زدایی معنای کلمه از طریق یادگیری نیمه نظارت شده و بازنمایی کلمات عصبی. Inf Sci 570:278-297MathSciNet Google Scholar 
  • Duong HT، Nguyen A (2021) مروری: تکنیک های پیش پردازش و افزایش داده ها برای تجزیه و تحلیل احساسات. Comput Soc Netw 8:1Google Scholar 
  • Felix N، Coletta LFS، Hruschka ER (2016) بررسی و مطالعه مقایسه ای تحلیل احساسات توییت از طریق یادگیری نیمه نظارت شده. ACM Comput Surv 49(1):1–۲۶Google Scholar 
  • Fujino A، Ueda N (2016) یک روش بهینه سازی AUC نیمه نظارت شده با مدل های مولد. در: ۲۰۱۶ IEEE شانزدهمین کنفرانس بین المللی داده کاوی (ICDM)، ۲۰۱۶، صفحات ۸۸۳-۸۸۸
  • Fu X، Wei Y، Xu F، Wang T، Lu Y، Li J، Huang JZ (2019) مدل طبقه‌بندی احساسات در سطح جنبه نیمه نظارت شده بر اساس رمزگذار خودکار متغیر. سیستم مبتنی بر دانش ۱۷۱:۸۱-۹۲. ISSN 0950-7051
  • Ganiz MC (2016) یادگیری نیمه نظارتی با استفاده از مسیرهای همزمان با مرتبه بالاتر برای غلبه بر پیچیدگی نمایش داده ها. در: کنفرانس بین المللی IEEE 2016 در مورد سیستم ها، انسان و سایبرنتیک (SMC)، ۲۰۱۶، صفحات ۰۰۲۲۴۲-۰۰۲۲۴۷
  • Geraci F, Papini T (2018) تقریب طبقه بندی متن چند کلاسه از طریق تولید خودکار نمونه های آموزشی. در: زبان شناسی محاسباتی و پردازش هوشمند متن. اسپرینگر، چم، ص ۵۸۵-۶۰۱. شابک ۹۷۸-۳-۳۱۹-۷۷۱۱۶-۸
  • Ghosh S، Desarkar MS (2020) چارچوب طبقه بندی دانه ای نیمه نظارت شده برای متن های کوتاه محدود با منابع: به سمت بازیابی اطلاعات موقعیتی در طول حوادث فاجعه. در: دوازدهمین کنفرانس ACM در علم وب، WebSci ’20، ۲۰۲۰، صفحات ۲۹-۳۸. شابک ۹۷۸۱۴۵۰۳۷۹۸۹۲
  • Gokhale R، Fasli M (2017) استقرار یک الگوریتم آموزشی مشترک برای طبقه بندی نقض حقوق بشر. در: ۲۰۱۷ کنفرانس بین المللی مرزها و پیشرفت در علم داده (FADS)، ۲۰۱۷، صفحات ۱۰۸-۱۱۳
  • گونگ سی، ژانگ اچ، یانگ جی، تائو دی (۲۰۱۷) یادگیری با نظارت ناکافی و نادرست. در: کنفرانس بین المللی IEEE 2017 در مورد داده کاوی (ICDM)، ۲۰۱۷، صفحات ۸۸۹-۸۹۴
  • Goodfellow I (2017) NIPS 2016 tutorial: generative adversarial networks. https://doi.org/10.48550/arXiv.1701.00160
  • Graef R (2021) استفاده از طبقه‌بندی متن با آموزش مشترک با مدل‌های زبان دو جهته – یک رویکرد ترکیبی جدید و کاربرد آن برای یک بانک آلمانی. در: نوآوری از طریق سیستم های اطلاعاتی. WI 2021. یادداشت های سخنرانی در سیستم های اطلاعاتی و سازمان، جلد ۴۷. Springer, pp 216-231
  • Guellil I, Adeel A, Azouaou F, Benali F, Hachani AE, Deshtipour K, Gogate M, Ieracitano C, Kashani R, Hussain A (2021) رویکردی نیمه نظارت شده برای تحلیل احساسات پیام های عربی (ic + izi): کاربرد به لهجه الجزایری SN Comput Sci 2:118Google Scholar 
  • Guo X, Wang W (2018) به سمت ایجاد آموزش مشترک کمتر از دید ناکافی. Front Comput Sci 13:99-105Google Scholar 
  • Guo Q, Huang W (Wayne), Huang K, Liu X (2016) اعتبار اطلاعات: یک مدل گرافیکی احتمالی برای شناسایی پست های آنفولانزای معتبر در رسانه های اجتماعی. در: کنفرانس بین المللی سلامت هوشمند، ICSH 2015، مقالات منتخب اصلاح شده، یادداشت های سخنرانی در علوم کامپیوتر (شامل یادداشت های سخنرانی زیر مجموعه در هوش مصنوعی و یادداشت های سخنرانی در بیوانفورماتیک)، ۲۰۱۶. Springer, pp 131-142. شابک ۹۷۸۳۳۱۹۲۹۱۷۴۱
  • Gupta R, Sahu S, Espy-Wilson C, Narayanan S (2018) Semi-supervised and transfer learning approaches for low resource sentiment classification. In: 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP), 2018, pp 5109–۵۱۱۳
  • Guru DS, Suhil M, Gowda HS, Raju LN (2016) تشخیص یک کلاس جدید در مجموعه عظیمی از اسناد متنی از طریق یادگیری نیمه نظارت شده. در: ۲۰۱۶ کنفرانس بین المللی پیشرفت در محاسبات، ارتباطات و انفورماتیک (ICACCI)، ۲۰۱۶، صفحات ۴۹۴-۴۹۹
  • Ha QT، Pham TN، Nguyen VQ، Nguyen MC، Pham TH، Nguyen TT (2018a) یک مدل یادگیری چند برچسبی متنی نیمه نظارتی جدید بر اساس استفاده از روابط برچسب-ویژگی. در: ICCCI، ۲۰۱۸
  • Han Y, Liu Y, Jin Z (2020) Sentiment analysis via semi-supervised learning: a model based on dynamic threshold and multi-classifiers. Neural Comput Appl 32(9):5117–۵۱۲۹Google Scholar 
  • حنفی م، خلیل می، عباس اچ ام (۲۰۱۸) ترکیب روش های یادگیری کلاسیک و عمیق برای تجزیه و تحلیل احساسات توییتر. در: ANNPR، ۲۰۱۸
  • Ha Q، Pham A، Nguyen VQ، Nguyen C، Vuong TH، Tran MT، Nguyen TT (2018b) یک روش جدید مدل‌سازی موضوع مادام العمر و کاربرد آن در طبقه‌بندی چند برچسبی متن ویتنامی. در: سیستم های اطلاعاتی و پایگاه داده هوشمند. ACIIDS 2018. نکات سخنرانی در علوم کامپیوتر، ۲۰۱۸، جلد ۱۰۷۵۱، صفحات ۲۰۰–۲۱۰. شابک ۹۷۸-۳-۳۱۹-۷۵۴۱۶-۱
  • هارتلی HO، رائو JNK (1968) طبقه بندی و تخمین در تجزیه و تحلیل مشکلات واریانس. Rev l’Inst Int Stat 36(2):141–۱۴۷MathSciNet ریاضی Google Scholar 
  • Hasan A, Levene M, Weston D (2020) یادگیری اطلاعات پزشکی ساختاریافته از رسانه های اجتماعی. J Biomed Inform 110:103568. ISSN 1532-0464
  • حسنی ح، بنکی سی، آنگر اس، مزینانی ام تی، یگانگی ام آر (۲۰۲۰) متن کاوی در تجزیه و تحلیل داده های بزرگ. Big Data Cogn Comput 4(1):1Google Scholar 
  • He C، Peng L، Le Y، He J، Zhu X (2019) SECaps: یک مدل کپسول بهبود یافته توالی برای پیش‌بینی شارژ. در: شبکه های عصبی مصنوعی و یادگیری ماشین – ICANN 2019: متن و سری زمانی. اسپرینگر، چم، ص ۲۲۷-۲۳۹. شابک ۹۷۸-۳-۰۳۰-۳۰۴۹۰-۴
  • Hidetaka I، Wang Y (2019) یک رویکرد نیمه نظارت شده برای شناسایی بخش های مسئول اسناد RFQ. در: کنفرانس بین المللی IEEE 2019 در مورد داده های بزرگ، ۲۰۱۹، صفحات ۵۵۳۲–۵۵۳۵
  • Hu W, Chen C, Chang Y, Zheng Z, Du Y (2021) Robust graph convolutional networks with directional graph adversarial training. Appl Intell 51:7812–۷۸۲۶Google Scholar 
  • Huang J، Zhou Z، Shang J، Niu C (2020) انطباق دامنه ناهمگن با برچسب و سازگاری ساختاری. Multimed Tools Appl 79:07Google Scholar 
  • Huang J، Tao N، Chen H، Deng Q، Wang W، Wang J (2021) طبقه بندی متن نیمه نظارت شده بر اساس شبکه های عصبی توجه گراف. در: ۲۰۲۱ چهارمین کنفرانس بین المللی هوش مصنوعی و داده های بزرگ (ICAIBD)، ۲۰۲۱، صفحات ۳۲۵-۳۳۰
  • Huang L, Yu J, Hu Y, Chang H (2020a) یک چارچوب یادگیری نیمه نظارت شده برای طبقه بندی پتنت چینی مبتنی بر TRIZ. در: مجموعه مقالات ششمین کنفرانس بین المللی ۲۰۲۰ در محاسبات و هوش مصنوعی، ICCAI ’20، ۲۰۲۰، صفحات ۴۶-۵۰. شابک ۹۷۸۱۴۵۰۳۷۷۰۸۹
  • Iglesias E, Vieira S, Diz LB (2016) یک چارچوب آموزشی چند نمایشی مبتنی بر HMM برای مجموعه‌های متنی تک‌نما. در: سیستم های هوشمند مصنوعی ترکیبی. HAIS 2016. نکات سخنرانی در علوم کامپیوتر، ۲۰۱۶، جلد ۹۶۴۸، ص ۶۶-۷۸. شابک ۹۷۸-۳-۳۱۹-۳۲۰۳۳-۵
  • جهانبخش ز، فیضی درخشی محمدرضا، شریفی ا (۲۰۲۰) مدلی نیمه نظارتی برای راستی‌آزمایی شایعات فارسی بر اساس اطلاعات محتوا. Multimed Tools Appl 80:1-29Google Scholar 
  • Jedrzejowicz J, Zakrzewska M (2020) طبقه بندی متن با استفاده از الگوریتم هیبریدی LDA-W2V. در: فناوری‌های تصمیم هوشمند ۲۰۱۹. نوآوری هوشمند، سیستم‌ها و فناوری‌ها، جلد ۱۴۲، صفحات ۲۲۷–۲۳۷. شابک ۹۷۸-۹۸۱-۱۳-۸۳۱۰-۶
  • Ji Y, Wang J, Niu Y, Ma H (2021) تشخیص رویداد قابل اعتماد از طریق محاسبات چند لبه در جریان داده های اجتماعی ترافیک. دسترسی IEEE.https://doi.org/10.1109/ACCESS.2021.3060624مقاله Google Scholar 
  • Jiang M, Liang Y, Feng X, Fan X, Pei Z, Xue Y, Guan R (2018) طبقه‌بندی متن بر اساس شبکه باور عمیق و رگرسیون نرم‌افزار. نرم افزار محاسبات عصبی ۲۹:۰۱Google Scholar 
  • Jing L (2018) مدل تشخیص نظرات جعلی آنلاین بر اساس تجزیه و تحلیل ویژگی. در: کنفرانس بین المللی ۲۰۱۸ شبکه هوشمند و اتوماسیون الکتریکی (ICSGEA)، ۲۰۱۸، صفحات ۴۱۲–۴۱۵
  • Ju W، Yang J، Qu M، Song W، Shen J، Zhang M (2022) KGNN: مهار شبکه های مبتنی بر هسته برای طبقه بندی نمودار نیمه نظارت شده. در: مجموعه مقالات پانزدهمین کنفرانس بین المللی ACM در جستجوی وب و داده کاوی، WSDM ’22، ۲۰۲۲، صفحات ۴۲۱-۴۲۹. شابک ۹۷۸۱۴۵۰۳۹۱۳۲۰
  • Kadhim AI (2019) بررسی تکنیک‌های یادگیری ماشینی تحت نظارت برای طبقه‌بندی خودکار متن. Artif Intell Rev 52(1):273-292MathSciNet Google Scholar 
  • Kang M، Biswas A، Kim DC، Gao J (2019) یادگیری انتقال تبعیض آمیز نیمه نظارت شده در طبقه بندی متن بین زبانی. در: ۲۰۱۹ هجدهمین کنفرانس بین المللی IEEE در مورد یادگیری ماشین و برنامه های کاربردی (ICMLA)، ۲۰۱۹، صفحات ۱۰۳۱-۱۰۳۸
  • کاریسانی پی، کاریسانی ن (۲۰۲۱) طبقه بندی متن نیمه نظارت شده از طریق خودآموزشی. در: کنفرانس: WSDM ’21: چهاردهمین کنفرانس بین المللی ACM در جستجوی وب و داده کاوی، ۲۰۲۱، صفحات ۴۰-۴۸. شابک ۹۷۸۱۴۵۰۳۸۲۹۷۷
  • Khan FH، Qamar U، Bashir S (2017) یک رویکرد نیمه نظارت شده برای تجزیه و تحلیل احساسات با استفاده از قدرت احساسات تجدید نظر شده بر اساس SentiWordNet. Knowl Inf Syst 51(3):851-872. ISSN 0219-1377
  • Khan A, Zubair M (2020) Classification of multi-lingual tweets, into multi-class model using Naïve Bayes and semi-supervised learning. Multimed Tools Appl 79:11Google Scholar 
  • Kihlman R، Fasli M (2021) طبقه بندی نقض حقوق بشر با استفاده از آموزش مشترک چند برچسبی عمیق. در: ۲۰۲۱ کنفرانس بین المللی IEEE در مورد داده های بزرگ (Big Data)، ۲۰۲۱، صفحات ۴۸۸۷-۴۸۹۵
  • Kontonatsios G، Brockmeier AJ، Przybyła P، McNaught J، Mu T، Goulermas JY، Ananiado S (2017) یک رویکرد نیمه نظارت شده با استفاده از انتشار برچسب برای حمایت از غربالگری استناد. J Biomed Inform 72:67-76. ISSN 1532-0464
  • کوثری ک، میمندی کی جی، حیدری صفا م، مندو اس، بارنز ال، براون دی (۲۰۱۹) الگوریتم‌های طبقه‌بندی متن: یک بررسی. اطلاعات ۱۰(۴):۱۵۰Google Scholar 
  • Krishnamoorthy A, Patil AK, Vasudevan N, Pathari V (2018) طبقه بندی مقالات خبری با خوشه بندی با استفاده از یادگیری نیمه نظارت شده. در: ۲۰۱۸ کنفرانس بین المللی پیشرفت در محاسبات، ارتباطات و انفورماتیک (ICACCI)، ۲۰۱۸، صفحات ۸۶-۹۱
  • Kumar T، Park J، Ali MS، Shahab Uddin AFM، Ko JH، Bae SH (2021) فیلترهای دارای طبقه‌بندی‌کننده باینری برای یادگیری نیمه‌نظارت‌شده. دسترسی IEEE 9:167663–۱۶۷۶۷۳Google Scholar 
  • Lee VLS، Gan KH، Tan TP، Abdullah R (2019) یادگیری نیمه نظارت شده برای طبقه بندی احساسات با استفاده از تعداد کمی از داده های برچسب گذاری شده. Procedia Comput Sci 161:577-584Google Scholar 
  • لی اس، کیم دبلیو (۲۰۱۷) برچسب‌گذاری احساسات برای گسترش داده‌های برچسب‌گذاری‌شده اولیه برای بهبود طبقه‌بندی احساسات نیمه‌نظارت‌شده. Electron Commer Rec Appl 26(C):35-49. ISSN 1567-4223
  • Li AH, Sethy A (2020) یادگیری نیمه نظارتی برای طبقه بندی متن با پارتیشن بندی لایه. در: ICASSP 2020-2020 کنفرانس بین المللی IEEE در مورد آکوستیک، گفتار و پردازش سیگنال (ICASSP)، ۲۰۲۰، صفحات ۶۱۶۴-۶۱۶۸
  • Li Y, Su L, Chen J, Yuan L (2017) یادگیری نیمه نظارت شده برای طبقه بندی سوالات در CQA. محاسبه طبیعی ۱۶:۱۲MathSciNet Google Scholar 
  • Li Z، Yang F، Luo Y (2019) جاسازی زمینه مبتنی بر bi-LSTM در ابهام‌زدایی معنای کلمه زیست‌پزشکی نیمه نظارت شده. دسترسی IEEE 7:72928–۷۲۹۳۵Google Scholar 
  • لی ام، دای کیو (۲۰۱۸) یک الگوریتم جدید یادگیری انتقال مبتنی بر اهرم دانش. Appl Intel 48(8):2355-2372. ISSN 0924-669X
  • Lieder I, Segal M, Avidan E, Cohen A, Hope T (2019) یادگیری تقسیم بندی مشتری وجهی برای کشف فرصت های تجاری جدید در اینتل. در: کنفرانس بین المللی IEEE 2019 در مورد داده های بزرگ (Big Data)، ۲۰۱۹، صفحات ۶۱۳۶-۶۱۳۸
  • Li M، Lang C، Yu M، Lu Y، Liu C، Jiang J، Huang W (2020) SCX-SD: روش نیمه نظارت شده برای تشخیص طعنه متنی. در: علم دانش، مهندسی و مدیریت، ۲۰۲۰. Springer, Cham, pp 288-299. شابک ۹۷۸-۳-۰۳۰-۵۵۳۹۳-۷
  • Li W, Li Y, Chen J, Hou C (2017) طبقه بندی خودکار ثبت اختراع مبتنی بر اطلاعات عملکردی محصول: روش و مطالعات تجربی. Inf Syst 67:71-82. ISSN 0306-4379
  • Lin J, Mao W, Zeng D (2017) Topic and user based refinement for competitive perspective identification. In: IEEE international conference on intelligence and security informatics (ISI), 2017, pp 131–۱۳۳
  • Linmei H، Yang T، Shi C، Ji H، Li X (2019) شبکه های توجه گراف ناهمگن برای طبقه بندی متن کوتاه نیمه نظارت شده. در: مجموعه مقالات کنفرانس ۲۰۱۹ در مورد روش های تجربی در پردازش زبان طبیعی (EMNLP) و نهمین کنفرانس مشترک بین المللی پردازش زبان طبیعی، ۲۰۱۹، صفحات ۴۸۲۱-۴۸۳۰
  • Li L، Qiu X (2020) TAVAT: آموزش خصمانه مجازی آگاه به رمز برای درک زبان.https://doi.org/10.48550/arXiv.2004.14543
  • Liu CL، Hsaio WH، Lee CH، Chang TH، Kuo TH (2016) طبقه بندی متن نیمه نظارت شده با یادگیری جهانی. IEEE Trans Cybern 46(2):462-473Google Scholar 
  • لیو جی، تیمسینا پی، ال گایار او (۲۰۱۸) تحلیل مقایسه ای یادگیری نیمه نظارت شده: مورد انتخاب مقاله برای مرورهای سیستماتیک پزشکی. Inf Syst Front 20:04Google Scholar 
  • Liu J, Deng J, Xu G, He Z (2018a) در: یادگیری بازنمایی شبکه نیمه نظارت شده مبتنی بر توجه سلسله مراتبی: هفتمین کنفرانس بین المللی CCF، NLPCC 2018، هوهات، چین، ۲۶ تا ۳۰ اوت ۲۰۱۸، مجموعه مقالات، قسمت اول، صفحات ۲۳۷-۲۴۹. شابک ۹۷۸-۳-۳۱۹-۹۹۴۹۴-۹
  • Liu L, Li Y, Xiong Y, Cavallucci D (2020) یک ابزار جدید بازیابی دانش پتنت مبتنی بر عملکرد برای طراحی مفهومی محصولات نوآورانه. Comput Ind 115:103154. ISSN 0166-3615
  • Liu X، Long F، Huang K، Ling Q (2021) تقویت داده های بدون نظارت برای تشخیص و طبقه بندی رویدادهای اضطراری. در: سی و سومین کنفرانس کنترل و تصمیم چین، ۲۰۲۱، صفحات ۲۳۶۷-۲۳۷۱
  • Li X, Yan L, Qin N, Ran H (2017a) یک الگوریتم جدید طبقه بندی متن کوتاه نیمه نظارت شده بر اساس شباهت ترکیبی. در: روش‌شناسی محاسبات هوشمند، ۲۰۱۷. Springer, Cham, pp 309-319. شابک ۹۷۸-۳-۳۱۹-۶۳۳۱۵-۲
  • Li Y, Ye J (2018) Learning adversarial networks for semi-supervised text classification via policy gradient. In: Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery; data mining, KDD 18, 2018, pp 1715–۱۷۲۳. ISBN 9781450355520
  • Li P, Zhao F, Li Y, Zhu Z (2018) طبقه بندی متن قانون با استفاده از شبکه های عصبی کانولوشن نیمه نظارت شده. در: کنفرانس کنترل و تصمیم چینی ۲۰۱۸ (CCDC)، ۲۰۱۸، صفحات ۳۰۹-۳۱۳
  • Ma B، Sun H، Wang J، Qi Q، Liao J (2020) طبقه بندی جملات نیمه نظارت شده بر اساس قطبیت کاربر در سناریوهای اجتماعی. در: ICASSP 2020-2020 کنفرانس بین المللی IEEE در مورد آکوستیک، گفتار و پردازش سیگنال (ICASSP)، ۲۰۲۰، صفحات ۸۲۰۹-۸۲۱۳
  • Mathapati S، Nafeesa A، Tanuja R، Manjula SH، Venugopal KR (2019) انطباق دامنه نیمه نظارت شده و یادگیری عمیق مشترک برای تجزیه و تحلیل احساسات دوگانه. SN Appl Sci 1:907Google Scholar 
  • McNulty J, Alvarez S, Langmayr M (2021) تشخیص تحقیق از یک بایگانی HTML غیرمجاز با استفاده از یادگیری ماشین نیمه نظارت شده. در: ۲۰۲۱ سمپوزیوم طراحی مهندسی سیستم ها و اطلاعات (SIEDS)، ۲۰۲۱، صفحات ۱-۶
  • Minaee S, Kalchbrenner N, Cambria E, Nikzad N, Chenaghlu M, Gao J (2021) طبقه بندی متن مبتنی بر یادگیری عمیق: یک بررسی جامع. ACM Comput Surv 54(3):1–۴۰Google Scholar 
  • Miyato T, Dai AM, Goodfellow I (2017) روش‌های آموزش خصمانه برای طبقه‌بندی متن نیمه‌نظارت‌شده. در: مقاله کنفرانس در ICLR 2017، ۲۰۱۷
  • Moon S، Carbonell J (2016) یادگیری انتقال فعال برای فضاهای ویژگی و برچسب ناهمگن. در: یادگیری ماشین و کشف دانش در پایگاه های داده اسپرینگر، چم، ص ۷۰۶-۷۲۱. شابک ۹۷۸-۳-۳۱۹-۴۶۲۲۷-۱
  • نجاری س، صالحی م، فرحبخش ر (۲۰۲۲) GANBOT: یک چارچوب مبتنی بر GAN برای تشخیص ربات اجتماعی. Soc Netw Anal Min 12:4Google Scholar 
  • Namrutha Sridhar BV, Mrinalini K, Vijayalakshmi P (2020) Data annotation and multi-emotion classification for social media text. In: 2020 International conference on communication and signal processing (ICCSP), 2020, pp 1011–۱۰۱۵
  • Ng LHX، Carley KM (2021) “کرونا یک سلاح زیستی است”: طبقه بندی داستان های کرونا در سایت های راستی آزمایی. محاسبات ریاضی ارگان نظریه ۲۷ (۲): ۱۷۹-۱۹۴Google Scholar 
  • نگوین ام (۲۰۱۶) اهرم سازگاری عاطفی برای طبقه بندی احساسات نیمه نظارت شده. در: پیشرفت در کشف دانش و داده کاوی. PAKDD 2016. نکات سخنرانی در علوم کامپیوتر، ۲۰۱۶، ج ۹۶۵۱، ص ۳۶۹–۳۸۱. شابک ۹۷۸-۳-۳۱۹-۳۱۷۵۲-۶
  • Nguyen-Nhat DK, Duong HT (2019) آموزش تک سندی برای تجزیه و تحلیل احساسات ویتنامی. در: داده های محاسباتی و شبکه های اجتماعی. CSoNet 2019. یادداشت های سخنرانی در علوم کامپیوتر، ۲۰۱۹، جلد ۱۱۹۱۷، صفحات ۱۸۹-۲۰۰. شابک ۹۷۸-۳-۰۳۰-۳۴۹۷۹-۰
  • Nigam K, McCallum A, Thrun S, Mitchell T (2000) طبقه بندی متن از اسناد برچسب دار و بدون برچسب با استفاده از EM. Mach Learn 39:103-134. https://doi.org/10.1023/A:1007692713085مقاله ریاضی Google Scholar 
  • عمر ع، محمود TM، عبدالحافظ تی، محفوظ ع (۲۰۲۱) طبقه بندی متن عربی چند برچسبی در شبکه های اجتماعی آنلاین. Inf Syst 100:101785. ISSN 0306-4379
  • Pan Y, Chen Z, Suzuki Y, Fukumoto F, Nishizaki H (2020) Sentiment analysis using semi-supervised learning with few labeled data. In: 2020 International conference on cyberworlds (CW), 2020, pp 231–۲۳۴
  • Pang B، Lee L (2005) دیدن ستاره ها: بهره برداری از روابط طبقاتی برای طبقه بندی احساسات با توجه به مقیاس های رتبه بندی. در: مجموعه مقالات چهل و سومین نشست سالانه انجمن زبانشناسی محاسباتی (ACL’05)، ۲۰۰۵. انجمن زبانشناسی محاسباتی، آن آربور، ص ۱۱۵-۱۲۴
  • پارک اس، لی جی، کیم کی (۲۰۱۹) بازنمایی های توزیع شده نیمه نظارت شده از اسناد برای تجزیه و تحلیل احساسات. Neural Netw 119:139-150. ISSN 0893-6080
  • Pavlinek M, Podgorelec V (2017) روش طبقه‌بندی متن بر اساس مدل‌های موضوعی خودآموزی و LDA. Expert Syst Appl 80:83-93. ISSN 0957-4174
  • Pohl M, Hashaam A, Bosse S, Staegemann DG, Volk M, Kramer F, Turowski K (2020) کاربرد NLP برای تعیین وضعیت مسائل در سیستم های ردیابی اشکال. در: کنفرانس بین المللی ۲۰۲۰ در کارگاه های داده کاوی (ICDMW)، ۲۰۲۰، صفحات ۵۳-۶۱
  • Qiu Y، Gong X، Ma Z، Chen X (2020) MixLab: یک روش نیمه نظارتی آموزنده برای طبقه بندی چند برچسبی. در: پردازش زبان طبیعی و محاسبات چینی، ۲۰۲۰. Springer, Cham, pp 506-518. شابک ۹۷۸-۳-۰۳۰-۶۰۴۵۰-۹
  • Rossi R, Lopes A, Rezende S (2017) استفاده از شبکه های ناهمگن دوبخشی برای سرعت بخشیدن به یادگیری نیمه نظارت استقرایی و بهبود دسته بندی خودکار متن. سیستم مبتنی بر دانش ۱۳۲:۰۶Google Scholar 
  • Sajeeda A, Mainul Hossain BM (2022) کاوش در شبکه های متخاصم مولد و آموزش خصمانه. Int J Cogn Comput Eng 3:78-89. ISSN 2666-3074. https://doi.org/10.1016/j.ijcce.2022.03.002
  • Sakai T، Niu G، Sugiyama M (2017) بهینه سازی AUC نیمه نظارت شده بر اساس یادگیری بدون برچسب مثبت. https://doi.org/10.48550/arXiv.1705.01708
  • Severin K, Gokhale S, Dagnino A (2019) طبقه‌بندی متن نیمه نظارتی مبتنی بر کلیدواژه. در: ۲۰۱۹ IEEE چهل و سومین کنفرانس سالانه نرم افزار و برنامه های کاربردی کامپیوتر (COMPSAC)، ۲۰۱۹، جلد ۱، صفحات ۴۱۷–۴۲۲
  • Shahri MP، Roe MM، Reynolds G، Kahanda I (2019) PPPred: طبقه‌بندی ترکیبات فنوتیپ پروتئین استخراج شده از ادبیات زیست پزشکی. bioRxiv
  • Shayegh P, Li Y, Zhang J, Zhang Q (2019) طبقه بندی متن نیمه نظارت شده با شبکه عصبی کانولوشن عمیق با استفاده از رویکرد ترکیبی ویژگی. در: کنفرانس بین المللی IEEE/WIC/ACM 2019 در زمینه هوش وب (WI)، ۲۰۱۹، صفحات ۳۶۳-۳۶۶
  • Shehnepoor S، Togneri R، Liu W، Bennamoun M (2022) ScoreGAN: آشکارساز بررسی تقلب بر اساس GAN تنظیم شده با افزایش داده ها. IEEE Trans Inf Forensics Secur 17:280-291Google Scholar 
  • Shulman H، Simo H (2021) پوستر: WallGuard – یک رویکرد یادگیری عمیق برای جلوگیری از پست های پشیمان کننده در رسانه های اجتماعی. در: ۲۰۲۱ IEEE چهل و یکمین کنفرانس بین المللی سیستم های محاسباتی توزیع شده (ICDCS)، ۲۰۲۱، صفحات ۱۱۴۲-۱۱۴۳
  • Soleimani H, Miller DJ (2016a) بهره‌برداری از ارزش برچسب‌های کلاس در مدل‌های موضوعی برای طبقه‌بندی اسناد نیمه‌نظارت‌شده. در: کنفرانس مشترک بین المللی در مورد شبکه های عصبی، ۲۰۱۶، صفحات ۴۰۲۵-۴۰۳۱
  • Soleimani H, Miller DJ (2016b) مدل‌های موضوعی چند برچسبی نیمه نظارت شده برای طبقه‌بندی اسناد و برچسب‌گذاری جملات. در: مجموعه مقالات بیست و پنجمین کنفرانس بین المللی ACM در مورد مدیریت اطلاعات و دانش، CIKM ’16، ۲۰۱۶، صفحات ۱۰۵-۱۱۴. شابک ۹۷۸۱۴۵۰۳۴۰۷۳۱
  • Song HJ, Park SB (2018) شناسایی پست‌های قصد در انجمن‌های گفتگو با استفاده از یادگیری چند نمونه و یادگیری انتقال منابع متعدد. محاسبات نرم ۲۲:۱۲Google Scholar 
  • Song J, Qin S, Zhang P (2016) دسته بندی متن چینی بر اساس شبکه های اعتقادی عمیق. در: ۲۰۱۶ IEEE/ACIS پانزدهمین کنفرانس بین المللی علوم کامپیوتر و اطلاعات، ۲۰۱۶، صفحات ۱-۵
  • Stanojevic M، Alshehri J، Obradovic Z (2019) بررسی افکار عمومی با استفاده از پیش‌بینی برچسب در داده‌های رسانه‌های اجتماعی. در: مجموعه مقالات کنفرانس بین المللی IEEE/ACM 2019 در مورد پیشرفت در تجزیه و تحلیل شبکه های اجتماعی و استخراج، ASONAM ’19، ۲۰۱۹، صفحات ۱۸۸-۱۹۵. شابک ۹۷۸۱۴۵۰۳۶۸۶۸۱
  • Stanton G، Irissappane AA (2019) GAN برای تشخیص هرزنامه نظر نیمه نظارت شده. https://doi.org/10.48550/arXiv.1903.08289
  • Statista (2022) Internet user growth worldwide from 2018 to 2023. https://www.statista.com/statistics/1190263/internet-users-worldwide/
  • Steyn C، de Waal A (2016) یادگیری ماشین نیمه نظارت شده برای تشخیص ناهنجاری متنی. در: ۲۰۱۶ انجمن تشخیص الگوی آفریقای جنوبی و کنفرانس بین المللی رباتیک و مکاترونیک (PRASA-RobMech)، ۲۰۱۶، صفحات ۱-۵
  • سوخیجا اس، کریشنان NC (2019) یادگیری انتقال ناهمگن ناشی از وب با انتخاب نمونه. در: یادگیری ماشین و کشف دانش در پایگاه‌های داده، ۲۰۱۹. Springer, Cham, pp 777-793. شابک ۹۷۸-۳-۰۳۰-۱۰۹۲۸-۸
  • Sun L، Ge H، Kang W (2018) الگوریتم آموزشی و مدل سازی مبتنی بر فاکتورسازی ماتریس غیر منفی برای یادگیری چند برچسبی. Front Comput Sci 13:11Google Scholar 
  • Sun K, Lin Z, Guo H, Zhu Z (2019b) آموزش خصمانه مجازی بر روی شبکه های کانولوشن گراف در طبقه بندی گره. در: تشخیص الگو و بینایی کامپیوتری، ۲۰۱۹. Springer, Cham, pp 431-443. شابک ۹۷۸-۳-۰۳۰-۳۱۶۵۴-۹
  • Sun C، Qiu X، Xu Y، Huang X (2019a) چگونه BERT را برای طبقه بندی متن تنظیم کنیم؟ در زبان شناسی محاسباتی چینی. اسپرینگر، چم، ص ۱۹۴-۲۰۶. شابک ۹۷۸-۳-۰۳۰-۳۲۳۸۱-۳
  • Sun Z، Zhang X، Ye Y، Chu X، Liu Z (2020) یک رویکرد احتمالی نسبت به درخت خوشه ای نیمه نظارت شده بی طرفانه. سیستم مبتنی بر دانش ۱۹۲:۱۰۵۳۰۶. ISSN 0950-7051
  • Tanha J (2018) MSSBoost: تقویت چند کلاسه جدید برای یادگیری نیمه نظارتی. محاسبات عصبی ۳۱۴:۲۵۱-۲۶۶. ISSN 0925-2312
  • Tanha J (2019) یک الگوریتم تقویت چند کلاسه به داده های برچسب دار و بدون برچسب. Int J Mach Learn Cybern 10:12Google Scholar 
  • Thangaraj M, Sivakami M (2018) Text classification techniques: a literature review. Interdiscip J Inf Knowl Manag 13:117Google Scholar 
  • Thomas A, Resmipriya MG (2016) یک طرح طبقه بندی متن کارآمد با استفاده از خوشه بندی. Procedia Technol 24:1220-1225Google Scholar 
  • تیمسینا پی، لیو جی، ال-گایار او، شانگ ای (۲۰۱۶) استفاده از یادگیری نیمه نظارت شده برای ایجاد مرور سیستماتیک پزشکی: یک تحلیل اکتشافی. در: ۲۰۱۶ چهل و نهمین کنفرانس بین المللی هاوایی در علوم سیستمی (HICSS)، ۲۰۱۶، صفحات ۱۱۹۵-۱۲۰۳
  • Tollefson J (2018) چین بزرگترین تولید کننده مقالات علمی در جهان اعلام شد. طبیعت ۵۵۳:۳۹۰-۳۹۰Google Scholar 
  • van Engelen JE، Hoos HH (2019) نظرسنجی در مورد یادگیری نیمه نظارت شده. Mach Learn 109:373–۴۴۰MathSciNet ریاضی Google Scholar 
  • Van Engelen JE، Hoos HH (2020) نظرسنجی در مورد یادگیری نیمه نظارت شده. Mach Learn 109(2):373–۴۴۰MathSciNet ریاضی Google Scholar 
  • Varghese A, Cawley M, Hong T (2018) Supervised clustering for automated document classification and prioritization: a case study using toxicological abstracts. Environ Syst Decis 38:09Google Scholar 
  • Vilhagra LA، Fernandes ER، Nogueira BM (2020) TextCSN: یک رویکرد نیمه نظارت شده برای خوشه بندی متن با استفاده از محدودیت های زوجی و شبکه سیامی کانولوشن. در: SAC ’20: مجموعه مقالات سی و پنجمین سمپوزیوم سالانه ACM در محاسبات کاربردی، ۲۰۲۰، صفحات ۱۱۳۵-۱۱۴۲. شابک ۹۷۸۱۴۵۰۳۶۸۶۶۷
  • Villatoro-Tello E، Anguiano E، Montes M، Villaseñor-Pineda L، Ramirez-de-la Rosa G (2016) ارتقاء طبقه بندی متن نیمه نظارت شده با استفاده از خلاصه اسناد. در: پیشرفت در هوش مصنوعی-IBERAMIA 2016. یادداشت های سخنرانی در علوم کامپیوتر، ۲۰۱۶، vol 10022، pp 115-126. شابک ۹۷۸-۳-۳۱۹-۴۷۹۵۴-۵
  • Wang W, Tan G, Wang H (2017) Cross-domain comparison of algorithm performance in extracting aspect-based opinions from Chinese online reviews. Int J Mach Learn Cybern 8:06Google Scholar 
  • Wang Y, Gu Q, Brown D (2019) یادگیری انتقال فرضیه خصوصی متفاوت. در: یادگیری ماشین و کشف دانش در پایگاه های داده اسپرینگر، ص ۸۱۱-۸۲۶. شابک ۹۷۸-۳-۰۳۰-۱۰۹۲۸-۸
  • وانگ ایکس، رن جی (۲۰۱۹) یادگیری نیمه نظارتی برای طبقه بندی در مورد سؤالات درمان دارویی چینی. در: کنفرانس بین المللی IEEE 2019 در بیوانفورماتیک و زیست پزشکی، ۲۰۱۹، صفحات ۹۹۱-۹۹۴
  • Wang Z, Tu E, Lee Z (2021) یادگیری عمیق نیمه نظارتی از طریق یادگیری تعبیه شده در گراف لنگر پویا. در: ۲۰۲۱ کنفرانس مشترک بین المللی در مورد شبکه های عصبی (IJCNN)، ۲۰۲۱، صفحات ۱-۸
  • Widmann N, Verberne S (2017) یادگیری نیمه نظارتی مبتنی بر نمودار برای طبقه بندی متن. در: مجموعه مقالات کنفرانس بین المللی ACM SIGIR در نظریه بازیابی اطلاعات، ۲۰۱۷، صفحات ۵۹-۶۶. شابک ۹۷۸۱۴۵۰۳۴۴۹۰۶
  • Wu F, Jing X-Y, Zhou J, Ji Y, Lan C, Huang Q, Wang R (2019) Semi-supervised multi-view individual and sharable feature learning for webpage classification. In: WWW ’۱۹, ۲۰۱۹, pp 3349–۳۳۵۵. ISBN 9781450366748
  • Wulan SR، Supangkat SH (2017) خودآموزی یادگیری نیمه نظارتی برای طبقه بندی پیام های انگیزشی اندونزیایی. در: ۲۰۱۷ کنفرانس بین المللی ICT برای جامعه هوشمند، ۲۰۱۷، صفحات ۱-۷
  • Xiang R، Yin S (2021) طبقه بندی متن نیمه نظارت شده با ترکیب زمانی. در: ۲۰۲۱ کنفرانس بین المللی ارتباطات کامپیوتری و هوش مصنوعی (CCAI)، ۲۰۲۱، صفحات ۲۰۴-۲۰۸
  • Xiao H، Liu X، Song Y (2019) پیش‌بینی مسیر کارآمد برای طبقه‌بندی متن سلسله مراتبی نیمه‌نظارت‌شده و ضعیف. در: کنفرانس جهانی وب در — WWW ’19، ۲۰۱۹
  • Xie Q، Huang J، Peng M، Zhang Y، Peng K، Wang H (2019) مدل‌های مولد عمیق منظم و متمایز برای یادگیری نیمه نظارت شده. در: کنفرانس بین المللی IEEE 2019 در مورد داده کاوی (ICDM)، ۲۰۱۹، صفحات ۶۵۸-۶۶۷
  • Xu X, Li W, Xu D, Tsang IW (2016) برچسب‌گذاری مشترک برای یادگیری با برچسب ضعیف چند نمای. IEEE Trans Pattern Anal Mach Intell 38(6):1113-1125Google Scholar 
  • Xu Z, Li J, Liu B, Bi J, Li R, Mao R (2017) یادگیری نیمه نظارتی در طبقه بندی متن در مقیاس بزرگ. J Shanghai Jiaotong Univ (Sci) 22:291-302Google Scholar 
  • Xu B, Huang J, Hou L, Shen H, Gao J, Cheng X (2020) شبکه های عصبی نموداری مبتنی بر سازگاری برچسب برای طبقه بندی گره نیمه نظارت شده. در: SIGIR ’20: چهل و سومین کنفرانس بین المللی ACM SIGIR در مورد تحقیق و توسعه در بازیابی اطلاعات، ۲۰۲۰، صفحات ۱۸۹۷-۱۹۰۰
  • Xu Y, Li B (2017) Sentiment classification incorporating user profile. In: 2017 4th International conference on information science and control engineering (ICISCE), 2017, pp 663–۶۶۷
  • Yadav M، Bhojane V (2019) تجزیه و تحلیل ترکیبی نیمه نظارت شده-احساس هندی با استفاده از شبکه عصبی. در: نهمین کنفرانس بین المللی رایانش ابری، مهندسی علوم داده، ۲۰۱۹، صفحات ۳۰۹-۳۱۴
  • Yadav S, Kumar G, Kumar S (2019) مطالعه ساخت نمودار برای یادگیری نیمه نظارتی مبتنی بر نمودار: مطالعه موردی بر روی داده های متنی بدون ساختار. در: کنفرانس بین المللی داده های بزرگ، ۲۰۱۹، صفحات ۶۲۵۴-۶۲۵۶
  • یانگ اف، ژانگ اچ، تائو اس (۲۰۲۱) شبکه های کانولوشنی گراف چندلایه ساده شده با انصراف. Appl Intel 52:4776-4791Google Scholar 
  • Yang T، Linmei H، Shi C، Ji H، Li X، Nie L (2021a) HGAT: شبکه های توجه گراف ناهمگن برای طبقه بندی متن کوتاه نیمه نظارت شده. 39 (3). ISSN 1046-8188
  • یین زی، شیانگ جی، یین سی، وانگ جی (۲۰۱۸) الگوریتم طبقه‌بندی متن بر اساس SLAS-C. در: پیشرفت در علوم کامپیوتر و محاسبات همه جا حاضر. CUTE CSA 2017. نکات سخنرانی در مهندسی برق، ۲۰۱۸، جلد ۴۷۴، صفحات ۳۸۲–۳۸۷. شابک ۹۷۸-۹۸۱-۱۰-۷۶۰۴-۶
  • Yu X, Ren C, Zhou Y, Wang Y (2016) الگوریتم ماشین بردار پشتیبان انتقالی مبتنی بر بهینه‌سازی کلنی مورچه‌ها. در: محاسبات اجتماعی. ICYCSEE 2016. ارتباطات در علوم کامپیوتر و اطلاعات، جلد ۶۲۳، ص ۱۲۷-۱۳۵. شابک ۹۷۸-۹۸۱-۱۰-۲۰۵۲-۰
  • Yu J، Wu J، Wei B، Liu Y (2019) توجه CVAE: طبقه‌بندی احساسات نیمه نظارت شده مبتنی بر CVAE با استفاده از توجه. در: مجموعه مقالات کنفرانس بین المللی ۲۰۱۹ در تشخیص الگو و هوش مصنوعی، PRAI ’19، ۲۰۱۹، صفحات ۶۸-۷۵. شابک ۹۷۸۱۴۵۰۳۷۲۳۱۲
  • Zaghdoudi S, Glomann L (2021) هوش مصنوعی تحقیق تجربه کاربر را فعال کرد. در: پیشرفت در هوش مصنوعی، نرم افزار و مهندسی سیستم، صفحات ۱۸۷-۱۹۳. شابک ۹۷۸-۳-۰۳۰-۵۱۳۲۷-۶
  • Zhang Y, Ma J, Wang Z (2019) Semi supervised classification of scientific and technical literature based on semi supervised hierarchical description of improved latent Dirichlet allocation (LDA). Clust Comput 22:05Google Scholar 
  • Zhang W، Chen Q، Chen Y (2020) روش طبقه بندی متن قوی مبتنی بر یادگیری عمیق از طریق آموزش دشمن مجازی. دسترسی IEEE 8:61174–۶۱۱۸۲Google Scholar 
  • Zhang Z، Luo J، Huang G (2019b) یک روش طبقه بندی متن کوتاه نیمه نظارت شده بر اساس نمایش وزن برداری کلمه. در: ۲۰۱۹ IEEE نهمین کنفرانس بین المللی اطلاعات الکترونیک و ارتباطات اضطراری (ICEIEC)، ۲۰۱۹، صفحات ۳۲۴-۳۲۹
  • Zhang X، Zhang C، Luna DX، Shang J، Han J (2021b) طبقه‌بندی متن غنی از ساختار با حداقل نظارت از طریق یادگیری در شبکه‌های غنی از متن. در: مجموعه مقالات کنفرانس وب ۲۰۲۱، WWW ’21، ۲۰۲۱، صفحات ۳۲۵۸-۳۲۶۸. شابک ۹۷۸۱۴۵۰۳۸۳۱۲۷
  • Zhang G، Zheng H، Liu XY (2021a) روش طبقه‌بندی متن Co-STM بر اساس مدل موضوع نظارت شده. در: ۲۰۲۱ چهارمین کنفرانس بین المللی مواد پیشرفته الکترونیکی، کامپیوترها و مهندسی نرم افزار (AEMCSE)، ۲۰۲۱، صفحات ۴۶۲-۴۶۷
  • ژائو اچ، زی جی، وانگ اچ (۲۰۲۲) شبکه کانولوشنال نمودار بر اساس ادغام چند سر برای طبقه بندی متن کوتاه. دسترسی IEEE 10:11947–۱۱۹۵۶Google Scholar 
  • Zhou Z-H (2021) Semi-supervised learning. In: Machine learning. Springer, Berlin, pp 315–۳۴۱
  • Zhu W, Liu Y, Hu G, Ni J, Lu Z (2018) یک روش پسوند نمونه بر اساس ویکی‌پدیا و کاربرد آن در طبقه‌بندی متن. Wirel Pers Commun 102:10Google Scholar 
  • Zhu DH، Dai XY، Chen JJ (2021) پیش آموزش و یادگیری: حفظ اطلاعات جهانی برای شبکه های عصبی گراف. J Comput Sci Technol 36(6):1420-1430Google Scholar 

دانلود لیست مراجع

مشخصات نویسنده و نام مقاله

Duarte, JM, Berton, L.

مروری بر یادگیری نیمه نظارت شده برای طبقه بندی متن. Artif Intell Rev ۵۶ , 9401–۹۴۶۹

(۲۰۲۳). https://doi.org/10.1007/s10462-023-10393-8

دانلود مقاله انگلیسی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *