عنوان : ( ارائه سیستم خلاصهساز متون فارسی برمبنای ویژگیهای زبانشناختی و رگرسیون )
نویسندگان: محمود سلطانی , جلال الدین نصیری , احسان عسکریان ,چکیده
گسترش روزافزون دادههای متنی فارسی در فضای اینترنت و پیچیدگی جستوجو در میان انبوه این اسناد، خلاصهسازی خودکار متون فارسی را به یکی از زمینههای تحقیقاتی مورد توجه تبدیل کرده است. در این مقاله روشی کارا برای خلاصهسازی خودکار متون فارسی ارائه شده است. روش پیشنهادی که بهصورت انتخابی و تکسندی است، خلاصهسازی را بر اساس رتبهبندی جملات و انتخاب مهمترین آنها انجام میدهد. اهمیت هر جمله از متن با ترکیب خطی مقادیر هفت ویژگی زبانشناختی مستخرج از سند برای هر جمله بهدست میآید. وزن بهینه هر ویژگی در این ترکیب از روش رگرسیون خطی و با استفاده از پیکره آموزشی پاسخ محاسبه شده است. پس از محاسبه اهمیت جملات متن، در هر مرحله از الگوریتم، یک جمله با اهمیت بیشتر تا رسیدن به نرخ فشردهسازی مورد نظر انتخاب میشود. این جمله علاوه بر اینکه دارای بیشترین اهمیت است، کمترین میزان شباهت با جملات انتخابشده در مراحل قبلی را نیز دارد. نتایج بهدستآمده از مقایسه الگوریتم پیشنهادی با دو سیستم خلاصهساز «ایجاز» و «فارسیسام» با استفاده از «پیکره پاسخ» نشان میدهد که در بیشتر معیارهای ارزیابی پیشرفت قابل توجهی حاصل شده است
کلمات کلیدی
خلاصهسازی تکسندی ویژگیهای زبانشناختی متن رگراسیون خطی@article{paperid:1100439,
author = {محمود سلطانی and نصیری, جلال الدین and عسکریان, احسان},
title = {ارائه سیستم خلاصهساز متون فارسی برمبنای ویژگیهای زبانشناختی و رگرسیون},
journal = {پژوهشنامه پردازش و مدیریت اطلاعات- Iranian Journal of Information Processing Management},
year = {2018},
volume = {33},
number = {4},
month = {September},
issn = {2251-8223},
pages = {1809--1828},
numpages = {19},
keywords = {خلاصهسازی تکسندی ویژگیهای زبانشناختی متن رگراسیون خطی},
}
%0 Journal Article
%T ارائه سیستم خلاصهساز متون فارسی برمبنای ویژگیهای زبانشناختی و رگرسیون
%A محمود سلطانی
%A نصیری, جلال الدین
%A عسکریان, احسان
%J پژوهشنامه پردازش و مدیریت اطلاعات- Iranian Journal of Information Processing Management
%@ 2251-8223
%D 2018