عنوان : ( اﺳﺘﺨﺮاج ﻛﻠﻴﺪواژگان پایان نامه ﻓﺎرﺳﻲ ﺑﺎ اﺳﺘﻔﺎده از ویژگی آﻣﺎری و دﺳﺘﻪﺑﻨﺪ ﺑﻴﺰ )
نویسندگان: بهزاد حجازی , جلال الدین نصیری ,چکیده
هدف اصلی استخراج کلمات کلیدی انتخاب مجموعهای از لغات در متن است که میتواند موضوع اصلی متن را بازگو کند. استخراج کلیدواژگان در بازیابی اطلاعات، سیستمهای پیشنهاددهندۀ متنی و دستهبندی متون، نقش مهم را ایفا میکند. در زبان فارسی باتوجه به پیچیدگی ذاتی زبان فارسی استخراج کلیدواژگان بهمراتب دشوارتر شده است. در این پژوهش سعی شده است با رویکرد نوین ترکیبی آماری و یادگیری ماشین به استخراج کلیدواژگان پرداخته شود. ابتدا باتوجه به ساختار زبان فارسی پیشپردازهای لازم برای حذف کلمات و علائم نگارشی صورت میگیرد. سپس با استفاده از سه نوع ویژگی آماری و دستهبند بیز سیستم بهصورت خودکار الگوی کلمات کلیدی با کلمات عادی را آموزش میبیند. همچنین پسپردازش کارا برای کم کردن کلمات مثبت کاذب در چارچوب پیشنهادی طراحی شده است. گفتنی است که مدل ساختهشده قادر به شناسایی تعداد حداکثر 20 کلیدواژه در هر پایاننامه است و این کلمات با کلیدواژگان نوشتهشده در هر متن مقایسه و ارزیابی میشوند. نتایج ارزیابیهای متنوع نشان میدهد روش پیشنهادی با دقت مناسبی توانسته است کلمات کلیدی نوشتارهای فارسی علمی (پایاننامه و رساله) را استخراج کند.
کلمات کلیدی
, استخراج کلیدواژگان, دستهبند بیز, ویژگیهای آماری, پیشپردازش, پسپردازش@article{paperid:1100294,
author = {بهزاد حجازی and نصیری, جلال الدین },
title = {اﺳﺘﺨﺮاج ﻛﻠﻴﺪواژگان پایان نامه ﻓﺎرﺳﻲ ﺑﺎ اﺳﺘﻔﺎده از ویژگی آﻣﺎری و دﺳﺘﻪﺑﻨﺪ ﺑﻴﺰ},
journal = {Language Related Research- جستارهای زبانی},
year = {2022},
volume = {12},
number = {6},
month = {March},
issn = {2322-3081},
pages = {339--367},
numpages = {28},
keywords = {استخراج کلیدواژگان، دستهبند بیز، ویژگیهای آماری، پیشپردازش، پسپردازش},
}
%0 Journal Article
%T اﺳﺘﺨﺮاج ﻛﻠﻴﺪواژگان پایان نامه ﻓﺎرﺳﻲ ﺑﺎ اﺳﺘﻔﺎده از ویژگی آﻣﺎری و دﺳﺘﻪﺑﻨﺪ ﺑﻴﺰ
%A بهزاد حجازی
%A نصیری, جلال الدین
%J Language Related Research- جستارهای زبانی
%@ 2322-3081
%D 2022