بازیابی سند - قسمت اول

مقدمه ای بر بازیابی سند

بازیابی سند ترجمه تحت الفظی برای Document retrieval به حساب می آید. پروسه ای که طی آن در قبال یک پرس و جو توسط کاربر، نتایجی استخراج شده از اسناد به کاربر ارائه می شود. تفاوت مهمی که این نوع پرس و جو با سایر پرس و جوها مانند پرس و جو از بانک ها اطلاعاتی دارد در این است که در این نوع منابع اطلاعاتی بی ساختار ( unstructured  ) هستند. این منابع اطلاعاتی که مجموعه ای از اسناد می باشند ممکن است مبتنی بر زبان های طبیعی باشند یا نه که این ویژگی می تواند در انتخاب روش استخراج نتایج تاثیر داشته باشد.


یافتن نتایج پرس و جو حاصل یک جست و جو است. این جست و جو می تواند با پیمایش تمام محتویات اسناد صورت گیرد. روشی که grep از آن استفاده می کند. اما روش های موثرتری هم وجود دارد. دراین روشها معمولا ابتدا به روشی اسناد اندیس گذاری ( indexing ) می شوند وسپس پرس و جو برروی اندیس ها اعمال میشود. روش های زیادی برای اندیس گزاری وجود دارد. اندیس گزاری را می توان به صورت خلاصه استخراج عناصر مهم هر سند تعریف کرد. به این ترتیب نه تنها سرعت جست و جو افزایش می یابد بلکه کیفیت نتایج را بهبود و منابع مورد نیاز سیستم را کاهش میدهد.


در شکل بالا، رنگ سبز عملیات پرس و جو و رنگ قرمز عملیات اندیس گذاری را نشان میدهد. این دو عملیات می تواند مسقل از هم باشند و موازی یکدیگر انجام شوند. همانطور که Google Desktop به موازات اندیس گذاری فایل های کاربر، امکان جست و جو درآنها را فراهم می کند، هر چند اندیس گذاری به پایان نرسیده باشد.
اگرچه همان طور که گفته شد، عملیات های پرس و جو و اندیس گذاری میتواند مستقلا انجام شود، ولی موثر کردن بازخورد نتایج جست و جو در اندیس گذاری می تواند در بهبود سیستم کمک کننده باشد.
به ازای هر پرس و جو نیز، دو عمل باید انجام شود: اول استخراج نتایح مرتبط و دوم ارزش دهی نتایج و ارائه اولویت بندی  شده ی آنها بر اساس همین ارزش گذاری به کاربر.
استراتژی بازیابی میتواند بر پایه یکی از اصول زیر بنا نهاده شود:
1- بر پایه ظاهر سند: که اسناد را با توجه به معنای نحوی بررسی میکند. اسنادی که به صورت یک موجودیت معنای خاصی ندارند را بر این اساس میتوان پردازش کرد. مثلا اسناد حاوی لیستی از نام ها، آدرسها، کلمات کلیدی و ... .
2- بر پایه ی محتوای سند: اسناد بر پایه معنا و ارتباط بین بخش های مختلفش بررسی میشود.اسنادی را که به زبان طبیعی هستند و اجزای تشکیل دهنده آنها ( کلمات ) در کنار هم، معنا دارند را بر این اساس پردازش میکنیم. به این وسیله علاوه بر هر کلمه، به معنایی که در ورای آنهاست، دست پیدا میکنیم. توانایی در استخراج این معناست که می تواند در برتری یک سیستم جست و جو را بر دیگری موثر باشد.