اطلاعیه ها

مشکلات جستجوی فارسی در موتورهای جستجو

اینترنت دریایی بیکران از اطلاعات در تمام زمینه ها  می باشد که هر کس به سهولت می تواند به این اطلاعات دسترسی داشته باشد. برای بازیابی اطلاعات مورد نظر بایستی با این ابزار های بازیابی اطلاعات یا همان موتورهای جستجو گر اینترنتی و همچنین فنون و تکنیک های بازیابی اطلاعات  آشنایی کافی داشت.

موتورهای جستجو برحسب نوع و دامنه عملکردشان به دسته های مختلفی طبقه بندی می شوند از معروفترین آنها می توان به google, yahoo, bing, info, monster, webMD,.. اشاره کرد. برخی از این موتورها با امکانات فارسی عبارتند از NPiran, Iranhoo, iranMehre, Parseek

در بین تمام این موتورها جستجوگر google دارای امکانات و عملکردهای بهتری برای جستجو در سایت های فارسی می باشد. برخی از ابزار های google شامل موارد زیر هستند:

مترجم گوگل: که قابلیت ترجمه متون فارسی به زبان های دیگر و بلعکس را دارد این ترجمه بصورت همزمان صورت می گیرد.

مرورگر گوگل کروم: سریعترین مرورگر موجود می باشد و صفحات فارسی را به درستی نمایش می دهد این مرورگر قابلیت ادغام مترجم گوگل را نیز دارا می باشد.

صفحه کلید مجازی فارسی: که گوگل برای تایپ فارسی ایجاد کرده است کاربرد این صفحه کلید زمانی است که شما به سیستم خود دسترسی ندارید و لازم است مطلبی را به زبان فارسی تایپ کرده و جستجو کنید.

همانگور که در بالا اشاره شد برای بازیابی موثر اطلاعات باید با فنون و تکنیک های بازیابی اطلاعات آشنا بود برخی از مهمترین تکنیک های کاربری از اینترنت عبارتند از:

1  عملگرهای بولین : Boolean operators

http://images.persianblog.ir/668638_qwWdRAld.jpg

2  جستجوی عبارت :  Phrase searching

یک عبارت یا جمله مشخص به همان ترتیبی که کلمات وارد شده‌، مورد جستجو قرار داده می شود. برای این روش جستجو عبارت مورد نظر داخل گیومه"" یا پرانتز قرار گرفته می شود.

3  جستجوی ریشه ای یا کوتاه نویسی : Truncation Wildcard

این روش این امکان را می‌دهد که با وارد کردن بخشی از یک کلید واژه بتوانیم مشتقات مختلف آن را نیز در فرآیند جستجو بازیابی کنیم. اکثر موتورهای جستجو این تکنیک را با استفاده از علامت ستاره (*) ارائه می‌دهند.

4  فیلدهای قابل جستجو در عنوان صفحات :

در این روش موتور کاوشگر به جستجوی واژه‌های کلیدی در عنوان سایت‌ها می‌پردازد.

جستجوی رسانه‌های مختلف شامل موسیقی، عکس، ویدئو

6 جستجوی ترکیبی:

شامل ترکیبی از موارد فوق می باشد که به وسیله آن می‌توان تا حدود زیادی از بازیابی موارد غیر مرتبط در محیط وب جلوگیری کرد.

در حال حاضر بیشتر اطلاعات موجود بر روی اینترنت به زبان انگلیسی است، ولی حجم اطلاعات به زبان فارسی نیز با سرعت در حال افزایش است با این حال جستجو به زبان‌های غیر انگلیسی از جمله فارسی، مشکلات مختلفی را جدای از مشکلات عمومی اینترنت به همراه دارد.

اشکال و نقصی که در زبان و خط فارسی موجود  است بر گرفته از دو عامل اصلی است : اصل خط و دیگری تغییر و تحول در زبان. این عوامل موجب اختلاف تلفظ و خط می شوند برخی از این مشکلات شامل موارد زیر می شوند:

1-      اصوات واحد به صورت‌های مختلف نوشته می شود. مثلا در فارسی حرف “س” سه صورت (س – ص – ث) نوشته میشود.

2-      اصواتی هستند که تلفظ می‌شوند اما در خط نشانه‌ای برای آن‌ها نیست. مثلا در فارسی سه مصوت کوتاه ( َ ِ ُ ) نوشته نمی شوند.

3-      شکل واحدی اصوات مختلف را بیان می کند. چنانکه در فارسی حرف “ی” را گاهی برای حرف لین بکار میبریم (یک) و گاهی برای حرف مد (بی) و گاهی به جای الف (عیسی) و ...

4-      از راست به چپ نوشتن خط فارسی.

5-      انواع مختلف جمع برای یک واژه مفرد.

6-      بسیاری از حروف نوشته می‌شوند ولی خوانده نمی‌شود مثل واو در کلمه خواهر.

7-      گوناگونی متصل و منفصل‌نویسی مثل اندیشه مند و اندیشمند.

8-      گوناگونی معادل‌های علمی.

9-      انواع مختلف ضبط اسامی خارجی.

10-   صورت‌های مختلف نوشتاری مثل بتن و بتون.

بنابراین نبود استاندارد ثابت رسم الخط فارسی موجب این شده است که به تعداد صفحات وب فارسی سبک و سیاق نگارش به کار رفته باشد این امر ایجاب می کند رسم الخط فارسی از یک ضابطه و قانون کلی تبعیت کند تا همه متون فارسی موجود در اینترنت براساس الگو و شکل متحدی به نگارش در آیند.