کتاب فراداده‌ها، موتورهای کاوش وب و میانکنش‌پذیری آن‌ها

کتاب فراداده‌ها، موتورهای کاوش وب و میانکنش‌پذیری آن‌ها


سید مهدی طاهری، نجلا حریری و رحمت الله فتاحی در کتاب فراداده‌ها، موتورهای کاوش وب و میانکنش‌پذیری آن‌ها، به بررسی و مطالعۀ یکی از مهم‌ترین مسائل حوزۀ ذخیره، بازیابی اطلاعات و دانش با تأکید بر بهبود دسترس‌پذیری محتوای وب از طریق ابزارهای عمومی کاوش پرداخته‌اند.

انگیزۀ نگارش کتاب، اهمیت موضوع، مفید و کاربردی بودن محتوای اثر برای بهبود تلاش‌های کشور در زمینه میانکنش‌پذیری ابزارهای یاد شده و توصیه اساتید هدایت‌کننده و داور رساله، و دیگر همکاران بوده است. مطالب کتاب به دلیل ماهیت میان‌رشته‌ای برای هر دو گروه علم اطلاعات و علم رایانه مناسب خواهد بود.

پوشش موضوعی کتاب و پرداختن عمیق و نسبتاً مفصل به موضوعات فراداده، موتورهای کاوش وب، و فرایند میانکنش‌پذیری آن‌ها، قابلیت استفاده از کتاب به عنوان منبع درسی یا کمک درسی را فراهم نموده است. معرفی اثر برای واحدهای درسی سازماندهی منابع اطلاعاتی به ویژه سازماندهی رایانه‌ای اطلاعات در مقطع کارشناسی، بازنمایی اطلاعات (نمایه‌سازی پیشین) به ویژه برای تبیین نمایه‌سازی وب یا موتورهای کاوش وب، ذخیره و بازیابی اطلاعات، ارزشیابی نظام‌ها و خدمات اطلاعاتی، طراحی و توسعه کتابخانه‌های دیجیتالی در مقطع کارشناسی ارشد، واحدهای درسی نظریه‌های سازماندهی دانش، تحلیل متن و دانشکاوی، وب معنایی و هستی‌شناسی، معماری اطلاعات در مقطع دکترای علم اطلاعات و دانش‌شناسی و نیز واحدهای درسی مشابه در علم رایانه مفید به نظر می‌رسد.

در حال حاضر شبکه جهانی وب بزرگترین محیط ذخیره و بازیابی اطلاعات است. دسترسی به اطلاعات این محیط نیز مانند محیط‌های سنتی نیازمند سازماندهی است. با این تفاوت که حجم گسترده اطلاعات و ویژگی‌های فنی وب، نظام‌ها و ابزارهای ویژه‌ای را برای سازماندهی محتوا می‌طلبد.

فراداده، پاسخ حوزه سازماندهی دانش به مسئله دسترسی به محتوای محیط وب است. ابزار دیگر، موتورهای کاوش است که اقدامی فناورانه از سوی متخصصان حوزه فناوری اطلاعات و ارتباطات برای حل این مسئله است. با توجه به این که موتورهای کاوش بر اساس فرایند نمایه‌سازی، اطلاعات وب را جستجوپذیر می‌نمایند، به حوزه سازماندهی دانش نیز مرتبط می‌شوند. با این تفاوت که پیشینه‌های فرداده‌ای بیشتر توسط عوامل انسانی، و محتوای جستجوپذیر از طریق موتورهای کاوش بیشتر توسط عوامل ماشینی تولید می‌گردد. بنابراین، هر دو ابزار از طریق نظم بخشیدن و ساماندهی اطلاعات وب، دسترسی به این اطلاعات را تسریع و تسهیل می‌کنند.

در بخشی از فراداده‌ها، موتورهای کاوش وب و میانکنش‌پذیری آن‌ها می‌خوانیم:

برخلاف بزرگسالان باسواد، رایانه‌ها از درک ساختار یک شیء محتوایی در زبان طبیعی عاجزند و نمی‌توانند به صورت خودکار واژه‌ها را از جملات تشخیص دهند. برای یک رایانه، یک شیء محتوایی فقط رشته‌ای از بایت‌هاست. رایانه‌ها نمی‌دانند که یک نویسه‌ی فاصله واژه‌ها را در یک شیء محتوایی از یکدیگر جدا می‌سازد. در عوض، انسان باید رایانه را برای شناسایی چیزی که یک واژه مشخص یا منفرد (که به عنوان یک کلمه رمزی اشاره می‌شود) را می‌سازد، برنامه‌ریزی کند. چنین برنامه-ای، تجزیه‌کننده، واژه‌ساز، یا تعیین کننده کلمات رمزی نامیده می‌شود. بسیاری از موتورهای کاوش، نیز دیگر نرم‌افزارهای زبان طبیعی، برنامه‌های تخصیص داده شده برای تجزیه ایجاد می‌کنند.

در طی فرایند تعیین کلمات رمزی، تجزیه کننده رشته‌های نویسه‌ای که واژه‌ها و دیگر عناصر مانند نقطه‌گذاری که بوسیله کدهای عددی (که برخی از آن‌ها نویسه‌های کنترلی غیر چاپی هستند) بازنمود می‌گردند را شناسایی می‌کند. تجزیه کننده همچنین می‌تواند موجودیت‌هایی نظیر نشانی پست‌های الکترونیکی، شماره‌های تلفن، و مکان‌‌‌یاب‌های جهانی منبع (URLs) را شناسایی نماید. هنگام‌ شناسایی هر کلمه رمزی، ممکن است چندین نویسه همچون حالت کلمه رمزی (حرف بزرگ، حرف کوچک، شکل مرکب، شکل صحیح)، زبان یا رمزگذاری، طبقه واژه‌ای (بخش گفتار، شبیه اسم یا فعل)، محل رخداد واژه در متن، شماره جمله، محل رخداد جمله، طول جمله، و شماره خط ذخیره شوند.

فهرست مطالب
پیشگفتار
مقدمه
مفهوم سازماندهی دانش
نظام‌های سازماندهی دانش
ویژگی‌های مشترک نظام‌های سازماندهی دانش
انواع نظام‌های سازماندهی دانش
فهرست اصطلاحات
ردهبندی‌ها و طبقهبندی‌های
فهرست‌های روابط
فراداده (کلیات)
جایگاه فراداده در سازماندهی دانش
مروری بر مفهوم فراداده
تاریخچه شکلگیری اصطلاح و طرح‌های فراداد‌های
ضرورت و اهمیت استفاده از فراداده
شیوه‌های پیوند فراداده‌ها با اشیای محتوایی
کارکرد‌های فراداده
مزایا و کاربرد‌های فراداده
استاندارد‌های فراداد‌های
برخی نکات کلیدی در استفاده از فراداده
طرح فراداد‌های هسته دوبلین
پدیده هسته دوبلین
تاریخچه
اهداف استاندارد فراداد‌های هسته دوبلین
واژگان کنترل شده و ارزش‌های عناصر هسته دوبلین
مجموعه عناصر فراداد‌های هسته دوبلین
توضیحگر‌های هسته دوبلین
ضرورت استفاده از توضیحگر‌ها
انواع توضیحگر‌های هسته دوبلین
نرم افزار‌ها و ابزار‌های هسته دوبلین
بستر نحوی پیاده سازی پیشینه‌های فراداد‌های هسته دوبلین
وضعیت کنونی طرح فراداد‌های هسته دوبلین
قالب فراداد‌های مارک 21، و تمهیدات آن برای سازماندهی اشیای محتوایی وب
فیلد 856
قالب فراداد‌های مارک 21 در بستر زبان نشانه گذاری گسترش پذیر (MARCXML)
ویژگی‌ها و کاربرد‌های مارک در قالب ایکس. ام. ال.
کاربرد‌ها
مزایای مارک در قالب ایکس. ام. ال.
محدودیت‌های مارک در قالب ایکس. ام. ال.
تبدیل مارک 21 (2709) به/از مارک در قالب ایکس. ام. ال.
گذرگاه مارک در قالب ایکس. ام. ال.
ملاحظات طراحی مارک در قالب ایکس. ام. ال.
فرانمای ساده و انعطاف پذیر مارک در قالب ایکس. ام. ال.
تبدیل بدون آسیب مارک به مارک در قالب ایکس. ام. ال.
قابلیت تبدیل مارک در قالب ایکس. ام. ال. به مارک
ارائه داده‌ها
ویرایش مارک
تبدیل داده‌ها
اعتبارسنجی داده‌های مارک
گسترش پذیری
طرح فراداده توصیف شیء (MODS)
طرح فراداد‌های توصیف مستند (MADS)
بستر نحوی پیشینه‌های فراداد‌های
زبان نشانه‌گذاری فرامتن (HTML)
برچسب <pre>
زبان نشانه گذاری گسترش پذیر (XML)
کاربرد‌های زبان نشانه‌گذاری گسترشپذیر
استاندارد‌های خانواده بزرگ ایکس. ام. ال.
آشنایی با مفاهیم، فناوری‌ها، و پایگاه‌های داد‌های مبتنی بر ایکس. ام. ال.
تعریف زبان‌های ایکس. ام. ال.
نحوه انتشار اشیای محتوایی ایکس. ام. ال.
ایکس. ام. ال.، قالب انتقال داده ‌ها
زبان‌های تعریف سبک ایکس. ام. ال.
شیوه نامه آبشاری
زبان شیو‌های گسترش پذیر
نحوه عملکرد شیوه نامه
نحوه پردازش اشیای محتوایی مبتنی بر ایکس. ام. ال.
تجزیه کننده
ساختار یک شیء محتوایی مبتنی بر ایکس. ام. ال.
مفاهیم خوش شکل و معتبر
ویژگی‌های یک شیء محتوایی خوش شکل
فرانمای زبان نشانه گذاری گسترشپذیر
اعتبارسنجی اشیای محتوایی مبتنی بر ایکس. ام. ال.
فناوری مسیریاب ایکس. ام. ال.
فناوری زبان درخواست ایکس. ام. ال.
ویژگی‌های زبان درخواست ایکس. ام. ال.
کاربرد‌ها
پایگاه‌های داد‌های مبتنی بر ایکس. ام. ال.
تعریف پایگاه‌های داد‌های مبتنی بر ایکس. ام. ال.
پایگاه‌های با قابلیت پشتیبانی از ایکس. ام. ال.
پایگاه‌های بومی ایکس. ام. ال.
بازیابی داده‌های ذخیره شده در پایگاه‌های داد‌های مبتنی بر ایکس. ام. ال.
نمایه سازی اشیای محتوایی مبتنی بر ایکس. ام. ال.
رویکرد مبتنی بر پایگاه داد‌های
رویکرد مبتنی بر بازیابی اطلاعات
رویکرد دو وجهی
روش (یا راهبرد) جزیره داده‌ها
موتور‌های‌کاوش وب
انواع ابزار‌های کاوش وب
موتور‌های کاوش مبتنی بر پیمایش
راهنما‌های تقویت شده توسط انسان یا نمایه‌های دستی (راهنما‌های موضوعی)
«ابزار‌های‌کاوش دو وجهی» یا نتایج ترکیبی
فراموتور‌های کاوش
تاریخچه موتور‌های کاوش
ساختار موتور‌های کاوش
روش‌های نمایه سازی موتور‌های کاوش
ساختار‌های داد‌های مربوط به نمایه
نمایه‌های مقلوب
ترکیب نمای‌های
نمایه پیشین
تجزیه مدرک
تعیین کلمات رمزی
شناخت زبان
تحلیل قالب
تشخیص بخش‌های مختلف اشیای محتوایی
نمایهسازی فرابرچسب‌ها
الگوی نمایه‌سازی موتور‌های کاوش
الگوی متمرکز
الگوی توزیعی
معرفی مهمترین موتور‌های کاوش موجود در وب
گوگل
یاهو
شرکت یاهو
راهنمای موضوعی و موتور کاوش یاهو
ائتلاف موتور کاوش یاهو و موتور کاوش بینگ
مروری بر پیشرفتهترین روش‌های معرفی وب سایت‌ها به موتور‌های کاوش: با تاکید بر موتور‌های کاوش گوگل و یاهو
معرفی مستقیم وب سایت‌ها
امکان نقشه سایت مبتنی بر ایکس. ام. ال.
تایید و تعیین اعتبار وب سایت‌های معرفی شده به موتور‌های کاوش
گوگل
یاهو
سخن پایانی
تحلیلی بر مطالعات انجام شده در حوزه میانکنش‌پذیری
منابع فارسی
پیوست الف. فهرست عناصر دو سطح ساده و ویژه طرح فراداد‌های هسته دوبلین به همراه توصیف و توضیحگر‌های آن‌ها به زبان فارسی
پیوست ب. عناصر، عناصر فرعی، و خصیصه‌های طرح فراداد‌های توصیف شیء (نسخه 3. 5) به زبان فارسی
پیوست ج. فهرست برچسب‌ها و فرابرچسب‌های زبان نشانه‌گذاری فرامتن
پیوست د. نحوه ایجاد پایگاه داده‌های مبتنی بر ایکس. ام. ال. در محیط خدمت دهنده زبان درخواست ساختاریافته
واژه نامه انگلیسی- فارسی
واژه نامه فارسی- انگلیسی
نمایه موضوعی
مقدمه

مطالب مرتبط

تگ‌ها

مطالب پربیننده

پربیننده
آخرین مطالب

عضویت در خبرنامه