Friday, February 25, 2005

ส่วน Search และ Index ของ Slide

วันนี้ลองไล่ดู wiki และ source code ของ Slide ในส่วน
Index และ Search ดู ได้ความเบื้องต้นดังนี้

กรณี Search
ในส่วนของ WebDAV protocol Slide support DASL Extension
แต่ไม่พบเอกสารว่า support แค่ไหนอย่างไร มิหนำซ้ำ
DASL Spec. จริงๆแล้วก็ยัง
เป็นแค่ Draft
version
อยู่ แต่ถ้าพูดถึงในแง่ว่าเพียงพอต่อการใช้งานธรรมดาแล้ว
หรือยัง ก็ถือว่าเพียงพอแล้ว

กรณี Index

ตัว Slide เองถ้าติดตั้งแบบ default จะไม่มีการทำ index เก็บไว้
แต่ถ้ามี search method ส่งเข้ามา
ก็จะใช้วิธี search หากับเนื้อข้อมูลจริงเลย
กรณีที่เราต้องการทำ
Index. Slide ก็ bundle
Basic Index feature มาให้เรา 2 กรณีคือ

  • ทำ index ในส่วน MetaData ของ Resource
  • ทำ index ในส่วน Content

Note: ทั้ง 2 กรณีนี้ใช้ lucene เป็น engine

กรณีที่ทำ index ในส่วน MetaData ถือว่ายังอยู่ในขั้นทดลอง
จะ release จริงใน version 2.2
ส่วนกรณี content indexer ที่มีมาให้ ก็เป็น simple case
ถ้าจะใช้จริงต้อง implement เพิ่มเติมเอง
ถือว่ามี source ให้ดูเป็นแนวทางเท่านั้น

Feature ที่เกี่ยวเนื่องกับเรื่องนี้อีกอันก็คือ Extractor
เดิมเข้าใจว่า feature นี้น่าจะใช้กรณีที่เราต้องการ automatic สร้าง
metadata จากเนื้อ content เลย (เรียก PropertyExtractor)
แต่ใน source code เห็นมี Indexer ตัวหนึ่งเรียกใช้ตรงๆ จาก ExtratorManager เลย
เข้าใจว่าเป็นส่วนเพิ่มมาที่หลัง (เรียก ContentExtractor)
ใช้ extract เฉพาะส่วนที่สมควรทำ index ออกมาจากเนื้อ content
โดย slide มี extractor ให้ดังนี้

  • excel
  • word
  • powerpoint
  • PDF

วิธีที่กะว่าจะใช้

  1. ใช้ PropertyExtractor สำหรับ extract content ออกมา
  2. ใช้ Property Indexer ทำ index แบบ asyncronous

สิ่งที่ต้อง check ต่อก็คือ ลำดับของ slide ในการเรียก extractor กับ
เป็นไปตามที่เราคิดไว้หรือไม่







powered by IMHO 1.2

Related link from Roti

No comments: