ppt ファイルのインデックス付け

googleで検索していると時々pptファイルに出くわすのだが、これは少々おかしいのではないだろうか。
そもそもpptファイルのファイル形式は原則非公開のはずで、中身がどのような情報なのかはMS以外は基本的に見えないはずなのだが…
(まあ、openofficeでも読めているようなので公然のヒミツなのかもしれないが)


ファイルサーバーでの(ファイルタグ付け+情報検索)を考える上でppt, doc, xlsのタグ付けは避けて通れないのだが、これらのオープンソース実装があるといろいろ助かる.
( GFS でのスケールアウト+全文検索用ノード )の構成でOracle RAC 的なスケールアウトが非常な安価で可能だからだ。
特にファイルのロックは、 RDBのロックと比べて簡単なので、パフォーマンスが出しやすい.