Collins コウビルド米語版英英和辞典 (活用ハンドブック付き) Softcover (1712 pp) + CD-ROMを解析中

Collins コウビルド米語版英英和辞典 (活用ハンドブック付き) Softcover (1712 pp) + CD-ROM

Collins コウビルド米語版英英和辞典 (活用ハンドブック付き) Softcover (1712 pp) + CD-ROM

Windowsでインストールすると、C:\Program Files\CCJAD\xmls 以下にxml形式のテキストファイルが格納される。このxmlがまさに辞書本文。
たぶん、以下のような内容と思われる。判明分は、随時追加予定。

概要

  • a.xml 〜 z.xml の26ファイルがある。見出し語の先頭文字で分類されている。
  • UTF-8(BOMなし)、CRLF

xmlファイルの例

<?xml version="1.0" encoding="utf-8"?>
<dictionary>
  <headword>
    <HWME1 value="X" />
    <HWAS1 value="x" />
    <PCPA1 value="*Eks" />
    <PRON1 value="*Eks" />
    <HDIF1 value="X's, x's" />
    <IFGR1 value="plural" />
    <POSP1 value="N-VAR" />
    <POSPJ value="可変性名詞" />
    <DEFN1 value="&lt;b&gt;X&lt;/b&gt; is the twenty-fourth letter of the English alphabet." />
    <TLID value="X_00001" />
    <DEFNJ value="エックス (アルファベットの第24文字)" />
  </headword>
  <headword>
    <!-- 以下、headwordタグの繰り返し -->
  </headword>
</dictionary>

根っこに近いタグ

dictionary
ルートタグ
headword
dictionaryタグの子要素。検索ソフトで1ページ分として表示される内容を示す。

5文字タグ

  • headwordタグの子要素。
  • 英大文字または数字の5文字。
  • 空要素タグ。
  • 属性は0個または1個。
  • 属性がある場合、属性名は value
/^....J$/
属性valueが日本語表記になっているタグ。
/^B....$/
Word Linkの中身。
/^HWME.$/
見出し語。「+」が音節区切り
/^HWAF.$/
見出し語の別表記。「+」が音節区切り。属性例:an(この場合の見出し語は"a")
/^POSP.$/
品詞。
/^HDIF.$/
変化。複数形とか過去形とか。属性例:asking
/^IFGR.$/
変化の説明。/^HDIF.$/タグの次に来る。属性例:present participle
/^DEFN.$/
語義。
/^LBRR.$/
使われる状況。属性例:FORMAL
/^EGPH.$/
例文。
/^USRC.$/
例文の出典。
/^DNUM.$/
語義の区切り。同一見出し語で語義が複数ある時、各語義がこのタグで区切られる。属性なし。
/^HDGR.$/
前後の品詞を含めた使い方。属性例:usu ADJ n
/^FREQ.$/
紙の辞書にも検索ソフトにも該当する情報がないのでよくわからんが、属性が数字なので、出現頻度?