辞書コンバータ

Update: 1999.8.20

1.1 辞書コンバータ otow のしくみ

※書式ファイル:: ATOK7/ATOK8/VJE-Delta/EGBRIDGE の各辞書ファイル（テキスト形式）の書式を定義したもので、コンバータの解析方法を決定するものです。
"/usr/local/lib/wnn6/ja_JP/otow.format" の下に各ＦＥＰごとの書式ファイルがあります。

入力部で、辞書テキストファイルが書式ファイルにある書式に適応していれば、その書式を解析することにより、Ｗｎｎ６のテキスト形式辞書ファイルへコンバートします。

1.2 起動

形式

% /usr/local/bin/Wnn6/otow

otow [-i 入力ファイル] [-f 書式ファイル]
[-o 出力ファイル] [-l ログファイル]
[-h 頻度値]

-i 入力ファイル入力ファイルに指定するのは、ＡＴＯＫ７、ＡＴＯＫ８、ＶＪＥ‐Ｄｅｌｔａ、ＥＧＢＲＩＤＧＥのそれぞれのテキスト形式辞書ファイルです。
文字コードは、ＥＵＣコードに限られます。
"入力ファイル名" を指定しない場合は、標準入力に対応します。

（参）
入力ファイルの内容については、後述の「2.1 入力ファイル」を参照してください。

**（参）**
入力ファイルの内容については、後述の「2.1 入力ファイル」を参照してください。

-f 書式ファイル書式ファイルは入力ファイルの書式を定義するものです。
文字コードは、ＥＵＣコードに限られます。
書式ファイルで指定された書式にしたがって、入力ファイルの内容を解釈します。
"書式ファイル名" を指定しない場合は、ＡＴＯＫ７の書式が指定されたものと見なします。

（参）
書式ファイルの内容については、後述の「2.2 書式ファイル」を参照してください。

**（参）**
書式ファイルの内容については、後述の「2.2 書式ファイル」を参照してください。

-o 出力ファイルコンバート後のＷｎｎ６のテキスト形式辞書ファイル名を指定します。
出力する文字コードは、ＥＵＣコードです。
省略時には、標準出力へ対応します。

（参）
出力ファイルの内容については、「辞書 - 5.テキスト形式辞書の編集」または、後述の「2.3 出力ファイル」を参照してください。

**（参）**
出力ファイルの内容については、「辞書 - 5.テキスト形式辞書の編集」または、後述の「2.3 出力ファイル」を参照してください。

-l ログファイルコンバートが不可能な単語がある場合、このログファイルへ出力されます。
出力する文字コードは、ＥＵＣコードです。
"ログファイル名" を指定しない場合は、ログファイルは作成されません。

（参）
ログファイルの内容については、後述の「2.4 ログファイル」を参照してください。

**（参）**
ログファイルの内容については、後述の「2.4 ログファイル」を参照してください。

-h 頻度値出力ファイルに適応する頻度値を指定します。
省略時には、頻度値１が設定されます。

2.ファイル形式

2.1 入力ファイル

256

(1)ＡＴＯＫ７辞書形式

【コメント】
読み1, 読み2, 読み3,	単語1, 単語2, 単語3,	品詞1 品詞2 品詞3
：	：	：

ア,
ア,
ア,
ア,
ア, 亜,
あ,
あ,
阿,
開, 単漢字
カ行五段
ワ行五段
単漢字
カ行五段

：：：

（参）
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、後述の「2.2 書式ファイル」を参照してください。

**（参）**
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、後述の「2.2 書式ファイル」を参照してください。

(2)ＡＴＯＫ８辞書形式

!コメント

読み1,
読み2,
読み3, 単語1,
単語2,
単語3, 品詞1
品詞2
品詞3

：：：

!ATOK8UT;単語一覧;A:\ATOK8\ATOK8.DIC

book,
ア,有,
ア,亜,
ア,阿,
ア,あ本, 一般名詞
ラ行五段
単漢字
単漢字
カ行五段

：：

（参）
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、後述の「2.2 書式ファイル」を参照してください。

**（参）**
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、後述の「2.2 書式ファイル」を参照してください。

(3)ＶＪＥ‐Ｄｅｌｔａ辞書形式

読み1[TAB]
読み2[TAB]
読み3[TAB] 単語1[TAB]
単語2[TAB]
単語3[TAB] 品詞1
品詞2
品詞3

：：：

（例）

あ
あ
あ
あ
あ編
あ
あ
開
空［マ五］
［ワ五］
［ラ五ある］
［カ五］
［カ五］

：：：

（参）
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、後述の「2.2 書式ファイル」を参照してください。

**（参）**
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、後述の「2.2 書式ファイル」を参照してください。

(4)ＥＧＢＲＩＤＧＥ辞書形式

読み1[TAB]
読み2[TAB]
読み3[TAB] 単語1[TAB]
単語2[TAB]
単語3[TAB] 品詞1
品詞2
品詞3

：：：

（例）

あー
あきはばら
あせ
あたらし
あとかぎ
あとかく
あとてん
あとぱ
あぷりアーカイブ
秋葉原
(^_^;
新し
』
］
”
】
アプリケーション 1+20
1+3
1
1
1
1
1
1
1

：

（参）
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、後述の「2.2 書式ファイル」を参照してください。

**（参）**
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、後述の「2.2 書式ファイル」を参照してください。

2.2 書式ファイル

形式:

/usr/local/lib/wnn6/ja_JP/otow.format/*.fmt

各ＦＥＰごとの書式ファイルは、上記のディレクトリ下で以下のファイルに該当します。

ＡＴＯＫ７向書式ファイル
ＡＴＯＫ８向書式ファイル
ＶＪＥ‐Ｄｅｌｔａ向書式ファイル
ＥＧＢＲＩＤＧＥ向書式ファイル atok7-wnn6.fmt
atok8-wnn6.fmt
vje-wnn6.fmt
egbridge-wnn6.fmt

以下はＡＴＯＫ７の書式ファイル例ですが、「書式データ」と「品詞」は、次のように分類されています。

（例）

形式：読み,単語,品詞
区切りは「,」「、」

コメント開始="【"
コメント終了="】"
読み=1
読み区切り=","
読み区切り連続=NG
読み無効=" "
単語識別=
単語区切り=","
単語区切り連続=NG
単語無効=" "
品詞区切り=","
品詞無効=
品詞つなぎ=
シーケンス=OFF
品詞対応
"一般名詞","名詞"
"固有名詞","固有名詞"
"名詞サ変","サ行(する)&名詞"
"名詞ザ変","ザ行(ずる)&名詞"
"名詞形動","形容動詞&名詞"

：

" " で始まる行はコメント行になり、解釈されません。

(1)書式データ

書式データのフォーマットは以下のようになります。

キーワード名＝定義
キーワード名＝定義
キーワード名＝定義：

書式キーワード名に対応する定義内容を半角文字 "=" でセットします。
[TAB] などの制御コードを使用する場合、実際の制御コードを記述することができます。
また、" " に続けて、アスキーコードを３桁の８進数で記述することもできます。

制御コード
\a
\t
\n
\v
\f
\r
\"
\'
\\ ８進数
\007
\011
\012
\013
\014
\015
\042
\047
\104

書式データで未定義のキーワード名に対しては、初期設定であるＡＴＯＫ７での定義が採用されることになります。

キーワード名定義内容

コメント開始コメント開始部分の文字を指定します。
最大４バイトでコメント開始文字を指定することができます。
入力ファイルにコメントがない場合は、定義に何も記述しません。

コメント終了コメント終了部分の文字を指定します。
最大４バイトでコメント終了文字を指定することができます。
入力ファイルにコメントがない場合は、定義に何も記述しません。
行末は必ずコメントの終了になります。

読み読みの文字幅（半角、全角）を指定します。
半角の場合は 1 、全角の場合は 2 を指定します。
読みの文字幅を「半角」に指定すると、出力ファイルには全角に変換します。

読み区切り
(注）読みの終了を示す文字を指定します。
最大４バイトで終了文字を指定することができます。
「読み区切り」は複数設定することができます。

読み区切り連続読み区切りの文字を連続して入力できるかを指定します
できる場合は OK 、できない場合は NG を指定します。

（例）
読み区切り=" "
読み区切り="\t"
読み区切り連続=OK

**（例）**
読み区切り=" " 読み区切り="\t" 読み区切り連続=OK

上記のように指定した場合、[SPACE] または [TAB] で、読みを区切ります

キーワード名定義内容

読み無効
（注）読みに使用される文字で、無効となる文字を指定します最大４バイトで無効とする文字を指定することができます。
入力ファイルに「読み無効」の文字がない場合は、定義に何も記述しません。
「読み無効」は複数指定することができます。

単語識別
（注）単語を囲む文字を指定します。
最大４バイトで文字を指定することができます。
入力ファイルに「単語識別」の文字がない場合は、定義に何も記述しません。

単語区切り
（注）単語の終了を示す文字を指定します。
最大４バイトで終了文字を指定することができます。
入力ファイルに「単語区切り」の文字がない場合は、定義に何も記述しません。
「単語区切り」は複数指定することができます。

単語区切り連続単語区切りの文字を連続して入力できるかを指定しますできる場合は OK 、できない場合は NG を指定します。

単語無効
ALIGN="CENTER"（注）単語に使用される文字で、無効となる文字を指定します
最大４バイトで無効とする文字を指定することができます。
入力ファイルに「単語無効」の文字がない場合は、定義に何も記述しません。
「単語無効」は複数指定することができます。

（例）
「読み区切り」から「単語識別」の間に文字がある場合、無視されます。また、「単語識別」から「単語区切り」の間に文字がある場合も、無視されます。
「読み区切り」と「読み無効」に同じ文字を指定することはできません。
「単語区切り」と「単語無効」、「単語識別」と「単語無効」、「単語識別」と「単語区切り」でも、同様に同じ文字を指定することはできません。

**（例）**
「読み区切り」から「単語識別」の間に文字がある場合、無視されます。また、「単語識別」から「単語区切り」の間に文字がある場合も、無視されます。「読み区切り」と「読み無効」に同じ文字を指定することはできません。「単語区切り」と「単語無効」、「単語識別」と「単語無効」、「単語識別」と「単語区切り」でも、同様に同じ文字を指定することはできません。

キーワード名定義内容

品詞区切り品詞の終了を示す文字を指定します。
最大４バイトで終了文字を指定することができます。
入力ファイルに「品詞区切り」の文字がない場合は、定
義に何も記述しません。
行末は必ず品詞の終了です。

品詞無効品詞に使用される文字で、無効となる文字を指定します
最大４バイトで無効とする文字を指定することができます。
入力ファイルに「品詞無効」の文字がない場合は、定義
に何も記述しません。
「品詞無効」は複数指定することができます。

品詞つなぎ複数の品詞を指定する場合に使用します。
最大４バイトでつなぎとなる文字を指定することができます。
入力ファイルに「品詞つなぎ」の文字がない場合は、定
義に何も記述しません。

シーケンスＥＳＣシーケンスの解釈が必要であるかを指定します。
必要がある場合は ON 、必要がない場合は OFF を指定
します。

書式データと入力辞書ファイルの対応例
入力辞書ファイル

【コメント】アキハバラ , **”秋葉原”**, 名詞＋地名＄,

読み：アキハバラ
単語：秋葉原
品詞：名詞＋地名

書式データ

品詞区切り=","
品詞無効="＄"
品詞つなぎ="＋"
単語区切り連続=NG
単語区切り=","
単語無効="*"
単語識別="”"
読み区切り連続=NG
読み区切り=","
読み無効=" "
読み=2
コメント終了="】"
コメント開始="【"
シーケンス=OFF

ＡＴＯＫ７、ＡＴＯＫ８、ＶＪＥ‐ｄｅｌｔａ、ＥＧＢＲＩＤＧＥのそれぞれの書式データの設定は次のようになっています。

キーワード名 ATOK7
(初期設定) ATOK8 VJE-Delta EGBRIDGE

コメント開始 "【" "!" 指定なし "//"

コメント終了 "】" 指定なし指定なし指定なし

読み 1 1 2 2

読み区切り "," ","
"、" [TAB] [TAB]

読み区切り連続 NG NG OK NG

読み無効 " " " " 指定なし指定なし

単語識別指定なし """ 指定なし指定なし

単語区切り "," ","
"、" [TAB] [TAB]

単語区切り連続 NG NG OK NG

単語無効 " " " " 指定なし指定なし

品詞区切り "," "," "," [TAB]

品詞無効指定なし "$"
"*" "*" 指定なし

品詞つなぎ指定なし指定なし指定なし "＋"

シーケンス OFF OFF OFF 0FF

(2)品詞

品詞対応のフォーマットは以下のようになります。

入力辞書の品詞名称, Ｗｎｎ６の品詞名称
入力辞書の品詞名称, Ｗｎｎ６の品詞名称
入力辞書の品詞名称, Ｗｎｎ６の品詞名称

：

入力辞書の品詞名称に対応するＷｎｎ６の品詞名称を半角文字"," でセットします。

（例）入力辞書:
ＡＴＯＫ７

"一般名詞","名詞"
"固有名詞","固有名詞"
"名詞サ変","サ行(する)&名詞"

：

（例）入力辞書:
ＶＪＥ‐ｄｅｌｔａ

"【カ五】", "カ行五段"
"【ガ五】", "ガ行五段"
"【サ五】", "サ行五段"

：

2.3 出力ファイル

ＥＵＣコード

テキスト形式辞書（出力ファイル）の書式は、次のようになります。

\comment
\total
\hinsi
読み単語品詞頻度
読み単語品詞頻度
読み単語品詞頻度

：

（例）
% otow -i atok7-dic.txt -f atok7-wnn6.fmt -o wnn6-dic.txt

wnn6-dic.txt

\comment
\total
\hinsi

あ
あ
あ
あ
あ
あ亜
あ
あ
会
合
阿単漢字
カ行五段
ワ行五段
ワ行五段
ワ行五段
単漢字 1
1
1
1
1
1

：：：：

2.4 ログファイル

ログファイルの書式は、次のようになります。

コンバートできない行 ← エラー番号
コンバートできない行 ← エラー番号
コンバートできない行 ← エラー番号

：

「コンバートできない行」には、入力辞書中、コンバート不可能な単語が存在する行が入ります。

エラー番号には、各番号により、次ページの表にあるエラー原因が対応しています。

エラー番号原因

１「読み」の長さが 256 を超えています。

２「読み」の長さが 0 です。

３単語部分が識別できません。
書式データ:単語区切りなどを確認してください。

４「単語」の長さが 256 を超えています。

５「単語」の長さが 0 です。

６単語識別が書式データと不適合です。

７品詞部分が識別できません。
書式データ:品詞区切りなどを確認してください。

８品詞が不適切です。

９品詞定義の形式が不適合です。

起動時のオプション指定での誤りなど、標準出力されるエラーについては、付録の「付録 - エラーメッセージ一覧」を参照してください。

キーワード名	定義内容
コメント開始	コメント開始部分の文字を指定します。最大４バイトでコメント開始文字を指定することができます。入力ファイルにコメントがない場合は、定義に何も記述しません。
コメント終了	コメント終了部分の文字を指定します。最大４バイトでコメント終了文字を指定することができます。入力ファイルにコメントがない場合は、定義に何も記述しません。行末は必ずコメントの終了になります。
読み	読みの文字幅（半角、全角）を指定します。半角の場合は 1 、全角の場合は 2 を指定します。読みの文字幅を「半角」に指定すると、出力ファイルには全角に変換します。
読み区切り (注）	読みの終了を示す文字を指定します。最大４バイトで終了文字を指定することができます。「読み区切り」は複数設定することができます。
読み区切り連続	読み区切りの文字を連続して入力できるかを指定しますできる場合は OK 、できない場合は NG を指定します。

キーワード名	定義内容
読み無効（注）	読みに使用される文字で、無効となる文字を指定します最大４バイトで無効とする文字を指定することができます。入力ファイルに「読み無効」の文字がない場合は、定義に何も記述しません。「読み無効」は複数指定することができます。
単語識別（注）	単語を囲む文字を指定します。最大４バイトで文字を指定することができます。入力ファイルに「単語識別」の文字がない場合は、定義に何も記述しません。
単語区切り（注）	単語の終了を示す文字を指定します。最大４バイトで終了文字を指定することができます。入力ファイルに「単語区切り」の文字がない場合は、定義に何も記述しません。「単語区切り」は複数指定することができます。
単語区切り連続	単語区切りの文字を連続して入力できるかを指定しますできる場合は OK 、できない場合は NG を指定します。
単語無効 ALIGN="CENTER"（注）	単語に使用される文字で、無効となる文字を指定します最大４バイトで無効とする文字を指定することができます。入力ファイルに「単語無効」の文字がない場合は、定義に何も記述しません。「単語無効」は複数指定することができます。

キーワード名	定義内容
品詞区切り	品詞の終了を示す文字を指定します。最大４バイトで終了文字を指定することができます。入力ファイルに「品詞区切り」の文字がない場合は、定義に何も記述しません。行末は必ず品詞の終了です。
品詞無効	品詞に使用される文字で、無効となる文字を指定します最大４バイトで無効とする文字を指定することができます。入力ファイルに「品詞無効」の文字がない場合は、定義に何も記述しません。「品詞無効」は複数指定することができます。
品詞つなぎ	複数の品詞を指定する場合に使用します。最大４バイトでつなぎとなる文字を指定することができます。入力ファイルに「品詞つなぎ」の文字がない場合は、定義に何も記述しません。
シーケンス	ＥＳＣシーケンスの解釈が必要であるかを指定します。必要がある場合は ON 、必要がない場合は OFF を指定します。

キーワード名	ATOK7 (初期設定)	ATOK8	VJE-Delta	EGBRIDGE
コメント開始	"【"	"!"	指定なし	"//"
コメント終了	"】"	指定なし	指定なし	指定なし
読み	1	1	2	2
読み区切り	","	"," "、"	[TAB]	[TAB]
読み区切り連続	NG	NG	OK	NG
読み無効	" "	" "	指定なし	指定なし
単語識別	指定なし	"""	指定なし	指定なし
単語区切り	","	"," "、"	[TAB]	[TAB]
単語区切り連続	NG	NG	OK	NG
単語無効	" "	" "	指定なし	指定なし
品詞区切り	","	","	","	[TAB]
品詞無効	指定なし	"$" "*"	"*"	指定なし
品詞つなぎ	指定なし	指定なし	指定なし	"＋"
シーケンス	OFF	OFF	OFF	0FF

エラー番号	原因
１	「読み」の長さが 256 を超えています。
２	「読み」の長さが 0 です。
３	単語部分が識別できません。書式データ:単語区切りなどを確認してください。
４	「単語」の長さが 256 を超えています。
５	「単語」の長さが 0 です。
６	単語識別が書式データと不適合です。
７	品詞部分が識別できません。書式データ:品詞区切りなどを確認してください。
８	品詞が不適切です。
９	品詞定義の形式が不適合です。

辞書コンバータ

1.機能説明

1.1 辞書コンバータ otow のしくみ

1.2 起 動

2.ファイル形式

2.1 入力ファイル

(1)ＡＴＯＫ７ 辞書形式

(2)ＡＴＯＫ８ 辞書形式

(3)ＶＪＥ‐Ｄｅｌｔａ 辞書形式

(4)ＥＧＢＲＩＤＧＥ 辞書形式

2.2 書式ファイル

(1)書式データ

(2)品 詞

2.3 出力ファイル

2.4 ログファイル

1.2 起動

(1)ＡＴＯＫ７辞書形式

(2)ＡＴＯＫ８辞書形式

(3)ＶＪＥ‐Ｄｅｌｔａ辞書形式

(4)ＥＧＢＲＩＤＧＥ辞書形式

(2)品詞