目次 | 前へ | 次へ |
入力部で、辞書テキストファイルが書式ファイルにある書式に適応していれば、その書式を解析することにより、Wnn6のテキスト形式辞書ファイルへコンバートします。
% /usr/local/bin/Wnn6/otow |
|
-i 入力ファイル |
入力ファイルに指定するのは、ATOK7、ATOK8、VJE‐Delta、EGBRIDGEのそれぞれのテキスト形式辞書ファイルです。 文字コードは、EUCコードに限られます。 "入力ファイル名" を指定しない場合は、標準入力に対応します。 |
入力ファイルの内容については、後述の 「2.1 入力ファイル」を参照してください。 |
-f 書式ファイル |
書式ファイルは入力ファイルの書式を定義するものです。 文字コードは、EUCコードに限られます。 書式ファイルで指定された書式にしたがって、入力ファイルの内容を解釈します。 "書式ファイル名" を指定しない場合は、ATOK7の書式が指定されたものと見なします。 |
書式ファイルの内容については、後述の 「2.2 書式ファイル」を参照してください。 |
-o 出力ファイル |
コンバート後のWnn6のテキスト形式辞書ファイル名を指定します。 出力する文字コードは、EUCコードです。 省略時には、標準出力へ対応します。 |
出力ファイルの内容については、「辞書 - 5.テキスト形式辞書の編集」または、後述の 「2.3 出力ファイル」を参照してください。 |
-l ログファイル | コンバートが不可能な単語がある場合、このログファイルへ
出力されます。 出力する文字コードは、EUCコードです。 "ログファイル名" を指定しない場合は、ログファイルは作成されません。 |
ログファイルの内容については、後述の 「2.4 ログファイル」を参照してください。 |
-h 頻度値 |
出力ファイルに適応する頻度値を指定します。 省略時には、頻度値1が設定されます。 |
|
|
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、後述の 「2.2 書式ファイル」を参照してください。 |
|
|
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、後述の 「2.2 書式ファイル」を参照してください。 |
|
|
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、後述の 「2.2 書式ファイル」を参照してください。 |
|
|
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、後述の 「2.2 書式ファイル」を参照してください。 |
形式:
/usr/local/lib/wnn6/ja_JP/otow.format/*.fmt |
各FEPごとの書式ファイルは、上記のディレクトリ下で以下のファイルに該当します。
ATOK7向書式ファイル ATOK8向書式ファイル VJE‐Delta向書式ファイル EGBRIDGE向書式ファイル | atok7-wnn6.fmt atok8-wnn6.fmt vje-wnn6.fmt egbridge-wnn6.fmt |
以下はATOK7の書式ファイル例ですが、「書式データ」と「品詞」は、次のように分類されています。
|
書式データのフォーマットは以下のようになります。
キーワード名 = 定義 キーワード名 = 定義 キーワード名 = 定義 |
書式キーワード名に対応する定義内容を半角文字 "=" でセットします。
[TAB] などの制御コードを使用する場合、実際の制御コードを記述することができます。
また、" " に続けて、アスキーコードを3桁の8進数で記述することもできます。
|
書式データで未定義のキーワード名に対しては、初期設定であるATOK7での定義が採用されることになります。
キーワード名 | 定 義 内 容 |
コメント開始 | コメント開始部分の文字を指定します。 最大4バイトでコメント開始文字を指定することができます。 入力ファイルにコメントがない場合は、定義に何も記述しません。 |
コメント終了 | コメント終了部分の文字を指定します。 最大4バイトでコメント終了文字を指定することができます。 入力ファイルにコメントがない場合は、定義に何も記述しません。 行末は必ずコメントの終了になります。 |
読み | 読みの文字幅(半角、全角)を指定します。 半角の場合は 1 、全角の場合は 2 を指定します。 読みの文字幅を「半角」に指定すると、出力ファイルには全角に変換します。 |
読み区切り (注) | 読みの終了を示す文字を指定します。 最大4バイトで終了文字を指定することができます。 「読み区切り」は複数設定することができます。 |
読み区切り連続 | 読み区切りの文字を連続して入力できるかを指定します できる場合は OK 、できない場合は NG を指定します。 |
読み区切り=" " 読み区切り="\t" 読み区切り連続=OK |
上記のように指定した場合、[SPACE] または [TAB] で、読みを区切ります
キーワード名 | 定 義 内 容 |
読み無効 (注) | 読みに使用される文字で、無効となる文字を指定します最大4バイトで無効とする文字を指定することができます。 入力ファイルに「読み無効」の文字がない場合は、定義に何も記述しません。 「読み無効」は複数指定することができます。 |
単語識別 (注) | 単語を囲む文字を指定します。 最大4バイトで文字を指定することができます。 入力ファイルに「単語識別」の文字がない場合は、定義に何も記述しません。 |
単語区切り (注) | 単語の終了を示す文字を指定します。 最大4バイトで終了文字を指定することができます。 入力ファイルに「単語区切り」の文字がない場合は、定義に何も記述しません。 「単語区切り」は複数指定することができます。 |
単語区切り連続 | 単語区切りの文字を連続して入力できるかを指定しますできる場合は OK 、できない場合は NG を指定します。 |
単語無効 ALIGN="CENTER"(注) | 単語に使用される文字で、無効となる文字を指定します 最大4バイトで無効とする文字を指定することができます。 入力ファイルに「単語無効」の文字がない場合は、定義に何も記述しません。 「単語無効」は複数指定することができます。 |
「読み区切り」から「単語識別」の間に文字がある場合、無視されます。また、「単語識別」から「単語区切り」の間に文字がある場合も、無視されます。 「読み区切り」と「読み無効」に同じ文字を指定することはできません。 「単語区切り」と「単語無効」、「単語識別」と「単語無効」、「単語識別」と「単語区切り」でも、同様に同じ文字を指定することはできません。 |
キーワード名 | 定 義 内 容 |
品詞区切り | 品詞の終了を示す文字を指定します。 最大4バイトで終了文字を指定することができます。 入力ファイルに「品詞区切り」の文字がない場合は、定 義に何も記述しません。 行末は必ず品詞の終了です。 |
品詞無効 | 品詞に使用される文字で、無効となる文字を指定します 最大4バイトで無効とする文字を指定することができます。 入力ファイルに「品詞無効」の文字がない場合は、定義 に何も記述しません。 「品詞無効」は複数指定することができます。 |
品詞つなぎ | 複数の品詞を指定する場合に使用します。 最大4バイトでつなぎとなる文字を指定することができます。 入力ファイルに「品詞つなぎ」の文字がない場合は、定 義に何も記述しません。 |
シーケンス | ESCシーケンスの解釈が必要であるかを指定します。 必要がある場合は ON 、必要がない場合は OFF を指定 します。 |
入力辞書ファイル
読み:アキハバラ |
|
書式データ
品詞無効="$" 品詞つなぎ="+" 単語区切り連続=NG 単語区切り="," 単語無効="*" 単語識別="”" 読み区切り連続=NG 読み区切り="," 読み無効=" " 読み=2 コメント終了="】" コメント開始="【" シーケンス=OFF |
ATOK7、ATOK8、VJE‐delta、EGBRIDGEのそれぞれの書式データの設定は次のようになっています。
キーワード名 | ATOK7 (初期設定) | ATOK8 | VJE-Delta | EGBRIDGE |
コメント開始 | "【" | "!" | 指定なし | "//" |
コメント終了 | "】" | 指定なし | 指定なし | 指定なし |
読み | 1 | 1 | 2 | 2 |
読み区切り | "," | "," "、" | [TAB] | [TAB] |
読み区切り連続 | NG | NG | OK | NG |
読み無効 | " " | " " | 指定なし | 指定なし |
単語識別 | 指定なし | """ | 指定なし | 指定なし |
単語区切り | "," | "," "、" | [TAB] | [TAB] |
単語区切り連続 | NG | NG | OK | NG |
単語無効 | " " | " " | 指定なし | 指定なし |
品詞区切り | "," | "," | "," | [TAB] |
品詞無効 | 指定なし | "$" "*" | "*" | 指定なし |
品詞つなぎ | 指定なし | 指定なし | 指定なし | "+" |
シーケンス | OFF | OFF | OFF | 0FF |
品詞対応のフォーマットは以下のようになります。
|
入力辞書の品詞名称に対応するWnn6の品詞名称を半角文字"," でセットします。
|
|
テキスト形式辞書(出力ファイル)の書式は、次のようになります。
|
% otow -i atok7-dic.txt -f atok7-wnn6.fmt -o wnn6-dic.txt
|
ログファイルの書式は、次のようになります。
|
「コンバートできない行」には、入力辞書中、コンバート不可能な単語が存在する行が入ります。
エラー番号には、各番号により、次ページの表にあるエラー原因が対応しています。
エラー番号 | 原 因 |
1 | 「読み」の長さが 256 を超えています。 |
2 | 「読み」の長さが 0 です。 |
3 | 単語部分が識別できません。 書式データ:単語区切りなどを確認してください。 |
4 | 「単語」の長さが 256 を超えています。 |
5 | 「単語」の長さが 0 です。 |
6 | 単語識別が書式データと不適合です。 |
7 | 品詞部分が識別できません。 書式データ:品詞区切りなどを確認してください。 |
8 | 品詞が不適切です。 |
9 | 品詞定義の形式が不適合です。 |
起動時のオプション指定での誤りなど、標準出力されるエラーについては、付録の 「付録 - エラーメッセージ一覧」を参照してください。 |