RuleBasedCollator (Java 2 プラットフォーム SE v1.4.0)

概要

パッケージ

クラス

使用

階層ツリー

非推奨 API

索引

ヘルプ

Java^TM 2
Platform
Std. Ed. v1.4.0

前のクラス 次のクラス

フレームあり フレームなし

概要: 入れ子 | フィールド | コンストラクタ | メソッド

詳細: フィールド | コンストラクタ | メソッド

java.text
クラス RuleBasedCollator

java.lang.Object
  |
  +--java.text.Collator
        |
        +--java.text.RuleBasedCollator

すべての実装インタフェース:: Cloneable, Comparator

public class RuleBasedCollator
extends Collator

RuleBasedCollator クラスは Collator の具象サブクラスで、簡単な操作でデータドリブンのテーブルコレータを使用可能にします。このクラスを使うと、カスタマイズしたテーブルベースの Collator を作成することができます。RuleBasedCollator は、文字をソートキーにマップします。

効率化のために、RuleBasedCollator には次の制約があります (さらに複雑な言語には他のサブクラスが使用される)。

<修飾子> によって制御される特別な照合ルールが指定されると、コレータオブジェクト全体に適用される
記述のないすべての Unicode 文字は、照合順序の最後にくる

照合テーブルは照合ルールのリストからなり、それぞれのルールは次の 3 つの形式のどれかをとります。

    <修飾子>
    <関係文字> <テキスト引数>
    <リセット文字> <テキスト引数>

ルール要素の定義は次のとおりです。

テキスト引数: テキスト引数は、特殊文字 (つまり、一般的な空白文字 [0009-000D, 0020] とルール構文文字 [0021-002F, 003A-0040, 005B-0060, 007B-007E]) 以外であればどのような文字シーケンスでもかまいません。こうした特殊文字が必要であれば、単一引用符で囲みます (たとえば、アンパサンド => '&')。ただし、引用符で囲まれていない空白文字は無視されるので注意してください。たとえば、b c は bc として処理されます。
修飾子: 現在は、特別な照合ルールをオンにする修飾子が 2 つあります。
- '@' : フランス語のように、アクセント (第 2 相違) の逆方向のソートをオンにします。
- '!' : タイ語/ラオ語の母音と子音のスワップをオンにします。タイ語の母音 \U0E40-\U0E44 が子音 \U0E01-\U0E2E に先行する、またはラオ語の母音 \U0EC0-\U0EC4 が子音 \U0E81-\U0EAE に先行する場合にこのルールが適用されると、照合のために母音は子音のあとに配置されます。
'@' : アクセントがフランス語のように逆方向にソートされることを示します。
関係文字: 関係文字には次のものがあります。
- '<' : より大きい、文字相違の場合 (第 1)
- ';' : より大きい、アクセント相違の場合 (第 2)
- ',' : より大きい、ケース (大文字小文字) 相違の場合 (第 3)
- '=' : 等しい
リセット文字: 主に短縮と拡張のために使用しますが、ルールセットの終わりに修正を追加するためにも使用できるリセットが文字 1 つあります。
'&' : 次のルールが、リセットテキスト引数がソートされる位置に続くことを示します。

これは実際よりも複雑に感じられます。たとえば次の例は、同じことを同等の方法で表したものです。

 a < b < c
 a < b & b < c
 a < c & a < b

テキスト引数のすぐ後に次の項目がくるので、順序が重要です。次の例は、同等ではありません。

 a < b & a < c
 a < c & a < b

シーケンスには、テキスト引数がすでに存在するか、そのテキスト引数の最初の部分文字列が存在しなければなりません (たとえば、"a < b & ae < e" は有効。シーケンスにおいて "a" は、"ae" がリセットされるより前にあるため)。この後者のケースで、"ae" は 1 文字として入力されず、そのようには扱われません。"e" は、2 文字 ("a" に続く "e") に拡張されたかのようにソートされます。この違いは、自然言語に見られます。従来のスペイン語の "ch" は単一文字に短縮されたかのように処理されます ("c < ch < d" と表現される)。一方、従来のドイツ語の a ウムラウトは、2 つの文字に拡張されたかのように処理されます ("a,A < b,B ... &ae;\u00e3& AE;\u00c3" と表現される)。[\u00e3 および \u00c3 は a ウムラウトのエスケープシーケンスです。]

無視可能な文字

無視可能な文字の場合、最初のルールは、関係文字で始まらなければなりません (上の例は実際には一部を表している。つまり、"a < b" は実際には "< a < b" であるべき)。しかし、最初の関係文字が "<" でなければ、最初の "<" までのすべてのテキスト引数は無視できます。たとえば、", - < a < b" では "-" が無視できる文字です。これは、前に "black-birds" という語で見たとおりです。他の言語の例を見れば、ほとんどのアクセントが無視できることがわかります。

正規化とアクセント

RuleBasedCollator は自動的にそのルールテーブルを処理することにより、事前合成済みバージョンと結合文字バージョンのアクセント付き文字がどちらも含まれるようにします。提供されているルール文字列がベース文字と独立した結合アクセント文字からのみ構成される場合、ルール文字列の文字のすべての標準的な組み合わせに一致する事前合成済みアクセント付き文字がテーブルに入力されます。

これで、コレータが NO_DECOMPOSITION に設定されているときでも、RuleBasedCollator を使ってアクセント付き文字列を比較できます。ただし、注意すべき点が 2 つあります。1 つ目は、照合対象の文字列が標準的な順序にない結合シーケンスを保持している場合、コレータを CANONICAL_DECOMPOSITION または FULL_DECOMPOSITION に設定して結合シーケンスのソートを可能にする必要があるということです。もう 1 つは、文字列が分解互換の文字 (完全幅や半分幅などの形式) を保持する場合、ルールテーブルには標準的なマッピングのみが含まれるので FULL_DECOMPOSITION を使う必要があるということです。詳細は、「The Unicode Standard, Version 2.0」を参照してください。

エラー

次の場合は、エラーになります。

テキスト引数に引用符で囲まれていない句読文字がある (例: "a < b-c < d")
関係文字やリセット文字の後にテキスト引数がない (例: "a < ,b")
テキスト引数 (またはテキスト引数の最初の部分文字列) がシーケンスにまだないのにリセット文字がある (例: "a < b & e < f")

これらのエラーのうちどれかがあると、RuleBasedCollator が ParseException をスローします。

例

簡単な例: "< a < b < c < d"

ノルウェー語: "< a,A< b,B< c,C< d,D< e,E< f,F< g,G< h,H<i,I< j,J < k,K< l,L< m,M< n,N< o,O< p,P< q,Q< r,R< s,S< t,T < u,U< v,V< w,W< x,X< y,Y< z,Z < \u00E5=a\u030A,\u00C5=A\u030A ;aa,AA< \u00E6,\u00C6< \u00F8,\u00D8"

通常、ルールベースの Collator オブジェクトを作成するには、Collator のファクトリメソッド getInstance を使用します。しかし、ニーズに合わせた特殊なルールを持つルールベースの Collator オブジェクトを作成するには、String オブジェクトにルールを指定して、RuleBasedCollator を構築します。たとえば、次のようにします。

 String Simple = "< a< b< c< d";
 RuleBasedCollator mySimple = new RuleBasedCollator(Simple);

または:

 String Norwegian = "< a,A< b,B< c,C< d,D< e,E< f,F< g,G< h,H< i,I< j,J" +
                 "< k,K< l,L< m,M< n,N< o,O< p,P< q,Q< r,R< s,S< t,T" +
                 "< u,U< v,V< w,W< x,X< y,Y< z,Z" +
                 "< \u00E5=a\u030A,\u00C5=A\u030A" +
                 ";aa,AA< \u00E6,\u00C6< \u00F8,\u00D8";
 RuleBasedCollator myNorwegian = new RuleBasedCollator(Norwegian);

Collator を結合するのは、文字列を結合するとの同じくらい簡単です。次の例は、2 つの異なるロケールの 2 つの Collator を結合する例です。

 // Create an en_US Collator object
 RuleBasedCollator en_USCollator = (RuleBasedCollator)
     Collator.getInstance(new Locale("en", "US", ""));
 // Create a da_DK Collator object
 RuleBasedCollator da_DKCollator = (RuleBasedCollator)
     Collator.getInstance(new Locale("da", "DK", ""));
 // Combine the two
 // First, get the collation rules from en_USCollator
 String en_USRules = en_USCollator.getRules();
 // Second, get the collation rules from da_DKCollator
 String da_DKRules = da_DKCollator.getRules();
 RuleBasedCollator newCollator =
     new RuleBasedCollator(en_USRules + da_DKRules);
 // newCollator has the combined rules

もう 1 つの例では、既存のテーブルを変更して新しい Collator オブジェクトを作成します。たとえば、"& C < ch, cH, Ch, CH" を en_USCollator オブジェクトに追加して、独自のテーブルを作成します。

 // Create a new Collator object with additional rules
 String addRules = "&C< ch, cH, Ch, CH";
 RuleBasedCollator myCollator =
     new RuleBasedCollator(en_USCollator + addRules);
 // myCollator contains the new rules

次の例は、非スペーシングアクセントの順序を変更する方法を示しています。

 // old rule
 String oldRules = "=\u0301;\u0300;\u0302;\u0308"    // main accents
                 + ";\u0327;\u0303;\u0304;\u0305"    // main accents
                 + ";\u0306;\u0307;\u0309;\u030A"    // main accents
                 + ";\u030B;\u030C;\u030D;\u030E"    // main accents
                 + ";\u030F;\u0310;\u0311;\u0312"    // main accents
                 + "< a , A ; ae, AE ; \u00e6 , \u00c6"
                 + "< b , B < c, C < e, E & C < d, D";
 // change the order of accent characters
 String addOn = "& \u0300 ; \u0308 ; \u0302";
 RuleBasedCollator myCollator = new RuleBasedCollator(oldRules + addOn);

最後の例では、新しい主要順序をデフォルトの設定より前に置く方法を示します。たとえば、日本語 Collator では、英語の文字を日本語の文字より前にソートすることも、後にソートすることもできます。

 // get en_US Collator rules
 RuleBasedCollator en_USCollator = (RuleBasedCollator)Collator.getInstance(Locale.US);
 // add a few Japanese character to sort before English characters
 // suppose the last character before the first base letter 'a' in
 // the English collation rule is \u2212
 String jaString = "& \u2212 < \u3041, \u3042 < \u3043, \u3044";
 RuleBasedCollator myJapaneseCollator = new
     RuleBasedCollator(en_USCollator.getRules() + jaString);

関連項目:: Collator, CollationElementIterator

フィールドの概要

クラス java.text.Collator から継承したフィールド

CANONICAL_DECOMPOSITION, FULL_DECOMPOSITION, IDENTICAL, NO_DECOMPOSITION, PRIMARY, SECONDARY, TERTIARY

コンストラクタの概要

RuleBasedCollator(String rules)
          RuleBasedCollator のコンストラクタです。

メソッドの概要

Object clone()
          標準オーバーライドです。

int compare(String source, String target)
          2 つの異なる文字列に格納された文字データを、照合ルールに従って比較します。

boolean equals(Object obj)
          2 つの照合オブジェクトが等しいかどうかを比較します。

CollationElementIterator getCollationElementIterator(CharacterIterator source)
          指定された String の CollationElementIterator を返します。

CollationElementIterator getCollationElementIterator(String source)
          指定された String の CollationElementIterator を返します。

CollationKey getCollationKey(String source)
          文字列を、CollationKey.compareTo で比較できる一連の文字に変換します。

String getRules()
          照合オブジェクトに対するテーブルベースルールを取得します。

int hashCode()
          テーブルベース照合オブジェクトのハッシュコードを生成します。

クラス java.text.Collator から継承したメソッド

compare, equals, getAvailableLocales, getDecomposition, getInstance, getInstance, getStrength, setDecomposition, setStrength

クラス java.lang.Object から継承したメソッド

finalize, getClass, notify, notifyAll, toString, wait, wait, wait

コンストラクタの詳細