日本語用例検索 〜 解説
青空文庫所収文学作品
([Ctrl]+[P]で印字できます)

1 概要

 『青空文庫全』(青空文庫、2007年)所収の文学作品約6,300件から日本語表現の用例を検索し、KWIC形式で表示します。

 拙作の日本語KWIC索引生成ソフトウェアKWICの検索機能をWeb上に移植したものです。


2 用法

・基本
 検索文字列を入力欄に記入し、[検索]ボタンを押します。検索文字列の指定には正規表現および擬似正規表現(下記参照)が使えます。行長(検索文字列+前後文脈の文字数)は必要に応じて変更してください。チェックボックスにチェックを入れれば、検索結果をタブ区切り形式データの形でダウンロードすることができます。

・検索条件
 検索文字列には前後の文脈を加えることができます。検索条件入力モード1では、「先行文脈【検索文字列】後続文脈」の形で指定します。入力モード2では、先行文脈・検索文字列・後続文脈を分けて入力します。2つの入力モードは機能的には同等です。

 検索文字列や文脈の指定には正規表現および定型的な正規表現を簡単に指定するための擬似正規表現が使用可能です。

 文脈を指定する意味と指定の方法については、こちらのページにある「KWICマニュアル」の5.4(f)「検索行」で説明しています。正規表現については同ページに掲載している「正規表現・文字コードの解説」、擬似正規表現については「KWICマニュアル」の「6 擬似正規表現」で解説しています。

・検索条件の指定例
 検索例が3つ用意してあります(例1例2例3)。ページが開いたら[検索]ボタンを押してください。入力モード、行長を変更したりエクセルファイル出力を選択したりすることもできます。


3 検索結果のソート・エクセルファイル化

 拙作ソフトウェアsortKWICを使えば、検索結果を前後の文脈などに関してソートしてエクセルに収めることができます。




4 補足・注意

・テキスト・出典の誤り
 検索対象とするデータは粗い機械処理によって生成しており、テキストの内容、著者名、作品名が誤りを含む場合があります。論文などへの引用時には書籍ないし青空文庫のサイトでの確認が必要です。

・用例表示の順序と件数
 文学作品をランダムな順序で検索します。検索のたびにその順序は変わります。最初に見つかった最大1,000件までの用例を表示します。

・正規表現処理の制限
 *、+、{ } は最大8回までの反復に限定するなど、正規表現の使用に一定の制限を設けています。

・検索作業上の注意
 検索開始後は検索が完了するまで待つようにしてください。完了前に中断したり前のページに戻ったりすると、しばらく検索できない状態になります。

・青空文庫のデータの扱い
 青空文庫のデータの扱いについては同サイトにある「青空文庫収録ファイルの取り扱い規準」に従ってください。


5 本サイトの履歴

 2008/08/16 作成、青空文庫所収の文学作品3,410件を収録
 2008/08/18 エクセルファイル出力機能を追加
 2011/10/25 ダウンロード時のファイル名拡張子をxlsからtxtに変更
 2014/04/27 指定可能な最大行長を100から200、最大表示件数を500から1,000に拡大
 2014/12/01 『青空文庫全』を使用し、収録作品を約6,300件に拡大
 2015/05/21 擬似正規表現を拡張