明治書院『日本語学』16卷12号(1997年11月号)「特集 ことばを調べる」
心積りでは、次号が発行された後にwebに掲げるつもりでしたが、URL等の誤植が目につきますので発行と同時に掲げることにします。
電子入稿でしたが、FAXで送られてきた校正刷を見ると、どうやら別途に入力したものらしく、漢字の違いなども有りました。またFAXなので、小さな英数字などはっきりしませんでしたが、出来上がりを見ると「.」が幾つか落ちていました。
月刊誌というのは慌ただしいものであるなあ、という思いと、商業誌でも編集部による校正は無いのだなあ、という感想を持ったことでした。
インターネットで調べる 岡島昭浩
インターネットで、ということに限らず、「調べる」といってもいろんな調べ方がある。人に尋ねて教えてもらうというのも、「調べる」の一形態だと言えるし、参考文献を探し当てることで「調べた」と見なす人も居るであろう。もちろん、直接資料に当らなければ「調べた」とはいえない、という考えもある。
インターネットで何かを調べる場合も同様で、電子メールやネットニュースや掲示板(会議室)などで人に教えを請うということもありうるし、図書館や書店や取次書店や商用データベース会社、あるいは国文学研究資料館・NACSIS・京都大学といった機関のデータベースに繋いで文献を探すことも出来る。さらに、インターネットで最も注目されている「ホームページ」、いろんな人々が情報発信をしているwebページを資料として調べることもできるのである。
1.電子メール
電子メールが既存の郵便と異なっているところは、速さ(投函の手間も)・不確実さ(到着するかどうかの信頼度の低さに加えて受信者が電子メールに不信感を持っている可能性も)・敷居が低く感じられやすいこと(よい面わるい面があるが)・過去の来信の検索が容易であることなどに加えて、再利用が可能であることがある。再利用が可能、ということだけで言えば、ワープロで打った手紙を既存の郵便で送る場合も同じことなのだが、電子メールの場合には、同時再利用とでも言うか、一度に複数の人に送ることが容易で、それを利用した研究会・読書会なども可能なのである。
複数の人が互いにメールを送りあえばそれでよいわけだが、メーリングリストというシステムで、一つのメールアドレスにメールを送れば、登録されているメンバー全員へ自動的にメールが送られる、というものがある。これには仲間内で行われるメール交換に留まらず、開放的にメンバーを募集しているところもある。福島比呂子氏による「学術人文系日本語メーリングリスト案内」(http://www.aianet.ne.jp/~orlando/VWW/DAT/mljpn.html)などを参照のこと。
開放されているメーリングリストは公の場であるが、仲間内のメール交換は気楽なもので、いろんなことが話題に出来る。先程書いた「敷居の低さ」によって「わざわざ手紙で知らせるまでもない」ということも書かれる。地域差なく情報交換が出来るというのはありがたいものである。
ただ、こうしたことは、わざわざ出掛けなくとも出来る、というだけのことで、インターネットならでは、というものではない。もちろん、出掛けないということで、手元の書籍に当ったりすることが出来るし、時間制限があるわけでもない。何日も掛けてゆっくり議論が出来るというものである。
しかし逆に出掛けての研究会であれば、一定の時間、発表に付き合うわけで、最初はあまり興味が持てないものであっても話を聞いている内に関心が湧く、ということもあるが、メールによる場合は、興味が持てない場合は読みとばしてしまう、という点もある。時間制限が無い、ということによって、いつの間にか話題がとぎれてしまうこともある。
2.wwwとサーチエンジン
インターネットと言った場合には、「ホームページ」と呼ばれるwwwページ、webページを想起することが多かろう。そしてインターネットで調べる、といってすぐに思い出されるのは、サーチエンジンであろう。たしかにこれは、インターネットならでは、という感を抱く調べ方である。
サーチエンジンというのは、ある文字列を入力すると、その文字列に関して述べているwebページを教えてくれるシステムである。示されたページがどういうページであるのかがわかるように、そのページを紹介する文章か、そのページの冒頭の一部分を示してくれるのが普通である。
さて、サーチエンジンと呼ばれるものには、検索ロボットによるものと、人力によるものがある。人力によるというのは、ページを作った人が自己宣伝としてページ内容の紹介文を書きそれを登録する(サーチサイト側で登録することもある)、ということである。紹介文の中にキーワードとなるような言葉を埋め込んだり、検索対象語を指定したりしておく。そういうデータを作っておいて、それを検索することによって目指すページにたどり着けるようにしようというものである。
人力によるものはこのようなシステムであるので、〈ことがら〉についての検索は出来ても、〈ことがら〉を述べる〈ことば〉についての検索としては十分とはいえない。しかし探すべきテーマが決まっていて、例えば「〜関連用語」について調べたい、という時には使える。また、この人力によるシステムでは、内容によるページの分類を併用しているのが普通である。
一方、検索ロボットによるものはページの内容そのものがデータベースとなる。ロボットという名のとおり、コンピュータがプログラムにしたがって自動的に「ネットサーフィン」を行い、いろいろなところにあるページのデータを一ヶ所に蓄えておく(そして定期的に更新する)。そしてそのデータを検索して、ある文字列が含まれているページを表示する、というものである。
厳密にいえば、この検索ロボットによるサーチにも二通り有って、一つは全文検索、もう一つは要語検索である。全文検索は文字どおりページの内容全てをもとにデータ化するものであり、要語検索というのは、ページの中から重要と思われる語を抜き出してデータ化するものである。
どうやって抜き出すかというと、webページを記述するのに使われるHTMLによるのである。HTML(Hyper Text Mark-up Language)というのは、SGML(Standard Generalized Mark-up Language)の大ざっぱなものであるが、文書の構造を示すためにある書式である。HTMLで記述された文書構造は、ブラウザ(wwwを見るためのソフト)でwebページを見る際には、字の大きさや書体の違いや段組みなどに反映されて示されるのであるが、このHTML文書をテキストファイルとしてエディターやワープロで見てみると、<>に囲まれた文字列(タグ)で文書の構造を示そうとしていることがわかる。web ページを記述する際には、テキストファイル形式でタグを打ち込みながら書いて行く方法と、HTMLエディターと言われるソフトで、ワープロで文書を作るような感覚で書いて行く方法がある。後者は容易ではあるが、見た目が重視されてしまい、構造的な記述に関心が向きにくいのが難点である。
HTMLでは、見出しを「部・章・節」といった感じで階層的に作るようになっている。<h1><h2><h3>という具合に、数字の小さいものほど大きな部立てである。要語検索ではこうした見出し語は重要な語であろうという見通しを立てて、言ってみればそのページの目次をデータ化しているわけである。ところが先述のように見た目でタグを記述すると、見出し語のためのタグが単に文字を大きくしたいという思いで使われることになり、<h1>も全く重要でない語が記述され、その語が検索対象とされてしまう危険性をもっている。
さらに、ブラウザでは見えないが、HTMLでは、そのページのキーワードを記述しておくことも出来る。<metaname="keywords" content="なになに,なになに">という具合にである。ここで指定されたものも検索対象のデータとなるものである。
千里眼(http://senrigan.ascii.co.jp/)・TITAN(http://titan.isl.ntt.co.jp/chisho/titan.html)などが、このロボットを利用した要語検索である。ODIN(http://kichijiro.c.u-tokyo.ac.jp/odin/)は、要語を抜き出すというよりも、重要でなさそうな部分を排除するという方法を取っていて、全文検索に近い。
全文検索としては、京都大学工学部情報通信講座のRCAAU Mondou(http://www.kuamp.kyoto-u.ac.jp/labs/infocom/mondou/)があったが、ODINやMondouのように大学などで情報検索システムを実験するために行われていたのと違って、最近のサーチエンジンはは広告をとって大々的に運営しているので、ロボットによるものは全文検索が中心になってきて、収集ページも多大なものが出てきた。goo(http://www.goo.ne.jp/)とInfoseek Japan(http://japan.infoseek.com/)がその代表的なものだが、これらは数千万というページのデータを蓄えているとのことで、なんも膨大な量である。
3.サーチエンジンでことばを調べる
では、このサーチエンジンを使って実際にことばを調べるとするとどういうことが可能であろうか。それを考えるためには、まず対象となっているwebページの内容がどのようなものであるのかを知っておく必要がある。webページではさまざまな人々が情報を発信している。企業などのPRもあれば、新聞社などのニュースもあるし、個人が自分の趣味などを書いているページもあり、とにかく雑多である。このような雑多な中から何が取り出せるのだろう。クリフォード・ストール『インターネットはからっぽの洞窟』(倉骨彰訳 草思社 一九九七・一・二〇)は次のように指摘する。
WWWは、キーワードによる検索にはよくできていて、ファイル内の記述やファイル名に含まれている語句を考慮した検索ができるので、世界一の索引リストを手にしたような気分になるかもしれない。だが、それは錯覚なのだ。
索引の完全な代用品ではないキーワード・リストを使って資料収集するのは、学術リサーチを冒涜するようなものだ。この方法は簡便だが、あまりにも簡単に提供される情報はあぶなっかしくて額面どおりには受け取れない。(三三一頁)
またこれは実際に検索を行ってみればすぐに分ることなのだが、全文検索を行った場合、検索語によってはあまりにも多くのページが該当してしまい、一つ一つのページを開いて、本当に自分の必要な情報があるのかどうかを探す気になれないことも多い。例えば、高本條治氏(http://www.kokemus.kokugo.juen.ac.jp/)の「あんな羅生門・こんな羅生門」は、「羅生門」をキーワードに全文検索を行い、その結果を整理したものである。芥川の小説や黒澤明の映画の他に、店名・バンド名など、さまざまな「羅生門」があることがわかり、その多彩さを楽しめるのだが、芥川の「羅生門」についての情報を得ようとして検索したとすれば、途方に暮れるばかりであろう。
ストールは次のようにも書いている。
僕らは怠け者だから、内容より簡単に手に入ることのほうを優先させてしまう。その証拠に、学者の多くは、情報であれば、オンライン化されてるというだけで、内容がどうであろうとすぐに飛びついてくる。学者のあいだでは、何もないよりは何かあったほうがいい、という考え方が幅をきかせている。オンライン図書館やインターネットが渇望される理由もじつはそこにある。電子的に収集できる情報が、たとえ間違ったものであったとしても、不完全なものであったとしても、あるいは誤解をまねくようなものであったとしても、学者にとっては「ないよりはマシ」なのだ。(前掲書 三〇九頁)
耳の痛い指摘ではあるが、ことばを調べるためであれば、「内容がどうであろうと」それを資料とすることは可能である。文学史的価値と言語史資料としての価値が別物であることを我々はよく知っている。
www上のさまざまな文章は、言語研究用のコーパスとして整理されたものではないが、新聞などのように少数の執筆者によるものでなく(後藤斉氏「言語研究のためのデータとしてのコーパスの概念について―日本語のコーパス言語学のために―」『東北大学言語学論集』四 一九九五(http://www.sal.tohoku.ac.jp/~gothit/corpus.html)参照)、数多くの人が書いている(www上で情報発信をする人、という類型的なものはあるにせよ)。これを利点と捉えて言語資料とすることが出来そうなのである。
例えば飯間浩明氏のページ(http://www.asahi-net.or.jp/~QM4H-IIM/)の、「ことばをめぐるひとりごと その30」で「ていたらく」の新しい使い方について述べているが、ここにはサーチエンジンを使って得られたwww上のものも用例として示してあり、説得力のある説明になっている。つまり、ある人のことばの使い方に違和感を感じた場合に、それがその人独自のものなのか、それともそのような使い方をする人がある程度は居るのかを調べるのに使えるわけである。
また、ごく少ない用例を探し出すことが出来る場合もある。池田証寿氏のページ(http://fan.shinshu-u.ac.jp/ikeda/)には、「国土行政区画総覧を唯一の典拠とするJIS漢字をインターネットで検索する」があって、JIS漢字のうちで使用頻度が低いこれらの文字をサーチエンジンで丹念に検索し、考証している。誤って使われたものも多いが、地名や人名で探し当てられたものもあり、サーチエンジンの力を感じることが出来る(単なる漢字表や文字化けを排除するには人間の目で見なければならないが)。
誤表記の実態を知ることも出来そうだ。例えば、「完壁・双壁」といった誤表記は手書き時代に比べて少なくなったと言われるが、検索してみるとまだ存在していることがわかる。OCRで読み込んだ文章と言うわけではないようなものにも見え、「完壁」の根強さを知ることが出来る。また、佐藤貴裕氏(http://www.gifu-u.ac.jp/~satopy/)の「気になることば」のなかにサーチエンジンで「シュミレーション」を検索してみたものがあり、先述の飯間氏の「ことばをめぐるひとりごと」のなかに「コミニュケーション」関連のことばをを検索したものがある。
さて、気をつけねばならぬことは、全文検索とは言っても検索の高速化のために何らかの検索システムを採用していることである。与えられた文字列を解析したり、検索対象のデータとの一致のさせ方を考えたり、ということのようである。文法的な用例の採集はいずれも難しそうであるが、検索システムはサーチエンジン毎に異なっていると言ってよい。例えば漢字連続は全て一語と扱うシステムもあれば、辞書にしたがって分解するシステムもある。また慣用句などを検索する際に、そのまま打ち込んだのでは分解されてしまうので、そのままの形で検索するには引用符を付さねばならぬシステムもある。また例えば、「国語学」で検索した場合、「外国語学・中国語学」がマッチするシステムとしないシステムがある。さらにAND検索・OR検索など、さまざまな検索のしかたがあり、こうした仕様はそれぞれの説明文を読んで理解して使うのがよい。いずれサーチエンジンが賢くなり、誤字などにも対応するようになると「完壁」などの検索は行いにくくなるであろうが、誤字もそのまま検索してくれるオプションも残るのではないか、とも思う。なお、サーチエンジンの比較を行っているページもあって、こうしたものをよむ方がよくわかる場合もある。例えば、浅井氏の「検索デスク」(http://www.bekkoame.or.jp/~asaisan/)などがある。ここには海外のサーチエンジンについても記してある。
ところで、www上の情報は、書き換えられ、あるいは消される可能性がある。いや、更新・改訂されることこそwww情報の常と言ってもよい。つまり書籍などとは違って、後からそのデータを参照しようとしても出来ない場合がある。もしwww上のことばを用例として使うのであれば、方言調査や放送からの用例採集のように、用例採集日を明記しておいた方がよいように思われる。
4.日本語学関連の情報
先述の人力による検索システムも、広告を取るなどして企業化し、情報が多くなってきている。ページのジャンル分けで「言語」の項目もある。しかし、日本語学関係の情報を探すには、これに頼るよりも以下のページの情報による方がはるかに良い。
○後藤斉氏の「国内言語学関連wwwページリスト」
(http://www.sal.tohoku.ac.jp/~gothit/kanren.html)
○小倉肇氏の「日本語学・国語教育関連リンク集」
(http://www.fed.hirosaki-u.ac.jp/~ogura/links/links.htm)
後藤氏のリストが比較的正統な言語学関連のページを収集しているのに対し、小倉氏のリストでは、ことば遊びや「〜関連用語集」など、ことばに関わる幅広いページが網羅的に収集されている。
ある地方の方言について調べようと思ったら、ATR音声翻訳通信研究所の山本和英氏の「ふるさとの方言」(http://www.itl.atr.co.jp/dialect/)からたどって行くのがよい。現在、四六都道府県(三重県のページが消滅した)に渡る二五〇程のページが登録されている。趣味的なものも多いが、音声データがあるものもあり、多彩な方言のページへの案内のページである。
徳島大学・北研二研究室による「音声・言語検索エンジン」(http://www-a2k.is.tokushima-u.ac.jp/search/)は、工学系の自然言語処理を中心としたページを検索してくれるものである。日本語学も視野に入ってはいるようだが、《日本語学の用語で-web版で補入》検索してみてもあまり見つからないようである。
ところで、さきほど「更新・改訂されることこそwww情報の常」と書いたが、www情報の内容は現代のものが殆どである。過去の文献を載せたものはごく少ないのである。サーチエンジンで検索した結果、たまたま過去の文献に行き当った、という偶然はあるが、過去の文献内の用例探すために使おうというのは難しい。
個別的な検索としては、万葉集検索が、吉村誠氏(http://dtkws01.ertc.edu.yamaguchi-u.ac.jp/~kokugo/search.html)と市川毅氏(http://www.kyu-teikyo.ac.jp/~ichikawa/ltdb/index.html)によって、二十一代集検索が国文学研究資料館(http://www.nijl.ac.jp/21daisyu/21daisyu.html)で提供されている。また、巻毎の検索で「文節番号」での出力というものではあるが、源氏物語データベース(日本文学データベース研究会http://ndk.let.osaka-u.ac.jp/NDK/20Computer/20.20gbs/gbsDB.html)もある。
なお、インターネット上にある過去の文献を探すための出発点として、次のものを挙げておこう。
○岡島の「日本文学等テキストファイル」
(http://kuzan.f-edu.fukui-u.ac.jp/bungaku.htm)
○柴田雅生氏の「電子化テキストのリスト」
(http://jcmac5.jc.meisei-u.ac.jp/)
5.その他
いわゆるデータベースとして主に有料で提供されているものは、人物・書籍などを調べるのには力を発揮するが、ことばを調べるために用意されているのは殆ど無く、新聞記事などの全文検索を使って調べる程度であろう。www上の情報と較べて新聞記事データベースのよい点は、固定されたものであること、書かれた日時のはっきりしていること、である。十年ほど前に遡ることも出来る。www上にも新聞社などが提供している無料ニュースがあるのだが、あまり過去のデータに遡ることは出来ない。
以上、インターネットでことばを調べる現状を述べた。なお本稿は、拙稿「日本語研究におけるインターネット利用の現状について」(『人文学と情報処理』一五号 勉誠社)で述べたことと重なる部分がある。