デジタル人文学とは – WASEDA Digital Humanities

デジタル人文学とは何か

　みなさんは「デジタル人文学」という言葉を聞いたことがありますか？よく知っている、という方もいれば、初めて耳にした、という方もおられるでしょう。
　デジタル人文学とは、人文学の様々な領域において、デジタル技術を応用することで、新しい知見を生み出す研究分野のことをいいます。
　重要なのは、デジタル技術を活用すること自体が目的なのではなく、あくまでも、人文学的な問いとその分析を深めるための手段として、デジタル技術を用いる、ということです。

　AIやデータ活用が注目される現在、「デジタル人文学」という言葉も次第に身近なものになってきました。しかし、デジタル人文学は、データサイエンスの需要が叫ばれるようになった近年になって発生した研究分野というわけではありません。その源流は、非常に長い歴史の中に見出すことができます。

デジタル人文学の源流

　例えば、日本のテクスト研究の大家である池田亀鑑は、日本古典文学の写本研究に生涯を捧げた人物です。写本とは、書物を手で書き写したものですが、書き写すたびに微妙な違い（これを「異文」といいます）が生じます。池田亀鑑は、こうした異文に着目し、複数の写本を比較・校合することで、原型となるテクストを再建しようと試みました。

　例えば、枕草子「にくきもの」の段をとりあげると、

　こう殿にまいりて（前田家本・久原文庫本等）
　こほとのにまいりて（三條西家本・古活字本等）
　うち〱殿にまいりて（高野氏本・類従本）
　こほとのまいりて（前田家蔵別本）

というように、写本によって表現が異なっています。
　これほどの異文を網羅的に把握するために、池田亀鑑が考案したのがカードを用いた方法でした。コンピューターが一般に普及するよりも前の時代です。
　　①一つ一つの異文を書き記し、そこに番号を付与する
　　②該当する異文を含有する写本の略称を記入する

【出典】
池田亀鑑著『古典の批判的処置に関する研究』第2部國文學に於ける文獻批判の方法論,岩波書店,昭和16. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/1127108 (参照 2026-02-24)

　こうすることで、写本の略称ごとにカードを並べ替えれば、どの写本がどの異文を共有しているかが一目で把握できるようになります。
　つまり、異文の分布パターンをもとに写本同士の系統関係を明らかにし、原型テクストへとさかのぼる手がかりを得ようとしたのです。
　池田亀鑑にとって、カードというツールはあくまでも「写本の系統を解明する」という人文学的な問いに答えるための手段でした。

【参照】
池田亀鑑『古典の批判的処置に関する研究』(1941). 岩波書店.

　また、イエズス会の神父であるロベルト・ブサ（Roberto Busa）は、中世スコラ哲学の大家トマス・アクィナスの全著作に登場するすべての語の索引、「Index Thomisticus」を作成するという壮大なプロジェクトに取り組みました。トマス・アクィナスの著作は膨大で、その語数はおよそ1100万語にのぼります。これほどの語数の索引を、人の手で作成するには、気の遠くなるような歳月を要することは想像に難くありません。そこでブサ神父は、当時最先端の技術であったIBMのパンチカードシステムに着目しました。1949年、ブサ神父はIBMに依頼してその協力を取り付け、トマス・アクィナスの著書に出てくる語句をパンチカードに転記し、機械に読み込ませることで、特定の語がどの著作のどの箇所に登場するかを機械的に集計・整理することに成功しました。これはデジタル人文学にとっての先駆的な出来事だと言われています。

ブサ神父がパンチカードに目を通している様子。
https://web.archive.org/web/20120327122219/http:/www.ibm.com/ibm100/it/en/stories/linguistica_computazionale.htmlから引用。

【出典】
Busa, R. (1980). The Annals of Humanities Computing: The Index Thomisticus. Computers and the Humanities, 14(2), 83–90. http://www.jstor.org/stable/30207304
Burton, D. (1984). [Review of Index Thomisticus: Sancti Thomae Aquinatis operum omnium indices et concordantiae; Sancti Thomae Aquinatis opera omnia, by R. Busa]. Computers and the Humanities, 18(2), 109–120. http://www.jstor.org/stable/30200002

　約25年の歳月をかけて1974年に完成したこの試みは、後に電子化されたテキストデータベースとして広く公開されることになります。ブサ神父がめざしたのは、あくまでもトマス・アクィナスの思想と語彙を精緻に把握するという人文学的な問いへの答えであり、パンチカードはそのための手段だったといえましょう。

テキスト分析と標準化

　池田亀鑑やロベルト・ブサ神父の取り組んだ、膨大なテクストを分析する試みは、現在、XMLの技術を用いたText Encoding Initiative (TEI)の考え方を応用することで、テクストのデジタルデータを作成し、そのデータ上で、特定の語句を検索してその数を集計、分析するといった形で実施することが可能となっています（Text Encoding Initiative (TEI)とは、テクストの構造や意味を機械が理解できる形で記述する国際標準です）。

　ここで池田亀鑑の話に戻りましょう。先ほど、池田亀鑑が、枕草子「にくきもの」の段をとりあげた話をしました。

　こう殿にまいりて（前田家本・久原文庫本等）
　こほとのにまいりて（三條西家本・古活字本等）
　うち〱殿にまいりて（高野氏本・類従本）
　こほとのまいりて（前田家蔵別本）

　写本によって、その表現に違いがあることは既にお話した通りですが、例えば前田家本・久原文庫本等で用いられている表現、「こう殿にまいりて」が元となるテクストだったとしましょう。TEIを使うと、元となるテクストと、その他の写本にある表現を並列して記述することができます。

＜例＞

**lem**はlemma（見出し語）の略で、底本と判断した読みを囲むためのタグ
**rdg**はreading（読み）の略で、異版にみられる異読を囲むためのタグ
**wit**はwitness（証拠資料）の略で、その異読がどの写本で見られるのかを示すタグ

　こうしてTEIに基づいて記載したデータは、TEIで書かれたコードを閲覧するための特別なビューワ「TEI古典籍ビューワ」を使って、以下のように見ることができます。

　このように、底本となるテクストをもとにTEIに基づいて翻刻を作成し、その上で、特定の箇所に見られる異文をつぶさに記載しておけば、カードを用いずとも、写本同士の系統関係を確認することがしやすくなると言えます。
　カードやパンチカードを用いて文章や語句を記録し、それらを集計して分析するといった、膨大な時間をかける必要のある作業が、デジタルの技術を使うことで、より便利に、労力をかけずに実施可能となっているのです。

書誌学と画像比較

　ここで別の事例に注目してみましょう。
　西洋書誌学の世界では、活版印刷による書籍同士の活字の異同を検分する作業があります。活版印刷の時代、書籍は活字を組み合わせて印刷されましたが、同じ版から刷られたはずの本であっても、印刷の途中で活字が組み直されることがあり、一冊一冊の間に微妙な違いが生じることがありました。

　20世紀半ばのアメリカの書誌学者チャールトン・ヒンマン（Charlton Hinman）は、こうした違いを機械的に検出するための装置、Hinman Collatorを発明しました。

Folger Shakespeare Libraryに所蔵されているHinman Collator

【出典】
https://digitalcollections.folger.edu/img48180

　この装置は、二冊の書物の同じページを光学的に重ね合わせて見ることができるもので、活字の微妙なずれや差異を目視で発見することを可能にしました。

【参考】J.P. Ascher氏によるHinman Collator Demonstration Video

　ヒンマンはこの装置を用いてシェークスピアのファーストフォリオを複数比較し、些細な違いを手がかりに、個々のファーストフォリオが印刷された順番を特定していきました。
　このHinman Collatorも、この世に現存するシェークスピアのファーストフォリオがどんな順番で印刷されたのか、という人文学的な問いに対する答えを導き出すために発明されたツールだといえます。
　ただし、このHinman Collatorは大型の装置であり持ち運びが容易ではないため、比較したい書物を物理的にHinman Collatorのある場所に持ち込む必要がありました。比較に用いたい書物が古い時代のものである場合、多くの図書館では貴重書扱いとなっており、安易に持ち出すことができません。また、世の中に数冊しか現存せず、それぞれ離れた国に所蔵されている書物ともなれば、時間と費用をかけて精巧なファクシミリ版を製作して比較に臨むか、あるいは比較自体をあきらめるという選択を迫られることもあったでしょう。
　こうした物理的な制約も、現在では画像データを共有・比較するための国際的な枠組みであるIIIF（International Image Interoperability Framework）の技術を活用することで、離れた場所に所蔵された書物同士であっても、インターネット上で並べて比較することが可能となっています。
　IIIFの規格に沿って作成された画像データには、Manifestと呼ばれる、画像そのものの情報や画像のURIといった資料構造や書誌事項といった情報を含むファイルが附随します。そのManifestをIIIF規格に対応したビューワに読み込ませることで、IIIF規格で作成された画像が表示されます。つまり、国際的に同一の規格(IIIF)に沿って作成された画像は、その画像データがどこの機関で作成されていたとしても、Manifestを用いることで、一つのビューワで閲覧が可能である、ということです。
　物理的に離れた場所にある原本を比較するために、複数の機関のウェブサイト上で公開されている書物の画像をダウンロードして、自身のデスクトップ上で並べて見比べたり、画像に透かし加工をして重ね合わせて検分したり、といったことをせずとも、IIIF規格で作成された画像データがあれば、一つのビューワ、一つのパソコン画面で実施できてしまいます。

＜例＞

SAT IIIF Overlay Imagingを用いて、慶応義塾大学所蔵のグーテンベルク聖書と、ケンブリッジ大学所蔵のグーテンベルク聖書の１ページ目を重ね合わせて、活字の異同を検分したところ
このように、IIIF規格によって画像がデジタル公開されることで、２つの異なる場所にある本の活字の異同の検分がヴァーチャル上で可能となっている

【参照】
Hinman, C. (1963). The printing and proof-reading of the first folio of Shakespeare. Clarendon Press.

　ここまで見てきた事例は、デジタル人文学のごく一部にすぎません。デジタル人文学には、テクスト分析や画像比較以外にも、テキストマイニング、音声分析、ネットワーク分析など、さまざまな問いに対応した分析手法やツールがあります。

「問い」から始まるデジタル人文学

　こうしたことを振り返ってみていえることは、いずれの事例においても、機械やカードといった「ツール」の使用そのものが目的だったのではなく、人文学的な問いに答えるための手段であったということです。繰り返すようですが、池田亀鑑にしてもブサ神父にしても、ヒンマンにしても、人文学的な問いがあり、その問いに対する答えを明らかにするためにツールを利用、あるいは考案・発明したということです。

　先述したTEIにしてもIIIFにしても、デジタル人文学における技術およびその技術を利用して開発されたツールはいずれも、何らかの人文学的な問いに答えを見出そうとする試みの中で考え出されたものだということができます。
　いずれのケースにおいても、原則としてツールが先行して存在していたわけではありません。重要なのは、人文学的な「問い」があってこそ、ツールが意味を成すということだといえましょう。
　デジタル人文学は、「デジタル」という言葉を冠していても、我々人類が紡いできた営みの足跡を紐解くために、問いを立て、様々な分析を重ねていくという意味では、本質は人文学そのものである、ということを忘れてはなりません。
　ブサ神父以来、多くのデジタル人文学の実践者たちが、さまざまなツールを考案・開発してきました。それらのツールの中には、現在、無料で公開され、私たちが自由に使えるものもたくさんあります。
　我々は、彼ら先駆者が辿り着いた人文学的な「真理」に、彼らが開発したツールを使うことで同じように辿り着く（再現する）ことができると同時に、彼らが開発したツールを使って、我々一人ひとりが持つ人文学的な問いに対する答えを見出すことができることもあるでしょう。

　結果としてツールが先行している状態が生じているようですが、ここで留意すべきは、それらのツールはそれらを開発した先駆者たちの「人文学的な問い」が出発点となっているということです。
既に公開されているツールを使用するときは、そのツールが何をしようとして（いかなる問いのもとに）開発されたものか、ということに考えを及ぼすことが大事です。
　自らの問いが、先駆者の問いと親和性のあるものであれば、既存のツールを使って自身の研究を進めることができます。一つのツールを使うこともあれば、複数のツールを組み合わせて使うこともあるでしょう。そうして先駆者の考案したツールを使うことで、自身がたてた問いに対する答えを見出すことのできた研究は数多くあると言えます。
　しかしながら、自らの問いに対する答えを見出すにあたって、既存のツールでは実現できることに限りがあるということであれば、いよいよ、自らのユニークなツールの開発に足を踏み出すことになります。自らがデジタル人文学の先駆者の一人となっていくということです。ここにデジタル人文学の醍醐味があるといえるかもしれません。

図書館によるデジタル人文学支援

　図書館は、本学におけるデジタル人文学の研究・教育支援を行うことを目的として、館内にデジタル人文学チームを立ち上げました。
　図書館は古今東西のあらゆる著作物そして研究成果が蓄積される場所です。そうした場所でデジタル人文学を支援する意義は非常に大きいと言えます。
　過去の研究事例を例示し、デジタル人文学とは何か、どんな研究がなされているのか、どんなツールがあるのか、そういったことをお示しし、みなさんを常にデジタル人文学の現在地に立たせることができるのは図書館ならではだといえましょう。
　もちろん、人文学のあらゆる領域におけるさまざまな分析を可能とするためのツールの作成に寄与するデジタルアーカイブの構築も、デジタル人文学を実践するうえで、非常に重要な実践となります。
図書館では、多くの人に貴重資料を「見てもらう」、「読んでもらう」といった観点で、長らくデジタルアーカイブの構築・公開に貢献してきました。日本においても、デジタル人文学の重要性が認識されている今、「見る・読む」以上に「活用してもらう」ことを意識したデジタルアーカイブの構築にも取り組んでいきます。
　本学図書館は、資料の保存・公開にとどまらず、研究者・学生の問いを支える基盤として、デジタル人文学の発展に貢献していきます。

タグ: DH, コラム, デジタル人文学

WASEDA Digital Humanities