1. ホーム
  2. 研究活動
  3. 地域情報学プロジェクト
  4. 地域研究データにおけるトピックの検出と時空間変化に関する研究

地域研究データにおけるトピックの検出と時空間変化に関する研究

地域情報学プロジェクト

地域研究データにおけるトピックの検出と時空間変化に関する研究

個別共同研究ユニット
代表: 山田 太造(東京大学史料編纂所前近代日本史情報国際センター・助教)
共同研究員: 大向 一輝(国立情報学研究所コンテンツ科学研究系・准教授)、小野原 彩香(同志社大学大学院文化情報学研究科・特別研究員(PD))、帯谷 知可(京都大学地域研究統合情報センター・准教授)、柴山 守(京都大学地域研究統合情報センター・特任教授)、清野 陽一(人間文化研究機構・特任助教)、関野 樹(総合地球環境学研究所研究高度化支援センター・准教授)、永崎 研宣(人文情報学研究所・主席研究員)、原 正一郎 (京都大学地域研究統合情報センター・教授)、深川 大路(同志社大学文化情報学部・助教)、柳澤 雅之(京都大学地域研究統合情報センター・准教 授)、山田 太造(東京大学史料編纂所前近代日本史情報国際センター・助教)
期間: 平成25年4月~平成27年3月(2年間)
目的:  本研究では、地域研究に関するテキスト資料を対象として、そこからトピック(ここでは共起する語彙により特徴付けられるカテゴリを指す)を検出し、トピックの時空間的変化を追跡することで,事象の時空間的構造を明らかにするデータ工学的な手法の確立を目指す。特に以下の2点に着目する。
1) 地域研究史資料テキストからのトピック検出および時空間変化追跡手法の確立:テキストから特徴語(テキストを特徴付ける語)を抽出し、同質な特徴語をクラスタリングすることでトピックを検出する。特に、時空間語彙に着目した特徴語のクラスタリングを行うことで、生起・分化・統合・消滅等のトピックの時間的・空間的推移を追跡する。
2) トピック追跡をもとにした地域に関するデータの構造化:上記の成果をもとに、データ間において潜在的に形成されるリンクを構造化する。このとき、Linked Data(データ版のWWW。Web上にデータを配置し、HTTPを利用してリンクする技術)に代表されるsemantic web(Webページに記述された内容をコンピュータ分析できるように記述する方法および分析法)の表現方法を利用することにより、トピックとその時空間変化、さらには地域研究史資料を、再利用や他の目的で使用可能かつ意味構造を表現しうる形式で表現する。
研究実施状況: -平成25年度-
 複合共同研究ユニット「『地域の知』の情報学――時間・空間・語彙に注目した地域情報学の展開」および個別共同研究ユニット「地域に関する時空間基盤情報の収集・蓄積」との共同で研究会を4回開催し、人文科学領域における時空間情報処理の可能性について、多様な研究領域の研究者が考え方や問題点を共有し、研究の方向性を見出すことを目的とした研究懇談会を6回開催した。テキスト利用・分析に関する打ち合わせを2回開催した。さらに、人文科学とコンピュータシンポジウム「じんもんこん2013」(日時:2013年12月9日(月)~14日(土)、場所:京都大学百周年時計台記念館)において、企画セッション「『地域の知』の情報技術」を開催した。
(1)研究会
【第1回研究会】
日時:2013年6月1日(土)
場所:京都大学稲盛財団記念館2階セミナー室
発表:地域研究データにおけるトピックの検出と時空間変化に関する研究、他3件
【第2回研究会】
日時:2013年9月28日(土)
場所:京都大学稲盛財団記念館2階セミナー室
発表:高谷好一『地域研究アーカイブズ フィールドノート集成2 スマトラ』のシステムフォローアップ、他5件
【第3回研究会】
日時:2014年1月18日(土)
場所:京都大学稲盛財団記念館2階セミナー室
テーマ:地域の「時空間の知」
【第4回研究会】
日時:2014年2月8日(土)、9日(日)
場所:東京大学史料編纂所大会議室
発表:資源共有化システムとは、他4件
(2)研究懇談会
2013年4月5日(金)、7月5日(金)、8月9日(金)、11月22日(金)、12月20日(金)、2014年3月22日(土)
(3)打ち合わせ
2014年2月17日、3月10日
研究成果の概要: -平成25年度-
 本年度は研究目的で掲げた「地域研究史資料テキストからのトピック検出および時空間変化追跡手法の確立」を達成すべく、以下の4点について重点的に取り組んだ。
(a)地域研究史資料からのテキスト作成
 高谷好一著『地域研究アーカイブズ フィールドノート集成2 スマトラ 1984.10.19-1985.1.18 スマトラほぼ全域』を対象に、柔軟なテキスト検索・分析等の実施のため、検索・分析を行う上で必須となるテキストの基本単位(ここではテキストユニットと呼ぶ)を決定し、テキスト構造の洗い出しを行い、テキスト化を行った。
(b)テキストからの特徴語抽出
 (a)で作成したXMLデータからテキストユニットにおける特徴を示す用語(特徴語)の抽出を行った。
(c)トピックの検出
 (b)で抽出した特徴語を、その共起性に着目することで分類を行った。LDAにより分類した特徴語の集合は、テキスト内に潜在するトピック(潜在的トピック)として検出される。検出した潜在的トピックにより、各テキストユニットの特徴を定量的に示すことができた。
(d)トピックの時間的・空間的遷移の追跡
 (c)で検出した潜在的トピックを(a)で作成したテキストデータに反映することで、テキスト内における時間的・空間的変化に伴う潜在的トピックの遷移を確認しうるシステムのプロトタイピングを行った。さらに、このプロトタイプシステムに対し、(c)により求めた潜在的トピックによるテキストユニット特徴を用いて、類似するテキストユニットを探索する機能を実装した。
公表実績: -平成25年度-
【査読付き論文 (雑誌論文,シンポジウム等)】
●関野樹,山田太造,大向一輝,原正一郎:「「地域の知」の情報技術」,じんもんこん2013論文集,Vol.2013,No.4,pp.145-152,2013.
●山田太造,野村朋弘,井上聡:「日本南北朝期史料を対象とした潜在的トピックによる史料分類と関連史料提示の手法」,じんもんこん2013論文集,Vol.2013,No.4,pp.145-152,2013.
●関野 樹,山田 太造:「日付を表す文字列の解釈と暦の変換-暦に関する統合基盤の構築に向けて」,じんもんこん2013論文集,Vol.2013,No.4,pp.161-166, 2013.
●永崎 研宣,三宅 真紀,苫米地 等流,A. Charles Muller,下田 正弘:「人文学資料としてのテクスト構造化の意義を再考する. 大正新脩大藏經における脚注の解析とLinked Data化をめぐって」,じんもんこん2013論文集,Vol.2013,No.4,pp. 239-246, 2013.
●永崎研宣:「人文学分野とサイバーインフラストラクチャ ~デジタル・ヒューマニティーズにおける現状と課題~」,『情報の科学と技術』, Vol.63, No.9, pp. 369-376, 2013.
【国際会議等】
●Taizo Yamada. “Text Analysis Method Using Latent Topics for Field Notes in Area Studies”, Proceedings of PNC 2013 Annual Conference and Joint Meething, p.65, 2013.
●Sekino, Tatsuki. “Time Information System HuTime and Realization of “Temporal Information Science””. PNC 2013 Annual Conference and Joint Meetings, Dec 10-11, 2013.
●Shoichiro Hara. “Applying Topic Maps to SNA for Thailand healthcare activities”, PNC 2013 Annual Conference and Joint Meetings Abstract and Program Book, p.107, 2013.
●Ayaka ONOHARA, Mami MURATA, Tamaki YANO, Shinsuke KISHIE. “Phylogenetic Analyses about Historical Dynamics of Accentual Systems in Shodo Island,Japan”, The 19th International Congress of Linguists, the University of Geneva Abstracts bookret p. 491.2013.
●Yoichi SEINO, Masakazu MATSUSHITA, Tomokatsu UOZU. “A Geographical Computerization of Nankai Megathrust Earthquakes’ Tsunami Monuments and the Recent Application of GIS in Japanese Ancient Historical and Archaeological Studies”, Journal of Asian Network for GIS-based Historical Studies Vol. 1, pp.61-64, 2013.
●Yoichi SEINO. “The possibility about the collaborative creation of wide area ancient digital terrain database”, The Second International Conference of Asian Network for GIS-based Historical Studies (ANGIS), held at Clock Tower Centennial Hall, Kyoto University, Kyoto, Japan.
●Kiyonori Nagasaki, Toru Tomabechi, A. Charles Muller, and Masahiro Shimoda, ” A Case Study of Integration of Services and Resources on a Web Service”, Digital Humanities 2013, pp.517-519, 2013.
●Kiyonori Nagasaki, A. Charles Muller, and Masahiro Shimoda. “A Challenge to Dissemination of TEI among a Language and Area: A Case Study in Japan”, The Linked TEI: Text Encoding in the Web, Roma, pp. 213-216, 2013.
研究成果公表計画
今後の展開等:
-平成25年度-
 次年度は以下について進展させる予定である。
a)「1) 地域研究史資料テキストからのトピック検出および時空間変化追跡手法の確立」の深化
本年度の取り組みに関して、評価を進め、より精度の高い分析方法を目指す予定である。特徴語抽出においては、少なからず不必要な用語を特徴語として検出しているため、この精度を高めていく。また、単に抽出するだけでなく、テキストユニットの特徴を本質的に示すための抽出、例えば抽出対象の特徴語を修飾する語彙とともに抽出していく、の実現を目指す。さらに、検出した潜在的トピックの評価もより深く行う予定である。
b)「2) トピック追跡をもとにした地域に関するデータの構造化」の進展
地域研究史資料テキストを単なる全文検索可能な公開方法ではなく、本年度のテキスト分析の成果を広く利活用可能な形式でのデータ構造を探っていく予定である。このときsemantic webやWebGISなどのweb技術も考慮しながら進める予定である。