1. ホーム
  2. 研究活動
  3. 過去の研究プロジェクト
  4. H25年度~H27年度の研究プロジェクト
  5. 地域情報学プロジェクト
  6. 地域研究データにおけるトピックの検出と時空間変化に関する研究(h25~h26)

地域情報学プロジェクト

地域研究データにおけるトピックの検出と時空間変化に関する研究(h25~h26)

個別共同研究ユニット
代表: 山田 太造(東京大学史料編纂所前近代日本史情報国際センター・助教)
共同研究員: 大向 一輝(国立情報学研究所コンテンツ科学研究系・准教授)、小野原 彩香(同志社大学大学院文化情報学研究科・特別研究員(PD))、帯谷 知可(京都大学地域研究統合情報センター・准教授)、柴山 守(京都大学国際交流推進機構・地域研究統合情報センター・特任教授)、清野 陽一(奈良文化財研究所・研究員)、関野 樹(総合地球環境学研究所研究高度化支援センター・准教授)、永崎 研宣(人文情報学研究所・主席研究員)、原 正一郎 (京都大学地域研究統合情報センター・教授)、深川 大路(同志社大学文化情報学部・助教)、柳澤 雅之(京都大学地域研究統合情報センター・准教 授)、山田 太造(東京大学史料編纂所前近代日本史情報国際センター・助教)
期間: 平成25年4月~平成27年3月(2年間)
目的:  本研究では、地域研究に関するテキスト資料を対象として、そこからトピック(ここでは共起する語彙により特徴付けられるカテゴリを指す)を検出し、トピックの時空間的変化を追跡することで、事象の時空間的構造を明らかにするデータ工学的な手法の確立を目指す。特に以下の2点に着目する。
①地域研究史資料テキストからのトピック検出および時空間変化追跡手法の確立
 テキストから特徴語(テキストを特徴付ける語)を抽出し、同質な特徴語をクラスタリングすることでトピックを検出する。特に、時空間語彙に着目した特徴語のクラスタリングを行うことで、トピックの時間的・空間的遷移を追跡する。
②トピック追跡をもとにした地域に関するデータの構造化
 上記の成果をもとに、データ間において潜在的に形成されるリンクを構造化する。このとき、semantic web(Webページに記述された内容をコンピュータ分析できるように記述する方法および分析法)の表現方法を利用することにより、トピックとその時空間変化、さらには地域研究史資料を、再利用や他の目的で使用可能かつ意味構造を表現しうる形式で表現する。
研究実施状況: -平成25年度-
 複合共同研究ユニット「『地域の知』の情報学――時間・空間・語彙に注目した地域情報学の展開」および個別共同研究ユニット「地域に関する時空間基盤情報の収集・蓄積」との共同で研究会を4回開催し、人文科学領域における時空間情報処理の可能性について、多様な研究領域の研究者が考え方や問題点を共有し、研究の方向性を見出すことを目的とした研究懇談会を6回開催した。テキスト利用・分析に関する打ち合わせを2回開催した。さらに、人文科学とコンピュータシンポジウム「じんもんこん2013」(日時:2013年12月9日(月)~14日(土)、場所:京都大学百周年時計台記念館)において、企画セッション「『地域の知』の情報技術」を開催した。
①研究会
【第1回研究会】
日時:2013年6月1日(土)
場所:京都大学稲盛財団記念館2階セミナー室
発表:地域研究データにおけるトピックの検出と時空間変化に関する研究、他3件
【第2回研究会】
日時:2013年9月28日(土)
場所:京都大学稲盛財団記念館2階セミナー室
発表:高谷好一『地域研究アーカイブズ フィールドノート集成2 スマトラ』のシステムフォローアップ、他5件
【第3回研究会】
日時:2014年1月18日(土)
場所:京都大学稲盛財団記念館2階セミナー室
テーマ:地域の「時空間の知」
【第4回研究会】
日時:2014年2月8日(土)、9日(日)
場所:東京大学史料編纂所大会議室
発表:資源共有化システムとは、他4件
②研究懇談会
2013年4月5日(金)、7月5日(金)、8月9日(金)、11月22日(金)、12月20日(金)、2014年3月22日(土)
③打ち合わせ
2014年2月17日、3月10日

-平成26年度-
 複合共同研究ユニット「「地域の知」の情報学―時間・空間・語彙に注目した地域情報学の展開―」および個別共同研究ユニット「地域に関する時空間基盤情報の収集・蓄積」との共同で、研究会を5回開催(うち4回共催)し、人文科学領域における時空間情報処理の可能性について、多様な研究領域の研究者が、考え方や問題点を共有し、研究の方向性を見い出すことを目的とした研究懇談会を7回開催した。
①研究会
【第1回研究会】
日時:2014年5月10日
場所:京都大学地域研究統合情報センター
テーマ:H-GISにかかる研究情報資源の状況
発表:「学認」に対応した京都大学デジタルアーカイブシステム、他3件
【第2回研究会】
日時:2014年7月19日
場所:国立情報学研究所
テーマ:地名にかかる情報技術に関する研究会
共催:国立情報学研究所公募型共同研究「GeoNLPプロジェクト:自然言語文を対象とした地名情報処理とコミュニティの展開」、大学共同利用機関法人人間文化研究機構・研究資源共有化事業委員会
発表:資源共有化における地名の役割と時空間への展開、他4件
【第3回研究会】
日時:2014年10月17日
場所:京都大学地域研究統合情報センター
共催:京都大学人文科学研究所共同研究班「人文学研究資料にとってのWebの可能性を再探する」
発表:地域研究データにおけるトピックの検出と時空間変化に関する研究、他3件
【第4回研究会】
日時:2015年2月13-14日
場所:国立情報学研究所
テーマ:セマンティックWeb技術特集
共催:国立情報学研究所 武田研究室
発表:LODAC Project/DBpediaなどLODの話題、他7件
【第5回研究会】
日時:2015年2月27日
場所:京都大学人文科学研究所
テーマ:国内外のDH連携と京大のDHの可能性
共催:京都大学人文科学研究所共同研究班「人文学研究資料にとってのWebの可能性を再探する」
発表:京都大学研究資源アーカイブの活動と京都大学デジタルアーカイブシステム、他2件
②研究懇談会
2014年4月22日、2014年6月21日、2014年8月8日、2014年9月5日、2014年11月29日、2014年12月12日、2014年3月24日
研究成果の概要: -平成25年度-
 本年度は研究目的で掲げた「地域研究史資料テキストからのトピック検出および時空間変化追跡手法の確立」を達成すべく、以下の4点について重点的に取り組んだ。
(a)地域研究史資料からのテキスト作成
 高谷好一著『地域研究アーカイブズ フィールドノート集成2 スマトラ 1984.10.19-1985.1.18 スマトラほぼ全域』を対象に、柔軟なテキスト検索・分析等の実施のため、検索・分析を行う上で必須となるテキストの基本単位(ここではテキストユニットと呼ぶ)を決定し、テキスト構造の洗い出しを行い、テキスト化を行った。
(b)テキストからの特徴語抽出
 (a)で作成したXMLデータからテキストユニットにおける特徴を示す用語(特徴語)の抽出を行った。
(c)トピックの検出
 (b)で抽出した特徴語を、その共起性に着目することで分類を行った。LDAにより分類した特徴語の集合は、テキスト内に潜在するトピック(潜在的トピック)として検出される。検出した潜在的トピックにより、各テキストユニットの特徴を定量的に示すことができた。
(d)トピックの時間的・空間的遷移の追跡
 (c)で検出した潜在的トピックを(a)で作成したテキストデータに反映することで、テキスト内における時間的・空間的変化に伴う潜在的トピックの遷移を確認しうるシステムのプロトタイピングを行った。さらに、このプロトタイプシステムに対し、(c)により求めた潜在的トピックによるテキストユニット特徴を用いて、類似するテキストユニットを探索する機能を実装した。

-平成26年度-
 本年度は、昨年度に引き続き、研究目的で掲げた「1) 地域研究史資料テキストからのトピック検出および時空間変化追跡手法の確立」を深化させ、さらに、「2) トピック追跡をもとにした地域に関するデータの構造化」についての検討を進めた。特に以下の3点を重点的に推し進めた。
a) トピック検出の深化
 昨年度までに進めたフィールドノートのテキスト内に潜在するトピック(潜在的トピック)の検出をさらに、分析を行う上で不要である語彙を除去し、再度検出されるトピックの分析を行った。ここで、分析を深化させるためトピック数を増加もしくは減少させた。これにより、フィールドノートの内容と検出されるトピックの関係を洗い出すことができた。
b) 地名の抽出
 昨年度まではフィールドノートの各場面の空間的特徴として大まかな空間情報を与えていた。より細かく空間情報を付与するため、テキスト内に出現する地名を抽出するための手法について検討した。 c) 地域に関するデータの構造化・表現手法
 フィールドノートの各場面を特徴づけるためのデータ構造を設計し、その表現方法について検討を進めた。特に表現方法として、データの利活用を高めるために、セマンティックwebの手法を用いたデータモデリングを行った。
公表実績: -平成25年度-
【査読付き論文】(雑誌論文,シンポジウム等)
・関野樹,山田太造,大向一輝,原正一郎:「「地域の知」の情報技術」,じんもんこん2013論文集,Vol.2013,No.4,pp.145-152,2013.
・山田太造,野村朋弘,井上聡:「日本南北朝期史料を対象とした潜在的トピックによる史料分類と関連史料提示の手法」,じんもんこん2013論文集,Vol.2013,No.4,pp.145-152,2013.
・関野 樹,山田 太造:「日付を表す文字列の解釈と暦の変換-暦に関する統合基盤の構築に向けて」,じんもんこん2013論文集,Vol.2013,No.4,pp.161-166, 2013.
・永崎 研宣,三宅 真紀,苫米地 等流,A. Charles Muller,下田 正弘:「人文学資料としてのテクスト構造化の意義を再考する. 大正新脩大藏經における脚注の解析とLinked Data化をめぐって」,じんもんこん2013論文集,Vol.2013,No.4,pp. 239-246, 2013.
・永崎研宣:「人文学分野とサイバーインフラストラクチャ ~デジタル・ヒューマニティーズにおける現状と課題~」,『情報の科学と技術』, Vol.63, No.9, pp. 369-376, 2013.
【国際会議等】
・Taizo Yamada. "Text Analysis Method Using Latent Topics for Field Notes in Area Studies", Proceedings of PNC 2013 Annual Conference and Joint Meething, p.65, 2013.
・Sekino, Tatsuki. “Time Information System HuTime and Realization of "Temporal Information Science"”. PNC 2013 Annual Conference and Joint Meetings, Dec 10-11, 2013.
・Shoichiro Hara. “Applying Topic Maps to SNA for Thailand healthcare activities”, PNC 2013 Annual Conference and Joint Meetings Abstract and Program Book, p.107, 2013.
・Ayaka ONOHARA, Mami MURATA, Tamaki YANO, Shinsuke KISHIE. “Phylogenetic Analyses about Historical Dynamics of Accentual Systems in Shodo Island,Japan”, The 19th International Congress of Linguists, the University of Geneva Abstracts bookret p. 491.2013.
・Yoichi SEINO, Masakazu MATSUSHITA, Tomokatsu UOZU. "A Geographical Computerization of Nankai Megathrust Earthquakes' Tsunami Monuments and the Recent Application of GIS in Japanese Ancient Historical and Archaeological Studies", Journal of Asian Network for GIS-based Historical Studies Vol. 1, pp.61-64, 2013.
・Yoichi SEINO. "The possibility about the collaborative creation of wide area ancient digital terrain database", The Second International Conference of Asian Network for GIS-based Historical Studies (ANGIS), held at Clock Tower Centennial Hall, Kyoto University, Kyoto, Japan.
・Kiyonori Nagasaki, Toru Tomabechi, A. Charles Muller, and Masahiro Shimoda, " A Case Study of Integration of Services and Resources on a Web Service”, Digital Humanities 2013, pp.517-519, 2013.
・Kiyonori Nagasaki, A. Charles Muller, and Masahiro Shimoda. “A Challenge to Dissemination of TEI among a Language and Area: A Case Study in Japan”, The Linked TEI: Text Encoding in the Web, Roma, pp. 213-216, 2013.

-平成26年度-
【出版】
・帯谷知可編,『書誌情報データベースの地域情報学的新展開を探る』(CIAS Discussion Paper No. 51),2015年3月.
【雑誌】
・山田太造:前近代日本史史料をベースとしたテキストデータべースの特徴と課題,日本語学臨時増刊号2014年11月号,明治書院,pp.29-41,2014.
・関野 樹:研究資料のアーカイブと活用-特集にあたって. SEEDer (11) :4-5,2014年12月.
・柳澤雅之:「フィールドノート・プロジェクト」『Seeder種まく人 地域環 境情報から考える地球の未来』11号. 人間文化研究機構 総合地球環境学研究所 (2014年12月15日発行)pp.14-22,2014年.
・関野 樹: 2015年 史料で読み解く環境史-特集にあたって. SEEDer (12),2015年.
【論文】
・Mamoru Shibayama: Overview East-West Cultural Corridor Project on Southern Coastal Zone in Myanmar with the Borderland in Thailand, Progress Report of National Research Council of Thailand, pp.3-5, November 2014.
・Mamoru Shibayama: The East-West Cultural Corridor - Medieval Communication Network in Mainland Southeast Asia, Progress Report No.1/2014, National Research Council of Thailand, 108 pages, November 2014.
・柴山 守:地域情報学-地域分析への新たな挑戦,『21世紀の東南アジア研究―地球社会 への発信』(京都大学東南アジア研究所50周年記念誌)、pp.112-114, 京都大学東南アジア研究所, 2015年3月31日.
・関野 樹:Linked Dataにおける日の取り扱い-時間に基づくデータ連携. 情報処理学会シンポジウムシリーズ 2014(3) :125-130,2014年12月.
・関野 樹, 原 正一郎, 近藤康久, 窪田順平, 秋道智彌:地球環境学リポジトリ」-セマンティック技術による研究資源の異分野連携.研究報告人文科学とコンピュータ(CH) 2014-CH-103(1) :1-6,2014年08月.
・永崎研宣:日本語クラウドソーシング翻刻に向けて,『情報の科学と技術』, Vol. 64 (2014), No.11, pp. 475-480.
・永崎研宣:仏教文献のための構造的なデジタルテクストの記述と活用,『印度学仏教学研究』(2015年3月発行、掲載予定).
・永崎 研宣, Paul Hackett, 苫米地 等流, A.チャールズ・ミュラー, 下田 正弘:人文学にとっての「リンク」の意義 SAT大蔵経データベースを手がかりとして,『じんもんこん2014論文集』(2014年12月), pp. 17-22.
・清野陽一,山田太造,高田智和,古瀬蔵「人文科学データベースからの人名一覧表示システムの構築」,人文科学とコンピュータ研究会報告,vol.2014-CH-103,no.4,pp.1-6,2014.
・山田太造,野村朋弘,井上聡:トピックモデルを用いた天正期古記録『上井覚兼日記』における人物間関係の検出,じんもんこん2014論文集,vol.2014,no.3,pp.131-138,2014.
・高田百合奈,渡邉英徳,柳澤雅之,山田 太造:位置情報とトピックモデルに基づくフィールドノートのビジュアライズ手法,じんもんこん2014論文集,vol.2014,no.3,pp.57-62,2014.
・山田太造:日本史史料を対象としたテキスト構造化と読解支援」,東京大学史料編纂所[共同研究拠点と歴史情報]シンポジウム「資料情報の新たな発信」予稿集,pp.20-24,2014年1月.
・山田太造:地域研究資料と対象とした時空間情報に着目したデータの構造化」,人文科学とコンピュータ研究会報告,vol.2015-CH-105,no.4, pp.1-6, 2015.
【国際会議】
・Mamoru Shibayama: An Examination of the East-West Cultural Corridor, SPAFA Journal, SEAMEO SPAFA, [Accepted]. December, 2014.
・Mamoru Shibayama: The East-West Cultural Corridor between Myanmar and Thailand, Proceedings of ANGIS and CRMA Bangkok Meeting 2015, The Princess Maha Chakri Sirindhorn Anthropology Centre, Bangkok, Thailand, 5-6th, January 2015.
・Kiyonori Nagasaki, A. Charles Muller, Toru Tomabechi, and Masahiro Shimoda: Bridging the Local and the Global in DH: A Case Study in Japan, Digital Humanities 2014, Lausanne (Switzerland), (2014/7), pp. 279-280.
・Kiyonori Nagasaki, A. Charles Muller, Toru Tomabechi, and Masahiro Shimoda: Exploring Possibilities of Digital Environments for Buddhist Studies, 17th Congress of the International Association of Buddhist Studies (IABS), Vienna (Austria), 23 Aug 2014.
・Taizo Yamada: Place Name Extraction from Field Notes Based on Text Analysis for Area Studies, Proceedings of PNC2014 Annual Conference and Joint Meetings.p.55, 2014.
・Taizo YAMADA, Satoshi Inoue: A Text Encoding Support System for Pre-modern Japanese Historical Materials, Digital Humanities 2014(DH2014), pp.558-559,2014.
研究成果公表計画
今後の展開等:
-平成25年度-
 次年度は以下について進展させる予定である。
a) 「1) 地域研究史資料テキストからのトピック検出および時空間変化追跡手法の確立」の深化
 本年度の取り組みに関して、評価を進め、より精度の高い分析方法を目指す予定である。特徴語抽出においては、少なからず不必要な用語を特徴語として検出しているため、この精度を高めていく。また、単に抽出するだけでなく、テキストユニットの特徴を本質的に示すための抽出、例えば抽出対象の特徴語を修飾する語彙とともに抽出していく、の実現を目指す。さらに、検出した潜在的トピックの評価もより深く行う予定である。
b) 「2) トピック追跡をもとにした地域に関するデータの構造化」の進展
 地域研究史資料テキストを単なる全文検索可能な公開方法ではなく、本年度のテキスト分析の成果を広く利活用可能な形式でのデータ構造を探っていく予定である。このときsemantic webやWebGISなどのweb技術も考慮しながら進める予定である。

-平成26年度-
【研究成果公開計画】
 国内研究会の開催や関連学会・研究会での発表を介して公開することを予定している.また,地域研究統合情報センターから公開可能な形式で成果を取りまとめることも予定している。
地域研の関連する研究テーマ班との共同研究会などを通じた成果公開からのフィードバックを得て,さらなる改良につとめていく.また,試作したテキスト検索システムについても公開を目指す予定である.
【今後の展開】
 フィールドノートに対する時空間的特徴の定量的表現・解析手法の確立のため,以下の問題を解決する.
1) フィールドノートからの時空間的特徴の抽出と場面の構造化:情報リソースとして,高谷好一著「地域研究アーカイブズ フィールドノート集成2」の利用を想定している.また,これまで取り組んできた研究成果を取り入れ,対象資料からテキストの構造化,テキスト内に潜在する話題検出手法などを行い,テキストの定量的解析を目指していく.また,テキストから時空間情報の抽出を行う.特に,空間情報の抽出では,辞書等の整備がなされていないことが既にわかっているため,この環境下での抽出を行う.このとき,データ工学的アプローチによる手法に,地域研究者の知識をフィードバックとして加えた手法で取り組む予定である.これにより,洗練された地名抽出が可能になると考えている.最終的には,テキスト内の各場面を構造化していく.さらに,本研究で得られた場面データを時空間解析のための基盤情報として,地名辞書に追加・蓄積していくことも予定している.
2) フィールドノート情報の利用:1) で表現した場面を検索できる情報システムのプロトタイピングを行うが,単なる全文検索ではなく,場面の定量的特徴にもとづいた関連する場面の提示を可能とする情報提示機能を盛り込む予定である.また,地域研究者がごく自然にできるユーザインターフェースの作成に取り組む.また,HuTime / HuMapで利用するなど,2次利用可能なデータ形式を目指していく.さらにセマンティックウェブの技術を用いることで他のウェブシステムとの連携の実現についても検討を進めていく.