1. ホーム
  2. 研究活動
  3. 地域情報学プロジェクト
  4. 地域研究データにおけるトピックの検出と時空間変化に関する研究

地域研究データにおけるトピックの検出と時空間変化に関する研究

地域情報学プロジェクト

地域研究データにおけるトピックの検出と時空間変化に関する研究

個別共同研究ユニット
代表: 山田 太造(東京大学史料編纂所前近代日本史情報国際センター・助教)
共同研究員: 大向 一輝(国立情報学研究所コンテンツ科学研究系・准教授)、小野原 彩香(同志社大学大学院文化情報学研究科・特別研究員(PD))、帯谷 知可(京都大学地域研究統合情報センター・准教授)、柴山 守(京都大学国際交流推進機構・地域研究統合情報センター・特任教授)、清野 陽一(奈良文化財研究所・研究員)、関野 樹(総合地球環境学研究所研究高度化支援センター・准教授)、永崎 研宣(人文情報学研究所・主席研究員)、原 正一郎 (京都大学地域研究統合情報センター・教授)、深川 大路(同志社大学文化情報学部・助教)、柳澤 雅之(京都大学地域研究統合情報センター・准教 授)、山田 太造(東京大学史料編纂所前近代日本史情報国際センター・助教)
期間: 平成25年4月~平成27年3月(2年間)
目的:  本研究では、地域研究に関するテキスト資料を対象として、そこからトピック(ここでは共起する語彙により特徴付けられるカテゴリを指す)を検出し、トピックの時空間的変化を追跡することで,事象の時空間的構造を明らかにするデータ工学的な手法の確立を目指す。特に以下の2点に着目する。
1) 地域研究史資料テキストからのトピック検出および時空間変化追跡手法の確立:テキストから特徴語(テキストを特徴付ける語)を抽出し、同質な特徴語をクラスタリングすることでトピックを検出する。特に、時空間語彙に着目した特徴語のクラスタリングを行うことで、生起・分化・統合・消滅等のトピックの時間的・空間的推移を追跡する。
2) トピック追跡をもとにした地域に関するデータの構造化:上記の成果をもとに、データ間において潜在的に形成されるリンクを構造化する。このとき、Linked Data(データ版のWWW。Web上にデータを配置し、HTTPを利用してリンクする技術)に代表されるsemantic web(Webページに記述された内容をコンピュータ分析できるように記述する方法および分析法)の表現方法を利用することにより、トピックとその時空間変化、さらには地域研究史資料を、再利用や他の目的で使用可能かつ意味構造を表現しうる形式で表現する。
研究実施状況: -平成26年度-
 複合共同研究ユニット「「地域の知」の情報学―時間・空間・語彙に注目した地域情報学の展開―」および個別共同研究ユニット「地域に関する時空間基盤情報の収集・蓄積」との共同で、研究会を5回開催(うち4回共催)し、人文科学領域における時空間情報処理の可能性について、多様な研究領域の研究者が、考え方や問題点を共有し、研究の方向性を見い出すことを目的とした研究懇談会を7回開催した。
○研究会
【第1回研究会】
日時:2014年5月10日
場所:京都大学地域研究統合情報センター
テーマ:H-GISにかかる研究情報資源の状況
発表:「学認」に対応した京都大学デジタルアーカイブシステム、他3件
【第2回研究会】
日時:2014年7月19日
場所:国立情報学研究所
テーマ:地名にかかる情報技術に関する研究会
共催:国立情報学研究所公募型共同研究「GeoNLPプロジェクト:自然言語文を対象とした地名情報処理とコミュニティの展開」、大学共同利用機関法人人間文化研究機構・研究資源共有化事業委員会発表:資源共有化における地名の役割と時空間への展開、他4件
【第3回研究会】
日時:2014年10月17日
場所:京都大学地域研究統合情報センター
共催:京都大学人文科学研究所共同研究班「人文学研究資料にとってのWebの可能性を再探する」
発表:地域研究データにおけるトピックの検出と時空間変化に関する研究、他3件
【第4回研究会】
  日時:2015年2月13-14日
場所:国立情報学研究所
テーマ:セマンティックWeb技術特集
共催:国立情報学研究所 武田研究室
発表:LODAC Project/DBpediaなどLODの話題、他7件
【第5回研究会】
日時:2015年2月27日
場所:京都大学人文科学研究所
テーマ:国内外のDH連携と京大のDHの可能性
共催:京都大学人文科学研究所共同研究班「人文学研究資料にとってのWebの可能性を再探する」
発表:京都大学研究資源アーカイブの活動と京都大学デジタルアーカイブシステム、他2件
○研究懇談会
2014年4月22日、2014年6月21日、2014年8月8日、2014年9月5日、2014年11月29日、2014年12月12日、2014年3月24日
研究成果の概要: -平成26年度-
 本年度は、昨年度に引き続き、研究目的で掲げた「1) 地域研究史資料テキストからのトピック検出および時空間変化追跡手法の確立」を深化させ、さらに、「2) トピック追跡をもとにした地域に関するデータの構造化」についての検討を進めた。特に以下の3点を重点的に推し進めた。
a) トピック検出の深化
昨年度までに進めたフィールドノートのテキスト内に潜在するトピック(潜在的トピック)の検出をさらに、分析を行う上で不要である語彙を除去し、再度検出されるトピックの分析を行った。ここで、分析を深化させるためトピック数を増加もしくは減少させた。これにより、フィールドノートの内容と検出されるトピックの関係を洗い出すことができた。
b) 地名の抽出
昨年度まではフィールドノートの各場面の空間的特徴として大まかな空間情報を与えていた。より細かく空間情報を付与するため、テキスト内に出現する地名を抽出するための手法について検討した。
c) 地域に関するデータの構造化・表現手法
フィールドノートの各場面を特徴づけるためのデータ構造を設計し、その表現方法について検討を進めた。特に表現方法として、データの利活用を高めるために、セマンティックwebの手法を用いたデータモデリングを行った。
公表実績: -平成26年度-
【出版】
帯谷知可編,『書誌情報データベースの地域情報学的新展開を探る』(CIAS Discussion Paper No. 51),2015年3月. 【雑誌】
山田太造:前近代日本史史料をベースとしたテキストデータべースの特徴と課題,日本語学臨時増刊号2014年11月号,明治書院,pp.29-41,2014.
関野 樹:研究資料のアーカイブと活用-特集にあたって. SEEDer (11) :4-5,2014年12月.
・柳澤雅之:「フィールドノート・プロジェクト」『Seeder種まく人 地域環 境情報から考える地球の未来』11号. 人間文化研究機構 総合地球環境学研究所 (2014年12月15日発行)pp.14-22,2014年.
・関野 樹: 2015年 史料で読み解く環境史-特集にあたって. SEEDer (12),2015年.
【論文】
・Mamoru Shibayama: Overview East-West Cultural Corridor Project on Southern Coastal Zone in Myanmar with the Borderland in Thailand, Progress Report of National Research Council of Thailand, pp.3-5, November 2014.
・Mamoru Shibayama: The East-West Cultural Corridor - Medieval Communication Network in Mainland Southeast Asia, Progress Report No.1/2014, National Research Council of Thailand, 108 pages, November 2014.
・柴山 守:地域情報学-地域分析への新たな挑戦,『21世紀の東南アジア研究―地球社会 への発信』(京都大学東南アジア研究所50周年記念誌)、pp.112-114, 京都大学東南アジア研究所, 2015年3月31日.
・関野 樹:Linked Dataにおける日の取り扱い-時間に基づくデータ連携. 情報処理学会シンポジウムシリーズ 2014(3) :125-130,2014年12月.
・関野 樹, 原 正一郎, 近藤康久, 窪田順平, 秋道智彌:地球環境学リポジトリ」-セマンティック技術による研究資源の異分野連携.研究報告人文科学とコンピュータ(CH) 2014-CH-103(1) :1-6,2014年08月.
・永崎研宣:日本語クラウドソーシング翻刻に向けて,『情報の科学と技術』, Vol. 64 (2014), No.11, pp. 475-480.
・永崎研宣:仏教文献のための構造的なデジタルテクストの記述と活用,『印度学仏教学研究』(2015年3月発行、掲載予定).
・永崎 研宣, Paul Hackett, 苫米地 等流, A.チャールズ・ミュラー, 下田 正弘:人文学にとっての「リンク」の意義 SAT大蔵経データベースを手がかりとして,『じんもんこん2014論文集』(2014年12月), pp. 17-22.
・清野陽一,山田太造,高田智和,古瀬蔵「人文科学データベースからの人名一覧表示システムの構築」,人文科学とコンピュータ研究会報告,vol.2014-CH-103,no.4,pp.1-6,2014.
・山田太造,野村朋弘,井上聡:トピックモデルを用いた天正期古記録『上井覚兼日記』における人物間関係の検出,じんもんこん2014論文集,vol.2014,no.3,pp.131-138,2014.。高田百合奈,渡邉英徳,柳澤雅之,山田 太造:位置情報とトピックモデルに基づくフィールドノートのビジュアライズ手法,じんもんこん2014論文集,vol.2014,no.3,pp.57-62,2014.
・山田太造:日本史史料を対象としたテキスト構造化と読解支援」,東京大学史料編纂所[共同研究拠点と歴史情報]シンポジウム「資料情報の新たな発信」予稿集,pp.20-24,2014年1月.
・山田太造:地域研究資料と対象とした時空間情報に着目したデータの構造化」,人文科学とコンピュータ研究会報告,vol.2015-CH-105,no.4, pp.1-6, 2015.
【国際会議】
・Mamoru Shibayama: An Examination of the East-West Cultural Corridor, SPAFA Journal, SEAMEO SPAFA, [Accepted]. December, 2014.
・Mamoru Shibayama: The East-West Cultural Corridor between Myanmar and Thailand, Proceedings of ANGIS and CRMA Bangkok Meeting 2015, The Princess Maha Chakri Sirindhorn Anthropology Centre, Bangkok, Thailand, 5-6th, January 2015.
・Kiyonori Nagasaki, A. Charles Muller, Toru Tomabechi, and Masahiro Shimoda: Bridging the Local and the Global in DH: A Case Study in Japan, Digital Humanities 2014, Lausanne (Switzerland), (2014/7), pp. 279-280.
・Kiyonori Nagasaki, A. Charles Muller, Toru Tomabechi, and Masahiro Shimoda: Exploring Possibilities of Digital Environments for Buddhist Studies, 17th Congress of the International Association of Buddhist Studies (IABS), Vienna (Austria), 23 Aug 2014.
・Taizo Yamada: Place Name Extraction from Field Notes Based on Text Analysis for Area Studies, Proceedings of PNC2014 Annual Conference and Joint Meetings.p.55, 2014.
・Taizo YAMADA, Satoshi Inoue: A Text Encoding Support System for Pre-modern Japanese Historical Materials, Digital Humanities 2014(DH2014), pp.558-559,2014
.
研究成果公表計画
今後の展開等:
-平成26年度-
【研究成果公開計画】
国内研究会の開催や関連学会・研究会での発表を介して公開することを予定している.また,地域研究統合情報センターから公開可能な形式で成果を取りまとめることも予定している。
地域研の関連する研究テーマ班との共同研究会などを通じた成果公開からのフィードバックを得て,さらなる改良につとめていく.また,試作したテキスト検索システムについても公開を目指す予定である.
【今後の展開】
フィールドノートに対する時空間的特徴の定量的表現・解析手法の確立のため,以下の問題を解決する.
1) フィールドノートからの時空間的特徴の抽出と場面の構造化:情報リソースとして,高谷好一著「地域研究アーカイブズ フィールドノート集成2」の利用を想定している.また,これまで取り組んできた研究成果を取り入れ,対象資料からテキストの構造化,テキスト内に潜在する話題検出手法などを行い,テキストの定量的解析を目指していく.また,テキストから時空間情報の抽出を行う.特に,空間情報の抽出では,辞書等の整備がなされていないことが既にわかっているため,この環境下での抽出を行う.このとき,データ工学的アプローチによる手法に,地域研究者の知識をフィードバックとして加えた手法で取り組む予定である.これにより,洗練された地名抽出が可能になると考えている.最終的には,テキスト内の各場面を構造化していく.さらに,本研究で得られた場面データを時空間解析のための基盤情報として,地名辞書に追加・蓄積していくことも予定している.
2) フィールドノート情報の利用:1) で表現した場面を検索できる情報システムのプロトタイピングを行うが,単なる全文検索ではなく,場面の定量的特徴にもとづいた関連する場面の提示を可能とする情報提示機能を盛り込む予定である.また,地域研究者がごく自然にできるユーザインターフェースの作成に取り組む.また,HuTime / HuMapで利用するなど,2次利用可能なデータ形式を目指していく.さらにセマンティックウェブの技術を用いることで他のウェブシステムとの連携の実現についても検討を進めていく.