[ STE Relay Column 007 ]
「データ分析系大学院生がスター・サイエンティストを探る」

福留 祐太 / 慶應義塾大学大学院理工学研究科

[プロフィール]慶應義塾大学大学院理工学研究科の福留祐太(ふくどめ ゆうた)と申します。スター・サイエンティスト研究のプロジェクトではリサーチ・アシスタント(RA)として主にデータの整備や分析業務に携わっています。

プロジェクトとの出会い
 私がデータ分析に興味を持ったのは高校3年生の頃になります。大学で何を専攻するのか決めなければならない時期でした。好きな科目は「数学」と「現代社会」。この二つに関われる学問はないか調べ、そこで「経営工学」という学問に出会いました。経営工学とは、現実社会における問題に対して科学的・工学的なアプローチで解決を図る学問であり、当時の私の興味と合致していました。当時はデータ・サイエンティストやビッグデータという言葉が出始めた頃でもあり、世界的なムーブメントとなり得る分野に関われる意味でも、経営工学にワクワクしていた記憶があります。
 経営工学を学ぶため、慶應義塾大学理工学部管理工学科に進学しました。そこで統計解析や情報処理、オペレーションズ・リサーチ、金融工学、生産工学といった周辺分野を広く学びました。幅広い周辺分野から最終的に一つの分野を選択し、研究室に所属することになるのですが、私は機械学習を専門とする研究室に所属することに決めました。これから流行るであろう技術に触れてみたかったからです。
 卒業研究では画像認識に取り組んでいましたが、大学院への進学も決まっていたため、普段扱えないような大量のデータや、テキストデータにも触れてみたいと考えていました。そのような最中、政策研究大学院大学で分析業務のアルバイトをしていた大学時代の友人に、牧さんと引き合わせていただきました。スター・サイエンティスト研究の目指すところに興味を持ち、論文や特許の大規模データベースをハンドリングできることが自分のスキル向上にも繋がると思い、初代RAとしてプロジェクトの関わらせて頂くことになりました。

これまでの活動
 データ分析の手法やスキルは保持していたものの、科学技術政策に関する研究は畑違いであったため、プロジェクトに参加した当初は知識不足で戸惑うことが多くありました。プロジェクトメンバーの牧さんや隅藏さん、長根(齋藤)さん、原さんのご指導を受けながら、スター・サイエンティスト研究の周辺知識を学び、必要な分析を理解し実装することを繰り返すことで、スター・サイエンティスト研究への理解を深めていきました。
 RAの業務に慣れてきた頃には、執筆にも関わらせていただき、研究・イノベーション学会の年次学術大会では「スター・サイエンティストとイノベーション」のセッションでの発表にもチャレンジしました。この講演では、高被引用論文を持つ研究者の中から、日本の研究機関に所属する研究者を日本のスター・サイエンティストとして取り上げ、彼らのキャリアや論文出版状況、特許出願状況、共著関係といった特性の分析結果を報告しました。RAという立場ながらも、分析した内容を自ら発表できたことは貴重な経験でしたし、他の発表者の講演から新たな分析の視点を得ることができました。
 今ではRAとして関わる学生も増え、互いに知識やスキルを共有することで、分析業務の効率化を図っています。

現在の取り組み
 論文や特許のデータベースを扱う上で、同じ研究者が異なる名前で表記されている「表記揺れ」の問題や、異なる研究者が同じ名前で表記されている「同姓同名」の問題が存在します。これらに対処するため、著者や発明者の同一性を判断する「名寄せ」を行う必要があります。
 分析業務に関わる中で、Researcher IDやORCIDといった著者識別子の情報や、データベース提供元が独自で名寄せした情報だけでは研究者の成果を正確に集計できないことがわかりました。スター・サイエンティスト研究を進める上では、研究者ごとに論文や特許の成果を体系的に集計する作業は必要不可欠であり、私はこれまで手作業で行っていた名寄せの作業を効率化できるようなアルゴリズムの開発に取り組んでいます。
 このアルゴリズムの開発は私の修士論文のテーマにもなっています。そのため、専門分野である機械学習手法を名寄せに導入することで精度の向上を図っています。これまでの名寄せに関する先行研究では共著者や所属機関、引用文献などのメタデータを見ることで類似する論文同士の集合、つまり同一著者の論文集合を取り出すような方法が提案されてきました。私は特にテキストデータの類似性に着目しています。論文データベースには論文のタイトルや抄録、キーワードといったテキストデータも収録されており、これらのテキストデータを自然言語処理の手法を適用することで、名寄せ精度の向上に取り組んでいます。大学院生活の集大成として、そしてスター・サイエンス研究を進める上で必要となるこの取り組みが結実するよう取り組んでいます。

最後に
 このプロジェクトに関わった2年間を経て、学生として大いに成長できたと実感しています。学ぶことが沢山ありながらも、自ら必要な分析を提案し、専門分野である機械学習の知識やプログラミングのスキルを、所属する研究室を飛び出してこのスター・サイエンティスト研究のプロジェクトで活用できたことは私の学生生活の中でもとても貴重な経験となりました。
 大学院卒業後は大手通信会社に就職する予定です。アカデミックの世界からは離れてしまいますが、機械学習の技術はビジネスにもかなり浸透してきているため、大学院やRAで身につけたデータ分析や機械学習の知見やスキルは活きてくると思っています。
 私が学生RAとして関わるのは残り僅かではありますが、取り組んで見たい分析はまだまだあるので、これからも一意専心研究に励んでいきたいと思います。

 


次回の更新は9月7日(金)に行います。東京工業大学修士1年の菅井 内音さんによる「RAから見たスター ~これまでの歩み・今後の展望~」です。