Profile
合間優陽(かんま・ゆうや)
2017年入社 新領域創成科学研究科修了
新人研修後、同年7月に情報技術本部開発部(ICTRAD)に配属
2020年2月、同部のサイト開発チームに異動
朝日新聞社は、新しい技術を使ってニュース発信や新しいビジネスに活かす取り組みを行っています。特に人工知能(AI)の取り組みについて、2つの事例を紹介します。
2018年の第100回全国高校野球選手権記念大会では、試合のポイントを短い文字数で伝える「戦評記事」の自動生成に挑戦。新人AI記者「おーとりぃ」として戦評記事を自動生成し、大会の3回戦から朝日新聞デジタルに配信しました。2019年の大会でも活用しました。
この戦評記事自動生成システムの仕組みは次の通りです。
まず、事前準備として、過去の約8万の高校野球の戦評記事とスコアの組み合わせをもとに、「このゲーム展開になったら、こういう戦評記事となることが多い」という傾向を解析・分類し、テンプレートを作成しておきます。このテンプレートの組み合わせによって1000万パターンの戦評記事が作成できるようになります。
実際の試合結果は、記者が電子スコアブックに入力しAIに読み込ませます。AIは、そこから注目すべきイニングやプレーを選び出し、それらに見合った複数のテンプレートを選択、それらをもとに戦評記事を1秒ほどで作成します。
大阪桐蔭が接戦を制した。二回1死三塁の場面で、山田の左犠飛で先制した。先発柿木は被安打6、無四球8奪三振1失点で完投。守備陣も無失策の堅守でもり立てた。作新学院は九回、沖の右前適時打で2点差に詰め寄ったが及ばなかった。
電子スコアブックにないデータ、例えば「特大ホームラン」「間一髪セーフ」「高めに浮いた直球」などは表現できません。しかし、AI記者はデータさえ揃えばいくらでも記事を生成できるため、圧倒的な出稿量で読者に多くの記事を提供できるといった長所もあります。
今回は、機械学習による事前の分析とエキスパートシステムによる文章生成という技術を組み合わせて取り組みました。今後も最新のテクノロジーを見据えつつ、どのようなシーンでどのような技術を使うのか常に考えながら、挑戦は続いていきます。
AI記者「おーとりぃ」を開発したのは、情報技術本部でIT分野の研究開発に取り組むICTRAD(Information and Communication Technology Research And Development)。米スタンフォード大への留学から戻った開発リーダーと一緒に、合間優陽らが取り組みました。資本業務提携している「ミンカブ・ジ・インフォノイド」の協力を得ています。
合間優陽(かんま・ゆうや)
2017年入社 新領域創成科学研究科修了
新人研修後、同年7月に情報技術本部開発部(ICTRAD)に配属
2020年2月、同部のサイト開発チームに異動
開発で印象に残っていること
準々決勝の金足農-近江戦では、2ランスクイズが決まり金足農のサヨナラ勝ちとなったが、AI記者は「1点を追う九回、無死満塁から斎藤のスクイズで逆転し、勝負を決めた」と書いた。テンプレート上では、2ランスクイズを想定していなかったこともあり、本来1点しか入らないスクイズで逆転してしまい、2ランスクイズがうまく表現できていなかったこと。
開発のやりがい
高校野球という伝統的なイベントを仕事として担うことや、もともと高校野球が好きだったので、戦評自動生成の取り組み自体に興味が持てた。また、事前分析の過程で機械学習を用い戦評を分析することや、実際に戦評が出力され、評価されたことがモチベーションにつながった。
開発で大変だったこと
パートナー企業との打ち合わせやプログラムのバグ対応。意外と思うかも知れないが、連日高校野球を見続けることは、なかなか辛かった。
開発で工夫したこと
処理をおこなうにあたって冗長なプログラムを作成すると処理時間がかかってしまうため、処理時間が短くなるように最適化してプログラムを書くようにした。
今後取り組みたいこと
データ分析やセキュリティ関連に取り組みたいと思っている。また、深層学習については今後も取り組み続けたい。
朝日新聞社への志望動機、決めた理由
理系の就活セミナーに朝日新聞社が参加していて、意外に新しいことにチャレンジしていることが分かったので。技術部門のインターンシップに参加、社員の雰囲気がよかったため。
朝日新聞社の印象
新入社員の話、アイデアなどをよく聞いてくれる。
就活生にメッセージ
新規コンテンツを生み出したい方や、新しいことにチャレンジしたい方はぜひ!
新規ビジネスの開発や出資・投資、研究開発などを主なミッションとして2013年9月に発足したメディアラボでは、新聞社に必要な技術分野と考えている自然言語処理の研究をしています。その柱の一つとして、2016年10月から自動見出し生成の取り組みを開始しました。
この取り組みは、朝日新聞の過去の記事本文と見出しの対応を機械学習させて、一定の長さの記事を入力すると、数秒以内に指定した本数の見出しを生成するというものです。担当チームがディープラーニングの仕組みを応用して、この機能を実装しました。
さらに、生成する見出しの文字数を制御する方法も研究しています。見出しの長さは、例えばヤフーニュースが13.5文字、朝日新聞デジタルが26文字など媒体ごとに制約があるため、見出しの出力長を自由に定め、コントロールできるように工夫しました。図1がデモ画面、図2が出力結果になります。記者と比較しても遜色のないレベルの見出しが生成できているのではないでしょうか。
この取り組みを、2018年夏に言語処理の研究シンポジウムで紹介したところ、大学や大手研究機関を抑えて表彰(デモ賞)を受けました。また、この研究成果は、社内で活用されているコンテンツ配信システムに実装されており、社内の編集者が自動生成された見出しの候補を参照・評価できるようになっています。
記事本文と見出しの対応を機械学習した際、朝日新聞社のデータベースに蓄積されている30年分900万件の記事を利用しました。今回の取り組みのほかにも、朝日新聞社の豊富なコンテンツを強みとして、自動校正の取り組みや単語ベクトルの公開を進めています。
これらの研究は、株式会社レトリバとの共同研究として田森秀明(当時メディアラボ)、田口雄哉(同)が取り組みました。
田森秀明(たもり・ひであき)
メディア研究開発センター次長・博士(情報科学)
2003年4月朝日新聞社入社。発送部、システム部などを経て2013年(設立時)からメディアラボ。
メディアラボ・研究チームとICTRADを統合し、2021年4月に発足した「メディア研究開発センター」の次長を務める。
2015年6月~2016年6月=スタンフォード大学客員研究員として自然言語処理研究に従事。
朝日新聞社への志望動機、決めた理由
新聞社には多彩な仕事があり、いろいろなことにチャレンジできそうだったため。
印象に残っていること
スタンフォード大学に留学し、これからは自社に必要な技術は自社で保有することが必要になってくることを感じ、帰国してからメディアラボで基礎研究の重要性を説明したところ、実際に取り組ませてもらえた。
今後取り組みたいこと
基礎研究の裾野を広げたい。
就活生にメッセージ
新聞社には技術者の活躍するフィールドが多々あります! ぜひ一緒に取り組んでいきましょう。