水曜セミナー

fig1

水曜セミナーは毎週統計関連研究室の修士以上の学生が、研究内容を発表する場です.学生による発表は春学期・秋学期の2回あります.発表内容は、以下の表にまとめました.見学等を希望する場合は、授業等で先生に直接伝えて頂くか、メールにてご連絡ください.また例年、水曜セミナーでは、外部からゲスト登壇者を招き、研究の視野を広げることも同時に行っています。

| 2017年度秋学期 | 2017年度春学期 | 2016年度秋学期 | 2016年度春学期 | 2015年度秋学期 | 2015年度春学期 |

2018年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者

2018年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
4/11全体顔合わせなし
4/18INAR(p)過程に対する変化点検出 変化点検出は,系列データの背景にある確率モデルの構造の変化を検出する手法である.
INAR(Integer Valued autoregressive)過程は整数値を取る定常な時系列過程であり,[1, 2]によってINAR(1)過程に対する変化点検出が提案された.しかし,現実のデータは1時点以上前の過去の情報に依存して観測される場合が多い.本発表では[1]で提案されたINAR(1)過程に対する変化点検出をINAR(p)過程へと拡張し,その有効性をシミュレーションにより確認することで精度を評価する.
泉澤 佑
(白石研M2)
4/25end-to-endな雑談モデルのリアルタイム実装 ~ おもちゃ実装から最先端の話題まで ~近年、機械翻訳や感情分析など自然言語処理において機械学習的なアプローチの有効性が確認されているが、我々人間と会話を行う雑談システムにおいては、多くの課題が残されている。特に、モデルが一貫性のない応答を返したり、"I don't know"など雑な答えを返す傾向が強いこと(Li+ 2016)は大きな問題である。
 Zhang+ (2018)は、この課題を解決するために、雑談用のデータセット PersonaChatを整備した。これは、ランダムな仮想人格(persona)を割り当てられた人間同士が、自分の仮想人格を装いつつ、相手の仮想人格に関心を持ち、質問と応答を繰り返す対話のデータセットである。各対話に明確なゴールは存在しないが、自分の仮想人格に従って多様で一貫した表現を用いることによって、雑談モデルの課題を解決するデータセットになるのではないかと期待されている。
 本発表では、このPersonaChatを題材に、end-to-endな雑談モデルの実装に関して解説し、その特徴や問題点を、最先端の話題を交えつつ、紹介する。今回は誰でもすぐに試せるように、一からの実装を心がけ、また、モバイルCPUでもリアルタイムな訓練と推論が可能となる範囲内での実装を検討する。最後に時間があれば、Byte Pair Encodingを応用した単語辞書の自動生成(Sennrich+ 2016)や、実際の動作結果についても紹介する。
青島 達大
(南研M2)
5/2Solving Estimating Equation via Generalized Random Forest and its application to causal inferenceBreiman(2001)によって提案されたRandom Forestは,統計的学習において広く用いられる手法である.ランダムフォレストによる推定量ついては,近年Wager and Welther(2015), Mentch and Hooker(2016), Wager and Athey(2018)などで漸近的な性質が議論されている.
本発表では,Athey, Thibshirani, and Wager(2019)によって提案されたGeneralized Random Forest(GRF)を紹介する.GRFは,局所モーメント方程式の解として得られるパラメータを,Random Forestをベースにして,ノンパラメトリックに推定するための手法であり,広範な応用が期待される手法である.
当日の発表では,causal inference, estimating equation, random forestなど本発表の背景について簡単に触れた上で,GRFの漸近的性質を紹介し,具体的な応用事例について述べる.
中村 知繁
(南研D3)
5/9①2次元アニメーションの中割り画像生成のための自動対応付け中割りは,アニメーション制作工程の一つで原画と原画の間を補間するような画を描きより滑らかなアニメーションを作る工程である.これを自動で行うためのシステムの開発がなされている.D.Liuらは[1]で自動中割りの際に発生するストロークの対応づけの問題をshape context discriptorに対する多様体学習とhungarian algorithmによって解決する方法を提案した.
本発表では[1]でのアプローチを参考にしつつ、カーネル主成分分析[2]と下限制約付き最小費用流を用いた多対多マッチングによる新たなストロークの対応づけ方法を提案し実際のデータに対して適用した結果を考察する.
童 祺俊
(小林研M1)
5/9②パーシステント図のベクトル化~カーネル法を用いた非線形分析~近年、パーシステントホモロジーはデータの幾何的な構造を捉える手段として、位相的データ解析(TDA)という分野の中核を成す存在となっている。
その表現手段であるパーシステント図(PD)は、パーシステントホモロジー群の変化を可視化する道具として広く利用されているが、PDのみでは平均や分散などといった定量的な解析が難しいことが問題となっている。
本発表では主に[1]を参考に、卒業研究では出来なかった定量的な解析を行うために、カーネル法を導入してPDをベクトル化する手法について説明しつつ、簡単なシミュレーションを行う。
中島 捷
(小林研M1)
5/16②統計的仮説検定における多重比較法について医学分野において統計的仮説検定は広く用いられている。本発表では、統計的仮説検定における多重比較法の基本的な手法を紹介し、それらを比較する。比較方法として多重比較法における検出力を用いる。伊藤健太
(林研M1)
5/23①自然言語処理による日経平均株価騰落予測「効率的市場仮説」は、株式などの市場価格は過去から未来に関してのありとあらゆる情報が考慮されて決定されるというものである。しかし従来の株価予測に用いる分析は株価の推移や企業の財務状態が主な関心ごとであり、それのみだと一般的なニュースで取り上げられているような新しい情報に対応できない。
このような理由から自然言語処理による株価予測へのアプローチも必要である。今回は[1]で与えられている文書の類似度を計量する手法を用いることで日経速報ニュースの「市場動向」に関する記事のみから終値の騰落予測をすることを考える。本発表では、関連する理論を紹介し実際の解析結果について考察する。
勝山頌一郎
(白石研M1)
5/23②ディリクレ過程を用いた隠れマルコフモデルの次元選択隠れマルコフモデル(HMM)は時系列データの確率モデルとして音声認識等で用いられてきたものであるが,通常の解析では隠れ変数の次元をあらかじめ定める必要がある.本発表ではこの問題を回避する手法として,階層ディリクレ過程をパラメータの事前分布に用いた隠れマルコフモデル(IHMM)について説明する.竹原大翼
(小林研M1)
5/30区間打ち切りデータに対する生存率関数の推定法 生存時間解析で使われる一般的なデータとして、右側打ち切りデータがあげられる。しかし、観察の際に正確な時間が判別できず、ある時刻と時刻の区間の間で興味あるイベントが発生したことのみしか記録できない場合がある。このようなデータを区間打ち切りデータと呼び、生存率関数の推定の際には,右側打ち切りデータとは異なる手法を用いた解析が必要となる。
 本発表では、ケース2区間打ち切りデータに対する生存率関数のパラメトリック推定、EMアルゴリズムを用いたノンパラメトリック推定について述べた後、卒業論文で行ったシミュレーションについて触れる。さらに、ノンパラメトリック推定の際に用いるICMアルゴリズムについて述べ、EMアルゴリズムとの比較を行い、最後にケース1区間打ち切りデータに対するisotonic回帰を用いたノンパラメトリック推定について紹介する。
会田 晴郎
(林研M1)
6/6テスト運用のための基礎知識〜古典的テスト理論から項目反応理論まで〜本発表では学力テストの運用に必要な統計的手法について述べる。まず最初に現在でも広く用いられている古典的テスト理論(Classo also Test Theory:CTT)について述べる。CTTは、観測されるテストの点数を真の学力と誤差に分解するモデルを中心とした理論である。今回はテストの点数と真の学力の分散の比で定義される信頼性係数について重点的に述べる。
次にLord(1952)により提案された項目反応理論(Item Response Theory:IRT)について述べる。IRTのメリットは集団と独立して学力や問題の性質を測定できることにある。しかし、そのためには様々な統計処理が必要である。本発表ではテスト前の予備調査である学力の尺度の次元性の確認から、テスト後に異なるテスト間の比較を可能にする等化について述べる。
最後にIRTにおいてモデルの良さを評価するための、スパースな分割表に対する適合度統計量について述べる。
石川 航作
(林研M2)
6/13癌個別化治療に対する階層ベイズモデルの応用近年癌治療において、抗癌剤などの画一的な治療よりも個々の患者に合わせた治療(癌個別化治療)が行われることが多くなって来ている。それに伴い、臨床試験のデザインや分析手法にも変化が起こり始めている。ベイズモデルを用いた臨床試験継続基準(Bayesian stopping rule)もその一つである。
本発表では、近年癌個別化治療で行われている臨床試験のデザインであるバスケット試験について紹介した後、臨床試験継続基準についてベイズモデル及び階層ベイズモデルを通して腫瘍縮小が起こった患者の割合を表す奏効率の事後分布を求めることで判定する方法を紹介する。
榮 宏晃
(南研M2)
6/20False-Discovery Rate私はメタボロームデータの統計解析を修士課程の研究の目標としている。メタボロームデータの統計解析においては,False-Discovery Rate (FDR) を用いた検定が行われることがある。本発表では,FDRを制御する方法として有名なBenjamini-Hochberg法を紹介した後,この方法によりFDRが確かに制御されることを,Benjamini, Y. and Hochberg, Y. (1995)の示した方法に沿って証明する。小野 あかり
(南研M2)
6/27プロ野球におけるチームの勝率に影響を与える変数の特定現在、MLBや日本のプロ野球ではセイバーメトリクスと呼ばれる、選手データを用いてチーム編成や戦略を考えることが増えてきている。今回の発表では、チームの勝利に貢献してくれる特徴をもった選手を発見するために、ベイジアンネットワークの構造学習で用いられるPC(Peter Spirtes and Clark Clymour)アルゴリズムを用いて解析を行う。また、その為に必要な理論であるベイジアンネットワークについても紹介する。佐久間 亮介
(白石研M2)
7/4擬似値に基づく競合リスクイベントデータ解析における変数選択規準一症例に複数イベントの発生を想定する競合リスクイベントデータ解析においては, 最も興味のあるイベントの発生に影響を与えると考えられる共変量を特定する事に関心が高い. これは, 興味のあるイベント発生確率の予測モデルに含める共変量を選択する, 変数選択問題であると捉えることができる.
本発表では, Andesen et al. (2003) によって提案された擬似値に基づくイベント発生確率の推定法に焦点を当て, 彼らの手法により得られる候補モデルの中から, 最適な共変量の組を含んだモデルを選択するための変数選択規準について考察する. この規準の導出には, 擬似値に基づく推定についての漸近的性質について詳しく調べた Overgaard et al. (2017), および推定方程式に基づく推定に適用できる変数選択規準を提案したPan (2001) が重要である.
当日の発表では, 生存時間解析や競合リスクイベントデータ解析の基礎など本発表の背景について簡単に触れた上で, 擬似値に基づく推定法, および変数選択規準について考察する. また, その規準の有用性を検証した数値実験の結果について報告する.
田島 史啓
(林研M2)
7/18

2017年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2017/9/27ランダムフォレストの解析と因果推論への応用/Analysis of Random Forest and its application to causal inference統計学の応用的側面では,データから処置の因果的な効果を推定することが1つの目標である.健康に関連する結果変数へ薬が与える影響や,広告などの顧客の商品購買への影響などが具体的な例である.

因果推論の基本的な枠組みは,Neyman-Rubin(1978)によって提案された反実仮想結果変数を利用したモデルである.しかし,このモデルを実際に利用する際には,傾向スコアを呼ばれる,ある共変量を持つ個体が処置を受ける確率をデータから推定しなくてはならない.傾向スコアの推定が適切に行われないと,因果効果に対する推定量が不安定になり,適切な推論が行えないことはよく知られている.

傾向スコアに起因する,推定量の不安定性に対する対処は,CBPS(Imai and Ratkovic, 2016)やFull subclassification Estimator(Wang, 2016)などで報告されている.しかし,これらもまた傾向スコアに対するモデリングが適切に行われない限り.推定量が大きなバイアスを持つ.

そこで,本研究ではランダムフォレストを用いて傾向スコアを推定することによって,傾向スコアをノンパラメトリックに推定し,ランダムフォレストを用いた因果効果に対する推定量の漸近的性質を調べている.

今回の発表では,特にランダムフォレストの漸近的性質について紹介し,傾向スコアの推定にランダムフォレストを用いた結果を紹介する.
中村 知繁
(南研D1)
10/4Cox比例ハザードモデルを用いた美容院顧客の来店確率予測Cox比例ハザードモデルを用いることで, 美容院顧客の来店間隔に影響を与える変数の特定や, 来店間隔の予測を行うための方法を説明する.河本 龍一
(南研M2)
10/11長期記憶性を持った高次元ポートフォリオの分散に対する収束性の比較まずはじめに近年ポートフォリオ理論で起こっている高次元問題について紹介し,それに対する解決策であるファクターモデルの概要について説明する.そしてファクターモデルに長期記憶性を仮定した場合,従来の推定量と新たな推定量がどのように定義されるかを紹介する.その後に,それらの推定量が真の値とどの程度近くなっているのかをシミュレーションを行うことで比較する.阿部 貴文
(白石研M2)
10/18一般化モーメント法推定量の性質
まずはじめに,計量経済学で用いられる操作変数法について紹介する.操作変数を用いた推定法にモーメント法がある.モーメント法の過剰識別問題に対して一般化モーメント法を定義する.一般化モーメント法推定量はM推定量として捉えることができることを利用して一致性や漸近正規性を示す.次に漸近分散の最適化,推定法の紹介や検定問題の構成について述べる.樋口 広信
(南研M2)
10/25周辺構造モデルを用いた因果効果の推定はじめに Rubin の因果モデルについて簡単に説明し、傾向スコアや強く無視できる割り当てについて紹介します。
次に、追跡調査研究における因果効果の推定の際の仮定について、有向非巡回グラフ(Directed Acyclic Graph; DAG)を用いながら記述し、Robins et. al.(1995), Robins(1998)が提案した g-formula と 周辺構造モデル(Marginal Structual Models; MSM)について紹介します。
最後に、MSMで推定する際に用いられる仮想母集団(pseudo-population)についての性質を説明します。
長瀬 智大
(南研M2)
11/1木構造モデルのExtreme Multi-Label Classificationへの応用とその改良
近年の機械学習への関心は、情報検索の分野にも広がっている。従来の、特に検索エンジンへの応用は、大量のドキュメントの中から、静的な索引などを用いて上位 K'件を取り出し、機械学習を用いてリランキングをし、目的の上位 K件を返す、2段階の構成を想定しているものが多かった。このリランキングのみならず、システム全体をひとつの機械学習モデルによって実現しようという試みとして、Extreme Multi-Label Classification (XMLC)が挙げられる。2017年現在、木構造モデルを応用したFastXML [Prabhu+ 2014]や、非線形な次元削減を用いるSLEEC [Bhatia+ 2015]、one-versus-restのL2-罰則 L2-SVMを用いるDiSMEC [Babbar+ 2017]などの様々なモデルが提案されている。
 本発表では、はじめに、FastXMLなどのXMLCにおけるモデルや、対象とするデータセットの特徴を概観する。木構造モデルのメリットを活かした、データの可視化の手法についても紹介する。次に、L1-SVCと単純なサブサンプリングにより、精度をそれほど劣化させずに、高速な訓練を可能にし、コンパクトなモデルを構築できることを確認する。最後に、さらなる精度の向上を目指して、ensembleやラベルの分離性能の改良を試みた結果を報告する。
青島 達大
(南研M1)
11/8項目反応理論と因子分析の関係項目反応理論とは心理テストや学力テストの分析に用いられている理論である。一方、因子分析は観測不可能な因子を説明変数として、観測への影響を調べる手法の一つである。今回の水曜セミナーでは歴史的に異なった起源を持つこの二つの分野のモデルが等価であることを示す。
また、具体的な解析例を紹介し、項目反応理論のモデルの良さと因子分析のモデルが等価であることの良さを説明する。
石川 航作
(林研M1)
11/15INAR過程における変化点検出時系列データをモデル化する際、定常性を持つ時系列モデルがよく用いられる。しかし現実に扱う時系列データは定常性を満たさない、非定常なデータである場合が多い。時系列モデルにおける非定常性の問題への対応の一つに変化点検出という手法がある。

本発表では定常な点過程モデルであるポアソンパラメータを持つINAR(Integer Values Autoregressive)過程の非定常モデルへの拡張として変化点の導入を考える。
そのために[1]における変化点検出手法の拡張を提案し、シミュレーションを行うことでその有効性を評価する。
泉澤 祐
(白石研M1)
11/29多重比較における閉検定手順疫学・臨床研究では,複数の処置や薬の用法などの効果を比較するために仮説検定が多く用いられる。
しかし,検定を複数回繰り返すと検定の多重性が生じ,type I familywise error rate (FWER)が
増大してしまうという問題がある。そのため,検定の多重性に対する工夫として多重比較法が多く研究されてきた。
本発表では,多重比較の手順として有名なHolm法と階層手順を紹介した後,これらを包括する
閉検定手順を紹介し,これらの手順がFWERを強い意味で制御することを確認する。

In epidemiological studies and clinical researches, it is common to practice statistical tests
in order to compare the difference between the efficiencies of various treatments or medicines.
However, if statistical tests are carelessly used for many times, there occurs a serious problem
of the inflation of the type I familywise error rate (FWER).
Therefore there have been a number of studies on multiple comparison procedures to solve this problem.

In my seminar, I will first explain Holm procedure and the hierarchical procedure,
then I will show you the closed testing procedure as a generic testing procedure for these two procedures,
and finally I will prove that these procedures strongly control the FWER.
小野あかり
(南研 M1)
12/6条件付き尤度法とケースコントロール研究における応用疫学研究の方法であるコホート研究とケースコントロール研究では疾病と因子の関連を調べるためにロジスティック回帰モデルを導入し、最尤推定法を用いて因子の係数を推定することがある。
しかし、標本数に対してパラメータ数が多い場合、最尤推定法を用いると推定した因子の係数が大きなバイアスを持つことがある。
バイアスを解消するために、推定に不必要なパラメータを消去した尤度関数を構成して最尤推定値を考える方法が条件付き尤度法である。
本発表ではコホート研究とケースコントロール研究について説明した後、ケースコントロール研究においてもロジスティック回帰モデルが用いられることを解説し、条件付き尤度関数について紹介した後、層別解析ではどのように用いられるかを確認する。
榮 宏晃
(南研M1)
12/13有効非巡回グラフによる統計的因果推論強く無視出来る割り当て、傾向スコアによる因果効果の推定はどちらも共変量の影響を排除するものであった。解析にあたっては利用する共変量をどのように選択したらよいかの指針が必要になる。
その役割を果たす1つに因果関係を有効非巡回グラフ(Directed Acyclic Graph:DAG)を使って表記した際、現れるバックドア基準と呼ばれるものがある。
今回の発表では、主に因果関係をDAGを用いて記述する方法、並びにDAGの性質を説明します。
佐久間 亮介
(白石研M1)
12/20擬似値に基づく競合リスクイベントデータ解析におけるモデル選択規準の考察競合リスクイベントデータ解析とは, 一人の症例に起こりうるイベントが複数存在する状況で, 興味のあるイベントの発生に関する統計的推測を行う分野のことである. 特に臨床研究の場面では, 競合リスクイベントデータ解析の手法を用いて, 興味のあるイベントの発生に影響を与えると考えられる共変量を特定することに関心が高い.
 Andersen et al. (2003)は, 興味のあるイベントの発生確率を, 患者の臨床情報を用いて表現するモデルを仮定し, そのパラメータを推定する方法を提案した. 彼らの手法は, 擬似値と呼ばれる擬似的な観測を定義し, その観測に基づいて一般化推定方程式を解くというものであり, 推定量の性質についてはGraw et al (2009)で詳しく調べられた. 今回は, Andersen et al. (2003)の推定法に対するモデル選択規準について考察する.
 本発表では, まず, 競合リスクイベントデータ解析の考え方と目的について述べる. 次に, Andersen et al. (2003)の手法と一般化推定方程式について説明する. 最後に, Andersen et al. (2003)の推定に対するモデル選択規準について考察した内容について説明する. このモデル選択規準は, 一般化推定方程式による推定に対するモデル選択規準を提案したPan (2001) の考え方に基づいて導出される.
田島 史啓
(林研M1)
2018/1/17調査観察研究における差分の差推定量アメリカにおいて,1962年に新しい職業訓練プログラムが開始され,以降,1972年,1982年に新しい訓練プログラムに置き換えられた.その際,議会により明確な実験的根拠なく新しいプログラムの有効性が主張されたことが問題視され,これらの訓練プログラムの効果に対する研究,分析が多数行われた.
 その内の一つとして,Ashenfelter and Card (1985)
による差分の差を用いた分析が有名である.しかしながら,(単純な)差分の差を用いるには,処置群と対照群の時間変化が等しいという「平行トレンドの仮定」が必要であり,一般に処置群と対照群の共変量が異なる調査観察研究において,平行トレンドの仮定は現実にそぐわない場合も多い.これに対しAbadie
(2005)は,調査観察研究において平行トレンドの仮定と比較してより現実的な仮定のもと,傾向スコアを用いて重み付けした差分の差により処置群における処置効果を推定する方法を提案している.
 本発表ではまず,単純な差分の差のアイデアと平行トレンドの仮定が満たされないような場合の説明を行う.その後,Abadie
(2005)に基づき,平行トレンドの仮定が満たされない場合の処置群での平均処置効果の推定について説明する.
米山 慎太郎
(南研M1)

2017年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
4/12全体顔合わせなし
4/19統計的因果推論の基礎とその拡がり本セミナーでは「統計的因果推論」と呼ばれる分野について扱います.
発表の前半では,統計的因果推論の基本的な内容について,具体例を交えながらお話します.具体的には,強く無視可能な割り付け,傾向スコアを用いた因果的効果の推定についてです.
発表の後半では,強く無視可能な割り付けが成立するための共変量の選択に関連する概念であるバックドア基準(Pearl, 1995)を具体的な例を交えながら紹介する予定です.また,傾向スコアに対する変数の選択を多少を誤った場合でも傾向スコアを安定的に推定する手法であるCovariate Balancing Propensity Score(Imai and Ratkovic, 2014)についても触れる予定です.
中村知繁
(南研D2)
4/26周辺構造モデルを用いた因果効果の推定まずはじめに Rubinの因果モデル について簡単に説明し, 傾向スコアや強く無視できる割り当てについて紹介します.
次にRobins(1998)が提案した周辺構造モデル(Marginal Structural Model; MSM)を用いた, 繰り返し観測による追跡調査データに対するアプローチを紹介します.
また, 一般化推定方程式と関連のある repeated-measure MSM について簡単に触れた後, Robins が提案している stabilized weight についてのシミュレーション結果を報告します.
長瀬智大
(南研M2)
5/10Gradient Boostingのコンピュータセキュリティへの応用本セミナーでは、システムコール列のリアルタイム分析を用いた、コンピュータセキュリティについて考える。
はじめに、現代のコンピュータセキュリティにおいて、統計的な手法が必要とされている背景を説明し、統計的な問題としての定式化を行う。
次に、Gradient Boostingを用いれば、多様なモデルを統一的に構築できることを示す。この枠組みを用いて、システムコール列などの離散系列データ特有の問題点を解決するために、階層クラスタリングを用いたLogistic Boostingである階層Logistic Boostingを提案する。
提案手法の評価を実データを用いて行い、提案手法が最良といえる性能を示したことを確認する。さらに、提案手法が学習した正常なシステムコール列の特徴や、実際に検知した異常の特徴について考察する。
青島達大
(南研M1)
5/17ハザード関数のセミパラメトリック推定・生存時間解析について簡単な説明
・Cox回帰モデルについて
・ハザード関数のセミパラメトリック推定
・多発性骨髄腫患者の生存時間データの解析
・前立腺癌における2つの治療法の比較
河本龍一
(南研M2)
5/24ファクターモデルによる高次元ポートフォリオの分散の収束性まずはじめに近年ポートフォリオ理論で起こっている高次元問題について紹介し,それに対する解決策であるファクターモデルの概要について説明する.そしてファクターモデルを用いた場合のポートフォリオの分散と標本分散共分散行列を用いた場合のそれの分散を比較する.阿部文貴
(白石研M2)
5/31操作変数と一般化モーメント法本発表では操作変数とそれを用いた解析手法について紹介し、その拡張として一般化モーメント法を紹介する.
操作変数法は結果に対する処置の効果を推定する際の問題点である効果観測できない共変量の効果を調整する方法として以前から計量経済学を中心に用いられてきた解析手法である.
パラメータの推定量を構成するモーメント法はパラメータの識別問題があり、一般化モーメント法はこの識別問題を考慮してパラメータの推定量を構成する.
樋口広信
(南研M2)
6/7マーク付き多次元Hawkes過程によるシステミックリスク評価リスク管理において、システミックリスクの定量化は重要な事柄である.システミックリスクの顕在化は金融システムの脆弱性によるものとされ、脆弱性が悪影響の波及を引き起こす。金融システムでの波及を評価することが、システミックリスクの評価のために必要となる。本発表では、金融システムの脆弱性による悪影響の波及をHawkesグラフにより可視化する。そしてマーク付き多次元Hawkes過程を用いたモデルによりシステミックリスクを定量化する。泉澤祐
(白石研M1)
6/14Mann-WhitneyのU検定とU統計量Mann-WhitneyのU検定は,仮説検定のノンパラメトリック法のうち最も基本的な検定方法の一つである。このU検定に用いる検定統計量Uは漸近正規性を持つが,Mann-Whitneyの与えた証明は複雑である。そこで,本発表ではMann-Whitneyの検定統計量Uをより一般的なU統計量として考えることで,Mann-Whitneyの検定統計量が漸近正規性を持つことを示す。小野あかり
(南研M1)
6/21①フラミンガム研究とロジスティック回帰モデルフラミンガム研究は冠状動脈性疾患の原因を探索するために行われた研究である。その際、ロジスティック回帰モデルを用いて解析し最尤推定量を推定して疾患の原因を考えている。本発表ではフラミンガム研究及びロジスティック回帰モデルとその性質について説明し、Truettのフラミンガム研究についてのデータも参照して考察する。榮宏晃
(南研M1)
6/21②ロジスティック関数を用いた項目反応モデルの推定方法について本発表では学力テストや心理テストなどの分析に用いられる項目反応理論について紹介する。具体的にはロジスティック関数を用いた項目反応モデルの複数の推定方法を紹介し、それぞれの推定量について性質を述べる。石川航作
(林研M1)
6/28①生存時間解析における擬似値を用いた生存確率の推定臨床研究では、患者の臨床情報をもとにその予後を予測することに関心が高い。患者の予後を患者の生存確率として解釈した場合、その患者の臨床情報を用いて生存確率を表現するモデルを考えるのが自然である。このモデルのパラメータを推定する方法として、Anderson et al. (2003)は擬似値を用いた推定法を提案した。擬似値は、生存関数の推定量であるKaplan-Meier推定量を用いて定義されるため、擬似値の漸近的な性質はKaplan-Meier推定量の漸近的な性質と関係している。
まず本発表では、生存時間解析におけるマルチンゲール理論を用いて、Kaplan-Meier推定量の一致性を示す。次に、Kaplan-Meier推定量により定義される擬似値を用いた生存確率の推定法について述べる。最後に、Rのサンプルデータを用いた擬似値の計算結果を示す。
田島史啓
(林研M1)
6/28②因果推論の基礎社会科学などのヒトが対象の研究においては無作為割り当てが出来ない場合が多く、その場合は共変量の影響を除いて因果効果を推定する必要がある。「強く無視できる割り当て」条件が成り立っている下では、因果効果を推定出来ることを示し、その方法をいくつか紹介する。その後、複数の共変量を1変数に纏めた傾向スコアを用いたIPW推定量が優れた推定量であることをシミュレーションによって確かめる。佐久間亮介
(白石研M1)
7/5因果推論あらまし本研究室で多くの先輩方が研究をしている因果推論の枠組みについて,基礎的な部分を確認する.本発表では,「強く無視できる割り当て」の意味,「傾向スコア」を用いた解析の利点,「マッチング」「層別解析」とは何か,「IPW推定量」の一致性,「パス解析」とは何か,「パス係数」の意味,などを示す.米山慎太郎
(南研M1)
7/19状態空間表現を用いた水無川の出水構造分析まず研究背景として,学校法人自由学園那須農場で観測されたデータの紹介,特徴を説明する.次に状態空間モデルを導入し,カルマンフィルタ・粒子フィルタ,パラメータ推定について紹介する.最後に,実際にデータに対して状態空間モデルを適用した場合と,ロジスティック回帰モデルを適用した場合とを比較し考察を述べる.酒井優行
(南研M2)

2016年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
9/28M,Z推定量の一致性と漸近正規性について推定量の枠組みとしてM推定量やZ推定量がある。
M,Z推定量はIPW推定量やDR推定量、セミパラメトリックモデルなどに広く応用できる概念である。
今回の発表ではM,Z推定量の一致性とそれに関する定理の紹介、漸近正規性の概要について述べる。
樋口広信
(南研M1)
10/5生存関数のノンパラメトリック推定生存時間解析の目的、条件の違いにより生存時間に差が生じることを視覚的に判断する方法について説明します。河本龍一
(南研M1)
10/12高次元におけるポートフォリオ理論ポートフォリオ理論とは投資家が投資を行う際,自身の収益率を高めるためにはどのように最適化すればよいかを決定するための理論である.しかし,高次元下では大標本漸近理論での近似が悪くなってしまうことが知られている.本発表ではそのような状況下で考えられた理論をいくつか紹介する.阿部文貴
(白石研M1)
10/19擬似尤度と一般化推定方程式最尤法は分布の仮定が必要だが, 擬似尤度法は平均と分散の関係だけを仮定することで計算できる. 擬似尤度関数はスコア関数と類似した性質をもち, 指数型分布を仮定したとき, 擬似尤度はその分布の尤度関数になる. 擬似尤度の最大化によって得られる推定量はFisherのスコアリングを用いて計算することができる.
同一被験者の繰り返し観測によって得られるデータを縦断的データと呼ぶ. 一般化推定方程式はこの繰り返し観測間の相関を考慮して定義された推定方程式である. 式は擬似尤度と類似するが, 相関を考慮している点で異なっている. 一般化推定方程式の解として定義される推定量は, 一定の条件を満たすことで漸近正規性などの性質をもつ.
本発表では, まず計数データをポアソン回帰したときと擬似ポアソン回帰した場合の例において, それぞれの回帰の結果の違いについて述べ, 擬似尤度の定義と性質について紹介する. 次に縦断的データについて説明し, 一般化推定方程式の定義と性質を述べる.
長瀬智大
(南研M1)
10/26多地点情報を用いた 年最大降水量データ解析年最大の日降水量など、データの中でも極端に値の大きいものに対するアプローチとして極値統計学がある。
しかし年最大値は1年につき1つの値しか取れないため、1地点の観測値ではモデルに取り入れることのできる
情報が少なくなってしまう。
春学期の発表では各観測地点のデータを独立と仮定し、複数地点のデータを取り入れたモデルを考えたが、
今回は多変量極値分布に空間統計学の考え方を取り入れた、max-stable processを用いて観測値の相関を考慮した場合のモデルを考える。
本発表ではmax-stable processの理論を紹介し、実際のデータの解析結果として関東平野における年最大日降水量データに適用した結果を示す。
また春学期に解析した神奈川県の降水量データについてのアプローチについても、この枠組みで改めて検討をした結果を示す予定である。
樫山文音
(南研M2)
11/2離散・連続混合変数を含む欠測データのためのセミパラメトリック多重代入法の提案多くの研究分野において欠測データへの対処は重要であり、これを正しく扱わない場合、誤った推論を行う可能性を孕んでいる。近年、欠測データ解析には多重代入法が多く利用されるが、これは欠測を含む変数の同時分布を仮定する必要があり、連続・離散変数が混在している場合は通常利用が困難である。そこで本研究ではディリクレ過程混合モデルによる表現を利用することで、セミパラメトリックな多重代入法を提案する。ここでは、関心のない母数を持つ欠測変数の同時分布モデルには、ディリクレ過程混合モデルによるノンパラメトリックモデルを用い、関心のある母数の推定にはパラメトリックモデルを用いることで、セミパラメトリックモデルとしての表現を行うことができる。これにより、欠測を含む変数に連続・離散変数が混在している場合でも、欠測値の発生と母数の推定が可能であり、正しく欠測データの推論を行うことができる。加藤諒さん
11/9非負値行列分解(NMF)の数理的側面について行列分解による次元縮約を利用した特徴量抽出のための手法のひとつに非負値行列分解(NMF)がある。このNMFは解析対象となるデータの行列が非負であるという制約を課すものの、実社会における多くのデータを解析の対象とすることが可能な上、実装と解釈の容易さから近年注目を集めている。
本発表では最初にNMFの概要を改めて見ていくことにする。その上でNMFに対して数理的な解釈を試みる。
早瀬亮
(南研M2)
11/16MCMCを用いたリスク寄与度の計算金融リスク管理において、リスク寄与度(Risk Contribution)の計算は重要である。しかしながら、その計算においては、従属性のある確率変数の和に基づいたRare eventを扱う必要があるため、大きな困難が伴う(Tasche, 2009)。

本発表では、リスク尺度にValue-at-Riskを用いる場合に、リスク寄与度を効率的に計算する方法として、マルコフ連鎖モンテカルロ法(MCMC)を用いた手法を提案する。

特に、リスク管理においてしばしば用いられる裾の重い分布に対して、良い性質を持つMCMCについて考察を行う。
小池孝明
(南研M2)
11/23最適配当境界のノンパラメトリック推定保険会社の破産リスクに関する理論の応用として, 会社の余剰資本(サープラス)がある境界を上回ったときに, その部分を株主に返還する配当の問題がある. 配当の支払われやすさと破産時刻にはトレードオフの関係があり, 最適な配当境界を求めることに関心がある. ここでの最適とは, 破産時刻までに支払われる配当金の現在価値の期待値を最大化するものとして与えられる.
本発表では配当の考え方を導入した場合の余剰資本の増減を表すモデルについて説明し, 上で述べた指標をもとにして得られる最適な配当境界の推定量をM-推定量の考え方に基いて構成する. M-推定量で主に問題となるのは一致性, 収束レート, 漸近分布であるが, 今回はそのうちの一致性と収束レートについて考える. このとき特に関心があるのは目的関数の一様収束性であり, それはGlivenko-Cantelliの定理を用いることによって解決することができる. Glivenko-Cantelliの定理にはいくつか種類があるが, 今回はブラケット数に基づくものを紹介し, それを用いた証明の概要を説明する. 最後にいくつかのシミュレーション結果を示す.
大石惇喜
(白石研M2)
11/30VARを用いた将来死亡率予測将来死亡率予測は、食糧問題や年金財政問題などを考える際の重要な課題の一つである。
本発表では、まず春学期にも説明させていただいた現在最も広く使われている将来死亡率予測モデルである Lee-Carter モデルの説明を行う。
そして、 VAR モデルを用いて各地域における死亡率推移の従属性を考慮したモデルについての考察を行う。
最後に、実データを用いた簡単な解析結果を示す。
系行健
(白石研M2)
12/7高次元における有効フロンティアの統計的推定ポートフォリオ理論は、リスク回避的な投資家が分散投資を行い、自身のポートフォリオにおいてポートフォリオ収益率を高めるためには、どのように最適化すればよいかを決定するための理論である。実際には、資産のリターンはランダムな変数であり、どのような平均と分散をもつ分布に従っているかは未知であるため、サンプルから推定することを考える。しかし、近年の株式市場などでは、市場の規模が大きくなっており、分散投資する資産の数が膨大となっているため、高次元データにおける解析を考える必要性が主張されている。

本発表では、ポートフォリオによる実現可能領域の左側境界を表す有効フロンティアについて、高次元の仮定のもとでの漸近的挙動を調べ、統計的推定を考える。また、それらに関してシミュレーションを行う。
岡紘之
(白石研M2)
12/14状態空間モデルを用いたサッカートラッキングデータの解析世界的にメジャーなスポーツではゲームに関する詳細なデータを記録し、解析して個人のプレーやチーム戦術
の改善に活かそうという試みが活発になっている。サッカー(フットボール)も同様で現在ではJリーグでも
トラッキングデータと呼ばれる選手とボールの位置情報を記録し解析することが行なわれている。
今回はこのサッカートラッキングデータを用いて時点毎に次のプレーでどのくらいピンチに陥る可能性があるのか、
すなわち失点リスクの推定というテーマで解析を行った。
具体的には、失点リスクがトラッキングデータを基にした特徴量に影響を受けると仮定してモデル化し、
状態空間表現を用いて影響推定を行った。
本報告では、データの概要、非線形非正規を仮定した場合の状態空間モデルの状態推定アルゴリズムの紹介、
そして解析結果について発表する。
酒井優行
(南研M2)
12/21PITCHf/xデータを用いたストレートの変化量と空振りの定量的分析現在、メジャーリーグにおいては投球に対するトラッキングシステムであるPITCHf/xが普及し、蓄積したデータの解析が盛んに行なわれ科学的な見地から選手の評価がなされている。今回はPITCHf/xデータを用いたストレートの変化量と空振りとの関連性の分析について発表を行う。ノビとは空振りしやすいストレートに対して用いられる言葉であり、ノビのあるストレートは初速と終速の差が小さいという定説が存在する。しかし、ロジスティック回帰分析の結果から定説とは逆の関係が得られたため、球速差ではなく変化量に着目した解析を行った。ここで、ボールの変化量に関しては縦と横の二方向で定義されており、それらの変数と空振りとの関係性を解析するためにスプライン平滑法を用いた推定を行った。また、PITCHf/xから得られるデータを用いてボールの質と空振りとの関連性を分析したが、各投手ごとのフォームや持ち球がストレートの打ちづらさに関係しており、それらを変量効果を用いて評価した。永田大貴
(南研M2)
1/11保険会社における最適配当境界の統計的推定保険には会社を運営するにあたって、被保険者から集めた保険料と実際に運営に使われた経費との差額を被保険者に返金する「配当」という仕組みがある。
今回の発表では累積保険金額が複合ポアソン過程、ブラウン運動に従うことを仮定して最適配当境界(会社が破産するまでに支払われる配当期待値現価が最大となる配当境界)を求める。さらに、その最尤推定量を求め、統計的性質を考える。
八木彰子
(白石研M2)
1/18CBPSを用いたスクイズ作戦の因果効果の推定本発表では,Covariate Balancing Propensity Score(CBPS; Imai and Ratkovic, 2014)を用いて,野球におけるスクイズ作戦が得点に与える影響を解析した結果を報告する.
発表では,まずCBPSの考え方の基本について触れたあと,シミュレーションを通してCBPSが,傾向スコアを推定する際のモデルに誤特定がある場合にも結果を安定して推定できることを確認する.その上で野球におけるスクイズ作戦が得点する確率に与える影響をCBPSを用いて推定した結果を報告する
中村知繁
(南研D1)

2016年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
4/13全体顔合わせなし
4/20デンドログラムの並べ替え検定と木測地距離空間日本人英語上級者30 名,英語母語話者30 名の各被験者に,「封筒の中にある50 個の英単語をあなたが考える意味のまとまりにグループ分けしてください.」という指示を与える.
本研究の目的は,そのような実験の結果得られたデータに対して英語母語話者と日本人英語上級者の心内辞書(mental lexicon)の相違を明らかにすることであり,心内辞書が木構造(デンドログラム)によって表されるという仮定の下に並べ替え検定による解析手法を提する.また,その理論的妥当性を評価する.
一方,デンドログラム間の距離には通常のフロベニウスノルムに加えて,木測地距離を用いる.木測地距離空間(Tree Space)は主に遺伝系統樹分析の理論研究者により研究されてきた.本発表ではそれを紹介するとともに,デンドログラムの並べ替え検定への応用について議論する.
小林景先生
4/27因果推論の枠組みと,犠牲バントの有効性の解析因果推論は,疫学やマーケティングをはじめとする分野において,近年注目を集めている,処置の結果に対する因果効果を推定するための手法である.
本発表では,このような因果推論の枠組みを例を交えて紹介した上で,因果推論の枠組みを,野球における犠牲バント戦術の解析に応用した結果を報告する.
また,時間が余れば,用いた手法の理論的な側面についても詳しく紹介する.
中村知繁
(南研D1)
5/11那須気象データの紹介と状態空間モデルの基礎①那須気象データの紹介
まず、今年1月に発表予定だった内容について発表する。
学校法人自由学園は、栃木県那須塩原に酪農農場を保有しており、1942年〜1998年まで様々な気象データを観測していた。
観測における主な目的は、隣接する一級河川(蛇尾川:サビガワ)による水害の防止であった。本報告では、農場が抱えてきた課題や蛇尾川の特徴、データの紹介を行う。
②状態空間モデルの基礎
状態空間モデルの基礎について発表する。
時系列解析において主たる目的は、データから時系列に関連する構造を理解することや過去のデータから未来のデータを予測することにある。しかしデータに欠測値が含まれる場合一般的に知られているARIMAモデル等では適用が容易ではないことがわかっている。
一方、状態空間モデルの枠組みでは欠測値が含まれていても適用が容易であり、かつモデルの柔軟な表現が可能なため多くの分野で応用がなされている。
本報告では、状態空間モデルの中でも最もシンプルなローカル・レベル・モデルに焦点を当て状態空間モデルの基礎的な考え方を紹介する。
酒井優行
(南研M1)
5/18多変量2値分布におけるprincipal pointsの近似解法について近年、principal pointsに関する研究が数多く展開されている(例えば、Flury,1990; Yamamoto and Shinozaki, 2000; Matsuura and Kurata 2011)Principal pointsとは、与えられた確率分布を、ユークリッド距離の期待値に基づき、k個の領域へと最適に分割した時の代表点として与えられている(Flury, 1990)。
本研究では、 多変量2値分布におけるprincipal pointsを離散最適化問題として定義する。さらに、その劣モジュラ性(離散最適化問題における凸性にあたる性質)を示し、解の最適性の保証つき近似アルゴリズムを提案する。さらに、その適用例を示す。
山下遥さん
5/25欠測のある生存時間解析とマーケティングへの応用生存時間解析は、医学統計や生物統計などに加え、経済学やマーケティングなどの社会科学分野でもよく用いられている。中でも、医学分野における通院間隔や、マーケティングにおける購買間隔などの、同一サンプルに対して複数回のイベントが得られている生存時間解析を「繰り返しのある生存時間解析」などと呼ぶことがある。本研究では、繰り返しのある生存時間解析において、中間に欠測するイベントのある状況に対応したモデルを提案する。中間に欠測するイベントがある場合、観測される間隔は複数イベントの間隔が積み上げられたものとなり、そのデータを用いた解析結果は推定値にバイアスが生じる。そこで、このようなデータに対して欠測データ解析の枠組みを用いてバイアスを除去しつつ、正しい推定値を得るためのモデルを提案する。さらに、提案モデルをマーケティングデータに応用する。
当日は、上記の研究内容を中心としつつ、関連する生存時間解析や欠測データ解析、マーケティングにおける間隔モデル、実データ解析について紹介する。
猪狩良介さん
6/1Computation of Risk Contributions using MCMC on VaR-Fiber金融リスク管理において、ポートフォリオ全体のリスクはEconomic Capitalによって測定される。
Economic Capitalの計算は、ポートフォリオのリスク管理における最初のステップであり、リスクのより細かな分析のためには、Economic capitalをサブポートフォリオや単一のエクスポージャーに分解することが必要である。
このように、全体のリスク量を単一リスクに割り当てることをRisk Allocationといい、分配されたリスク量はRisk Contributionと呼ばれる。
Risk Contributionsの導出法はTasche(1999)により確立されたが、その量の具体的な算出は非常に困難である。
本発表では、特に算出が困難と言われる、リスク尺度としてValue-at-Riskを用いる場合のRisk Contributionsの算出に関して、MCMCを用いた計算アルゴリズムを提案する。
特に、リスク管理において典型的である裾の重い分布に照準を合わせたアルゴリズムの構築を行い、シミュレーションによりアルゴリズムの有効性を確認する。
その後、Kamatani(2014, 2016)と同様のアプローチにより示される、エルゴード性に関するいくつかの結果を紹介する。
小池孝明
(南研M2)
6/8高次元の下での有効フロンティアの統計的推定ポートフォリオ理論は、リスク回避的な投資家が分散投資を行い、自身のポートフォリオにおいてポートフォリオ収益率を高めるためには、どのように最適化すればよいかを決定するための理論である。 実際には、資産のリターンはランダムな変数であり、どのような平均と分散をもつ分布に従っているかは未知であるため、サンプルから大標本漸近理論を用いて推定することを考える。しかし、近年の株式市場などでは、市場の規模が大きくなっており、分散投資する資産の数が膨大となっているため、高次元データにおける解析を考える必要性が主張されている。
本発表では、ポートフォリオによる実現可能領域の左側境界を表す有効フロンティア内のパラメータについて、高次元の仮定のもとでの漸近的挙動を調べる。その後、高次元の下での有効フロンティアの統計的推定を考える。また、それらに関してシミュレーションを行う。
岡紘之
(白石研M2)
6/15非負値行列分解(NMF)を用いた糖鎖解析行列分解による次元縮約を利用した特徴量抽出のための手法のひとつに非負値行列分解(NMF)がある。
このNMFは解析対象となるデータの行列が非負であるという制約を課すものの、実社会における多くのデータを解析の対象とすることが可能な上、実装と解釈の容易さから近年注目を集めている。
本発表では前半にNMFの概要説明を行う。後半では糖鎖データについてその紹介とともにNMFによる解析結果を示す。
早瀬亮
(南研M2)
6/22最適配当境界の統計的推定保険会社の破産リスクに関する理論の応用として, 会社の余剰資本(サープラス)がある境界を上回ったときに, その部分を株主に返還する配当の問題がある. この配当境界と破産時刻にはトレードオフの関係があり, 最適な配当境界を求めることに関心がある. ここでの最適とは, 破産時刻までに支払われる配当金の現在価値の期待値を最大化するものとして与えられる.
本発表では余剰資本の増減を定式化し, そこに配当の考え方を導入したモデルについて説明する. さらに上で述べた指標をもとにして得られる最適な配当境界の推定量をM-推定量の考え方に基いて構成し, その一致性, 漸近正規性について考え, 最後にいくつかのシミュレーション結果を示す.
大石惇喜
(白石研M2)
6/29極値統計学を用いた年最大日降水量データ解析自然災害、異常気象が発生するときの気象データは観測されているデータの中でも極端に大きい値や小さい値であることが多い。
一般的な統計学ではこのようなデータは外れ値として扱われることが多いが、災害の発生時のデータを扱うときには
この外れ値に注目しなければならない。
そのようなデータに対して適用することができるものに極値統計学がある。
本発表では、まず昨年秋のセミナーでも取り上げた単変量に対する極値統計学の理論とモデルの推定について紹介する。
次に今、私が研究で行いたいと考えていることについて簡単に紹介し、その最初のステップとして神奈川県で観測された
実際の年最大日降水量データを解析した結果を示す。
最後に今後の研究で用いる理論・手法について簡単に紹介する予定である。
樫山文音
(南研M2)
7/6保険会社における最適配当境界の統計的推定保険には会社を運営するにあたって、被保険者から集めた保険料と実際に運営に使われた経費との差額を被保険者に返金する「配当」という仕組みがある。
今回の発表では累積保険金額が複合ポアソン過程、ブラウン運動に従うことを仮定して最適配当境界(会社が破産するまでに支払われる配当期待値現価が最大となる配当境界)を求める。さらに、その最尤推定量を求め、統計的性質を考える。(複合ポアソン過程に従う場合)
八木彰子
(白石研M2)
7/13MLBトラッキングデータを用いた捕手のフレーミング評価法について現在、アメリカにおいてはスポーツにおけるデータの蓄積・解析が盛んに行われている。今回、野球におけるトラッキングデータに着目し、統計的な解析を行い捕手のフレーミングという技術の評価を目指した。野球におけるトラッキングシステムとは、球場内に設置された複数台のカメラからボールの軌道や速度を計測するものであり、その代表的なものにPITCHf/xがある。今回はボールのホーム到達時座標データに着目し、ロジスティック回帰を用いた解析を行った。各投球がストライクと判定されるか否かについての確率の評価を行うため、それらの位置データ対してスプライン関数を適用し、推定された確率と実際の判定との差を考えることにより捕手の貢献度を図る。また、ストライク判定に関わるであろう要因を変量効果パラメータとしたモデルに拡張を行い、それらの要因を調整することでフレーミングの評価を行った。永田大貴
(南研M2)
7/20時空間データを用いた死亡率の将来予測(各国ごとの)将来の死亡率を予測することは、食糧問題や保険料設定などのために重要な要素の一つである。その古典的な予測モデルとして、Lee-Carterモデル(Lee and Carter, 1998)が知られている。今回の発表では、Lee-Carterモデルの紹介および、その枠組みを用いたモデルの拡張について考察を行う。系行健
(白石研M2)

2015年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
9月30日ゲノム研究における多重比較と最近の話題についてゲノム研究では,同時観測された大量の遺伝情報を解析対象とします.例えば,マイクロアレイでは異なる条件下で遺伝子発現のようすを同時観測し,数万の候補の中から発現変動する遺伝子を見つけ出します.一塩基多型を測定するSNPチップではさらに多い数百万座位が候補となり,健常者と疾患罹患者のデータから疾患関連遺伝子を探索します.
それぞれの群間の違いは仮説検定によって評価することが求められますが,候補の数だけ繰り返される検定によって生じる誤りを正しく評価することも必須です.
本発表では,ゲノム研究でよく利用されるふたつの誤り指標(FamilyWise Error RateとFalse Discovery Rate)をその制御手法とともに紹介します.また,ゲノム研究成果を利用した商用サービスなど,より身近になりつつあるゲノム研究の最近の話題についても紹介する予定です.
菅谷 勇樹
(株式会社スタージェン 遺伝統計解析事業部)
10月7日最適配当境界の統計的推定保険会社の破産リスクに関する理論の応用として, 会社の余剰資本(サープラス)がある境界を上回ったときに, その部分を株主に返還する配当の問題がある.
今回の発表ではまず配当がある場合とない場合のサープラス過程をそれぞれ説明し, その上で累積配当金現在価値の期待値が最大となるように最適配当境界を定義する.
その後, 最適配当境界が満たす等式を用いてその表現を説明し, リサンプリングをもとに構成した推定量について, 漸近的性質を考える.
大石惇喜
(白石研M1)
10月14日極値統計学
入門
金融市場における変化や,自然災害の発生など私たちに大きな影響を与えるものは,観測されているデータのうち極端に大きい値や小さい値を取ったときに起こることが多い.そのようなデータに対して適用することができるものに極値統計学がある.
今回は極値データの捉え方なども含め,極値統計学の基礎的な部分を紹介する.発表では,まずどのようなデータが極値統計学で扱われているのかを具体的な例を示しながら紹介する.その後,一般極値分布(Generalized Extreme Distribution)を中心に理論的な部分を紹介する.
樫山文音
(南研M1)
10月21日遺伝子研究における差の検定とCancer Outlierについて近年マイクロアレイに代表される技術によって大規模データが生み出され,膨大な量の遺伝子を同時に調べることができるようになった. その際,がん関与遺伝子の候補として発現量が高いもの(もしくは低いもの)を探すのだが,その指標として用いられるものに統計量がある. 本発表ではいくつかの遺伝子研究に用いられる統計量の紹介を行うとともに,発展的な内容としてCancer Outlierについて解説を行う.早瀬亮
(南研M1)
10月28日高次元の下での有効フロンティアの統計的推定ポートフォリオ理論は、リスク回避的な投資家が分散投資を行い、自身のポートフォリオにおいてポートフォリオ収益率を高めるためには、どのように最適化すればよいかを決定するための理論である。 実際には、資産のリターンはランダムな変数であり、どのような平均と分散をもつ分布に従っているかは未知であるため、サンプルから大標本漸近理論を用いて推定することを考える。しかし、近年の株式市場などでは、市場の規模が大きくなっており、分散投資する資産の数が膨大となっているため、高次元データにおける解析を考える必要性が主張されている。
 本発表では、ポートフォリオによる実現可能領域の左側境界を表す有効フロンティア内のパラメータについて、高次元の仮定のもとでの漸近的挙動を調べる。その後、高次元の下での有効フロンティアの統計的推定を考える。
岡紘之
(白石研M1)
11月4日ファクターモデルにおけるファクターの推定量およびその性質現在 , 金融政策の決定などのために , 数年後の「インフレ率」「産出量成長率」などを予測することが求められている . しかし , 予測に利用する経済変数は「貨幣残高」「株価」「商品価格指標」「失業率数」など数 100 種類に及び , どれが良い変数なのか自明ではない . Stock and Watson(2002) は , 多くの経済変数から , 少ない数の共通変動 (factor) を抽出し予測に利用する factor model を提案した .
今回の発表では , Stock and Watson(2002) の提案する factor の推定および推定量の一致性について説明を行う予定である .
系行健(白石研M1)
11月11日一般化加法モデルを用いた、メジャーリーグトラッキングデータにおけるフォーシームの定量的分析現在、プロ野球リーグにおいて様々なデータ蓄積が行なわれている。特にメジャーリーグにおいてはセイバーメトリクスが発展しており、蓄積したデータの解析が盛んに行なわれ、科学的な見地から戦術解析や選手評価がなされている。今回の発表においては、投球の速度や軌道を計測するPITCHf/xシステムによって得られるデータ(トラッキングデータ)について簡単な説明を行った後に、ストレートのノビに着目し、空振りが取れるストレートとはどのようなものか考えたい。また定量的な分析を行うモデルとして一般化加法モデルを導入し、解析結果を示す。最後に、実際の2投手におけるストレートの比較を行い、両者のストレートがどの程度コンタクトしにくいボールなのかを考える。永田大貴(南研M1)
11月25日ROC曲線に基づいた統計モデルの評価・比較ROC曲線(受信者動作特性曲線)による解析は,生存/死亡など二値応答に関する統計モデルの「よさ」を評価するための方法である.ROC解析は,バイオマーカ―の評価やスクリーニング検査の精度評価など臨床医学において頻繁に利用されている.また,機械学習における教師あり学習においても,応用例がみられる.本発表では,ROC曲線の基本的な事項の理解を目指す.林賢一(教員)
12月2日統一的2値判別モデルに対する加速近接勾配法機械学習分野における様々な2値判別モデルに対して、汎用的かつ高速なアルゴリズムを提案した研究[1]について紹介する。 2値判別問題とは、与えられたサンプルが2つのクラスのどちらに属するかを予測する問題である。その予測の方法を最適化問題として記述したものが2値判別モデルであり、サポートベクターマシン(SVM)を始めとして多くのモデルが提案されている。高い予測精度を達成するためには、与えられたサンプル集合に対して最も当てはまりのいいモデルを選択することが重要である。モデルの当てはまりを比較するためには、実際に様々なモデルを解く必要があるため、それらの効率的な解法が必要となる。 従来は、各モデルに特化した効率的な解法/ソフトウェア (SVMに特化したLibLinearなど) が利用されてきたが、もし様々なモデルを統一的に扱える高速な解法があれば、より柔軟にモデル選択を行うことができる。本研究では、様々な2値判別モデルを統一的に記述したモデル[2] に対して、高速な解法を提案する。提案手法は、加速近接勾配法[3]をもとに様々な高速化の工夫を取り入れて設計した。数値実験では具体的にSVM等のモデルに対して、既存解法と提案手法を比較し、提案手法の大規模データでの優位性を示した。伊藤直樹(東大D1)
12月9日共変量欠測に対する回帰代入法の課題とその修正法大気中のPM2.5をはじめとする微小な粒子状物質の人体への影響が,近年憂慮されている.微小粒子状物質の人体への影響を調べるためには,コホート調査によって得られたデータと,コホート調査地域において観測された微小粒子状物質の大気中濃度突合して解析する必要がある.しかしながら,コホート調査地域における微小粒子状物質の観測は十分に行われておらず,ヨーロッパでの調査(ESCAPE PROJECT)においては,微小粒子状物質の未観測地点の濃度を,回帰代入法を用いて補完し解析を行っている.本発表ではまず,一般化線形モデルとM推定量とZ推定量の基本的な性質を述べる.その後に,回帰代入法を用いて解析する場合の課題と修正法を,正規線形モデル,ポアソン回帰モデルの枠組みで議論し,シミュレーションを通して修正法の有効性を示す.中村知繁(南研M2)
12月16日従属構造がある場合の大規模多重比較近年の技術の発達により遺伝子データのような大規模データに対する統計的推測が必要とされている。多重比較に対してはFDR(False Discovery Rate) と呼ばれる基準が提案され、効果をあげている。しかし,FDRをコントロールする多重比較法は仮説間の独立性を仮定したものが多く、その妥当性に関する議論が多く行われてきた。一方で従属構造を利用した多重比較の方法も提案されている。本発表ではまず,多重比較とFDRについて基本的な事柄を説明し、その後に,多重比較と重み付き判別の関係性、従属構造を利用した多重比較法について述べる。江本遼(南研M2)
1月13日最適配当境界の統計的推定保険には、会社を運営するにあたって、被保険者から集めた保険料と実際に運営に使われた経費との差額を被保険者に返金する「配当」という仕組みがある(すべての保険に配当の仕組みがあるわけではない).今回の発表では、保険金請求頻度がポアソン過程、個々の支払保険金額が指数分布に従うことを仮定して、最適配当境界(会社が破産するまでに支払われる配当期待値現価が最大となる配当境界)と、その最尤推定量を求め、漸近的性質を考える。八木彰子(白石研M1)

2015年度春学期水曜セミナー予定表

日時コンテンツ・タイトル発表者
4/8水曜セミナーの説明と、全体の顔合わせなし
4/15丸め誤差のあるデータに対する適合度検定仲真弓さん
4/22Webアクセスログデータを用いたサイト閲覧行動の統計分析
〜インターネットマーケティングへの応用〜
猪狩良介さん
4/30(水曜振替)C-indexの推定について林賢一先生
5/6祝日なし
5/13ベイズ推論の基礎とシミュレーション法中村知繁(南研M2)
5/20Closure principleを用いた多重比較江本遼(南研M2)
5/27因果推論におけるマッチングについて小河有史(ゲスト)
6/3Copula and Dependence Structure -- Vine Copula Constructions小池孝明(南研M1)
6/10NMFを用いた文書データの特徴抽出とその解釈早瀬亮(南研M1)
6/17高次元データの解析岡紘之(白石研M1)
6/24現代ポートフォリオ理論およびその拡張
系行健(白石研M1)
7/1一般化線形モデルとその拡張樫山文音(南研M1)
7/8経時データに対するベイズモデルを用いた統計分析永田大貴(南研M1)
7/15グレブナー基底の理論と計算大石惇喜(白石研M1)
7/22保険料算出原理八木彰子(白石研M1)