水曜セミナー

fig1

水曜セミナーは毎週統計関連研究室の修士以上の学生が, 研究内容を発表する場です.学生による発表は春学期・秋学期の2回あります.発表内容は, 以下の表にまとめました.見学等を希望する場合は, 授業等で先生に直接伝えて頂くか, メールにてご連絡ください.また例年, 水曜セミナーでは, 外部からゲスト登壇者を招き, 研究の視野を広げることも同時に行っています.

| 2019年度春学期 |
| 2018年度春学期 | 2018年度秋学期 |
| 2017年度春学期 | 2017年度秋学期 |
| 2016年度春学期 | 2016年度秋学期 |
| 2015年度春学期 | 2015年度秋学期 |

2019年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
4/10全体顔合わせなし
4/17Causal Inference : A Review and Recent Advances本発表では,統計的因果推論を扱う.統計的因果推論の分野は,Rosenbaum and Rubin(1983)により傾向スコアが提案されて以来,様々な推定量が提案され,発展してきた.まずは,発表の前半でそれらについてレビューを行う.次に,統計的因果推論の代表的な手法である層別化に触れ,層別化をDecition Treeを用いて自動的に行う方法を提案し,既存手法と比較した結果について述べる.
発表の後半では,multiple treatment / time-varying treatmentなどの様々な処置に対する因果的効果の推定量について述べ,最後に近年発展してきた機械学習と統計的因果推論の交わりについても紹介する.
中村 知繁
(南研D3)
4/24K2 Studyデータを用いた高齢者のwell-beingに関する分析結果本発表では,中原区高齢者パネル調査–The Keio-Kawasaki Aging Study–(通称 K2 Study)を用いたデータの分析の結果について述べる.
 K2 Studyデータは,本学理工学部髙山緑教授よりご提供いただいた中原区の高齢者を対象に行ったパネル調査のデータであり,
♦︎ 後期高齢期(75歳以上),超高齢期(85歳以上)の高齢者を対象にしている
♦︎ 健康に関する指標のみならず,人生満足度などのwell-being指標まで含まれている
といった点が特徴的である.
 本発表では特に,デイケア・デイサービスの利用や地域の催しへの参加が,人生満足度や生活満足度,認知機能に対し与える影響を,統計的因果推論の手法により分析した結果を述べる.
米山 慎太郎
(南研D1)
5/15①グレブナー基底と実験計画本発表では,計算代数幾何学の重要な概念であるグレブナー基底の、実験計画法における応用例について、下記の文献1)に準ずる形で紹介します。トピックは主にグレブナー基底の紹介と補間多項式の構成法・識別可能性についてを予定しています。木原 泰斗
(白石研M1)
5/15②ARCH型モデルの紹介と推定法本発表では、ARCH型モデルを扱います。ARCH型モデルは、 Bollerslev(1986)がGARCHモデルを提案して以降、様々なARCHモデルが提案され、研究されてきた。本発表の前半では代表的なARCH型モデルを紹介し、後半ではその推定法について述べていく。 高 遠
(白石研M1)
5/22①統計的因果推論におけるランダム化とFisher's Exact P-value本発表では、統計的因果推論におけるランダム化実験と, その応用例であるFisher's Exact P-valueを扱う.
ランダム化は研究デザインにより保証されることが望ましい重要な性質である. ランダム化の重要性に初めて論理的に注目したFisherは, シャープな帰無仮説の検定を考え, Fisher's Exact P-valueを提唱した. これらについて説明する.
塚原 悠
(林研M1)
5/22②条件付き確率場の正則化本発表では,条件付き確率場(以下CRF)を扱う. CRFは, 自然言語処理をはじめとして様々な系列データに対し有効な識別モデルであると言われている.

CRFはモデルのパラメーターの数が数十万~数百万になることもあり, 高次元データ解析で研究されてきた正則化(罰則化)が, ここでもよく利用される.

今回は, パラメーター推定の際の正則化(罰則化)について, よく用いられる手法を幾つか紹介し比較及び考察を行う.
酒井 悠斗
(白石研M1)
5/29①時系列予測に関する最近の研究近年, 時系列予測に関する研究は多くされていて, 多くの論文が存在する.

本発表では, その中から2つの論文を紹介する. 1つ目は「Rangapuram et al. (2018)」, 2つ目は「Kuznetsov and Mohri. (2017)」である. 前者は, 複数の類似時系列に対する, 状態空間モデルと再帰型ニューラルネットワークを用いた予測, 後者は, 非定常時系列に対する, (時系列解析の文脈における)一般化状態空間モデルによる予測に関する研究である.
山田 一輝
(林研M1)
5/29②simulation of point processes空間上に存在する点の性質を統計的に考える分野を点過程と言う。今回はイベント発生としての点過程の考え方を紹介し、強度(intensity)を用いた特徴付けが可能であることを紹介する。

点過程は強度によって、ポアソン過程、非一様ポアソン過程、一般点過程にグループ分けすることが可能である。時間変更定理を用いることで一般点過程は標準ポアソン過程に帰着する。

一般点過程の中でもホークス過程を中心にシミュレーション手法を紹介する。
茅根 脩司
(白石研M1)
6/5生存時間解析における治癒モデルの概要と推定手法生存時間解析とは、興味あるイベントの発生時間に関する統計的推測を指す。主な目的のひとつに生存率関数の推定があり、その手法のひとつは生存率関数に回帰モデルを仮定し、説明変数の影響を表すパラメータ等を推定する手法である。
 興味あるイベントのうち、ガンの再発やAIDSの薬剤耐性などでは、イベントが発生しない場合がある。そこで、イベントが発生しない状況に適用できる治癒モデルが考案されている。
 本発表では、導入として生存時間解析の基本的事項を抜粋して説明したあと、治癒モデルについて紹介し、主なモデルのひとつである混合治癒モデルのパラメータ推定手法を述べる。推定手法については、尤度関数の構成やEMアルゴリズムを用いたスパース推定についてを中心に扱う。最後に、発表のまとめと今後の研究の展望について述べる。
会田 晴郎
(林研M2)
6/12金融テキストマイニング イベントスタディでの学習データ構築株価予測に自然言語処理の知見を活かす試みについて、代表的な先行研究としては[和泉2011]がある。[和泉2011]ではCPR法と呼ばれる和文テキスト情報を株価予測に活かす枠組みの提案が行われたが、これはテキスト情報のみを用いた予測実験であり株価の推移情報が加味されていない。その後、[上原2013]においては株価推移情報も加味した実験が行われていたが、この実験では株式価格のボラティリティが加味されていなかった。[五島2017]では、イベントスタディ法といわれる実証実験の枠組みを通して株式価格情報から予測された価格とボラティリティ加味し、予測に有用なニュース情報を抽出し学習データを構築している。今回は[五島2017]に準拠した数値実験を行い、より細かい設定での予測を行うことで[五島2017]を追試し、実験から得られた課題設定の問題点を指摘し改良の方策について報告する。勝山 頌一郎
(白石研M2)
6/19Wasserstein統計多様体についてWasserstein距離は最適輸送理論で研究されている確率分布間の距離であり、KLダイバージェンスなどとは異なった性質を持ち、近年機械学習や最適化で応用されている。
 Wasserstein距離とBemamou-Brenierの公式から確率分布の集合にWasserstein計量テンソルが定義できるが、その部分集合としてパラメトリックモデルを考え、Wasserstein計量テンソルをパラメータ空間に引き戻すことでパラメータ空間にWasserstein計量テンソルが導入される。これはWasserstein統計多様体と呼ばれる。
 本発表ではリーマン多様体上のパラメトリックモデルのパラメータ空間が成すWasserstein統計多様体とそれを応用したWasserstein自然勾配法などの研究を紹介する。
また重み付きグラフラプラシアンを用いてWasserstein計量テンソルを重み付きグラフで定義した研究についても紹介し、最後に今後の展望やOpen problemsについて述べる。
童 祺俊
(小林研M2)
6/26中島 捷
(小林研M2)
7/3日本語ニューラル翻訳における単語分割と翻訳モデルの評価指標近年の機械翻訳はニューラルネットワークを用いた手法が主流になっているが,ニューラルネットワークの入力として文章を扱う際には,各文をトークンの列に分割しなくてはならないという問題が存在する.特に日本語は英語などのようにスペースで分かち書きされる言語ではないため,適切に文を分割する手法が必要となる.さらに,翻訳モデルの標準的な評価指標(BLEU等)は単語に関する参照訳との適合率で計算されるため,言語モデルを正しく評価するためにも文を適切に分割しなくてはならない.
 本発表ではニューラルネットワークを用いた機械翻訳の基礎的事項について述べた後,現在主流となっているサブワード(単語と文字の中間)へ分割する手法について説明する.その後,現在の機械翻訳の評価指標とその問題点について説明し,最後に今後の研究の展望について述べる.
竹原 大翼
(小林研M2)
7/10宇野 大我
(白石研M2)
7/17Bélanger Teraiamanu
(南研M2)

2018年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
9/26系列処置に対するランダムフォレスト推定量の提案処置が系列的である場合の因果的効果の推定には,Marginal Structural Model(MSM, Robins,1997)が用いられるのが一般的である.MSMを用いて因果的効果を推定する際には,傾向スコア(この場合,ある処置系列を受ける確率)の推定が適切に行われない限り,推定量がバイアスを持つことが知られている.実際,系列処置の場合には傾向スコアは,処置を受ける確率の積になるため,小さな推定のズレが,大きな推定量のバイアスにつながる(Imai and Ratkovic, 2015).
そこで,本発表では,Wager and Athey(2017)の結果を,処置が系列的である場合へと拡張し,ランダムフォレストを用いて,傾向スコアを推定することなくノンパラメトリックに個人に対する因果的効果を推定する方法を提案する.
中村 知繁
(南研D3)
10/3①Lévy過程のモデリングにおける離散観測データを用いた最適配当境界の推定について保険会社の破産理論 (ruin theory) の応用の一つに,最適配当境界問題 (optimal dividend barrier problem) がある.この問題は,保険会社の資本 (surplus) がある境界 (barrier) を上回ったときに,その部分を株主に返還する配当 (dividend) の問題であり,初期資本を固定し,破産時刻までに支払われる配当金の現在価値の期待値を最大化する境界がどこにあるのかを考える.これまでに,Bühlmann (1970),Gerber (1979),Dickson (2005)などは古典的リスクモデル (Cramér-Lundberg モデル) の下で,Gerber et. al. (2004) は資本が線形Brown運動に従う下で議論されている.
 しかし,大石 (2017) に依れば,この最適配当境界の統計的推定の議論は,先行文献を見る限りなされていなかった.そこで大石 (2017) は,古典的リスクモデルの下でM-推定量の考えに基づき最適配当境界の推定量を構成し,一致性を示した.
 本発表では,前回のLévy過程のモデリングやGerber-Shiu関数について復習を行いつつ,最適配当境界の推定を行う際に必要な離散観測データについて理論的考察を行う.
宇野 大我
(白石研M1)
10/3②無限隠れマルコフモデルを用いたバスケットボールのプレイ分析隠れマルコフモデル(HMM)は時系列データのクラスタリング手法として知られているが、通常の解析ではクラスタ数をあらかじめ定める必要がある。この定め方としてAIC(赤池情報量規準)を用いる方法も考えられているが、一般に理論的妥当性は保証されていない。本発表ではこの問題を回避する手法として,階層ディリクレ過程をパラメータの事前分布に用いた無限隠れマルコフモデル(IHMM)について説明した後に、実際のバスケットボールのプレイバイプレイデータを用いた解析結果等について報告を行う。竹原 大翼
(小林研M1)
10/10①ROC解析ROC(Receiver Operating Characteristic, 受信者動作特性)解析は第2次世界大戦中に信号検出の性能を測る手法として考案されたが、現在は診断検査の精度を測る手法として用いられている。ROC解析では、対象の疾患のない患者を誤って陽性と診断した割合に対して、疾患のある患者を正しく陽性と診断した割合を描画することでROC曲線を構成でき、その曲線下の領域AUC(Area Under Curve)を診断検査の精度の指標として用いること主流である。本発表ではROC曲線の推定量を考察し、Bamber (1975)、 Hanley and McNeil (1982) が示したAUCの推定量の分散を導出する。伊藤 健太
(林研M1)
10/10②中島 捷
(小林研M1)
10/17①Current status dataに対する回帰分析の手法区間打ち切りデータの種類の1つに、Current status dataというものがある。ケース1区間打ち切りデータとも呼ばれるこのデータは、左側打ち切りもしくは右側打ち切りのどちらかが観測されるデータであり、様々な分野で扱われている。
このデータに対する回帰分析ではセミパラメトリックモデルがよく用いられるが、回帰パラメータの推定の際に未知のベースライン関数も同時に扱わなくてはいけないことが推定を難しくしてしまう。その問題点を解消するために、いくつかの手法が提案されている。
本発表では、Current status dataとセミパラメトリックモデルについて説明をした後、回帰パラメータの推定のための手法を述べる。手法の紹介では、まず一般的な尤度関数の最大化について触れた後、ベースライン関数の推定を回避できる長所をもつSieve likelihood methodと推定方程式を用いる手法について扱う。
会田 晴郎
(林研M1)
10/17②日経平均株価騰落予測のためのテキスト特徴量獲得「効率的市場仮説」によると、株価はその時点のすべての情報を用いて決定される。
それをふまえた金融テキストマイニングでは、ニューステキストを用いた特徴量作成により、株価の推移や企業の財務状態以外の面から株価予測を考えることになる。
テキストデータの特徴量作成に関して、[1]ではPV-DM・PV-DBOWという特徴量作成の手法が提案されている。
これは「分布仮説」に基づいて[2]で提案された、単語(語彙)に対する特徴量作成の手法であるSkip-gram・CBoWを拡張したものとなる。
本発表では、テキストデータの特徴量作成のためのPV-DM手法について説明する。これは語彙についての特徴量作成の拡張という形になっているため、Skip-gram手法も併せて説明する。
また、実際にテキストデータの特徴量の類似度を用いた騰落予測の結果についても報告する。
勝山頌一郎
(白石研M1)
10/24最適輸送理論と機械学習最適輸送とは物質はある地点から別の地点に移す時の最小費用を考える理論である.物質の質量を1に規格化すれば,
これは確率分布間の輸送とみなせ1781年にGaspard Mongeによって初めて定式化され,Leonid Vitaliyevich Kantorovichにより更に拡張された.これより定義されるp-Wasserstein距離はp次モーメントが存在する確率分布間全体の集合に距離の構造を与える.
近年最適輸送理論やWasserstein距離が機械学習やコンピュータグラフィックスの分野に応用されている.これは最適輸送が分布の輸送の仕方を与えることやWasserstein距離が台を共有しない分布間の距離をも与えてくれるといった利点があるからである.
本発表では最適輸送理論に関連する研究をいくつか紹介し,特にdenoising autoencodersをWasserstein勾配流の考えに基づいて解析した[1]について詳しく紹介する.
童 祺俊
(小林研M1)
10/31事例ベースの深層格構造解析近年の深層学習を用いた音声合成(van den Oord et al. 2017)や機械翻訳
(Vaswani et al. 2017)の発展は著しいが、対話システムなどの理解が必要と
される分野の研究は進んでいない。原因として、畳み込みネットワークが画
像の構造に適していたように(Le et al. 2013)、言語の意味につながる構造
を意識したモデルが軽視されている背景が考えられる。
 我々の研究では、自然言語、特に日本語文章の理解ができるシステムを目
指して、文法や辞書などを事前知識としてモデルに組み込む手法を開発して
いる。日本語の語順は比較的自由であり、意味の単位は用言と格助詞によっ
て与えられる。特定の用言と格の組み合わせが表す意味を捉えるものとして、
深層格構造(長尾 1996)がある。従来の実装では、曖昧さの残る表現に対応す
るために、深層格を細かくする必要があり、適切な粒度で維持・管理するに
は大きなコストがかかる。
 このような背景から、いくつかの事例が与えられた下で、辞書や文脈を適
切に利用し、その適用範囲を自ら広げることのできるシステムが望まれる。
この手法はBootstrappingとして知られており、機械学習的な枠組みも考えら
れてきた(Abney 2004)。
 本発表では、我々の研究で開発中のシステムを用いて、歴史の文章の解析
を試みた結果を報告する。辞書や、大規模なコーパスを用いて訓練されたモ
デルによる事前処理がなくとも、言語の解析が可能となることも示す。
青島 達大
(南研M2)
11/7システミックリスク定量化へのアプローチシステミックリスクと呼ばれるリスクの定量化手法は近年数多く研究されている。しかしながら未だ評価する際の指標として広く合意を得ているものはない[1]。これは他の金融リスクと異なり、このリスクが複数の金融機関を対象としたものであることに起因する。システミックリスクの顕在化は、個別の金融機関の健全性の悪化などに端を発するもので、金融システム全体での大規模な不況を引き起こす。このリスクを評価するため、顕在化への寄与と損失、そして顕在化へ至る構造の変化などを評価することが求められる[2]。
本発表ではHawkes過程を利用したシステミックリスク評価指標を提案することで、各金融機関のリスクへの寄与およびリスクに対するバッファー(損失に対する準備)を求める。また変化点検出を利用することで、リスク顕在化を引き起こす金融構造の変化を考慮し、より現実的にリスクを評価する。
泉澤 佑
(白石研M2)
11/14石川 航作
(林研M2)
11/28ゲートキーピング法とメタボロームデータ解析近年,メタボロームデータを用いた疫学研究は,慶應義塾を始めとする多くの研究機関で進められている。
メタボロームとは,生体内の細胞や組織において,代謝(生体内で起こる生化学反応)に伴い生成されたり使われたりする物質のことであり,
メタボローム同士は互いに複雑な関係で結びついている。
そのため,メタボロームデータを解析する際には,本来であればメタボローム間の構造・関係性を考慮した解析を行うべきであるが,
実際にはそのような解析は未だ行われていないようであり,解析手法に関する課題は山積している。
本発表では,まず仮説間の構造・関係性を考慮した多重検定の手法の一つであるゲートキーピング法を紹介したのち,
先行研究の解析方法の問題点を挙げ,最後に実際にメタボロームデータを解析した結果を説明する。
小野 あかり
(南研M2)
12/5PC Algorithmを用いたプロ野球の勝率分析セイバーメトリクスの世界で用いられる様々な指標を変数に用いて、勝率に影響を及ぼす変数を特定する際に
PC Algorithmを用いて有向非巡回グラフの構造を学習させたが、その際に条件付き独立性の検定を行うステップがある。
条件付き独立性の検定は条件付き相互情報量を用いて行うが、それを計算することは出来ないので推定量を考える必要がある。
本発表では、Algorithmの説明および相互情報量の推定量の紹介をおこなう。
佐久間 亮介
(白石研M2)
12/12階層ベイズモデルを用いた情報借用と臨床試験停止基準抗癌剤の効果を調べる臨床試験では、決められた時点において患者に投与した治療薬の効果がないと判明した時、試験を途中で停止することがある。
階層ベイズモデルの同時事後分布からのギブスサンプリングを用いた、真の奏効率(患者集団の中で癌腫瘍が一定の長さ以上に縮小した患者の割合)及び臨床試験停止基準(Bayesian Stopping Rule)の推定により試験の継続/停止を判断する手法がその一つである。
この手法では、複数の層に患者を割り付けて行う臨床試験において、ある層の真の奏効率を他の層の結果も用いて推定する。これを情報借用と呼ぶ。
本発表では、奏効率の推定において全ての層で情報借用を行うEXモデル、一部の層の推定で情報借用を限定するEXNEXモデルを紹介した上で、実データの分析結果から今後の課題について考察する。
榮 宏晃
(南研M2)
12/19Bayesian method to predict unmeasured PM 2.5 concentrationsThe Earth is getting more and more polluted due to human activities. Some pollutants are responsible for the global warming. The one I am focusing my researches on is PM 2.5 which causes health troubles.
Its concentration is monitored throughout Japan, but not everywhere. In Ibaraki prefecture, the authorities failed to measure it at many locations.
Using GIS and other pollutants (NO2, Ox, ...) data, it is possible to predict the PM 2.5 concentrations where is was not measured using frequentist and Bayesian methods. I will detail these methods and their results.
Bélanger Teraiamanu
(南研M1)
12/26擬似値に基づくスパース推定とその競合リスクデータへの応用Andersen et al. (2003)で提案された擬似値による打ち切りデータへの対処法は, 生存時間解析の幅広い文脈で適用可能な手法であり, その理論的妥当性はOvergaard et al. (2017)で詳しく議論された. 本発表ではこうした理論的背景を踏まえ, 特に競合リスクデータに対する擬似値を用いたスパース推定法を提案する. また, 提案手法の有用性を検証した数値実験の結果について述べる.田島 史啓
(林研M2)
1/16適応型学習のための学習モデルと推薦方策の提案本発表では適応型学習のための、学習モデルと推薦方策を提案する。コンピュータの発達した現代においては、学習者の能力に応じて問題を出題することが可能である。これまで、学習者の能力を少ない問題で精度よく推定することを目的とした適応型テストについての研究が多くなされてきた(豊田, 2012)。その一方で、学習者の能力を伸ばすことを目的に、学習者に合わせた教材を提供する方法についてはこれからの研究の発展が望まれている(山口&岡田, 2017)。本発表では能力の遷移を表す学習モデルにロジスティック密度関数を用いることを提案する。また、教材の推薦方策としてバンディット問題に使われているε-貪欲法を用いることを提案する。石川 航作
(林研M2)

2018年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
4/11全体顔合わせなし
4/18INAR(p)過程に対する変化点検出 変化点検出は,系列データの背景にある確率モデルの構造の変化を検出する手法である.
INAR(Integer Valued autoregressive)過程は整数値を取る定常な時系列過程であり,[1, 2]によってINAR(1)過程に対する変化点検出が提案された.しかし,現実のデータは1時点以上前の過去の情報に依存して観測される場合が多い.本発表では[1]で提案されたINAR(1)過程に対する変化点検出をINAR(p)過程へと拡張し,その有効性をシミュレーションにより確認することで精度を評価する.
泉澤 佑
(白石研M2)
4/25end-to-endな雑談モデルのリアルタイム実装 ~ おもちゃ実装から最先端の話題まで ~近年、機械翻訳や感情分析など自然言語処理において機械学習的なアプローチの有効性が確認されているが、我々人間と会話を行う雑談システムにおいては、多くの課題が残されている。特に、モデルが一貫性のない応答を返したり、"I don't know"など雑な答えを返す傾向が強いこと(Li+ 2016)は大きな問題である。
 Zhang+ (2018)は、この課題を解決するために、雑談用のデータセット PersonaChatを整備した。これは、ランダムな仮想人格(persona)を割り当てられた人間同士が、自分の仮想人格を装いつつ、相手の仮想人格に関心を持ち、質問と応答を繰り返す対話のデータセットである。各対話に明確なゴールは存在しないが、自分の仮想人格に従って多様で一貫した表現を用いることによって、雑談モデルの課題を解決するデータセットになるのではないかと期待されている。
 本発表では、このPersonaChatを題材に、end-to-endな雑談モデルの実装に関して解説し、その特徴や問題点を、最先端の話題を交えつつ、紹介する。今回は誰でもすぐに試せるように、一からの実装を心がけ、また、モバイルCPUでもリアルタイムな訓練と推論が可能となる範囲内での実装を検討する。最後に時間があれば、Byte Pair Encodingを応用した単語辞書の自動生成(Sennrich+ 2016)や、実際の動作結果についても紹介する。
青島 達大
(南研M2)
5/2Solving Estimating Equation via Generalized Random Forest and its application to causal inferenceBreiman(2001)によって提案されたRandom Forestは,統計的学習において広く用いられる手法である.ランダムフォレストによる推定量ついては,近年Wager and Welther(2015), Mentch and Hooker(2016), Wager and Athey(2018)などで漸近的な性質が議論されている.
本発表では,Athey, Thibshirani, and Wager(2019)によって提案されたGeneralized Random Forest(GRF)を紹介する.GRFは,局所モーメント方程式の解として得られるパラメータを,Random Forestをベースにして,ノンパラメトリックに推定するための手法であり,広範な応用が期待される手法である.
当日の発表では,causal inference, estimating equation, random forestなど本発表の背景について簡単に触れた上で,GRFの漸近的性質を紹介し,具体的な応用事例について述べる.
中村 知繁
(南研D3)
5/9①2次元アニメーションの中割り画像生成のための自動対応付け中割りは,アニメーション制作工程の一つで原画と原画の間を補間するような画を描きより滑らかなアニメーションを作る工程である.これを自動で行うためのシステムの開発がなされている.D.Liuらは[1]で自動中割りの際に発生するストロークの対応づけの問題をshape context discriptorに対する多様体学習とhungarian algorithmによって解決する方法を提案した.
本発表では[1]でのアプローチを参考にしつつ、カーネル主成分分析[2]と下限制約付き最小費用流を用いた多対多マッチングによる新たなストロークの対応づけ方法を提案し実際のデータに対して適用した結果を考察する.
童 祺俊
(小林研M1)
5/9②パーシステント図のベクトル化~カーネル法を用いた非線形分析~近年、パーシステントホモロジーはデータの幾何的な構造を捉える手段として、位相的データ解析(TDA)という分野の中核を成す存在となっている。
その表現手段であるパーシステント図(PD)は、パーシステントホモロジー群の変化を可視化する道具として広く利用されているが、PDのみでは平均や分散などといった定量的な解析が難しいことが問題となっている。
本発表では主に[1]を参考に、卒業研究では出来なかった定量的な解析を行うために、カーネル法を導入してPDをベクトル化する手法について説明しつつ、簡単なシミュレーションを行う。
中島 捷
(小林研M1)
5/16①Lévy過程を用いた統計モデリング --損害保険リスクの最適配当問題を目指して--損害保険数理における破産理論(危険理論)とは,保険事業に生じる変動の規模とその規模の特徴を確率論を通して研究する理論である.
20世紀前半にLundberg,Cramérによって創始・確立され,古典的な
Cramér–Lundbergモデル(以下C-Lモデルと記す)が考えられた.
 しかし,実際のクレーム頻度やクレーム額のデータをみると,C-Lモデルでは上手く説明しきれない現象が伺えることが分かっている.
 そこで,C-Lモデルの一般化として,Lévy過程と呼ばれる確率過程のクラスを用いて保険リスクのモデリングを行うことを考える.
 本発表では,[1][2][3]を基に,破産理論の古典的モデリング(C-Lモデル)から
現代的モデリング(Gerber-Shiu関数の解析・最適配当問題 など)への変遷を,理論的側面を中心に説明を行う.
宇野 大我
(白石研M1)
5/16②統計的仮説検定における多重比較法について医学分野において統計的仮説検定は広く用いられている。本発表では、統計的仮説検定における多重比較法の基本的な手法を紹介し、それらを比較する。比較方法として多重比較法における検出力を用いる。伊藤健太
(林研M1)
5/23①自然言語処理による日経平均株価騰落予測「効率的市場仮説」は、株式などの市場価格は過去から未来に関してのありとあらゆる情報が考慮されて決定されるというものである。しかし従来の株価予測に用いる分析は株価の推移や企業の財務状態が主な関心ごとであり、それのみだと一般的なニュースで取り上げられているような新しい情報に対応できない。
このような理由から自然言語処理による株価予測へのアプローチも必要である。今回は[1]で与えられている文書の類似度を計量する手法を用いることで日経速報ニュースの「市場動向」に関する記事のみから終値の騰落予測をすることを考える。本発表では、関連する理論を紹介し実際の解析結果について考察する。
勝山頌一郎
(白石研M1)
5/23②ディリクレ過程を用いた隠れマルコフモデルの次元選択隠れマルコフモデル(HMM)は時系列データの確率モデルとして音声認識等で用いられてきたものであるが,通常の解析では隠れ変数の次元をあらかじめ定める必要がある.本発表ではこの問題を回避する手法として,階層ディリクレ過程をパラメータの事前分布に用いた隠れマルコフモデル(IHMM)について説明する.竹原大翼
(小林研M1)
5/30区間打ち切りデータに対する生存率関数の推定法 生存時間解析で使われる一般的なデータとして、右側打ち切りデータがあげられる。しかし、観察の際に正確な時間が判別できず、ある時刻と時刻の区間の間で興味あるイベントが発生したことのみしか記録できない場合がある。このようなデータを区間打ち切りデータと呼び、生存率関数の推定の際には,右側打ち切りデータとは異なる手法を用いた解析が必要となる。
 本発表では、ケース2区間打ち切りデータに対する生存率関数のパラメトリック推定、EMアルゴリズムを用いたノンパラメトリック推定について述べた後、卒業論文で行ったシミュレーションについて触れる。さらに、ノンパラメトリック推定の際に用いるICMアルゴリズムについて述べ、EMアルゴリズムとの比較を行い、最後にケース1区間打ち切りデータに対するisotonic回帰を用いたノンパラメトリック推定について紹介する。
会田 晴郎
(林研M1)
6/6テスト運用のための基礎知識〜古典的テスト理論から項目反応理論まで〜本発表では学力テストの運用に必要な統計的手法について述べる。まず最初に現在でも広く用いられている古典的テスト理論(Classo also Test Theory:CTT)について述べる。CTTは、観測されるテストの点数を真の学力と誤差に分解するモデルを中心とした理論である。今回はテストの点数と真の学力の分散の比で定義される信頼性係数について重点的に述べる。
次にLord(1952)により提案された項目反応理論(Item Response Theory:IRT)について述べる。IRTのメリットは集団と独立して学力や問題の性質を測定できることにある。しかし、そのためには様々な統計処理が必要である。本発表ではテスト前の予備調査である学力の尺度の次元性の確認から、テスト後に異なるテスト間の比較を可能にする等化について述べる。
最後にIRTにおいてモデルの良さを評価するための、スパースな分割表に対する適合度統計量について述べる。
石川 航作
(林研M2)
6/13癌個別化治療に対する階層ベイズモデルの応用近年癌治療において、抗癌剤などの画一的な治療よりも個々の患者に合わせた治療(癌個別化治療)が行われることが多くなって来ている。それに伴い、臨床試験のデザインや分析手法にも変化が起こり始めている。ベイズモデルを用いた臨床試験継続基準(Bayesian stopping rule)もその一つである。
本発表では、近年癌個別化治療で行われている臨床試験のデザインであるバスケット試験について紹介した後、臨床試験継続基準についてベイズモデル及び階層ベイズモデルを通して腫瘍縮小が起こった患者の割合を表す奏効率の事後分布を求めることで判定する方法を紹介する。
榮 宏晃
(南研M2)
6/20False-Discovery Rate私はメタボロームデータの統計解析を修士課程の研究の目標としている。メタボロームデータの統計解析においては,False-Discovery Rate (FDR) を用いた検定が行われることがある。本発表では,FDRを制御する方法として有名なBenjamini-Hochberg法を紹介した後,この方法によりFDRが確かに制御されることを,Benjamini, Y. and Hochberg, Y. (1995)の示した方法に沿って証明する。小野 あかり
(南研M2)
6/27プロ野球におけるチームの勝率に影響を与える変数の特定現在、MLBや日本のプロ野球ではセイバーメトリクスと呼ばれる、選手データを用いてチーム編成や戦略を考えることが増えてきている。今回の発表では、チームの勝利に貢献してくれる特徴をもった選手を発見するために、ベイジアンネットワークの構造学習で用いられるPC(Peter Spirtes and Clark Clymour)アルゴリズムを用いて解析を行う。また、その為に必要な理論であるベイジアンネットワークについても紹介する。佐久間 亮介
(白石研M2)
7/4擬似値に基づく競合リスクイベントデータ解析における変数選択規準一症例に複数イベントの発生を想定する競合リスクイベントデータ解析においては, 最も興味のあるイベントの発生に影響を与えると考えられる共変量を特定する事に関心が高い. これは, 興味のあるイベント発生確率の予測モデルに含める共変量を選択する, 変数選択問題であると捉えることができる.
本発表では, Andesen et al. (2003) によって提案された擬似値に基づくイベント発生確率の推定法に焦点を当て, 彼らの手法により得られる候補モデルの中から, 最適な共変量の組を含んだモデルを選択するための変数選択規準について考察する. この規準の導出には, 擬似値に基づく推定についての漸近的性質について詳しく調べた Overgaard et al. (2017), および推定方程式に基づく推定に適用できる変数選択規準を提案したPan (2001) が重要である.
当日の発表では, 生存時間解析や競合リスクイベントデータ解析の基礎など本発表の背景について簡単に触れた上で, 擬似値に基づく推定法, および変数選択規準について考察する. また, その規準の有用性を検証した数値実験の結果について報告する.
田島 史啓
(林研M2)
7/18

2017年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2017/9/27ランダムフォレストの解析と因果推論への応用/Analysis of Random Forest and its application to causal inference統計学の応用的側面では,データから処置の因果的な効果を推定することが1つの目標である.健康に関連する結果変数へ薬が与える影響や,広告などの顧客の商品購買への影響などが具体的な例である.

因果推論の基本的な枠組みは,Neyman-Rubin(1978)によって提案された反実仮想結果変数を利用したモデルである.しかし,このモデルを実際に利用する際には,傾向スコアを呼ばれる,ある共変量を持つ個体が処置を受ける確率をデータから推定しなくてはならない.傾向スコアの推定が適切に行われないと,因果効果に対する推定量が不安定になり,適切な推論が行えないことはよく知られている.

傾向スコアに起因する,推定量の不安定性に対する対処は,CBPS(Imai and Ratkovic, 2016)やFull subclassification Estimator(Wang, 2016)などで報告されている.しかし,これらもまた傾向スコアに対するモデリングが適切に行われない限り.推定量が大きなバイアスを持つ.

そこで,本研究ではランダムフォレストを用いて傾向スコアを推定することによって,傾向スコアをノンパラメトリックに推定し,ランダムフォレストを用いた因果効果に対する推定量の漸近的性質を調べている.

今回の発表では,特にランダムフォレストの漸近的性質について紹介し,傾向スコアの推定にランダムフォレストを用いた結果を紹介する.
中村 知繁
(南研D1)
10/4Cox比例ハザードモデルを用いた美容院顧客の来店確率予測Cox比例ハザードモデルを用いることで, 美容院顧客の来店間隔に影響を与える変数の特定や, 来店間隔の予測を行うための方法を説明する.河本 龍一
(南研M2)
10/11長期記憶性を持った高次元ポートフォリオの分散に対する収束性の比較まずはじめに近年ポートフォリオ理論で起こっている高次元問題について紹介し,それに対する解決策であるファクターモデルの概要について説明する.そしてファクターモデルに長期記憶性を仮定した場合,従来の推定量と新たな推定量がどのように定義されるかを紹介する.その後に,それらの推定量が真の値とどの程度近くなっているのかをシミュレーションを行うことで比較する.阿部 貴文
(白石研M2)
10/18一般化モーメント法推定量の性質
まずはじめに,計量経済学で用いられる操作変数法について紹介する.操作変数を用いた推定法にモーメント法がある.モーメント法の過剰識別問題に対して一般化モーメント法を定義する.一般化モーメント法推定量はM推定量として捉えることができることを利用して一致性や漸近正規性を示す.次に漸近分散の最適化,推定法の紹介や検定問題の構成について述べる.樋口 広信
(南研M2)
10/25周辺構造モデルを用いた因果効果の推定はじめに Rubin の因果モデルについて簡単に説明し、傾向スコアや強く無視できる割り当てについて紹介します。
次に、追跡調査研究における因果効果の推定の際の仮定について、有向非巡回グラフ(Directed Acyclic Graph; DAG)を用いながら記述し、Robins et. al.(1995), Robins(1998)が提案した g-formula と 周辺構造モデル(Marginal Structual Models; MSM)について紹介します。
最後に、MSMで推定する際に用いられる仮想母集団(pseudo-population)についての性質を説明します。
長瀬 智大
(南研M2)
11/1木構造モデルのExtreme Multi-Label Classificationへの応用とその改良
近年の機械学習への関心は、情報検索の分野にも広がっている。従来の、特に検索エンジンへの応用は、大量のドキュメントの中から、静的な索引などを用いて上位 K'件を取り出し、機械学習を用いてリランキングをし、目的の上位 K件を返す、2段階の構成を想定しているものが多かった。このリランキングのみならず、システム全体をひとつの機械学習モデルによって実現しようという試みとして、Extreme Multi-Label Classification (XMLC)が挙げられる。2017年現在、木構造モデルを応用したFastXML [Prabhu+ 2014]や、非線形な次元削減を用いるSLEEC [Bhatia+ 2015]、one-versus-restのL2-罰則 L2-SVMを用いるDiSMEC [Babbar+ 2017]などの様々なモデルが提案されている。
 本発表では、はじめに、FastXMLなどのXMLCにおけるモデルや、対象とするデータセットの特徴を概観する。木構造モデルのメリットを活かした、データの可視化の手法についても紹介する。次に、L1-SVCと単純なサブサンプリングにより、精度をそれほど劣化させずに、高速な訓練を可能にし、コンパクトなモデルを構築できることを確認する。最後に、さらなる精度の向上を目指して、ensembleやラベルの分離性能の改良を試みた結果を報告する。
青島 達大
(南研M1)
11/8項目反応理論と因子分析の関係項目反応理論とは心理テストや学力テストの分析に用いられている理論である。一方、因子分析は観測不可能な因子を説明変数として、観測への影響を調べる手法の一つである。今回の水曜セミナーでは歴史的に異なった起源を持つこの二つの分野のモデルが等価であることを示す。
また、具体的な解析例を紹介し、項目反応理論のモデルの良さと因子分析のモデルが等価であることの良さを説明する。
石川 航作
(林研M1)
11/15INAR過程における変化点検出時系列データをモデル化する際、定常性を持つ時系列モデルがよく用いられる。しかし現実に扱う時系列データは定常性を満たさない、非定常なデータである場合が多い。時系列モデルにおける非定常性の問題への対応の一つに変化点検出という手法がある。

本発表では定常な点過程モデルであるポアソンパラメータを持つINAR(Integer Values Autoregressive)過程の非定常モデルへの拡張として変化点の導入を考える。
そのために[1]における変化点検出手法の拡張を提案し、シミュレーションを行うことでその有効性を評価する。
泉澤 祐
(白石研M1)
11/29多重比較における閉検定手順疫学・臨床研究では,複数の処置や薬の用法などの効果を比較するために仮説検定が多く用いられる。
しかし,検定を複数回繰り返すと検定の多重性が生じ,type I familywise error rate (FWER)が
増大してしまうという問題がある。そのため,検定の多重性に対する工夫として多重比較法が多く研究されてきた。
本発表では,多重比較の手順として有名なHolm法と階層手順を紹介した後,これらを包括する
閉検定手順を紹介し,これらの手順がFWERを強い意味で制御することを確認する。

In epidemiological studies and clinical researches, it is common to practice statistical tests
in order to compare the difference between the efficiencies of various treatments or medicines.
However, if statistical tests are carelessly used for many times, there occurs a serious problem
of the inflation of the type I familywise error rate (FWER).
Therefore there have been a number of studies on multiple comparison procedures to solve this problem.

In my seminar, I will first explain Holm procedure and the hierarchical procedure,
then I will show you the closed testing procedure as a generic testing procedure for these two procedures,
and finally I will prove that these procedures strongly control the FWER.
小野あかり
(南研 M1)
12/6条件付き尤度法とケースコントロール研究における応用疫学研究の方法であるコホート研究とケースコントロール研究では疾病と因子の関連を調べるためにロジスティック回帰モデルを導入し、最尤推定法を用いて因子の係数を推定することがある。
しかし、標本数に対してパラメータ数が多い場合、最尤推定法を用いると推定した因子の係数が大きなバイアスを持つことがある。
バイアスを解消するために、推定に不必要なパラメータを消去した尤度関数を構成して最尤推定値を考える方法が条件付き尤度法である。
本発表ではコホート研究とケースコントロール研究について説明した後、ケースコントロール研究においてもロジスティック回帰モデルが用いられることを解説し、条件付き尤度関数について紹介した後、層別解析ではどのように用いられるかを確認する。
榮 宏晃
(南研M1)
12/13有効非巡回グラフによる統計的因果推論強く無視出来る割り当て、傾向スコアによる因果効果の推定はどちらも共変量の影響を排除するものであった。解析にあたっては利用する共変量をどのように選択したらよいかの指針が必要になる。
その役割を果たす1つに因果関係を有効非巡回グラフ(Directed Acyclic Graph:DAG)を使って表記した際、現れるバックドア基準と呼ばれるものがある。
今回の発表では、主に因果関係をDAGを用いて記述する方法、並びにDAGの性質を説明します。
佐久間 亮介
(白石研M1)
12/20擬似値に基づく競合リスクイベントデータ解析におけるモデル選択規準の考察競合リスクイベントデータ解析とは, 一人の症例に起こりうるイベントが複数存在する状況で, 興味のあるイベントの発生に関する統計的推測を行う分野のことである. 特に臨床研究の場面では, 競合リスクイベントデータ解析の手法を用いて, 興味のあるイベントの発生に影響を与えると考えられる共変量を特定することに関心が高い.
 Andersen et al. (2003)は, 興味のあるイベントの発生確率を, 患者の臨床情報を用いて表現するモデルを仮定し, そのパラメータを推定する方法を提案した. 彼らの手法は, 擬似値と呼ばれる擬似的な観測を定義し, その観測に基づいて一般化推定方程式を解くというものであり, 推定量の性質についてはGraw et al (2009)で詳しく調べられた. 今回は, Andersen et al. (2003)の推定法に対するモデル選択規準について考察する.
 本発表では, まず, 競合リスクイベントデータ解析の考え方と目的について述べる. 次に, Andersen et al. (2003)の手法と一般化推定方程式について説明する. 最後に, Andersen et al. (2003)の推定に対するモデル選択規準について考察した内容について説明する. このモデル選択規準は, 一般化推定方程式による推定に対するモデル選択規準を提案したPan (2001) の考え方に基づいて導出される.
田島 史啓
(林研M1)
2018/1/17調査観察研究における差分の差推定量アメリカにおいて,1962年に新しい職業訓練プログラムが開始され,以降,1972年,1982年に新しい訓練プログラムに置き換えられた.その際,議会により明確な実験的根拠なく新しいプログラムの有効性が主張されたことが問題視され,これらの訓練プログラムの効果に対する研究,分析が多数行われた.
 その内の一つとして,Ashenfelter and Card (1985)
による差分の差を用いた分析が有名である.しかしながら,(単純な)差分の差を用いるには,処置群と対照群の時間変化が等しいという「平行トレンドの仮定」が必要であり,一般に処置群と対照群の共変量が異なる調査観察研究において,平行トレンドの仮定は現実にそぐわない場合も多い.これに対しAbadie
(2005)は,調査観察研究において平行トレンドの仮定と比較してより現実的な仮定のもと,傾向スコアを用いて重み付けした差分の差により処置群における処置効果を推定する方法を提案している.
 本発表ではまず,単純な差分の差のアイデアと平行トレンドの仮定が満たされないような場合の説明を行う.その後,Abadie
(2005)に基づき,平行トレンドの仮定が満たされない場合の処置群での平均処置効果の推定について説明する.
米山 慎太郎
(南研M1)

2017年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
4/12全体顔合わせなし
4/19統計的因果推論の基礎とその拡がり本セミナーでは「統計的因果推論」と呼ばれる分野について扱います.
発表の前半では,統計的因果推論の基本的な内容について,具体例を交えながらお話します.具体的には,強く無視可能な割り付け,傾向スコアを用いた因果的効果の推定についてです.
発表の後半では,強く無視可能な割り付けが成立するための共変量の選択に関連する概念であるバックドア基準(Pearl, 1995)を具体的な例を交えながら紹介する予定です.また,傾向スコアに対する変数の選択を多少を誤った場合でも傾向スコアを安定的に推定する手法であるCovariate Balancing Propensity Score(Imai and Ratkovic, 2014)についても触れる予定です.
中村知繁
(南研D2)
4/26周辺構造モデルを用いた因果効果の推定まずはじめに Rubinの因果モデル について簡単に説明し, 傾向スコアや強く無視できる割り当てについて紹介します.
次にRobins(1998)が提案した周辺構造モデル(Marginal Structural Model; MSM)を用いた, 繰り返し観測による追跡調査データに対するアプローチを紹介します.
また, 一般化推定方程式と関連のある repeated-measure MSM について簡単に触れた後, Robins が提案している stabilized weight についてのシミュレーション結果を報告します.
長瀬智大
(南研M2)
5/10Gradient Boostingのコンピュータセキュリティへの応用本セミナーでは、システムコール列のリアルタイム分析を用いた、コンピュータセキュリティについて考える。
はじめに、現代のコンピュータセキュリティにおいて、統計的な手法が必要とされている背景を説明し、統計的な問題としての定式化を行う。
次に、Gradient Boostingを用いれば、多様なモデルを統一的に構築できることを示す。この枠組みを用いて、システムコール列などの離散系列データ特有の問題点を解決するために、階層クラスタリングを用いたLogistic Boostingである階層Logistic Boostingを提案する。
提案手法の評価を実データを用いて行い、提案手法が最良といえる性能を示したことを確認する。さらに、提案手法が学習した正常なシステムコール列の特徴や、実際に検知した異常の特徴について考察する。
青島達大
(南研M1)
5/17ハザード関数のセミパラメトリック推定・生存時間解析について簡単な説明
・Cox回帰モデルについて
・ハザード関数のセミパラメトリック推定
・多発性骨髄腫患者の生存時間データの解析
・前立腺癌における2つの治療法の比較
河本龍一
(南研M2)
5/24ファクターモデルによる高次元ポートフォリオの分散の収束性まずはじめに近年ポートフォリオ理論で起こっている高次元問題について紹介し,それに対する解決策であるファクターモデルの概要について説明する.そしてファクターモデルを用いた場合のポートフォリオの分散と標本分散共分散行列を用いた場合のそれの分散を比較する.阿部文貴
(白石研M2)
5/31操作変数と一般化モーメント法本発表では操作変数とそれを用いた解析手法について紹介し、その拡張として一般化モーメント法を紹介する.
操作変数法は結果に対する処置の効果を推定する際の問題点である効果観測できない共変量の効果を調整する方法として以前から計量経済学を中心に用いられてきた解析手法である.
パラメータの推定量を構成するモーメント法はパラメータの識別問題があり、一般化モーメント法はこの識別問題を考慮してパラメータの推定量を構成する.
樋口広信
(南研M2)
6/7マーク付き多次元Hawkes過程によるシステミックリスク評価リスク管理において、システミックリスクの定量化は重要な事柄である.システミックリスクの顕在化は金融システムの脆弱性によるものとされ、脆弱性が悪影響の波及を引き起こす。金融システムでの波及を評価することが、システミックリスクの評価のために必要となる。本発表では、金融システムの脆弱性による悪影響の波及をHawkesグラフにより可視化する。そしてマーク付き多次元Hawkes過程を用いたモデルによりシステミックリスクを定量化する。泉澤祐
(白石研M1)
6/14Mann-WhitneyのU検定とU統計量Mann-WhitneyのU検定は,仮説検定のノンパラメトリック法のうち最も基本的な検定方法の一つである。このU検定に用いる検定統計量Uは漸近正規性を持つが,Mann-Whitneyの与えた証明は複雑である。そこで,本発表ではMann-Whitneyの検定統計量Uをより一般的なU統計量として考えることで,Mann-Whitneyの検定統計量が漸近正規性を持つことを示す。小野あかり
(南研M1)
6/21①フラミンガム研究とロジスティック回帰モデルフラミンガム研究は冠状動脈性疾患の原因を探索するために行われた研究である。その際、ロジスティック回帰モデルを用いて解析し最尤推定量を推定して疾患の原因を考えている。本発表ではフラミンガム研究及びロジスティック回帰モデルとその性質について説明し、Truettのフラミンガム研究についてのデータも参照して考察する。榮宏晃
(南研M1)
6/21②ロジスティック関数を用いた項目反応モデルの推定方法について本発表では学力テストや心理テストなどの分析に用いられる項目反応理論について紹介する。具体的にはロジスティック関数を用いた項目反応モデルの複数の推定方法を紹介し、それぞれの推定量について性質を述べる。石川航作
(林研M1)
6/28①生存時間解析における擬似値を用いた生存確率の推定臨床研究では、患者の臨床情報をもとにその予後を予測することに関心が高い。患者の予後を患者の生存確率として解釈した場合、その患者の臨床情報を用いて生存確率を表現するモデルを考えるのが自然である。このモデルのパラメータを推定する方法として、Anderson et al. (2003)は擬似値を用いた推定法を提案した。擬似値は、生存関数の推定量であるKaplan-Meier推定量を用いて定義されるため、擬似値の漸近的な性質はKaplan-Meier推定量の漸近的な性質と関係している。
まず本発表では、生存時間解析におけるマルチンゲール理論を用いて、Kaplan-Meier推定量の一致性を示す。次に、Kaplan-Meier推定量により定義される擬似値を用いた生存確率の推定法について述べる。最後に、Rのサンプルデータを用いた擬似値の計算結果を示す。
田島史啓
(林研M1)
6/28②因果推論の基礎社会科学などのヒトが対象の研究においては無作為割り当てが出来ない場合が多く、その場合は共変量の影響を除いて因果効果を推定する必要がある。「強く無視できる割り当て」条件が成り立っている下では、因果効果を推定出来ることを示し、その方法をいくつか紹介する。その後、複数の共変量を1変数に纏めた傾向スコアを用いたIPW推定量が優れた推定量であることをシミュレーションによって確かめる。佐久間亮介
(白石研M1)
7/5因果推論あらまし本研究室で多くの先輩方が研究をしている因果推論の枠組みについて,基礎的な部分を確認する.本発表では,「強く無視できる割り当て」の意味,「傾向スコア」を用いた解析の利点,「マッチング」「層別解析」とは何か,「IPW推定量」の一致性,「パス解析」とは何か,「パス係数」の意味,などを示す.米山慎太郎
(南研M1)
7/19状態空間表現を用いた水無川の出水構造分析まず研究背景として,学校法人自由学園那須農場で観測されたデータの紹介,特徴を説明する.次に状態空間モデルを導入し,カルマンフィルタ・粒子フィルタ,パラメータ推定について紹介する.最後に,実際にデータに対して状態空間モデルを適用した場合と,ロジスティック回帰モデルを適用した場合とを比較し考察を述べる.酒井優行
(南研M2)

2016年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
9/28M,Z推定量の一致性と漸近正規性について推定量の枠組みとしてM推定量やZ推定量がある。
M,Z推定量はIPW推定量やDR推定量、セミパラメトリックモデルなどに広く応用できる概念である。
今回の発表ではM,Z推定量の一致性とそれに関する定理の紹介、漸近正規性の概要について述べる。
樋口広信
(南研M1)
10/5生存関数のノンパラメトリック推定生存時間解析の目的、条件の違いにより生存時間に差が生じることを視覚的に判断する方法について説明します。河本龍一
(南研M1)
10/12高次元におけるポートフォリオ理論ポートフォリオ理論とは投資家が投資を行う際,自身の収益率を高めるためにはどのように最適化すればよいかを決定するための理論である.しかし,高次元下では大標本漸近理論での近似が悪くなってしまうことが知られている.本発表ではそのような状況下で考えられた理論をいくつか紹介する.阿部文貴
(白石研M1)
10/19擬似尤度と一般化推定方程式最尤法は分布の仮定が必要だが, 擬似尤度法は平均と分散の関係だけを仮定することで計算できる. 擬似尤度関数はスコア関数と類似した性質をもち, 指数型分布を仮定したとき, 擬似尤度はその分布の尤度関数になる. 擬似尤度の最大化によって得られる推定量はFisherのスコアリングを用いて計算することができる.
同一被験者の繰り返し観測によって得られるデータを縦断的データと呼ぶ. 一般化推定方程式はこの繰り返し観測間の相関を考慮して定義された推定方程式である. 式は擬似尤度と類似するが, 相関を考慮している点で異なっている. 一般化推定方程式の解として定義される推定量は, 一定の条件を満たすことで漸近正規性などの性質をもつ.
本発表では, まず計数データをポアソン回帰したときと擬似ポアソン回帰した場合の例において, それぞれの回帰の結果の違いについて述べ, 擬似尤度の定義と性質について紹介する. 次に縦断的データについて説明し, 一般化推定方程式の定義と性質を述べる.
長瀬智大
(南研M1)
10/26多地点情報を用いた 年最大降水量データ解析年最大の日降水量など、データの中でも極端に値の大きいものに対するアプローチとして極値統計学がある。
しかし年最大値は1年につき1つの値しか取れないため、1地点の観測値ではモデルに取り入れることのできる
情報が少なくなってしまう。
春学期の発表では各観測地点のデータを独立と仮定し、複数地点のデータを取り入れたモデルを考えたが、
今回は多変量極値分布に空間統計学の考え方を取り入れた、max-stable processを用いて観測値の相関を考慮した場合のモデルを考える。
本発表ではmax-stable processの理論を紹介し、実際のデータの解析結果として関東平野における年最大日降水量データに適用した結果を示す。
また春学期に解析した神奈川県の降水量データについてのアプローチについても、この枠組みで改めて検討をした結果を示す予定である。
樫山文音
(南研M2)
11/2離散・連続混合変数を含む欠測データのためのセミパラメトリック多重代入法の提案多くの研究分野において欠測データへの対処は重要であり、これを正しく扱わない場合、誤った推論を行う可能性を孕んでいる。近年、欠測データ解析には多重代入法が多く利用されるが、これは欠測を含む変数の同時分布を仮定する必要があり、連続・離散変数が混在している場合は通常利用が困難である。そこで本研究ではディリクレ過程混合モデルによる表現を利用することで、セミパラメトリックな多重代入法を提案する。ここでは、関心のない母数を持つ欠測変数の同時分布モデルには、ディリクレ過程混合モデルによるノンパラメトリックモデルを用い、関心のある母数の推定にはパラメトリックモデルを用いることで、セミパラメトリックモデルとしての表現を行うことができる。これにより、欠測を含む変数に連続・離散変数が混在している場合でも、欠測値の発生と母数の推定が可能であり、正しく欠測データの推論を行うことができる。加藤諒さん
11/9非負値行列分解(NMF)の数理的側面について行列分解による次元縮約を利用した特徴量抽出のための手法のひとつに非負値行列分解(NMF)がある。このNMFは解析対象となるデータの行列が非負であるという制約を課すものの、実社会における多くのデータを解析の対象とすることが可能な上、実装と解釈の容易さから近年注目を集めている。
本発表では最初にNMFの概要を改めて見ていくことにする。その上でNMFに対して数理的な解釈を試みる。
早瀬亮
(南研M2)
11/16MCMCを用いたリスク寄与度の計算金融リスク管理において、リスク寄与度(Risk Contribution)の計算は重要である。しかしながら、その計算においては、従属性のある確率変数の和に基づいたRare eventを扱う必要があるため、大きな困難が伴う(Tasche, 2009)。

本発表では、リスク尺度にValue-at-Riskを用いる場合に、リスク寄与度を効率的に計算する方法として、マルコフ連鎖モンテカルロ法(MCMC)を用いた手法を提案する。

特に、リスク管理においてしばしば用いられる裾の重い分布に対して、良い性質を持つMCMCについて考察を行う。
小池孝明
(南研M2)
11/23最適配当境界のノンパラメトリック推定保険会社の破産リスクに関する理論の応用として, 会社の余剰資本(サープラス)がある境界を上回ったときに, その部分を株主に返還する配当の問題がある. 配当の支払われやすさと破産時刻にはトレードオフの関係があり, 最適な配当境界を求めることに関心がある. ここでの最適とは, 破産時刻までに支払われる配当金の現在価値の期待値を最大化するものとして与えられる.
本発表では配当の考え方を導入した場合の余剰資本の増減を表すモデルについて説明し, 上で述べた指標をもとにして得られる最適な配当境界の推定量をM-推定量の考え方に基いて構成する. M-推定量で主に問題となるのは一致性, 収束レート, 漸近分布であるが, 今回はそのうちの一致性と収束レートについて考える. このとき特に関心があるのは目的関数の一様収束性であり, それはGlivenko-Cantelliの定理を用いることによって解決することができる. Glivenko-Cantelliの定理にはいくつか種類があるが, 今回はブラケット数に基づくものを紹介し, それを用いた証明の概要を説明する. 最後にいくつかのシミュレーション結果を示す.
大石惇喜
(白石研M2)
11/30VARを用いた将来死亡率予測将来死亡率予測は、食糧問題や年金財政問題などを考える際の重要な課題の一つである。
本発表では、まず春学期にも説明させていただいた現在最も広く使われている将来死亡率予測モデルである Lee-Carter モデルの説明を行う。
そして、 VAR モデルを用いて各地域における死亡率推移の従属性を考慮したモデルについての考察を行う。
最後に、実データを用いた簡単な解析結果を示す。
系行健
(白石研M2)
12/7高次元における有効フロンティアの統計的推定ポートフォリオ理論は、リスク回避的な投資家が分散投資を行い、自身のポートフォリオにおいてポートフォリオ収益率を高めるためには、どのように最適化すればよいかを決定するための理論である。実際には、資産のリターンはランダムな変数であり、どのような平均と分散をもつ分布に従っているかは未知であるため、サンプルから推定することを考える。しかし、近年の株式市場などでは、市場の規模が大きくなっており、分散投資する資産の数が膨大となっているため、高次元データにおける解析を考える必要性が主張されている。

本発表では、ポートフォリオによる実現可能領域の左側境界を表す有効フロンティアについて、高次元の仮定のもとでの漸近的挙動を調べ、統計的推定を考える。また、それらに関してシミュレーションを行う。
岡紘之
(白石研M2)
12/14状態空間モデルを用いたサッカートラッキングデータの解析世界的にメジャーなスポーツではゲームに関する詳細なデータを記録し、解析して個人のプレーやチーム戦術
の改善に活かそうという試みが活発になっている。サッカー(フットボール)も同様で現在ではJリーグでも
トラッキングデータと呼ばれる選手とボールの位置情報を記録し解析することが行なわれている。
今回はこのサッカートラッキングデータを用いて時点毎に次のプレーでどのくらいピンチに陥る可能性があるのか、
すなわち失点リスクの推定というテーマで解析を行った。
具体的には、失点リスクがトラッキングデータを基にした特徴量に影響を受けると仮定してモデル化し、
状態空間表現を用いて影響推定を行った。
本報告では、データの概要、非線形非正規を仮定した場合の状態空間モデルの状態推定アルゴリズムの紹介、
そして解析結果について発表する。
酒井優行
(南研M2)
12/21PITCHf/xデータを用いたストレートの変化量と空振りの定量的分析現在、メジャーリーグにおいては投球に対するトラッキングシステムであるPITCHf/xが普及し、蓄積したデータの解析が盛んに行なわれ科学的な見地から選手の評価がなされている。今回はPITCHf/xデータを用いたストレートの変化量と空振りとの関連性の分析について発表を行う。ノビとは空振りしやすいストレートに対して用いられる言葉であり、ノビのあるストレートは初速と終速の差が小さいという定説が存在する。しかし、ロジスティック回帰分析の結果から定説とは逆の関係が得られたため、球速差ではなく変化量に着目した解析を行った。ここで、ボールの変化量に関しては縦と横の二方向で定義されており、それらの変数と空振りとの関係性を解析するためにスプライン平滑法を用いた推定を行った。また、PITCHf/xから得られるデータを用いてボールの質と空振りとの関連性を分析したが、各投手ごとのフォームや持ち球がストレートの打ちづらさに関係しており、それらを変量効果を用いて評価した。永田大貴
(南研M2)
1/11保険会社における最適配当境界の統計的推定保険には会社を運営するにあたって、被保険者から集めた保険料と実際に運営に使われた経費との差額を被保険者に返金する「配当」という仕組みがある。
今回の発表では累積保険金額が複合ポアソン過程、ブラウン運動に従うことを仮定して最適配当境界(会社が破産するまでに支払われる配当期待値現価が最大となる配当境界)を求める。さらに、その最尤推定量を求め、統計的性質を考える。
八木彰子
(白石研M2)
1/18CBPSを用いたスクイズ作戦の因果効果の推定本発表では,Covariate Balancing Propensity Score(CBPS; Imai and Ratkovic, 2014)を用いて,野球におけるスクイズ作戦が得点に与える影響を解析した結果を報告する.
発表では,まずCBPSの考え方の基本について触れたあと,シミュレーションを通してCBPSが,傾向スコアを推定する際のモデルに誤特定がある場合にも結果を安定して推定できることを確認する.その上で野球におけるスクイズ作戦が得点する確率に与える影響をCBPSを用いて推定した結果を報告する
中村知繁
(南研D1)

2016年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
4/13全体顔合わせなし
4/20デンドログラムの並べ替え検定と木測地距離空間日本人英語上級者30 名,英語母語話者30 名の各被験者に,「封筒の中にある50 個の英単語をあなたが考える意味のまとまりにグループ分けしてください.」という指示を与える.
本研究の目的は,そのような実験の結果得られたデータに対して英語母語話者と日本人英語上級者の心内辞書(mental lexicon)の相違を明らかにすることであり,心内辞書が木構造(デンドログラム)によって表されるという仮定の下に並べ替え検定による解析手法を提する.また,その理論的妥当性を評価する.
一方,デンドログラム間の距離には通常のフロベニウスノルムに加えて,木測地距離を用いる.木測地距離空間(Tree Space)は主に遺伝系統樹分析の理論研究者により研究されてきた.本発表ではそれを紹介するとともに,デンドログラムの並べ替え検定への応用について議論する.
小林景先生
4/27因果推論の枠組みと,犠牲バントの有効性の解析因果推論は,疫学やマーケティングをはじめとする分野において,近年注目を集めている,処置の結果に対する因果効果を推定するための手法である.
本発表では,このような因果推論の枠組みを例を交えて紹介した上で,因果推論の枠組みを,野球における犠牲バント戦術の解析に応用した結果を報告する.
また,時間が余れば,用いた手法の理論的な側面についても詳しく紹介する.
中村知繁
(南研D1)
5/11那須気象データの紹介と状態空間モデルの基礎①那須気象データの紹介
まず、今年1月に発表予定だった内容について発表する。
学校法人自由学園は、栃木県那須塩原に酪農農場を保有しており、1942年〜1998年まで様々な気象データを観測していた。
観測における主な目的は、隣接する一級河川(蛇尾川:サビガワ)による水害の防止であった。本報告では、農場が抱えてきた課題や蛇尾川の特徴、データの紹介を行う。
②状態空間モデルの基礎
状態空間モデルの基礎について発表する。
時系列解析において主たる目的は、データから時系列に関連する構造を理解することや過去のデータから未来のデータを予測することにある。しかしデータに欠測値が含まれる場合一般的に知られているARIMAモデル等では適用が容易ではないことがわかっている。
一方、状態空間モデルの枠組みでは欠測値が含まれていても適用が容易であり、かつモデルの柔軟な表現が可能なため多くの分野で応用がなされている。
本報告では、状態空間モデルの中でも最もシンプルなローカル・レベル・モデルに焦点を当て状態空間モデルの基礎的な考え方を紹介する。
酒井優行
(南研M1)
5/18多変量2値分布におけるprincipal pointsの近似解法について近年、principal pointsに関する研究が数多く展開されている(例えば、Flury,1990; Yamamoto and Shinozaki, 2000; Matsuura and Kurata 2011)Principal pointsとは、与えられた確率分布を、ユークリッド距離の期待値に基づき、k個の領域へと最適に分割した時の代表点として与えられている(Flury, 1990)。
本研究では、 多変量2値分布におけるprincipal pointsを離散最適化問題として定義する。さらに、その劣モジュラ性(離散最適化問題における凸性にあたる性質)を示し、解の最適性の保証つき近似アルゴリズムを提案する。さらに、その適用例を示す。
山下遥さん
5/25欠測のある生存時間解析とマーケティングへの応用生存時間解析は、医学統計や生物統計などに加え、経済学やマーケティングなどの社会科学分野でもよく用いられている。中でも、医学分野における通院間隔や、マーケティングにおける購買間隔などの、同一サンプルに対して複数回のイベントが得られている生存時間解析を「繰り返しのある生存時間解析」などと呼ぶことがある。本研究では、繰り返しのある生存時間解析において、中間に欠測するイベントのある状況に対応したモデルを提案する。中間に欠測するイベントがある場合、観測される間隔は複数イベントの間隔が積み上げられたものとなり、そのデータを用いた解析結果は推定値にバイアスが生じる。そこで、このようなデータに対して欠測データ解析の枠組みを用いてバイアスを除去しつつ、正しい推定値を得るためのモデルを提案する。さらに、提案モデルをマーケティングデータに応用する。
当日は、上記の研究内容を中心としつつ、関連する生存時間解析や欠測データ解析、マーケティングにおける間隔モデル、実データ解析について紹介する。
猪狩良介さん
6/1Computation of Risk Contributions using MCMC on VaR-Fiber金融リスク管理において、ポートフォリオ全体のリスクはEconomic Capitalによって測定される。
Economic Capitalの計算は、ポートフォリオのリスク管理における最初のステップであり、リスクのより細かな分析のためには、Economic capitalをサブポートフォリオや単一のエクスポージャーに分解することが必要である。
このように、全体のリスク量を単一リスクに割り当てることをRisk Allocationといい、分配されたリスク量はRisk Contributionと呼ばれる。
Risk Contributionsの導出法はTasche(1999)により確立されたが、その量の具体的な算出は非常に困難である。
本発表では、特に算出が困難と言われる、リスク尺度としてValue-at-Riskを用いる場合のRisk Contributionsの算出に関して、MCMCを用いた計算アルゴリズムを提案する。
特に、リスク管理において典型的である裾の重い分布に照準を合わせたアルゴリズムの構築を行い、シミュレーションによりアルゴリズムの有効性を確認する。
その後、Kamatani(2014, 2016)と同様のアプローチにより示される、エルゴード性に関するいくつかの結果を紹介する。
小池孝明
(南研M2)
6/8高次元の下での有効フロンティアの統計的推定ポートフォリオ理論は、リスク回避的な投資家が分散投資を行い、自身のポートフォリオにおいてポートフォリオ収益率を高めるためには、どのように最適化すればよいかを決定するための理論である。 実際には、資産のリターンはランダムな変数であり、どのような平均と分散をもつ分布に従っているかは未知であるため、サンプルから大標本漸近理論を用いて推定することを考える。しかし、近年の株式市場などでは、市場の規模が大きくなっており、分散投資する資産の数が膨大となっているため、高次元データにおける解析を考える必要性が主張されている。
本発表では、ポートフォリオによる実現可能領域の左側境界を表す有効フロンティア内のパラメータについて、高次元の仮定のもとでの漸近的挙動を調べる。その後、高次元の下での有効フロンティアの統計的推定を考える。また、それらに関してシミュレーションを行う。
岡紘之
(白石研M2)
6/15非負値行列分解(NMF)を用いた糖鎖解析行列分解による次元縮約を利用した特徴量抽出のための手法のひとつに非負値行列分解(NMF)がある。
このNMFは解析対象となるデータの行列が非負であるという制約を課すものの、実社会における多くのデータを解析の対象とすることが可能な上、実装と解釈の容易さから近年注目を集めている。
本発表では前半にNMFの概要説明を行う。後半では糖鎖データについてその紹介とともにNMFによる解析結果を示す。
早瀬亮
(南研M2)
6/22最適配当境界の統計的推定保険会社の破産リスクに関する理論の応用として, 会社の余剰資本(サープラス)がある境界を上回ったときに, その部分を株主に返還する配当の問題がある. この配当境界と破産時刻にはトレードオフの関係があり, 最適な配当境界を求めることに関心がある. ここでの最適とは, 破産時刻までに支払われる配当金の現在価値の期待値を最大化するものとして与えられる.
本発表では余剰資本の増減を定式化し, そこに配当の考え方を導入したモデルについて説明する. さらに上で述べた指標をもとにして得られる最適な配当境界の推定量をM-推定量の考え方に基いて構成し, その一致性, 漸近正規性について考え, 最後にいくつかのシミュレーション結果を示す.
大石惇喜
(白石研M2)
6/29極値統計学を用いた年最大日降水量データ解析自然災害、異常気象が発生するときの気象データは観測されているデータの中でも極端に大きい値や小さい値であることが多い。
一般的な統計学ではこのようなデータは外れ値として扱われることが多いが、災害の発生時のデータを扱うときには
この外れ値に注目しなければならない。
そのようなデータに対して適用することができるものに極値統計学がある。
本発表では、まず昨年秋のセミナーでも取り上げた単変量に対する極値統計学の理論とモデルの推定について紹介する。
次に今、私が研究で行いたいと考えていることについて簡単に紹介し、その最初のステップとして神奈川県で観測された
実際の年最大日降水量データを解析した結果を示す。
最後に今後の研究で用いる理論・手法について簡単に紹介する予定である。
樫山文音
(南研M2)
7/6保険会社における最適配当境界の統計的推定保険には会社を運営するにあたって、被保険者から集めた保険料と実際に運営に使われた経費との差額を被保険者に返金する「配当」という仕組みがある。
今回の発表では累積保険金額が複合ポアソン過程、ブラウン運動に従うことを仮定して最適配当境界(会社が破産するまでに支払われる配当期待値現価が最大となる配当境界)を求める。さらに、その最尤推定量を求め、統計的性質を考える。(複合ポアソン過程に従う場合)
八木彰子
(白石研M2)
7/13MLBトラッキングデータを用いた捕手のフレーミング評価法について現在、アメリカにおいてはスポーツにおけるデータの蓄積・解析が盛んに行われている。今回、野球におけるトラッキングデータに着目し、統計的な解析を行い捕手のフレーミングという技術の評価を目指した。野球におけるトラッキングシステムとは、球場内に設置された複数台のカメラからボールの軌道や速度を計測するものであり、その代表的なものにPITCHf/xがある。今回はボールのホーム到達時座標データに着目し、ロジスティック回帰を用いた解析を行った。各投球がストライクと判定されるか否かについての確率の評価を行うため、それらの位置データ対してスプライン関数を適用し、推定された確率と実際の判定との差を考えることにより捕手の貢献度を図る。また、ストライク判定に関わるであろう要因を変量効果パラメータとしたモデルに拡張を行い、それらの要因を調整することでフレーミングの評価を行った。永田大貴
(南研M2)
7/20時空間データを用いた死亡率の将来予測(各国ごとの)将来の死亡率を予測することは、食糧問題や保険料設定などのために重要な要素の一つである。その古典的な予測モデルとして、Lee-Carterモデル(Lee and Carter, 1998)が知られている。今回の発表では、Lee-Carterモデルの紹介および、その枠組みを用いたモデルの拡張について考察を行う。系行健
(白石研M2)

2015年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
9月30日ゲノム研究における多重比較と最近の話題についてゲノム研究では,同時観測された大量の遺伝情報を解析対象とします.例えば,マイクロアレイでは異なる条件下で遺伝子発現のようすを同時観測し,数万の候補の中から発現変動する遺伝子を見つけ出します.一塩基多型を測定するSNPチップではさらに多い数百万座位が候補となり,健常者と疾患罹患者のデータから疾患関連遺伝子を探索します.
それぞれの群間の違いは仮説検定によって評価することが求められますが,候補の数だけ繰り返される検定によって生じる誤りを正しく評価することも必須です.
本発表では,ゲノム研究でよく利用されるふたつの誤り指標(FamilyWise Error RateとFalse Discovery Rate)をその制御手法とともに紹介します.また,ゲノム研究成果を利用した商用サービスなど,より身近になりつつあるゲノム研究の最近の話題についても紹介する予定です.
菅谷 勇樹
(株式会社スタージェン 遺伝統計解析事業部)
10月7日最適配当境界の統計的推定保険会社の破産リスクに関する理論の応用として, 会社の余剰資本(サープラス)がある境界を上回ったときに, その部分を株主に返還する配当の問題がある.
今回の発表ではまず配当がある場合とない場合のサープラス過程をそれぞれ説明し, その上で累積配当金現在価値の期待値が最大となるように最適配当境界を定義する.
その後, 最適配当境界が満たす等式を用いてその表現を説明し, リサンプリングをもとに構成した推定量について, 漸近的性質を考える.
大石惇喜
(白石研M1)
10月14日極値統計学
入門
金融市場における変化や,自然災害の発生など私たちに大きな影響を与えるものは,観測されているデータのうち極端に大きい値や小さい値を取ったときに起こることが多い.そのようなデータに対して適用することができるものに極値統計学がある.
今回は極値データの捉え方なども含め,極値統計学の基礎的な部分を紹介する.発表では,まずどのようなデータが極値統計学で扱われているのかを具体的な例を示しながら紹介する.その後,一般極値分布(Generalized Extreme Distribution)を中心に理論的な部分を紹介する.
樫山文音
(南研M1)
10月21日遺伝子研究における差の検定とCancer Outlierについて近年マイクロアレイに代表される技術によって大規模データが生み出され,膨大な量の遺伝子を同時に調べることができるようになった. その際,がん関与遺伝子の候補として発現量が高いもの(もしくは低いもの)を探すのだが,その指標として用いられるものに統計量がある. 本発表ではいくつかの遺伝子研究に用いられる統計量の紹介を行うとともに,発展的な内容としてCancer Outlierについて解説を行う.早瀬亮
(南研M1)
10月28日高次元の下での有効フロンティアの統計的推定ポートフォリオ理論は、リスク回避的な投資家が分散投資を行い、自身のポートフォリオにおいてポートフォリオ収益率を高めるためには、どのように最適化すればよいかを決定するための理論である。 実際には、資産のリターンはランダムな変数であり、どのような平均と分散をもつ分布に従っているかは未知であるため、サンプルから大標本漸近理論を用いて推定することを考える。しかし、近年の株式市場などでは、市場の規模が大きくなっており、分散投資する資産の数が膨大となっているため、高次元データにおける解析を考える必要性が主張されている。
 本発表では、ポートフォリオによる実現可能領域の左側境界を表す有効フロンティア内のパラメータについて、高次元の仮定のもとでの漸近的挙動を調べる。その後、高次元の下での有効フロンティアの統計的推定を考える。
岡紘之
(白石研M1)
11月4日ファクターモデルにおけるファクターの推定量およびその性質現在 , 金融政策の決定などのために , 数年後の「インフレ率」「産出量成長率」などを予測することが求められている . しかし , 予測に利用する経済変数は「貨幣残高」「株価」「商品価格指標」「失業率数」など数 100 種類に及び , どれが良い変数なのか自明ではない . Stock and Watson(2002) は , 多くの経済変数から , 少ない数の共通変動 (factor) を抽出し予測に利用する factor model を提案した .
今回の発表では , Stock and Watson(2002) の提案する factor の推定および推定量の一致性について説明を行う予定である .
系行健(白石研M1)
11月11日一般化加法モデルを用いた、メジャーリーグトラッキングデータにおけるフォーシームの定量的分析現在、プロ野球リーグにおいて様々なデータ蓄積が行なわれている。特にメジャーリーグにおいてはセイバーメトリクスが発展しており、蓄積したデータの解析が盛んに行なわれ、科学的な見地から戦術解析や選手評価がなされている。今回の発表においては、投球の速度や軌道を計測するPITCHf/xシステムによって得られるデータ(トラッキングデータ)について簡単な説明を行った後に、ストレートのノビに着目し、空振りが取れるストレートとはどのようなものか考えたい。また定量的な分析を行うモデルとして一般化加法モデルを導入し、解析結果を示す。最後に、実際の2投手におけるストレートの比較を行い、両者のストレートがどの程度コンタクトしにくいボールなのかを考える。永田大貴(南研M1)
11月25日ROC曲線に基づいた統計モデルの評価・比較ROC曲線(受信者動作特性曲線)による解析は,生存/死亡など二値応答に関する統計モデルの「よさ」を評価するための方法である.ROC解析は,バイオマーカ―の評価やスクリーニング検査の精度評価など臨床医学において頻繁に利用されている.また,機械学習における教師あり学習においても,応用例がみられる.本発表では,ROC曲線の基本的な事項の理解を目指す.林賢一(教員)
12月2日統一的2値判別モデルに対する加速近接勾配法機械学習分野における様々な2値判別モデルに対して、汎用的かつ高速なアルゴリズムを提案した研究[1]について紹介する。 2値判別問題とは、与えられたサンプルが2つのクラスのどちらに属するかを予測する問題である。その予測の方法を最適化問題として記述したものが2値判別モデルであり、サポートベクターマシン(SVM)を始めとして多くのモデルが提案されている。高い予測精度を達成するためには、与えられたサンプル集合に対して最も当てはまりのいいモデルを選択することが重要である。モデルの当てはまりを比較するためには、実際に様々なモデルを解く必要があるため、それらの効率的な解法が必要となる。 従来は、各モデルに特化した効率的な解法/ソフトウェア (SVMに特化したLibLinearなど) が利用されてきたが、もし様々なモデルを統一的に扱える高速な解法があれば、より柔軟にモデル選択を行うことができる。本研究では、様々な2値判別モデルを統一的に記述したモデル[2] に対して、高速な解法を提案する。提案手法は、加速近接勾配法[3]をもとに様々な高速化の工夫を取り入れて設計した。数値実験では具体的にSVM等のモデルに対して、既存解法と提案手法を比較し、提案手法の大規模データでの優位性を示した。伊藤直樹(東大D1)
12月9日共変量欠測に対する回帰代入法の課題とその修正法大気中のPM2.5をはじめとする微小な粒子状物質の人体への影響が,近年憂慮されている.微小粒子状物質の人体への影響を調べるためには,コホート調査によって得られたデータと,コホート調査地域において観測された微小粒子状物質の大気中濃度突合して解析する必要がある.しかしながら,コホート調査地域における微小粒子状物質の観測は十分に行われておらず,ヨーロッパでの調査(ESCAPE PROJECT)においては,微小粒子状物質の未観測地点の濃度を,回帰代入法を用いて補完し解析を行っている.本発表ではまず,一般化線形モデルとM推定量とZ推定量の基本的な性質を述べる.その後に,回帰代入法を用いて解析する場合の課題と修正法を,正規線形モデル,ポアソン回帰モデルの枠組みで議論し,シミュレーションを通して修正法の有効性を示す.中村知繁(南研M2)
12月16日従属構造がある場合の大規模多重比較近年の技術の発達により遺伝子データのような大規模データに対する統計的推測が必要とされている。多重比較に対してはFDR(False Discovery Rate) と呼ばれる基準が提案され、効果をあげている。しかし,FDRをコントロールする多重比較法は仮説間の独立性を仮定したものが多く、その妥当性に関する議論が多く行われてきた。一方で従属構造を利用した多重比較の方法も提案されている。本発表ではまず,多重比較とFDRについて基本的な事柄を説明し、その後に,多重比較と重み付き判別の関係性、従属構造を利用した多重比較法について述べる。江本遼(南研M2)
1月13日最適配当境界の統計的推定保険には、会社を運営するにあたって、被保険者から集めた保険料と実際に運営に使われた経費との差額を被保険者に返金する「配当」という仕組みがある(すべての保険に配当の仕組みがあるわけではない).今回の発表では、保険金請求頻度がポアソン過程、個々の支払保険金額が指数分布に従うことを仮定して、最適配当境界(会社が破産するまでに支払われる配当期待値現価が最大となる配当境界)と、その最尤推定量を求め、漸近的性質を考える。八木彰子(白石研M1)

2015年度春学期水曜セミナー予定表

日時タイトル 発表者
4/8水曜セミナーの説明と、全体の顔合わせなし
4/15丸め誤差のあるデータに対する適合度検定仲真弓さん
4/22Webアクセスログデータを用いたサイト閲覧行動の統計分析
〜インターネットマーケティングへの応用〜
猪狩良介さん
4/30(水曜振替)C-indexの推定について林賢一先生
5/6祝日なし
5/13ベイズ推論の基礎とシミュレーション法中村知繁(南研M2)
5/20Closure principleを用いた多重比較江本遼(南研M2)
5/27因果推論におけるマッチングについて小河有史(ゲスト)
6/3Copula and Dependence Structure -- Vine Copula Constructions小池孝明(南研M1)
6/10NMFを用いた文書データの特徴抽出とその解釈早瀬亮(南研M1)
6/17高次元データの解析岡紘之(白石研M1)
6/24現代ポートフォリオ理論およびその拡張
系行健(白石研M1)
7/1一般化線形モデルとその拡張樫山文音(南研M1)
7/8経時データに対するベイズモデルを用いた統計分析永田大貴(南研M1)
7/15グレブナー基底の理論と計算大石惇喜(白石研M1)
7/22保険料算出原理八木彰子(白石研M1)