10133. コメント(2021/2/26)

(コメントいただきました)

Yuki FURUSE 古瀬祐気
@ykfrs1217
·
2月24日
「新型コロナなどのウイルスゲノム情報から、進化の過程で有利だった変異を見つけられるアルゴリズムを開発しました」という、フォロワーのみなさんはあんまり興味ないであろうお話です(←ひどい)
2/

へのコメント

英文記事はこれですね。
https://www.bloomberg.com/news/articles/2021-02-19/covid-pandemic-how-youyang-gu-used-ai-and-data-to-make-most-accurate-prediction

この人、MITで修士卒の電気電子工学とコンピューター科学の専門家で、博士いかないでクオンツやることにしたのね(C++が得意なのかな?)。修士でクオンツ採用はかなりすごいです(普通は博士とってから採用ですし、おそらく博士課程に行く前提で修士課程を始めたのでしょう)。本人を知りませんが、よほど光るものがあるのでしょう。
このバックグラウンド、この手のネタやるには最高です。電気電子工学は入力変えると応答(出力)がどう変化するかを見るのが重要なテーマなので、入力(過去の死亡者数)から応答(未来の死亡者数)を予想するのは相性がよいはずです。その上、クオンツでこのようなネタを収入かけて(うまくいくと億とかもらえます、しくじるとすぐにクビ)触ってたのなら、1入力変数、1出力変数の問題は楽勝とまではいかなくても、そこまで厳しい問題ではなかったのでしょう。

とりあえずリバースエンジニアリングを試みますか。
機械学習と言っても、実際は大仰なものではなく、関数を決め打ちして、うまくフィットするように係数を調整したのかな?たぶんSIRとその亜種が前提になっているわけではなさそうです(SIRで見るような、感染が始まってから終わるまでのような長期間は考慮していない)。基本となるのは指数関数項で、Rに過去の死者の変動(Rの変動)の情報が入るのかな?Rが増えているようなら以後のRが増える、もしくはその逆で。死者Dの対数(指数関数の肩が降りてくる)と、その微分、二階微分は確実に使ってるでしょうね。むしろ、それくらい?
最も荒い形はD(t>0)=D0
exp[R(t>0)]、係数はD0は自明(t=0のD)、R(t)は過去(t<0)の値はわかっているが未来(t>0)の値はわからない。とりあえず安直にR(t)=a+bt+ct^2とでもしますか。そうすると、過去一定期間のRの情報で定数a,b,cを求めることになります。必要ならば他の項が入るでしょうね。三次の項や、|t|が大きくなるとゼロに近づく項が入っているかもしれません(指数とか?)。回帰の際には、直近の情報を重めに、古い情報を軽めに反映するのでしょう。(線形加重移動平均ではないはず。指数的、ロジスティクス曲線的などの移動平均?クオンツの経験から知ってるなにか?フェルミ分布はたぶん違うと思う。)少なくても、ある一定期間(1ヶ月とか)以上は見ないようにしているのでしょう。

古瀬先生、こんな感じでしょうか?意外といけちゃいそうですか?

日本でこのアイディアを提供するとなると、死者の数がそもそも少ないので、感染者でやることになると思います。緊急事態宣言などの外部要因をいれることで、さらに調整することになるのでしょう。気温の変動のような効果は、過去の感染者の変動に織り込まれるので、改めて入れる必要はなさそうです。

(以上、ありがとうございました)

ここに書いても、チョンマゲ先生に伝わるとは思いませんが・・・