読んだ論文リスト

最近読んだ論文のリストと、それに対するコメントです。

[SB98] Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998. A Bradford Book. [ bib | Author's Site ]
強化学習の入門書。非常によくまとまっていて、強化学習という分野の 全体像を掴むには非常によいと思う。 基盤となる MDP などの詳細な性質、学習法の間の関係、 共通に適用できるテクニックなど、個々の論文を読むだけでは断片的に しか分からない側面がつなげられるので、本を読むのはやっぱり大事だな と思った次第。英語もよみやすくて、おすすめです。(2002/6/4)

Keywords: RL
[LCK95] Michael L. Littman, Anthony R. Cassandra, and Leslie Pack Kaelbling. Learning policies for partially observable environments: Scaling up. In Armand Prieditis and Stuart Russell, editors, Proceedings of the Twelfth International Conference on Machine Learning, pp. 362-370, San Francisco, CA, USA, 1995. Morgan Kaufmann publishers Inc.: San Mateo, CA, USA. [ bib | Citeseer ]
POMDP (Partially Observable Markov Decision Process) をどうやって強化学習で 解くか、ということで、belief state (どの状態にある確率がどのぐらいか) を使った 行動決定をしている。ところが、これだと、たとえば状態 A だと行動 X が適切で、 状態 B でも行動 X が適切で、でも A か B かが分からない状況では行動 Y でどっちか 見極めることが適切、みたいな場合がかけないよ、ということで、piecewise linear function をもってきて解決しようとしている。しかし belief state という状態の表し方が そもそも間違っているような気がするんだけど、気のせいかねぇ? (2002/6/4)

Keywords: RL, POMDP
[BDH99] Craig Boutilier, Thomas Dean, and Steve Hanks. Decision-theoretic planning: Structural assumptions and computational leverage. Journal of Artificial Intelligence Research, Vol. 11, pp. 1-94, 1999. [ bib | Citeseer ]
Planning 問題に関する構造化アプローチについてまとめている。 まず長さにびびったよ。しかもなんでこんなに読みにくいのだか。 話は解くべき Markov Decision Process がわかっている場合に限定されている。 まあそれでも難しいのは分かるけど、[LCK95] と同じで、やっぱり違うような気がするんだな。(2002/6/4)

Keywords: RL, POMDP
[GK02] Wulfram Gerstner and Werner M. Kistler. Spiking Neuron Models: Single Neurons, Populations, Plasticity. Cambridge University Press, Cambridge, MA, 2002. [ bib | Author's Site ]
スパイクニューロンの扱い方がよーくわかる。

Keywords: spiking neuron
[Elm95] Jeffrey L. Elman. Language as a dynamical system. In R. F. Port and T. van Gelder, editors, Mind as Motion: Explorations in the Dynamics of Cognition, pp. 195-225. MIT Press, Cambridge, MA, 1995. [ bib | Citeseer ]
Elman の集大成。

Keywords: language, recurrent network
[WC99] Jeremy M. Wolfe and Kyle R. Cave. The psychophysical evidence for a binding problem in human vision. Neuron, Vol. 24, pp. 11-17, 1999. [ bib | Author's Site ]
Neuron の Binding 特集号の最初。心理学的実験で、確かに視覚には Binding 問題があるという説と、実はないという説が紹介されていて面白い。結局、視覚野のどこかでバラされてどこかで結合されるということはありそうで、やっぱりそこを調べると面白いんじゃないかと思える。

Keywords: binding problem, vision
[RD99] John H. Reynolds and Robert Desimone. The role of neural mechanisms of attention in solving the binding problem. Neuron, Vol. 24, pp. 19-29, 1999. [ bib | Author's Site ]
Neuron の Binding 特集号。注意がbindingに関係していると主張し、視覚的にくっついていて注意が流れるほうが Illusory Conjunction がよくおきるという実験を紹介して、独自のニューロンレベルのモデルを提案している。視覚的にはそーいう可能性もあるけど、それだとやっぱり言語でこまる、というのが僕の主張なので、とりあえずはいそーですかという感じではあります。

Keywords: binding problem, attention
[SM99] Michael N. SHadlen and J. Anthony Movshon. Synchrony unbound: A critical evaluation of the temporal binding hypothesis. Neuron, Vol. 24, pp. 67-77, 1999. [ bib ]
Neuron の Binding 特集号。temporal binding に批判的な意見を集めてみました、というところ。そもそも binding がどう計算されるか不明なのに binding の signature の議論をするなんて不完全である。それに binding 計算は高次機能でないといけない。大脳皮質に temporal binding がデコードできるように思えない。逆にこれをクリアすればいいわけで、問題点の整理としてはわかりやすいかも。どう計算されるかってのは、ぼくの phase arbitration でいいと思っているんだけど、だめかな。でも、temporal binding のかわりの提案が、ダイナミックに切り替えが起こる special circuit っていうのはどうかと思う(だって「切り替え」っていうのが temporal な概念じゃん)。

Keywords: binding problem, synchrony
[tHK00] Stephan ten Hagen and Ben Kröse. Neural Q-learning. Technical report, ???, The Netherlands, 2000. [ bib | Citeseer ]
連続値の状態&行動の場合に Q-Learning すると最適な行動の選択が大変なわけだけど、逆行列をうまく使って解ける場合があるよ(非線形でも)ということです。

Keywords: RL, continuous state
[BDG95] Craig Boutilier, R. Dearden, and M. Goldszmidt. Exploiting structure in policy construction. In Proceedings of the Fourteenth IJCAI, 1995. [ bib | Author's Site ]
Structured Policy Iteration と呼ぶ新しい手法の提案。環境が変数の組で表されて、各 action による環境の変化が Bayesian Net のような単純なルールで書けるときに、全 state を展開せずに decision tree のような形で policy や value function を表現する。そのために abduction をして(ここよくわからん)、また同じ最適 action のノードや同じ value function のノードをまとめる。あとは Dynamic Programming 的にツリー中の全状態を更新していくと最適解がもとまるとゆーことのよう。ただ、value が完全に同一でないといけないので、たとえば2つの変数の value に対する影響が直交のときにでもそれは分解できない。

Keywords: RL, policy iteration
[SPS99] Richard S. Sutton, Doina Precup, and Satinder P. Singh. Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning. Artificial Intelligence, Vol. 112, No. 1-2, pp. 181-211, 1999. [ bib | Citeseer ]
強化学習でサブゴールとかの時間的抽象化を行うときの理論的枠組み。この人の論文は何でこういつもわかりやすいのでしょうかね。アクションをいくつかまとめて選ぶようなサブポリシーをオプションと名づけて、その上での Q-Learning や、オプション自体の学習までも視野に入れて書いてます。とりあえず頭が整理されるので読むことをお勧め。

Keywords: RL, temporal abstraction
[Etz93] O. Etzioni. Acquiring search-control knowledge via static analysis. Artificial Intelligence, Vol. 62, No. 2, pp. 255-301, 1993. [ bib | Citeseer ]
説明ベースの学習(EBL)と部分評価(PE)システムのハイブリッドを作ると性能があがったよという話。この人のD論らしい。[SPS99]でUtility Problem のところでciteされていたのだが、なんやよーわからん。

Keywords: RL, utility problem
[GJ92] Russell Greiner and Igor Jurisica. A statistical approach to solving the EBL utility problem. In In Proc. of AAAI-92, pp. 241-247, San Jose, CA, 1992. [ bib | Author's Site | www: ]
Utility Problem 第二弾。こっちのほうが短くていい。やっぱり Utility Problem の元祖は [Min90] のようで、図書館いかないとだめかも。この論文では、PE (ソルバーのパラメータ、マクロセットみたいなもの)の漸近的改良のときに、サンプルを利用して問題解決コストが増加していないかどうかを確かめるシステム PALO というのを提案している。Globally Optimum を探すのは NP 完全で、PALO は Local Optimum だけどもっと効率的だそうだ。

Keywords: RL, utility problem
[Min90] S. Minton. Qualitative results concerning the utility of explanation-based learning,. Artificial Intelligence, Vol. 42, pp. 363-391, 1990. [ bib ]
未読なり。

[TTNK01] Takashi Takahashi, Toshio Tanaka, Kenji Nishida, and Takio Kurita. Self-organization of place cells and reward-based navigation for a mobile robot. In Proceedings of the 8th International Conference on Neural Information Processing (ICONIP'01), 2001. [ bib ]
RL+SOM の論文。ありそうでないんだな、と思う。誰かがやっていそうだと思って探したが、これしか見つからなかった。探し方が悪いのか?やはり時間的能力がないSOMの欠点がある感じ。

Keywords: RL, SOM
[SHM03b] Youshong Shu, Andrea Hasenstaub, and David A. McCormick. Turning on and off recurrent balanced cortical activity. Nature, Vol. 423, pp. 288-293, May 2003. [ bib | Author's Site ]
ニューロンの Up/Down が自発的に起きて、しかも外部からの興奮性入力によって両方とも遷移させることができる、という論文。ネットワークとしての性質なのか、単体のニューロンの性質なのかは、in vivo での実験のためよくわからないが、どっちにしても面白いのでは。

[DT03] Arnaud Delorme and Simon J Thorpe. SpikeNET: an event-driven simulation package for modelling large networks of spiking neurons. Network: Computation in Neural Systems, Vol. 14, pp. 613-627, November 2003. [ bib | Author's Site ]
なかなか歴史のあるevent-driven simulationのようです。コネクションの重みを共有することで複雑なネットワークでもメモリを節約し、高速にシミュレーションできるという。当たり前だわな。でもそれでこれだけ成果を出しているんだからいいんじゃないでしょうか。ただし、連続時間は扱えないようで、時刻 t の発火は全部時刻 t+1 に影響するという。

Keywords: event-driven simulation
[MRM02] Ioana. Marian, Ronan G. Reilly, and Dana Mackey. Efficient event-driven simulation for spiking neural networks, February 2002. [ bib | Author's Site ]
やっぱり event-driven simulation は時代の流れだったのだと思うことしきりである。しかも SOM やってるし。まいったね。

Keywords: SOM, event-driven simulation
[LL01] Carlo R. Laing and André Longtin. Noise-induced stabilization of bumps in systems with long-range spatial coupling. Physica D, Vol. 160, pp. 149-172, 2001. [ bib ]
神経場上の局在興奮 (bump) は spike frequency adaptation によって移動するようになるが、少量のノイズを導入することで抑制できるという。bumpの話をやろうと思っていたのに先を越された感じ。しかもノイズをうまく利用しているし。数理的にばっちり解析しているし。あーあ、やっぱりやる人はやるんだなあ。掘り下げ方もとてもかなわない感じではある。でも、そんなに移動現象を目の敵にしなくてもいいんじゃないのかな?

Keywords: neural dyanmics
[BGPM+00] Amanda Bischoff-Grethe, Shawnette M. Proper, Hui Mao, Karen A. Daniels, and Gregory S. Berns. Conscious and unconscious processing of nonverbal predictability in wernicke's area. Journal of Neuroscience, Vol. 20, No. 5, pp. 1975-1981, March 2000. [ bib ]
ウェルニッケ野の活動が、非言語的な順序予測タスクでも見られるという話。それは意識していてもいなくてもおこるらしい。なんとも興味深い。

Keywords: Wernicke, sequence prediction
[SA01] Sen Song and L. F. Abbott. Cortical development and remapping through spike timing-dependent plasticity. Neuron, Vol. 32, pp. 339-350, October 2001. [ bib ]
STDPでモデルを作った研究。単独ニューロンの性質に加え、STDPでネットワークを構成した時の性質を調べている。入力が空間的にガウシアンのときにはマップが構成される。また、欠損ができると周囲のニューロンがカバーするという所が興味深い。また、τ-=5τ+のときの性質を調べていて、時間的対称性が崩れると強まった結合が弱まりにくい性質となるようだ。

Keywords: STDP, SOM
[Lab87] E. Labos. Chaos and neural networks. In H. Dehn, A. V. Holden, and L. F. Olsen, editors, Chaos in biological systems. Plenum Press, New York, 1987. [ bib ]
周期的にどばどばっと発火が起きるモデルその1。この論文の存在は合原先生しか覚えておらんらしい。とくに p.197 の (iii) が近そうだが、これは ynyn-1yn-2 から yn+1 を決定する方式で、勾配をうまいこと捉えて長期的ゆらぎができるみたい。僕の方式とはちょっと違うかも。

Keywords: chaos, intermittent activity, spiking neuron
[VHdRM97] Markus Varsta, Jukka Heikkonen, and José del R. Millan. Context learning with the self-organizing map. Research reports, Helsinki University of Technology, Finland, 1997. [ bib ]
ひじょーにシンプルな Recurrent SOM の話。以前のモデルでは winner だけが次の入力になっていたのを、表現層の活動全部にした、ということらしい。これでうまくいくんかな? という気もするが、入力空間の重みが十分大きければうまくいくんでしょう。

Keywords: context, SOM
[VRK03] John N. Tsitsiklis Vijay R. Konda. On actor-critic algorithsm. SIAM Journal on Control and Optimization, Vol. 42, No. 4, pp. 1143-1166, 2003. [ bib | Author's Site ]
critic が価値関数の線形近似をする場合の収束条件について。critic が計算する必要があるのは価値関数を actor パラメータ空間に射影した部分空間でよくて、それは完全に決定できるんだそうだ。NN で actor-critic を作るときの参考になりそう。イントロは actor-critic の観点がまとまっててよみやすい。

Keywords: RL, MDP, actor-critic
[Rul01] Nikolai F. Rulkov. Regularization of synchronized chaotic bursts. Physical Review Letters, Vol. 86, No. 1, pp. 183-186, January 2001. [ bib ]
山+narrow pathの写像を使って intermittent burst を起こすと、それは neuron の burst firing みたいにみえるんじゃないかって話。しかも、パラメータの異なるそういう写像を結合してやると同期するって話。そうこれがおれの思いついた話なんだよ〜(泣)でもそれが up/down になるんじゃないのって話はないみたい。

Keywords: spiking neuron, up/down, intermittent activity, chaos
[SHM03a] Yousheng Shu, Andrea Hasenstaub, and David A. McCormick. Turning on and off recurrent balanced cortical activity. Nature, Vol. 423, , May 2003. [ bib ]
ローカルな cortex 内の結合が up/down state を生み出すという話。スライスに電流を突っ込むと down→up 遷移はもとより up→down 遷移も起こせる。up→down 遷移の率は、突っ込む電流量とは up になった後の時間間隔に関係するらしい。up/down の原因はなんなんでしょう。

Keywords: up/down, cortex
[LN03] Jing Luo and Kazuhisa Niki. Function of hippocampus in “insight” of problem solving. Hippocampus, Vol. 13, pp. 274-281, 2003. [ bib ]
直感の研究なんて面白いなぁと思う。問題設定がなぞなぞを考えているとき、という。評価するにはまだ時間がかかりそうです。

Keywords: hippocampus, insight, event-related fMRI
[LR93] Rodolfo Llinás and Urs Ribary. Coherent 40-hz oscillation characterizes dream state in humans. Proceedings of Natural Academy of Science, U.S.A., Vol. 90, pp. 2078-2081, March 1993. [ bib ]
覚醒時・REM 睡眠時の MEG 記録をとると、コヒーレントな 40Hz 活動が前から後ろへ移動するように観察される。ノンレム時には減少する。視床特有のループが認知を作っているんじゃないかという仮説。

Keywords: consciousness, sleep, gamma wave, delta wave
[渡辺95] 渡辺正峰, 合原一幸, 近藤駿介. カオスニューラルネットワークによる自動学習. 電子情報通信学会論文誌 A, Vol. J78-A, No. 6, pp. 686-691, June 1995. [ bib ]
相互結合型のカオスニューラルネットでの自動学習。カオス的な応答のおかげで未知入力の場合でもちゃんと既知のパターンと関連付けができる。

Keywords: chaos neural network, associative memory
[Sha02] Lokendra Shastri. Episodicmemory and cortico-hippocampal interactions. TRENDS in Cognitive Sciences, Vol. 6, No. 4, pp. 162-168, April 2002. [ bib ]
Shastri の review。binding-error detector/integrator が hippocampus の中にあるからイベントの記憶がうまくいくんじゃないかという話。確かに error detector がないとうまくいかんよなあ。

Keywords: hippocampus, episodic memory, binding problem, binding error
[Yos01] Masahiko Yoshioka. Spike-timing-dependent learning rule to encode spatiotemporal patterns in a network of spiking neurons. Physical Review Letter E, Vol. 65, No. 011903, December 2001. [ bib ]
Hodgkin-Huxley で associative memory を作った。global inhibition で作ったガンマ波のおかげで periodic firing pattern を再現できた。inhibition を弱くすると、同期が少し外れてばらばらっという発火のかたまりが再現できた。

Keywords: STDP, associative memory, gamma wave, synchrony
[SJW98] Edward A. Stern, Dieter Jaeger, and Charles J. Wilson. Membrane potential synchrony of simultaneously recorded striatal spiny neurons in vivo. Nature, Vol. 394, pp. 475-478, July 1998. [ bib | Author's Site ]
ウレタン麻酔したラットの線条体 spiny neuron で膜電位を測ると、測定した全ニューロンで up/down があった。しかもかなり離れた場所でも相関があった。皮質からの信号が多くのニューロンに入力されているからではないだろうか、という話。spiny 同士の結合はあんまり関係ないらしい。

Keywords: up/down, synchrony, striatum, spiny neuron
[McG99] Colin McGinn. The Mysterious Flame: Conscious Minds in a Material World. Perseus Books L.L.C., 1999. [ bib ]
人間の認知能力は物理世界に tune されており、心の問題を考えるようにできていないのだ、だから心のことはよくわからんのだ、という話。そんな身も蓋もないこと言われると研究が萎えてしまうが、脳や人間を研究するときには研究者自身の主観でものを見ていることを決して忘れてはいけない、ということなんじゃないでしょうか。そこは少なくとも納得です。

Keywords: consciousness
[TI99] M. Taiji and T. Ikegami. Dynamics of internal models in game players. Physica D, No. 134, pp. 253-266, 1999. [ bib ]
Iterated Prisoner's Dilemma で、相手のモデルを RNN で学習するエージェントを導入したらどうなるかという話。pure reductionist 同士ではお互いに相手が学習できずに All-D 戦略に転がり落ちるらしい。「相手が自分のpure reductionistモデルを作っている」ことをモデル化した場合でもダメらしい。

Keywords: IPD,estimation
[san96] Multiagent reinforcement learning in the iterated prisoner's dilemma. BioSystems, Vol. 37, pp. 147-166, 1996. [ bib | Citeseer ]
繰り返し囚人のジレンマで Q-Learning してみた話。TFT 相手では協調を学習したが、学習エージェント同士ではほとんどだめらしい。いろいろパラメータやヒストリー長さを変えた実験もしている。

Keywords: IPD,RL
[mcn04] Variation in behaviour promotes cooperation in the prisoner's dilemma game. Nature, Vol. 428, pp. 745-748, 2004. [ bib ]
有限回の繰り返し囚人のジレンマで、mutationやphenotype variationを入れると協調が起きるという話。大竹君が先を越されました。

Keywords: IPD
[wan00] On connectedness: a solution based on oscillatory correlation (in pdf). Neural Computation, Vol. 12, pp. 131-139, 2000. [ bib | .pdf ]
Connectedness って最初なんのことかさっぱりわかんなかったが連結性判定のこと。普通の NN では必要なリソースが爆発するのだが、oscillationをつかうと簡単にできるよという話。bindingとは少しずれるが、oscillation neural net の能力が端的に表現されている。式とかほとんど出てこないが、概念をつかむにはいいかも。

Keywords: NN, oscillation
[alf04] Mean-field theory of irregularly spiking neuronal populations and working memory in recurrent cortical networks. In Jianfeng Feng, editor, Computational Neuroscience: A Comprehensive Approach, chapter 15, pp. 431-490. 2004. [ bib ]
Straightforward claim with a straightforward tool; it must be an important work. However, the represented memory is a collection of binary bits. I think binding cannot be represented because there are no indirect reference in the brain.

Keywords: NN,spiking,recurrent
[edm04] The operation of memory systems in the brain. In Jianfeng Feng, editor, Computational Neuroscience: A Comprehensive Approach, chapter 16, pp. 491-534. 2004. [ bib ]
Memory of relation between spatial locations and objects may be used for memory of relation between features. And it seems more than mere possibility because hippocampus controls episodic memory as well as spatial memory. It is interesting to see whether this memorization mechanism can apply to oscillation coding. Another idea for this work is that the representation of object features can have distribution.

Keywords: NN,hippocampus,associative memory
[wol04] Computational models for generic cortical microcircuits. In Jianfeng Feng, editor, Computational Neuroscience: A Comprehensive Approach, chapter 18, pp. 575-626. 2004. [ bib ]
This one sounds like a perceptron theorem on streaming information. As you know a multi-layer perceptron is very powerful, assuming a large number of hidden neurons. However the power is still limited, because of “the curse of dimensionality”. I think the same argument applies to this Liquid State Machine. Good for thinking a mathematical basis of recurrent networks. But, to use this for modeling, we also need some more powerful learning method, such as the back-propagation for perceptron.

Keywords: NN,temporal
[wan02] Scene analysis by integrating primitive segmentation and associative memory (in pdf). IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, Vol. 32, pp. 254-268, 2002. [ bib | .pdf ]

Keywords: NN,oscillation,visual
[gal98] Mirror neurons and the simulation theory of mind-reading. Trends in cognitive sciences, Vol. 2, No. 12, pp. 493-501, 1998. [ bib ]
Mirror Neuron が心の理論における Simulation Theory (シミュレーションして他者を理解する) をサポートするという話。つーか良く似てるんですけど。

Keywords: mirror,ToM
[mit06] Dissociable medial prefrontal contributions to judgments of similar and dissimilar others. Neuron, Vol. 50, No. 4, pp. 655-663, 2006. [ bib | DOI ]
自分と近い考えの人のことを考えるときは mPFC の dorsal 側が活動して、自分と違う人のことを考えるときは ventral 側が活動するという話。シミュレーション回路が分けられるって言うことは面白い。

Keywords: mirror,ToM
[sin04] Empathy for pain involves the affective but not sensory components of pain. Science, Vol. 303, pp. 1157-1162, 2004. [ bib | DOI ]
恋人に電気ショックしているのを見たときの活動は、女性のほうが empathetic だそうな。

Keywords: mirror,ToM
[sin06] Empathic neural responses are modulated by the perceived fairness of others. Nature, Vol. 439, pp. 466-469, 2006. [ bib | DOI ]
IPD で fair だと思う相手が痛みを受けたときには ACC が活動し共感が強く働くが、unfair と思う相手に対しては、少なくとも男は反応しない (女は弱く反応する)。

Keywords: mirror,ToM
[ril02] A neural basis for social cooperation. Neuron, Vol. 35, No. 2, pp. 395-405, 2002. [ bib | DOI ]
IPD で人間の実験をしたという話。男女差があるそうな。

Keywords: IPD

This file was generated by bibtex2html 1.97.