Generative Adversarial Nets 解説

概要

卒論でGANを利用した研究をやったので，GANについての理論をできるだけシンプルに説明してみる．詳しいことは元論文や，その他解説論文を参照．

Generative Adversarial Nets (GANs)

生成モデルには様々な手法が提案されているが，中でも変分オートエンコーダ (Variational Autoencoders; VAEs)等，深層学習を用いた手法は強力である．
Generative Adversarial Nets (GANs) もまたその一つである．

GANsは2つのネットワークを敵対的に学習させ，複雑なデータ分布に対してもうまく働くことが実験的に示されている強力な生成モデルである．まず，これら2つのネットワークを Discriminator $D(\boldsymbol{x}; \theta_d)$ , Generator $G(\boldsymbol{z}; \theta_g)$ とし，学習データ，すなわち真のデータ分布を $q(\boldsymbol{x})$ ， Generatorによる生成分布を $p(\boldsymbol{x})$ とする．このとき，この手法の目的は生成分布 $p(\boldsymbol{x})$ をデータ分布 $q(\boldsymbol{x})$ に近づけるようにGeneratorを学習し，最終的に生成分布がデータ分布を完全に再現する $(p(\boldsymbol{x}) = q(\boldsymbol{x}))$ ようになることである．

Generatorは，ある既知の分布から生成された $\boldsymbol{z}$ をもとに，データ空間への写像を行う．すなわち，乱数から”偽の”データサンプル $G(\boldsymbol{z})$ を生成する．このときDiscriminatorはこれらを入力として，それが $q(\boldsymbol{x})$ によるものかどうかという確率を出力する．つまり，入力データの由来がデータ分布と生成分布どちらによるものかを判別 (discrimination) できるようになることを目的として学習を行う．対してGeneratorは，生成したデータによる判別結果 $D(G(\boldsymbol{z}))$ を欺くように (データ分布とみなせるように) 学習を行う．以上を言い換えると，以下のminimax gameを解くことと同義となる

\begin{align} \min_G \max_D V(D, G) = \mathbb{E}_{q(\boldsymbol{x})}[\log(D(\boldsymbol{x}))] + \mathbb{E}_{p(\boldsymbol{z})}[\log(1-D(G(\boldsymbol{z})))]. \end{align}

ここでGeneratorを固定すると，最適なDiscriminatorは以下のように書くことができる (証明は元論文参照)

\begin{align} D^*(\boldsymbol{x}) = \frac{q(\boldsymbol{x})}{q(\boldsymbol{x})+p(\boldsymbol{x})}. \end{align}

このとき，上の式は以下のように表せる

$C(G)= \max_D V(D, G) \\ = \mathbb{E}_{q(\boldsymbol{x})}[\log(D^*(\boldsymbol{x}))] + \mathbb{E}_{p(\boldsymbol{x})}[\log(1-D^*(x))] \\ = \mathbb{E}_{q(\boldsymbol{x})}\left[\log\frac{q(\boldsymbol{x})}{q(\boldsymbol{x})+p(\boldsymbol{x})}\right] + \mathbb{E}_{p(\boldsymbol{x})}\left[\log\frac{p(\boldsymbol{x})}{q(\boldsymbol{x})+p(\boldsymbol{x})}\right].$

$q(\boldsymbol{x})=p(\boldsymbol{x})$ とすると $C(G) = -\log 4$ となるので，これを利用すると， $C(G)$ は \begin{align} C(G) = -\log 4 + 2JSD\left(q||p\right) \end{align}

と書ける．ここで $JSD(q||p)$ は $q$ と $p$ のJensen-Shannonダイバージェンスを表すが，このことから $C(G)$ は生成分布がデータ分布に等しくなったときに最小になることがわかる．すなわちGANsはモデルの生成分布と真のデータ分布とのJensen-Shannon ダイバージェンスの最小化を行っている，とみなすことができる．