#### TSUBAME 共同利用 平成 27 年度 学術利用 成果報告書

利用課題名 GPGPU における核融合プラズマコードの性能評価 英文: Performance analysis of fusion plasma code on GPGPU

## 井戸村泰宏

Yasuhiro Idomura

# 日本原子力研究開発機構

Japan Atomic Energy Agency https://www.jaea.go.jp

邦文抄録(300字程度)

セミラグランジアン法および差分法に基づく 2 つの核融合プラズマ乱流コードの高次元ステンシル演算に対する GPU 向け最適化技術を開発した。セミラグランジアン法におけるメモリのリストアクセスをテクスチャメモリの利用に よって大幅に高速化した。差分法においては、演算子の対称性を活用したレジスタ再利用によってメモリアクセス数 を削減した。これらの最適化により、Sandy Bridge で最適化されたコードに対して、GPU を用いてセミラグランジア ン法で 7.6 倍、差分法で 4 倍の高速化に成功した。

# 英文抄録(100 words 程度)

We developed optimization techniques for high dimensional stencil computations on GPUs, which are extracted from two fusion turbulence codes based on Semi-Lagrangian and Finite-Difference schemes. The indirect memory access of the Semi-Lagrangian scheme is dramatically accelerated by using the texture memory. In the Finite-Difference scheme, the reuse of registers by taking account of the physical symmetry of the operator reduces the amount of memory accesses. Through these optimizations, we achieve acceleration of 7.6x for the Semi-Lagrangian scheme and of 4x for the Finite-Different scheme on GPUs compared with the fully optimized codes on Sandy Bridge.

Keywords: Plasma turbulence, performance analysis, GPGPU, Semi-Lagrangian, Finite-Difference

# 背景と目的

磁場閉じ込め核融合炉は約1億度の燃料プラズマを トーラス形状の磁場で閉じ込めて核融合反応を持続さ せて、核融合エネルギーを取り出す。炉心プラズマの 閉じ込め性能はプラズマ乱流による燃料粒子やエネル ギーの輸送で決まっており、プラズマ乱流の第一原理 計算が炉心性能評価に必須のツールとなっている。核 融合炉心プラズマは粒子間の衝突が弱く(クヌーセン数 が大きく)、粒子軌道やランダウ共鳴といった運動論効 果が顕著となるため、その第一原理モデルはサイクロト ロン運動を平均化した5次元のボルツマン方程式(ジャ イロ運動論方程式)で与えられる。炉心プラズマを構成 するイオンと電子はその質量比のため、熱運動や粒子 軌道半径の時空間スケールが大きく乖離し、イオンに ついては燃料の重水素、三重水素、および、核融合反 応で生成するヘリウムを含む多種イオン系となる。この ように、核融合プラズマ乱流コードは、5 次元問題、マ ルチスケール問題、多相問題という極めてユニークな

大規模科学技術計算となっており、特に、次世代の核 融合実験炉 ITER の解析を行う上でエクサスケール計 算を必要としている。このような、エクサスケール計算 を実現する計算手法を確立することは、将来の核融合 炉心解析コード開発に必要不可欠であり、核融合エネ ルギー開発に大きく貢献する。

エクサスケール計算機では、GPU や Xeon Phi を始 めとするアクセラレータが主要な役割を果たすと考えら れる。しかしながら、これらアクセラレータ上で既存の CPU 向け計算手法や最適化手法が有効とは限らない。 そこで本課題では、異なるアルゴリズムを用いる第一 原理的核融合プラズマ乱流コードからホットスポットを 抽出したのち、それらについて GPU 上で最適化し、性 能比較を行う。これにより、アルゴリズムごとの GPU に 対する適正を明らかにするとともに最適化手法を確立 することを目的とする。 概要

本課題では、核融合プラズマ乱流シミュレーションコ ード GT5D および GYSELA からホットスポットに対応 するカーネルコード(それぞれ差分法カーネルおよびセ ミラグランジアン法カーネル)を抽出し、GPU 上で最適 化技術の開発を行った。

これらのコードは 4 次元の移流問題に対応する同一 の方程式を異なるアルゴリズムで解く。アクセラレータ においては、メモリアクセスがボトルネックとなりやすい ことが知られているため、各アルゴリズムにおけるメモ リアクセスパターンに着目した。各スキームにおけるメ モリアクセスパターンを 2 次元(空間 x、速度 v)の移流 方程式に基づき説明する。スカラー量 f の移流方程式 は、



ー方、差分法においては、移流方程式を差分化して、 次のタイムステップのfの値を評価する。図1(b)に示す ように、差分法においては隣接格子の参照が必要とな る。メモリアクセスパターンを考えると、最内の差分にお いては連続アクセスとなるが、それ以外の方向におい ては、ストライドアクセスが生じる。

本課題では、リストアクセスおよびストライドアクセスと いうアルゴリズム特有のメモリアクセスパターンに着目 し、これらのメモリアクセスパターンを持つカーネルが GPU 上で高い性能を発揮するための最適化技術の開発を行った。





図1 (a)セミラグランジアン法カーネル、および、(b)差 分法カーネルにおけるデータアクセスパターン。

### 結果および考察

本課題では、上述した GPU(Tesla K20X)におけるカ ーネル最適化による性能向上の程度を評価するため、 通常比較対象となる汎用メニーコア CPU(Sandy Bridge)に加え、同じく汎用メニーコア CPU である FX100(SPARC64XIfx)、アクセラレータ Xeon Phi(Xeon Phi 5110P)において最適化されたコードと の演算性能比較を行った。FX100 や Xeon Phi は 1TFops 級とGPUと同程度の演算性能を持つため、最 適化効果を確認する上での比較対象としてより適切で ある。

(b)

 $\theta_0^*$ 

 $\left| \theta_0^* \right| \theta_1^* \left| \theta \right|$ 

セミラグランジアンカーネルの最適化

前述したように、セミラグランジアン法では粒子軌道を たどることで、分布関数の時間発展を計算する。プラズ マ乱流中においては、空間の各点で粒子が受ける力が 異なるため、粒子軌道は各格子点で異なったものとな る。従って、粒子軌道をたどり、その出発点を追跡する 際、格子点ごとに参照する格子点は異なる。このメモリ アクセスパターンをリストアクセスと呼ぶ。

オリジナルの CPU 版カーネルでは、各格子点におい て出発点の座標データのペア( $\theta, \phi$ )を保持する Array of (Structure (AoS)型のデータ構造を取っていた(図 ネルを以降がはオリジチルと呼ぶ。このボーダ構造は、 キャッシュ局所性を向上させるため、従来の CPU では 有効な最適化である。しかしながら、この配列へのメモ リアクセスはストライドアクセスとなるため、GPU には 適さない。そこで、アクセスパターンが連続アクセスとな るように、配列を構成する構造体を座標データのペア  $(\theta, \phi)$ でなく、SIMD 幅単位の $\theta$ 座標列と $\phi$ 座標列の ペアからなる構造体へと変更した。図2(b)に示されるよ うに、この配列へのメモリアクセスは連続アクセスとな る。ここで、図2(b)では便宜的に SIMD 幅 4 の場合を 示しているが、実コードでは Warp 数 32 の整数倍とし た。このような配列のデータ構造は Array of Structure of Array(AoSoA)型と呼ばれ、Xeon Phi などの SIMD 幅が大きいアーキテクチャで有効な最適 化技術として知られる。これにより出発点の座標計算 におけるメモリアクセスを Coalescing load とした。これ によってオリジナルに対し、1.24倍の性能向上を得た。

加えて、計算された出発点の座標を元に参照される 配列へのリストアクセスについても最適化を行った。プ ラズマ乱流中における粒子軌道は空間位置によって変 化するものの、電場や磁場といった軌道を決める物理 量が空間内で連続的に変化することから、近接格子点 における軌道も連続的に変化し、近接格子点における 参照点もまた空間的に近接したものとなる。これは、リ ストアクセスにおけるメモリアクセスパターンにある程度 空間局所性があることを意味する。このアクセスパター ンは、GPU による画像処理で非常によく用いられるテ クスチャマッピングと同様である。そこで、GPU が有す る画像処理パイプラインを有効活用するため、リストア クセスの参照先配列をテクスチャメモリに配置した。最 終的にこれらの最適化によりオリジナルの 1.79 倍の性 能向上を得た。これは、最適化された Sandy Bridge 版の約 7.55 倍に対応する。



図2 出発点配列の AoS 形式(a)と AoSoA 形式(b)によ る格納。

# <u>差分法カーネル最適化</u>

図1(b)に示すように差分法では、隣接格子点に対す る参照を行う。GT5D では、4 次元配列 f(l,k,j,i)に対し て差分演算を行うが、この際最内の 1 方向については 連続アクセスとなるものの、それ以外の k,j,i 方向につ いてはストライドアクセスとなる。

先行研究[Fujita et al., PDSEC2014]によって、 GT5DのGPU移植が行われていたため、本課題では 移植済みのカーネルをもとに最適化を行った。このカー ネルを以降ではオリジナルと呼ぶ。差分演算の係数行 列は一般的には4次元の依存性を持つが、ITERを始 めとするトカマク型装置における軸対称磁場配位の場 合には係数がk方向に依存しないという特徴を持つ(ト ロイダル対称性)。オリジナルのカーネルでは、最内2 次元の(1,k)方向にスレッドを割り当てていた上、係数の 計算結果を shared memory へ格納にするために、if 文を用いた分岐によって係数の計算をk方向の index が1のスレッドのみで計算していた。このWarp分岐を 解消するために、スレッド割り当て方向を(1,j)方向へと 変更し、係数の計算結果はレジスタへ格納するように 変更した。この変更によってオリジナルの5.43 倍の性 能向上を得た。

k 方向の差分時に参照される隣接点のデータを再 利用するため、カーネルの最内ループを k 方向とした 上、k 方向の隣接点データをレジスタに格納し、サイク リックに再利用した。これによって、オリジナルの 7.44 倍の性能向上を得た。i 方向の差分については、i 方向 にアンロールすることにより、従来メモリアクセスが生じ ていた部分の一部をレジスタへのアクセスで置き換え た。これによりオリジナルの 8.53 倍の性能向上を得た。 最終的に得られたコードの性能は Sandy Bridge の 4.03 倍となった。この差分法カーネルの最適化に関す る成果を GTCJapan2015 において口頭発表した[1]。

### <u>ベンチマーク結果</u>

図3に示すように最適化されたカーネルコードの性能 を Sandy Bridge、Xeon Phi、および、FX100 で最適 化されたコードと比較した。各ハードウェアの性能につ いては、表1に示す。

| Processor         | Sandy Bridge  | Xeon Phi        | GPGPU | FX100   |
|-------------------|---------------|-----------------|-------|---------|
| Number of cores   | 8             | 60              | 896   | 32+2    |
| Shared Cache [MB] | 20            | $0.5 \times 60$ | 1.5   | 24      |
| Memory [GB]       | 64            | 8               | 6     | 32      |
| Peak performance  | 172.8         | 1010            | 1310  | 1000    |
| [GFlops]          |               |                 |       |         |
| Peak B/W [GB/s]   | 51.2          | 320             | 250   | 480     |
| SIMD width        | 256 bit (AVX) | 512 bit         | -     | 256 bit |
| TDP [W]           | 130           | 225             | 235   | —       |
| Power efficiency  | 562           | 1501            | 2973  | 1910    |
| [GFlops/W]        |               |                 |       |         |
| B/F ratio         | 0.3           | 0.3             | 0.19  | 0.5     |

表1 ベンチマークで用いたハードウェアの仕様。

GPU 版のセミラグランジアン法カーネルは、最速とな っており、差分法カーネルは FX100 についで速い。セミ ラグランジアン法カーネルでは、演算密度が高い上、テ クスチャメモリによるリストアクセスの高速化が有効で あったため、GPU で高い性能が得られたと考えられる。 ー方、差分法カーネルは、演算密度が低くメモリバンド 幅がボトルネックとなる上、FX100 において有効であっ た容量の大きい共有キャッシュを活用した最適化[2,3] が GPU では有効ではないため、GPU より大きなメモリ バンド幅を有する FX100 で高い性能が得られたと考え られる。

このベンチマークで得られた成果については、世界 最大のスーパーコンピュータ関連学会である SC15 で ポスター発表を行い[2]、また IEEE Transactions on Parallel and Distributed Systems 紙へ論文投稿を 行った[3]。



図3 セミラグランジアン法カーネルと差分法カーネル のベンチマーク結果。性能向上比(上)および演算性能 の対ピーク比(下)。

#### まとめ、今後の課題

本課題では、核融合プラズマ乱流シミュレーションコ ード GT5D および GYSELA からホットスポットに対応 するカーネルコード(それぞれ差分法カーネルおよびセ ミラグランジアン法カーネル)を抽出し、GPU 上で最適 化技術の開発を行った。本課題では特に差分法カーネ ルに存在するストライドアクセス、セミラグランジアン法 カーネルにおけるリストアクセスといった複雑なメモリア クセスパターンに着目し、それぞれレジスタの有効活用、 テクスチャメモリの活用といった最適化を行った。開発 した最適化技術により、GT5D の差分法カーネルおよ び GYSELA コードのセミラグランジアン法カーネルは、 Sandy Bridge において最適化されたものと比べそれ ぞれ 7.55 倍、4.03 倍という高い性能向上を得た。

今後の課題としては、残るコード全体の移植、メモリ アクセスの削減、およびエクサスケール計算に向けた 通信コストの削減などが挙げられる。コードの移植につ いては、まず OpenACC による移植を行って、性能測 定を行ったのち、ボトルネックについては改めて CUDA で移植する予定である。メモリアクセスの削減について は、今まで演算結果を高次元配列へ格納しメモリアク セスで演算を行っていた箇所を低次元配列への演算で 置き換えるなどの対応を行う。通信コストの削減につい ては、アルゴリズムレベルでの変更を検討する必要が ある。以下に、GT5Dに関する具体例を述べる。GT5D ではクリロフ部分空間解法によって差分・陰解法行列 演算を行うが、そこで発生する通信は、縮約演算を含 む。縮約演算については、通信と演算のオーバーラッ プによる通信コストの削減は困難である。そのため、先 行研究によって提案されている省通信クリロフ部分空 間解法の適用により、通信回数自体を削減し、通信コ ストを削減するといったアプローチの検討を開始した。

# <u>成果リスト</u>

- [1] 朝比祐一, GPU における核融合プラズマ乱流コ ードの最適化,GTCJapan2015
- [2] Y.Asahi et al, Optimization of stencil-based fusion kernels on Tera-flops many-core architectures, ACM/IEEE conference on Supercomputing (SC15).
- [3] Y. Asahi et al., Optimization of fusion kernels on accelerators with indirect or strided memory access patterns, submitted to IEEE Transactions on Parallel and Distributed Systems.