RTX5090 vs RTX4090 深層学習ベンチ

RTX5090買いました!

せっかくなのでどのくらい深層学習モデルを使った性能がどの程度変化するのかベンチマークを作って試してみました。

自作(with chatGPT)なので適当ベンチマークです。
行列計算とメモリ作ったくらいで体力尽きました…

図があまりきれいじゃないのも体力がなかったからです…

スポンサーリンク

まとめ

予想された性能

RTX4090RTX5090比率(5090/4090)
CUDAコア16,38421,7601.328
Tensorコア5126801.328
メモリ帯域幅1,008GB/s1,792GB/s1.778
メモリ容量24 GB32 GB1.333
  • CUDAコアを使用するFP32の計算は30%上昇と予想
  • Tensorコアを使用するTF32、FP16、BF16の性能も30%上昇と予想
  • メモリ間の転送速度は70%上昇と予想

実際の性能

  • FP32についてはRT5090に変更で予想通り行列計算速度が約30%上昇
  • TF32、FP16、BF16の性能はすべて約50%上昇(予想より上昇)
  • GPU内メモリ転送速度は65%上昇、GPUとホストメモリ間転送速度も80%でほぼ予想通り

ニューラルネットワークの速度の比較の概要

実用上多く使用するであろうTensorコアの結果に注目すると以下のような感じで、基本的にはスペック通りかややそれよりも良さそうな上昇幅でした。
あとcudaのバージョンもそこそこ影響ありそうでした。5090に関してはcu129とcu130の二つを試しています。

  • 畳み込み計算は40%以上高速化
  • Transformerモデルは30%以上高速化
  • 生成モデルも基本的には5090が高速、cudaのバージョンの影響もそれなりにある?
  • VisionモデルはResNet50などは50%高速化、cudaのバージョンによっては遅くなるモデルも

スポンサーリンク

行列計算

CUDAコアを使用するFP32の結果

Tensorコアを使用する精度の結果

メモリ帯域

実際のニューラルネットワークモデルの速度

畳み込み計算

Transformer

画像生成モデル

Visionモデル

コメント

タイトルとURLをコピーしました