RTX5090買いました!
せっかくなのでどのくらい深層学習モデルを使った性能がどの程度変化するのかベンチマークを作って試してみました。
自作(with chatGPT)なので適当ベンチマークです。
行列計算とメモリ作ったくらいで体力尽きました…
図があまりきれいじゃないのも体力がなかったからです…
まとめ
予想された性能
| RTX4090 | RTX5090 | 比率(5090/4090) | |
| CUDAコア | 16,384 | 21,760 | 1.328 |
| Tensorコア | 512 | 680 | 1.328 |
| メモリ帯域幅 | 1,008GB/s | 1,792GB/s | 1.778 |
| メモリ容量 | 24 GB | 32 GB | 1.333 |
- CUDAコアを使用するFP32の計算は30%上昇と予想
- Tensorコアを使用するTF32、FP16、BF16の性能も30%上昇と予想
- メモリ間の転送速度は70%上昇と予想
実際の性能
- FP32についてはRT5090に変更で予想通り行列計算速度が約30%上昇
- TF32、FP16、BF16の性能はすべて約50%上昇(予想より上昇)
- GPU内メモリ転送速度は65%上昇、GPUとホストメモリ間転送速度も80%でほぼ予想通り
ニューラルネットワークの速度の比較の概要
実用上多く使用するであろうTensorコアの結果に注目すると以下のような感じで、基本的にはスペック通りかややそれよりも良さそうな上昇幅でした。
あとcudaのバージョンもそこそこ影響ありそうでした。5090に関してはcu129とcu130の二つを試しています。
- 畳み込み計算は40%以上高速化
- Transformerモデルは30%以上高速化
- 生成モデルも基本的には5090が高速、cudaのバージョンの影響もそれなりにある?
- VisionモデルはResNet50などは50%高速化、cudaのバージョンによっては遅くなるモデルも
行列計算
CUDAコアを使用するFP32の結果

Tensorコアを使用する精度の結果



メモリ帯域




実際のニューラルネットワークモデルの速度
畳み込み計算



Transformer




画像生成モデル


Visionモデル




コメント