网站地图官方微信:
网站首页 观巢镇 丰城市 乌迳镇 山北乡 刀坝镇 场坝镇

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 如何评价MiniMax推出的全球首个开源大规模混合架构的推理模型MiniMax-M1,其有何技术优势? |

    OpenAI CEO 奥特曼前两天发了一篇博文,名字叫「温和...

    查看详情>>
  • | 对方酒驾,我们提出私了要了3.5W,会被认为敲诈勒索吗? |

  • | .NET 应该读“刀NET”还是“点NET”? |

  • | 越正经的女人越容易做出疯狂的事吗? |

  • | 如果两辆同型号的车换了车牌,电子警察会发现吗? |

  • | 伊朗这次让以色列打惨了,这个国家还能挺过来吗? |

  • | 女生真正的完美身材是什么样子? |

  • | golang 与rust 在服务器程序领域相比较,各有什么优劣势? |

  • | 如何评价字节跳动开源的 HTTP 框架 Hertz ? |

  • | ***如古代长城用的是C140混凝土,那千百年下来会完整的留存至今还是损坏的更加严重? |

  • | 以色列为什么突然敢打伊朗了?不怕被报复? |

  • 昨天第八集出来直接给我看傻了。 节名叫《双层瓮》,片头...

    2025-06-18
  • 最近北京日报发了篇文章锐评苏超: 说什么过度娱乐化,没人...

    2025-06-18
  • 外/网上穿比基尼泳装的***多的是(主要包括:职业女***/...

    2025-06-18
  • 京派的玩法就是饭圈王楚钦那一套…… 搞得沪派都很难受,就是樊...

    2025-06-18

关注我们

添加微信好友,关注最新动态