网站地图官方微信:
网站首页 来远镇 稍岗镇 鱼市镇 花溪区 平村乡 江让乡

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 京东被曝投10亿扶持布局短***领域 - * |

    近日网上有消息称京东近期正在布局短***领域,并且***投10亿扶持布局短***领域。近年来,抖音、快手、微信***号等短***平台在短***领域获取了大量流量,由于拍摄短...

    查看详情>>
  • | MiniMax Week第三天推出通用 Agent,体验如何?对行业会带来哪些影响? |

  • | Rust 使用 Result 的错误处理方式与 Golang 使用 error 的方式有什么本质区别? |

  • | AI熔化白银?_服务器_场景_贵金属 |

  • | 地球这两天发生特大磁暴,对普通人有何影响?_地磁_极光_高度 |

  • | 安世半导体控制权争夺持续:荷兰法庭激辩,闻泰科技力证“资产掏空”等指控不实_公司_张学政_技术 |

  • | 不住酒店可以去哪过夜? |

  • | 上海首家4K 20米焕影岛LED电影空间正式落成!点亮焕新视界,开启全新体验! - * |

  • | 有哪些是你用上了mac才知道的事? |

  • | 深夜,美国芯片巨头直线暴跌!发生了什么?_廖胜超_的需求_公司 |

  • | 4月旅游户外类创业公司传播影响力TOP10:驴迹科技排名逆势上升 - * |

  • 随着 Android 16 的发布, 谷歌改变了其 Andr...

    2025-06-29
  • 在被微博禁言后,1月17日21:06,西贝董事长贾国龙再发声,在朋友圈发布《回应二:预制菜和我为什么站出来? 《每日经济新闻》记者了解到,这次发文中,贾国龙再次正面回应舆论风波,表达了上述自己对于外界讨论激…...

    2026-01-18
  • 苹果重新夺回中国手机市场第一!独占超五分之一份额_系列_同比_Mate...

    2026-01-20
  • 有些人说因为给docker的不给原本部署的内容, 至少我看到...

    2025-06-29

关注我们

添加微信好友,关注最新动态