如何用ASIC的思路开发FPGA应用

时间:2025-04-28  作者:Diven  阅读:0

这是一个算力不足的年代,这是一个算力重建的年代,破局与重建关乎时代变迁,破局与重建也激发着创新者的斗志。

如何用ASIC的思路开发FPGA应用

01

愿算力与你同在:当全世界的电力都用上还不够

“算力”在就像当年的蒸汽机、电力一样,俨然已经是生产力发展的核心要素,也就是说,谁拥有超越别人的“算力”,谁就会拥有更高的生产力和效率,谁也就能在创新上实现真正的突破,成为推动产业和时代进步的原动力。所以“算力”会和“原力”一样成为人们期望拥有的能力。

“愿算力与你同在”是雪湖公司的口号,印在了我们的文化衫上。

致敬了星战里的那句“愿原力与你同在”这句话。熟悉星战的朋友一定知道,“原力”是星球大战里超自然的,而又无处不在的神秘力量,是所有生物创造的一个能量场,帮助绝地武士们拥有超越其人的能力。

5G,AI和AIoT,让所有东西都联网和数字化,使得算力缺口不断扩大,从端侧到云端,数据运算需求呈现指数级增长,都在思考如何打破“算力瓶颈”。也许你会说,可以用CPU和GPU啊?曾经有人算过,不断增长的加速需求全部用GPU来算的话,用上全世界的电力可能也不够,所以光用GPU做加速显然不现实。

在我看来,根据场景不同,将来算力会分布在从云到端的各个环节上。站在这几年非常流行的“上云万能论”的角度来看,有许多场景的需求无法通过云解决,以智能驾驶场景为例,计算结果需要在毫秒级反馈到控制系统,显然云端计算变得不现实。相信FPGA的灵活性可以为更多场景做“算力赋能”。

02

重新定义硬件:为什么要用ASIC的思路做FPGA的应用开发?

我是一个半导体行业的老兵,在芯片原厂工作的十几年里,几乎接触过市面上所有类型的芯片。在这么多的芯片里,FPGA是最特殊的,“乐高积木”一样的特点让人着迷。

这几年,异构计算和硬件加速是非常值得期待的市场。从当下4000多亿美金全球的芯片市场规模来说,FPGA芯片的60多亿不那么大,但随着ABC(AI,Bigdata,Cloud)和5G的推动,从端到云都可能面临“算不过来”的窘境,这对于擅长做加速的FPGA来说市场潜力极大。按照Gartner的预测,到2025年FPGA芯片市场将增长到125亿美金,非常值得期待。

几十年来,FPGA也一直面临ASIC的竞争。通常认为,客户的产品在达到一定体量后,从成本角度会迁移到ASIC。雪湖科技认为,虽然这样的竞争无法避免,但如果能把“Crossover Point (交叉点)”往右边延伸(如下图1),那就能扩大FPGA应用市场的空间,充分受益于异构计算强大的算力优势。所以雪湖科技选择“用ASIC的思路去做FPGA开发”,在应用开发的过程中,珍惜一点一滴的计算资源,从时间利用率和空间利用率上做优化,最终通过提升FPGA的资源使用率来提升应用端加速性能。而这样给客户带来的价值就是,因为性能提升延长了成本切换的时间点,让一部分原本ASIC的市场变成FPGA的市场。即使在云端也是一样,性能的极致优化和提升可以为客户提升TCO,剩下大把的成本,可以用来专注于提升云端的服务能力。

雪湖CEO张强在FPGA数值计算加速领域经验丰富,曾经参与过微软基金会的创新项目“激光打蚊子”,在Vertex2PRO上实现了每秒钟处理500帧图片,每张图片识别4096只蚊子的惊人效果,而这一些都是通过对计算资源极致优化来完成的。雪湖已经拥有40位FPGA开发者人员,秉承“用设计ASIC的思路做FPGA的开发”的理念,已经成功在人工智能,智能驾驶,数据中心和高性能计算领域完成布局。

图1  FPGA方案和ASIC方案成本比较 (出处:兴业证券 《FPGA行业深度报告》)

03

Wide and Deep 加速器:算法懂你,还得懂赚钱

提升算力的关键,首先一定是硬件的提升,FPGA的低延迟及高吞吐相对GPU有绝对的优势,因此越来越多的企业意识到了这一点,已经开始率先使用FPGA来提升算力。

在赛灵思开发者大会XDF 2019上,阿里云的 FPGA 异构计算负责人张振祥也说,在今年优酷的国庆阅兵直播,以及天猫双十一晚会直播,阿里云都采用了 FPGA的转码方案。我们了解到,天猫双十一的图片转码也都是用FPGA做的。这里可以看出一个趋势,FPGA还会随着双十一销售额交易量的攀升得到更为的运用。可以预见,FPGA在互联网基础业务领域有很多应用场景。

雪湖也有幸参与到了本届XDF,并且与赛灵思共同推出了基于赛灵思Alveo U200加速卡实现的“Wide and Deep广告推荐算法加速解决方案”,相较于CPU服务器,基于FPGA加速器打造的这一解决方案,将吞吐量提高了3~5倍,加上功耗更低,其TOC(总体拥有成本)是CPU云的5倍以上。

图2 FPGA vs CPU 基于FPGA的推荐算法性能比较(出处:雪湖科技)

推荐系统是互联网公司运营的核心,内容推荐会影响留存,转化和成交转化;广告推荐会直接影响点击率(CTR),进而影响广告收入。看到互联网公司对广告投放、内容点击率的痛点,我们开发了基于FPGA的广告推荐加速器。

推荐系统中,CTR(Click-Through-Rate,点击率)非常重要,在云音乐推荐的“今日歌单”,抖音上的短视频,购物APP的“猜你喜欢”等场景中,CTR值反映的是推荐系统的准确率,影响着用户是去是留,也决定着互联网企业的广告收益。

为了达成精准的推荐和投放,2016年,谷歌提出了“Wide and Deep”算法模型,现在已经被Facebook、Youtube等国际领先的互联网公司使用。考虑到部署于GPU的成本高,这一算法以往采用CPU来加速,但性能并不理想。在这个背景下,我们与赛灵思针对数据中心广告推荐算法加速推出“Wide and Deep算法推荐系统”高性能解决方案。

在完成推荐过程时,我们会根据用户信息提取用户自画像和商品属性,输入到模型,再根据相应算子得出最终结果。基于赛灵思U200构建出的“Wide and Deep”加速器,能够根据模型API制作出雪湖科技API,再由自研发的工具包将模型和数据转换为可由FPGA处理的数据,从而快速计算出结果。

将结果进行处理和排序后,也就是我们日常可见的推荐界面了。由于不同的用户有不同的个人信息和喜好,经过模型计算也会有不同的结果,也就对应出不同的推荐内容。

另外,考虑到大型推荐系统的上线都是通过云端部署,同时用在线和离线方式更新模型。除了U200加速卡,我们同样支持Wide and Deep在阿里云FPGA服务器F3(FPGA:赛灵思 VU9P)上的部署应用,用户可以通过镜像文件部署。根据最近的更新数据显示,模型精度损失可控制在2/100000。当模型更新时,通过雪湖科技提供的专有工具可直接载入模型参数,可做到一键式更新模型参数。

目前,互联网公司在算法推荐上的需求持续增长,在让企业看到FPGA的性能预期之外,我们还希望通过这些操作上的便利,能提供到奉行最小可行性测试的互联网行业最为喜闻乐见的方案,让能低成本地拥抱变化,进一步满足人们‘听我想听’、‘看我想看’、‘买我想买’的‘懒惰’需求,另一维度上,广告主的带货KPI能被更高效的完成,企业的广告售卖单价能够提升,FPGA的价值也就体现了。

除了推荐算法,雪湖对于硬件加速和算力提升的探索还在继续,“愿算力与你同在”!

关于作者

王韵,雪湖科技联合创始人兼COO,日本国立九州大学硕士,师从著名产业经济学家山崎朗。半导体行业老兵,在该领域拥有超过15年工作经验。曾服务于全球500强日本富士通集团,任职亚太区高管负责半导体芯片的市场营销业务。

编辑:黄飞

猜您喜欢


在现代汽车生活中,除了汽车本身,其汽车用品同样是重要的配件。汽车清洁用品可以有效保持车内外的整洁,提升驾驶体验。车主使用洗车液、蜡和清洁剂,不仅能去除污垢,还能...
2021-03-04 00:00:00



LCD驱动根据不同的应用需求和技术特点,可以分为多种类型。按照驱动方式的不同,主要分为主动驱动和被动驱动两种。主动驱动通常用于高分辨率和高刷新率的显示需求,能够...
2008-05-07 00:00:00

梅花盘头机螺钉是常见的紧固件,在结构和功能上与其类型的螺钉有着明显的区别。梅花盘头机螺钉的头部设计呈梅花形状,这种设计使得在使用时可以更好地防止滑牙,提供更好的...
2008-11-21 00:00:00

双向触发二极管(也称为双向可控硅或TRIAC)是应用于电力电子设备中的半导体器件。主要功能是控制电流的流动,应用于调光器、电机控制和温度调节等场合。随着科技的发...
2025-04-09 09:30:03

消防水带是专为消防工作设计的软管,主要用于输送水源,以扑灭火灾或进行其灭火作业。通常由耐高压的材料制成,具备良好的耐磨性和耐腐蚀性,以确保在极端环境下的使用安全...
2017-12-22 00:00:00

贴片电阻料盘上的标签包含关键信息,学会解读能快速了解电阻规格。标签通常包含制造商信息、产品型号、阻值、容差、数量和生产日期等。阻值通常用数字代码表示,例如「10...
2024-11-26 11:30:07