有做空的必然也有承接盘, 特别是像课程表这类大盘股,除了部分做空机构会做多对冲风险外,还有国家队、大机构以及一些券商们,都在趁着做空机构发布看空的时候,悄悄吸筹。
这也导致了课程表股价在200元左右反复拉扯,一会跌破了200港元,一会又被做多的拉到了210。
总之这场突如其来的金融暗战,课程表团队沦为了看客,或者说并未主动参与其中。
3月14日-15日,人大选举产生了新一届的国家领导班子。
随着新一届领导班子的诞生,此届人大会议也渐渐进入了尾声。
与此同时,申城交大那边的CUDA决赛个人赛也已经结束,只剩下最后一组团队赛还未进行评审。
“今天已经有了两组选择了量化交易,看来你们对这个领域是非常看好啊”
张明拿起话筒,笑呵呵说道。
从上午的个人赛到下午的团队赛,整整一天,他也见识到了不少技术高手。
特别是团队赛这边,除了之前的两组选择了量化交易系统外,还有团队做出了跨境金融数据实时并行分析与风险预警系统。
这都还能理解,毕竟金融领域对于计算的需求一直都比较旺盛,而当看到计算机与医学结合的CT影像系统时,还是超出了他的预期。
他根本就没想到学生团队能把GPUDirect技术与医疗重建算法融合得这么成熟,这完全达到了商用级。
看来这次大赛还真是炸出了不少牛人了。
崔天意团队将提交物上交,包含了系统完整可运行原型、技术白皮书、性能检测报告以及1年历史数据回测报告和商业白皮书。
随着CUDA组委会的工作人员开始针对系统进行技术测试,重点检查超高频行情优化。
“你的技术白皮书上说可以支持45万笔/秒的行情处理?”
“是的,老师”
“是最高承压45万?还是说稳定支持这个数?”
张明继续问道。
“稳定运行40万笔/秒,高并发处理可以达到45万笔/秒”
崔天意回道。
“今天关于量化交易这块,你们的数据是最高的,请问你们的系统如何基于CUDA 5实现45 万笔/秒的高并发处理?相比CPU集群,GPU优化的核心突破点在哪里?”
“核心通过三层CUDA优化实现高并发”
他沉思数秒,开始作答。
“一是利用动态并行技术,主内核根据行情类型自主启动子内核,如套利策略子内核、数据清洗子内核,无需CPU调度,减少上下文切换耗时”
“二是针对Fermi架构优化线程布局,线程块设为256,适配32线程warp特性,共享内存按数据类型分区缓存,避免bank conflict,内存带宽利用率提升至78%”
“三是通过GPU流,实现数据预处理与策略计算异步并行,隐藏数据传输延迟”
“突破点呢?”
张明记录下选手的回答,接着问道。
这个问题比较简单,崔天意只是略做思考,便给出了答案。
“相比CPU集群,核心突破点在单节点效率”
“CPU集群依赖节点间通信,延迟高且易出现负载不均,而我们的双GPU协同方案,可以通过CUDA MemcpyPeer实现GPU间直接数据传输,单节点处理能力达CPU集群8节点水平,且硬件成本仅为其1/3”
“Fermi M2090GPU显存仅4GB,如何支撑45万笔/秒行情的实时存储与计算,又避免显存溢出?”
“我们采用三级内存分层管理方案解决显存瓶颈”
崔天意思路片刻,继续答道。
“首先是常量内存存储策略参数,如套利阈值、VAR系数,这些不会超过128MB”
“其次是共享内存缓存高频访问的行情数据,单线程块分配32KB,总占用不超过2GB”
“最后是全局内存仅存储核心计算结果与待处理行情,通过异步清理机制释放无效数据,显存占用稳定控制在3.2GB以内”
“嗯,明白了,我没有问题了”
张明听完了他的作答,点了点头。
其实关于CUDA平台的技术要点也就这么多,无非就是看你会不会运用,能运用到什么程度。
随着技术问答结束,关于商业落地性的提问又开始了。
“如果验证通过,请问你们跟国际量化机构的核心差距在哪?”
杨静轻咳一声,问道。
“主要是硬件跟数据”
“分别陈述一下吧”
“硬件这块,机构采用FPGA+GPU集群,延迟达微秒级,而我们的GPU方案延迟为毫秒级,无法覆盖超高频场景”
“数据方面,机构可获取付费Level-3行情,而我们目前用的是免费的Level-2行情,数据颗粒度略粗”
本小章还未完,请点击下一页继续阅读后面精彩内容!
喜欢重生一年,家里资产破亿请大家收藏:(m.2yq.org)重生一年,家里资产破亿爱言情更新速度全网最快。