微信分享
第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站

使用微信扫一扫分享到朋友圈

活动分享
第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站

使用微信扫一扫进入小程序分享活动

活动详情

GOPS 全球运维大会由高效运维社区(GreatOPS)和 BizDevOps 软件工厂联合主办,指导单位为 DAOPS 基金会、开放运维联盟(OOPSA),GOPS 大会是国内第一个运维行业大会,面向互联网、金融、通信及传统行业广大运维技术人员,旨在传播先进技术思想和理念,分享业内最佳实践。

2025年,GOPS 全球运维大会即将迎来十周年,自2015年启航一路走来,GOPS 吸引了来自全球各地的运维精英和技术领袖,共同探讨运维领域的最新技术和最佳实践。迄今为止,GOPS 已经举行了26次,大会参会嘉宾累计突破8万人次,国内每一站均为本地区最大规模的高端运维盛会,满意度和推荐度高达97%以上。

第27届 GOPS 全球运维大会暨研运数智化技术峰会·上海站将于2025年10月17日-18日在上海龙之梦大酒店召开(上海市长宁区延安西路1116号上海龙之梦大酒店)。

大会将为期2天,侧重大模型、DevOps、SRE、AIOps、BizDevOps、云原生及安全等热门技术领域。特设了如大模型 + 运维/研发测试、银行/证券数字化转型、平台工程、DevOps/AIOps 最佳实践、互联网名企等特色专场。

GOPS 主要面向运维行业的中高端技术人员,包括运维、开发、测试、架构师等群体。目的在于帮助IT技术从业者系统学习了解相关知识体系,让创新技术推动社会进步。您将会看到国内外知名企业的相关技术案例,也能与国内顶尖的技术专家探讨技术实践,使企业可以根据最佳实践确定自己的选型方案,并提前预估相关的风险和收益,实现技术落地。


【渠道合作】

 渠道总监:刘   欣 158 0111 5386(微信同号)


【赞助和门票业务咨询】

 业务经理:周   静 130 7118  2180 (微信同号)

 业务经理:刘毅菲 130 2108 2989(微信同号)

 业务经理:尹   蜜 130 2108 5529(微信同号)


【议题申报】

 项目经理:高婉莹 185 1087 3635(微信同号)

 项目总监:刘   杰 156 5212 7323(微信同号)


荣誉顾问—大会顾问团—大会主席团

微信图片_20250916144854_37.png

颁奖盛典

WechatIMG12060.jpg

五大亮点

5大亮点.png

专场规划

WX20250905-181348.png

当前精彩议题(持续更新中)

议程0905.png

活动嘉宾(持续更新中...)
  • 董旻
    中国邮政储蓄银行
    软件研发中心 测试专家
    演讲主题:邮储银行实战:AI 如何重塑测试核心环节
    议题简介:介绍邮储银行在功能测试领域的智能化探索,聚焦用例设计核心场景及其上下游环节,阐述大模型应用现状与实践经验,并展望未来应用场景拓展。
    演讲提纲:敬请期待
    听众收益:
    1、了解大模型在邮储银行测试领域的应用场景及未来发展趋势;
    2、共同学习探索银行业智能测试大模型建设场景与思路。
    个人简介: 董旻,测试专家,负责星辰平台智能引擎建设与功能测试用例相关场景智能化转型探索及实践。
  • 梁克会
     中国银联
    高级工程师 数据库专家
    演讲主题:中国银联数据库运维智能化实践
    议题简介:敬请期待
    演讲提纲:
    1、中国银联数据库容器化之路;
    2、数据库运维智能化探索;
    3、未来展望与规划。
    听众收益:
    1、数据库容器化技术难点、技术路线、取得的收益;
    2、数据库运维智能化场景、解决的问题、取得的效果;
    3、数据库运维未来发展的方向、未来的规划。
    个人简介: 梁克会,高级工程师,拥有十多年数据库管理经验,管理的数据库容器规模数万。在数据库架构设计、性能优化与故障恢复以及数据库云平台建设、智能化运维方面具有深厚的专业知识和实践经验。
    2024年 GOPS 上海站金牌讲师。
  • 崔昭
    国能信息技术有限公司
    运营维护中心技术研发部经理
    演讲主题:敏态业务需求下大型企业统建应用运维管理实践
    议题简介:在数字经济高速发展、企业业务瞬息万变的今天,大型企业的统建业务系统正面临“个性化需求”与“集团管控”、“敏态变更”与“绝对稳定”的多重挤压:一方面是各类用户千变万化的业务需求和集团管理部门对业务规范和统一管控要求的冲突;另一方面是用户对业务快速实现的急迫需求和应用系统4个9、5个9的高可用性要求的矛盾。本次演讲聚焦敏态业务需求下的大型企业统建应用系统运维保障和变更管控实践,与行业嘉宾共同探讨新业态下业务系统运维的创新思路和工具手段。
    演讲提纲:
    1、敏态业务需求下大型企业应用运维面临的困境;
    2、敏态业务需求下大型企业应用运维解决方案;
    3、敏态业务需求下大型企业应用运维实践案例。
    听众收益:
    1、了解敏态业务在大型企业中的发展现状和发展趋势,以及给传统运维模式带来的挑战;
    2、了解大型企业运维团队如何对敏态业务全生命周期进行稳定性保障和业务变更管控;
    3、共同学习探索从稳态到敏态业务的运维变化和管控思路。
    个人简介:崔昭,国能信息技术有限公司运营维护中心技术研发部经理,主要负责国家能源集团统建应用系统规划设计、技术运维、应用优化和运维工具研发等工作。20年大型企业核心应用系统规划、实施和运维经验,精通 SAP 技术,对企业信息化建设、应用系统运维有深入研究和实践。
  • 王鹏
     复旦大学
    计算与智能创新学院 教授
    演讲主题:智能运维中的知识库构建和使用技术
    议题简介:在智能运维场景中,知识库的构建与高效利用正成为提升故障诊断与自动化决策能力的关键技术路径。本报告聚焦于知识库构建和使用技术,探讨如何利用大语言模型从运维文档、技术手册、社区帖子等海量异构数据中抽取故障信息、操作步骤、工具说明等结构化知识,构建高质量运维知识库。同时,报告还将介绍基于 RAG 的问答技术,以实现更精准的故障问答、SOP 生成与场景驱动的问题闭环处理。报告将结合典型案例,展示大模型驱动下智能运维知识体系的构建路径与应用价值。
    演讲提纲:
    1、大模型时代的智能运维背景;
    2、知识库的构建和使用技术;
    3、机遇和挑战。
    听众收益:
    1、了解智能运维知识库构建和使用的发展现状和典型技术;
    2、了解该领域面临的问题和挑战。
    个人简介: 王鹏,复旦大学计算与智能创新学院,教授,博导。上海市数据科学重点实验室副主任。主要研究领域包括:大数据管理与挖掘、智能运维数据分析、物联网大数据管理。2012年获得教育部自然科学二等奖(第三完成人)。
    主持或主要参与科技部重点研发计划、国家青年973、自然科学重点/面上基金、上海市科委/经信委的多个项目,以及华为、蚂蚁金服、微软等企业的资助项目。在 SIGMOD、VLDB、ICDE、ICSE 等国际会议发表100多篇论文。
  • 杨兰仓
    华泰证券
    仿真&先导体系建设负责人
    演讲主题:大模型赋能的生产流量仿真测试与智能分析体系
    议题简介:券商交易系统迭代加速引发故障风险攀升,本方案突破传统测试局限,通过高仿真环境构建与真实生产流量驱动的准出入机制强化全流程质量控制,融合大模型技术提升测试效率及故障分析能力,形成“环境-流量-流程-智能”四维协同的全链路测试体系,系统性保障交易稳定性,精准防控系统更新风险。
    演讲提纲:
    1. 背景与挑战
    1.1券商交易系统技术迭代趋势及系统稳定性需求;
    1.2传统测试模式的局限性;
    1.3新形势下对测试体系的核心要求。
    2. 核心思路与目标
    1.1整体框架:以“仿真环境+真实流量+流程管控+大模型赋能”为核心的测试体系;
    1.2目标:提升系统上线前的问题发现率,降低故障率,保障交易连续性与稳定性。
    3. 核心节点能力建设及 AI 实践
    3.1 高仿真环境建设和告警数据智能分析能力;
    3.2 版本准入质量把控和失败用例智能分析能力;
    3.3 业务场景智能识别和覆盖能力。
    4. 场景落地效果与评估
    4.1 业务场景覆盖度及缺陷发现能力;
    4.2 全质量生命周期中的职责与定位。
    5. 总结与展望
    听众收益:敬请期待
    个人简介:杨兰仓,15年运营商、互联网、证券行业软件开发及运维经历,目前专注于证券金融行业系统稳定性运行研究,负责华泰证券 IT 系统高仿真&先导体系的规划和能力建设。
  • 赵锐
    某跨国企业
    副总裁 专利发明人
    演讲主题:AI 与安全的双向赋能:从对抗到防御
    议题简介:在数字时代,人工智能与网络安全的关系愈发紧密且复杂。本演讲聚焦 “AI 与安全的双向赋能:从对抗到防御”,深入剖析 AI 如何既成为安全威胁的助推器,催生出自动化攻击、智能钓鱼等新型攻击手段,又作为安全防御的强大引擎,在威胁检测、自动化响应等方面发挥关键作用。通过探讨 AI 与安全从对抗走向协同防御的路径,揭示两者相互作用的内在逻辑,为构建适应 AI 时代的安全体系提供思路与方向。
    演讲提纲:
    1、AI 驱动的安全威胁新貌;
    2、AI 赋能安全防御变革;
    3、构建 AI 时代的安全防御体系;
    4、未来展望与行动建议。
    听众收益:
    1、了解 AI 驱动下安全威胁的新形态,掌握 AI 在安全防御中的多元应用场景,构建对 AI 与安全关系的全面认知;
    2、学习应对 AI 驱动攻击的策略和方法,了解人机协同防御模式的运作机制;
    ​ 3、获取构建 AI 时代安全防御体系的实际思路,提升所在组织的安全防护水平;
    4、提前把握 AI 与安全协同发展的未来趋势,为自身职业发展和组织战略规划提供前瞻性指导。
    个人简介: 敬请期待
  • 刘宪涛
    金融行业
    资深 AI 架构师
    演讲主题:数智燎原:AI Agent 技术演进与企业级研发实践之路
    议题简介:将系统梳理 AI Agent 技术从早期探索到企业落地的关键技术路径,深入解析 LangChain、LlamaIndex、Semantic Kernel、Dify 等主流开发框架及 MCP 协议等最新技术趋势。结合金融、保险、航天等行业的真实项目案例,重点展示如何将大语言模型、RAG、RPA 等技术实现智能问答、推荐系统、流程自动化等企业级智能应用。旨在帮助听众理解 AI Agent 的演化逻辑、关键生态及工程落地方法,掌握推动 AI 价值转化的核心能力。深入剖析最前沿的智能体开发框架与生态趋势,解密如何将大语言模型、RPA、知识图谱等技术融合,打造真正“可用、好用、能落地”的智能系统。结合金融等行业标杆项目实践,呈现 AI 如何赋能业务革新、驱动智能化转型。精彩内容不容错过,邀您一同见证 AI Agent 如何重塑企业未来!
    演讲提纲:
    一、引言:AI Agent 时代已来
    1、分享人简介与背景;
    2、当前 AI 发展趋势与 Agent 崛起背景;
    3、AI Agent 在企业智能化中的核心价值。
    二、AI 大模型技术生态总览
    1、大语言模型(LLM)演化与能力边界;
    2、LLM 与 Agent 的关系解析;
    3、AI Agent 的本质:工具使用 + 自主推理 + 多轮任务执行。
    三、AI Agent 早期技术(2023 年)
    1、Agent 的早期框架:ReAct 范 式(ICLR 2023);
    2、典型早期示例:AutoGPT、斯坦福虚拟小镇、多 Agent 实验;
    3、开发技术栈:LangChain、LlamaIndex、Semantic Kernel;
    4、RAG 技术与 LangChain 集成。
    四、AI Agent 新生技术趋势(2024–2025 年)
    1、MCP 协议(Model Context Protocol)的出现与优势;
    2、Agent2Agent(A2A)协议与多 Agent 协作愿景;
    3、OpenAI Agent SDK 与 Assistants API 集成能力;
    4、下一代能力:上下文工程(Context Engineering)。
    五、AI Agent 企业级研发实践
    1、企业级 AI 系统的三要素:AI 能力 + 工程能力 + 运营路径图;
    2、Beyond LLMs:AI 工程不能只有大模型;
    3、项目实战案例分享:
    o RAG 智能问答机器人
    o AI 推荐系统
    o LLMOps 运营平台
    o RPA 自动化系统
    o 虚拟数字人与模型推理加速
    六、AI Agent 关键技术生态与平台
    1、Ollama、Dify 等一站式平台能力;
    2、LangChain vs. LlamaIndex vs. Dify 的应用场景比较;
    3、企业级系统集成与研发协作模式。
    七、结语与展望
    1、实践重于一切,AI 落地需要工程与业务并重;
    2、尊重技术客观规律,持续迭代创新。
    听众收益:
    1、掌握 AI Agent 核心技术演化路径;
    2、熟悉主流开发框架与协议生态;
    3、借鉴跨行业 Agent 落地实战经验。
    个人简介: 毕业于北京邮电大学国家级重点实验室,具备坚实的学术基础和科研素养,持有金融科技师 CFT\PMP\NPDP 等多项权威专业认证。拥有超过10年的企业级 IT 系统研发与建设经验,先后在互联网、银行、保险、航天等多个行业的头部企业任职,技术能力强,工程实践经验丰富。
    长期专注于人工智能前沿技术的研究与工程化实践,特别是在大模型(LLM)、深度学习、RPA 自动化等领域具有深厚积累,过去8年,主导并落实多个 AI 赋能企业业务的创新项目,包括基于大模型的RAG 智能问答机器人、AI 大模型驱动的智能产品推荐系统、LLMOps 运营平台,企业知识图谱系统、RPA 流程自动化平台等。同时,担任企业内部 AI 培训讲his,推动 AI 人才体系建设。
    因技术创新表现突出,荣获企业“创新标兵”称号,所主导项目连续两次获得金融系统”青年创新 Smart 竞赛”全行级奖项,并已申请1项 AI 技术相关发明专利。
  • 胡宸源
    腾讯 PCG
    可观测平台负责人
    演讲主题:腾讯 PCG 全链路可观测及 SRE Agent 的建设成效
    议题简介:介绍腾讯伽利略可观测平台的全链路可观测建设成果,包括从前端可观测到后台可观测的全链路串联。介绍在可观测平台上的智能化体系建设,包括 SRE Agent,A2A,
    演讲提纲:
    1、全链路可观测端到端串联;
    2、SRE Agent 端到端训练;
    3、最终的业务成果。
    听众收益:
    1、了解腾讯最新的可观测技术趋势;
    2、了解最先进的 SRE Agent 的自动化 CO 提效。
    个人简介: 胡宸源,腾讯公司 T12 级后台开发,腾讯伽利略可观测平台负责人。从零到一的建设了全公司最大的可观测系统----伽利略可观测平台。在全链路可观测,业务质量保障,SRE Agent,大语言模型方面有丰富的经验。
  • 余淼
    腾讯 PCG
    测试工具中心产品负责人
    演讲主题:从线上流量到 AI 数据:腾讯 PCG 压力测试平台的建设与规模化实践
    议题简介:在互联网业务高速迭代的今天,复杂系统的稳定性面临严峻挑战——高并发场景下,传统压测依赖人工构造测试数据的局限性愈发凸显:场景覆盖不全、流量真实性不足、极端用例难以复现……如何高效获取“高保真、多样化、可扩展”的测试数据,成为保障亿级用户产品稳定性的关键命题。本次分享将聚焦腾讯 PCG(平台与内容事业群)压力测试平台的建设与实践,介绍压测量级达到百万并发、亿级吞吐的压测平台建设方案;​​从线上流量到 AI 数据的现网压测数据构造能力以及 QQ 春保等压测案例分享。
    演讲提纲:
    1、压力测试的行业挑战;
    2、百万并发压测平台的核心设计;
    3、流量数据选举及 AI 数据构造多样压测数据;
    4、QQ 春保压测案例。
    听众收益:
    1、了解压测平台建设核心思路以及从“人工构造”到“ AI 驱动”的压测数据构造方案;
    2、结合腾讯 PCG 的压测实践案例,了解大规模现网压测及常态化压测等的压测方案设计思路。
    个人简介:余淼​​,腾讯 PCG 测试工具中心产品负责人 、高级技术产品经理,2011年加入腾讯,十年来持续投入在测试工具产品建设,负责从0到1搭建 PCG 全流程质量平台并在公司内大规模落地,支持 QQ、腾讯视频、腾讯文档、腾讯新闻等十余个大型产品的质量保障与效能提升。在接口自动化、终端自动化和压力测试等领域拥有丰富经验。
  • 黄涛
    腾讯 PCG
    质量监控专家工程师
    演讲主题:探索 AI 时代的客户端质量监控新趋势
    议题简介:深入探讨如何构建高效的客户端质量监控体系,以及 AI 技术如何引领这一领域的变革。传统的质量监控方法在面对日益复杂的应用环境时,常常显得力不从心。随着 AI 技术的迅猛发展,客户端质量监控迎来了新的机遇。结合 LLM 等工具,开发者可以实现更精准的性能监测和问题诊断,显著提升应用的稳定性和用户体验。
    演讲提纲:
    1、客户端研发中的质量与性能挑战;
    2、 如何实现线上+线下全面覆盖的质量性能监控策略;
    3、 AI 时代的客户端质量监控:趋势与机遇。
    听众收益:
    1、深入理解质量性能问题:了解客户端研发过程中常见的质量和性能问题,帮助研发和测试在实际工作中更好地识别和解决这些问题;
    2、掌握全面监控方法:学习如何实现研发、测试、线上全范围覆盖的质量性能监控,提升应用的整体质量和用户体验;
    3、探索 AI 赋能的新机会:听众将了解 AI 时代下客户端质量监控的新机会,发现如何利用智能工具进行自动化监控和分析。
    个人简介: 黄涛,十余年 Android 相关性能优化工作经历,曾就职于国内 Top 手机厂家,负责 Android 系统底层的性能优化工作,目前在腾讯端服务团队,主要负责客户端质量监控的相关研发和管理。致力于为开发者提供全面的应用质量保障,帮助开发者更好地监控和解决移动端应用中的问题。
  • 邓德杨
    字节跳动
    系统可观测高级专家  
    演讲主题:字节跳动基于 eBPF 的海量微服务高性能可观测实践
    议题简介:本次分享主要介绍字节跳动基于 eBPF 的海量微服务可观测实践。公司的网络监控及可观测大部分使用插桩或者 SDK 的方式进行埋点来采集数据,遇到了接入成本高、业务强耦合、覆盖率不全、链路断链、升级困难等痛点。因此,我们基于 eBPF 技术,实现语言零侵入,并实现网络L4和L7的分布式追踪、可观测、性能分析及诊断等能力。我们的 eBPF 程序可以定制匹配、过滤策略,过滤感兴趣的业务流量,减少处理的数据量,它使用 sk_storage存储和 tcp option 携带服务 id 的技术,解决了微服务调用链路的观测问题,具备比业界方案消耗更低的优势。分享主要会介绍基于海量机器遇到的挑战和困难,以及如何采用创新的方式,来解决遇到的挑战及系统优化,并给听众带来可观测和性能优化实践的收益。
    演讲提纲:
    1、基于 eBPF 实现可观测的背景概述;
    2、海量微服务的高性能可观测实践;
    3、基于 eBPF 高性能采集实现原理;
    4、可观测实现排障的展望。
    听众收益:
    1、了解海量微服务排障中遇到的困难挑战;
    2、了解如何基于百万级服务器可观测的实践和落地;
    3、了解如何基于eBPF实现高性能数据采集和数据链路处理优化;
    4、了解如何通过可观测协助链路排障找并到根因的方法。
    个人简介:邓德杨 , eBPF 可观测、混沌工程、系统诊断、性能压测等产品负责人和架构师,主要通过故障演练、性能压测、系统诊断、可观测分析等产品,保障抖音、IaaS、飞书、火山引擎等产品和基础设施的稳定性。10多年工作经验,毕业后先后就职于阿里巴巴、字节跳动等,主要从事网络、Devops、混沌工程、可观测及故障诊断等系统研发工作。
  • 徐宇钦
    抖音
    测试开发专家
    演讲主题:抖音 LLM 驱动的一体化测试平台构建实践
    议题简介:在全球化数字业务爆发式增长的背景下,云真机基建已成为智能测试规模化落地的核心载体。本次演讲将深入解析如何通过分布式云真机网络的三大能力——全球化设备覆盖、多机协同调度、LLM 驱动的智能测试——构建新一代测试基础设施。以抖音为例,其依托分布在全国20+城市的分布式云真机节点,结合 LLM 实现自动化测试生成与执行,在单条业务线实现5000+测试 case 的免人工化,测试提效30%以上。这一实践印证了云真机基建与LLM 融合的技术价值。
    演讲提纲:
    1、云真机基建的全球化架构与核心能力
    硬件层:标准化机房建设和硬件故障感知与自愈;
    边云通信层:边缘网络加速和通信链路搭建;
    云端:多机协同与资源优化。
    2、LLM 驱动的智能测试规模化落地
    自然语言测试用例生成与优化;
    基于大模型的自动化效能提升实践。
    3、未来方向:从测试到全链路质量中台
    智能运维:结合 LLM 和一些边缘传感器(如温度计、监控摄像头等)实现边缘硬件故障的自动归因和自愈,覆盖更多碎片化的边缘故障场景。
    听众收益:
    1、掌握云真机基建的架构设计​:学习全球化设备部署、复杂网络下的边云通信、多机调度算法等关键技术,构建高可用的分布式测试基建;
    2、解锁 LLM 与云真机的融合价值​:获取用例生成、自愈测试、跨区协同等场景的工业级落地方案(如抖音xx业务线的具体指标提升)。
    个人简介: 徐宇钦,毕业于上海大学软件工程专业,毕业后即加入抖音,现就职于抖音专项测试团队,专注于全球化云真机基建建设、边云通信技术和边缘分布式服务稳定性建设等专项技术
  • 张杰
    抖音
    测试开发专家
    演讲主题:抖音 LLM 驱动的一体化测试平台构建实践
    议题简介:在全球化数字业务爆发式增长的背景下,云真机基建已成为智能测试规模化落地的核心载体。本次演讲将深入解析如何通过分布式云真机网络的三大能力——全球化设备覆盖、多机协同调度、LLM 驱动的智能测试——构建新一代测试基础设施。以抖音为例,其依托分布在全国20+城市的分布式云真机节点,结合 LLM 实现自动化测试生成与执行,在单条业务线实现5000+测试 case 的免人工化,测试提效30%以上。这一实践印证了云真机基建与LLM 融合的技术价值。
    演讲提纲:
    1、 云真机基建的全球化架构与核心能力
    硬件层:标准化机房建设和硬件故障感知与自愈;
    边云通信层:边缘网络加速和通信链路搭建;
    云端:多机协同与资源优化。
    2、 LLM 驱动的智能测试规模化落地
    自然语言测试用例生成与优化;
    基于大模型的自动化效能提升实践。
    3、 未来方向:从测试到全链路质量中台
    智能运维:结合 LLM 和一些边缘传感器(如温度计、监控摄像头等)实现边缘硬件故障的自动归因和自愈,覆盖更多碎片化的边缘故障场景。
    听众收益:
    1、掌握云真机基建的架构设计​:学习全球化设备部署、复杂网络下的边云通信、多机调度算法等关键技术,构建高可用的分布式测试基建;
    2、解锁 LLM 与云真机的融合价值​:获取用例生成、自愈测试、跨区协同等场景的工业级落地方案(如抖音xx业务线的具体指标提升)。
    个人简介:张杰,毕业于四川大学,毕业后加入腾讯,现就职于抖音专项测试团队,专注于 UI 内容理解及 UI 自动化等 AI 驱动的研发效能体系构建。
  • 刘进步
    阿里巴巴
    智能可观测团队后端算法研发工程师
    演讲主题:可观测场景 Copilot 构建实践与思考
    议题简介:在可观测场景中存在结构丰富、数量庞大的各类可观测数据,如何从这些数据中发掘有价值的信息,一直是我们不断探索的方向。随着大模型技术的日益普及,为我们进一步增加观测深度、提升运维体验提供了新的思路。为了构建可观测场景的 Copilot,降低运维门槛、提高运维效率,我们分别从可观测数据组织、基础算法改造、运维 Agent 构建等多个方面进行探索和整合。使得可观测 Copilot 可以真正用于辅助系统监控和运维。相信随着大模型技术的迭代演进和技术人员在可观测场景的持续探索,可观测 Copilot 会在系统运维中发挥越来越重要的作用。
    演讲提纲:
    1、可观测场景面临的问题与破局方案;
    2、可观测数据组织与语义化建设;
    3、面向大模型的 AIOps 基础算法研发;
    4、可观测 Copilot 构建。
    听众收益:
    1、了解可观测 Copilot 构建的数据准备工作;
    2、了解可观测 Copilot 构建的方法与经验。
    个人简介:刘进步,阿里云智能可观测团队算法研发工程师,负责可观测 AIOps 基础算法与智能运维平台开发,以及智能运维大模型的探索等等。参与研发了AIOps 智能异常服务的关键能力开发,包括基于各类可观测数据的异常检测和故障根因定位等等。
  • 张涛
    澳门科技大学
    计算机科学与工程学院教授
    演讲主题:软件数据智能化分析前沿领域的初步探索
    议题简介:软件数据智能化分析一直是软件工程研究领域的研究热点问题。随着诸如深度学习、大模型等人工智能新技术不断涌现,这些智能分析方法在各类软件开发和测试过程中所衍生的数据分析中取得了积极的效果,但也面临一些挑战。 我们的研究从使用过去传统的基于信息检索和机器学习的方法转向利用深度学习和大模型等新技术对软件工程和安全领域的很多问题(比如代码搜索、缺陷定位、优先级预测、恶意软件检测、智能合约漏洞检测等)提出了相应的解决方案,并开发了一系列工具。这些工具在相关任务上获得了性能上的提升,但同时也给予了我们更多的思考(诸如“大模型是否就是万能药?”)与启示。
    演讲提纲:
    1、软件数据智能化分析背景概述;
    2、软件数据智能化分析当前面临的挑战;
    3、如何利用大模型等人工智能新方法解决软件数据智能化分析当前面临的挑战;
    4、深度剖析大模型在软件数据智能化分析中的解释性问题。
    听众收益:
    1、了解大模型在软件数据智能化分析领域的前沿研究工作,应用场景及未来发展趋势;
    2、了解大模型在软件数据智能化分析领域的痛点问题;
    3、了解学术界在当前大模型时代对自动化软件工程的前沿研究,并探讨如何将学术界的新技术进行落地尝试;
    4、了解企业界如何与学术界协同,将基于大模型的AI运维工具在生产环境中部署实践并创造业务价值;
    5、了解企业界如何运用大模型技术和学术产出工具,在持续集成与监控场景中构建闭环反馈,实现运维智能化的持续迭代与优化。
    个人简介:张涛,澳门科技大学计算机科学与工程学院教授,博士生导师,ACM/IEEE/CCF 高级会员(Senior Member)。 目前担任 IEEE Macau 计算机分会创始主席,IEEE TCSE 会议论文奖项主席、唯一华人执委。目前主要研究兴趣是软件数据智能化分析和软件安全。迄今为止,张涛教授发表了超过100篇软件工程和信息安全领域的知名期刊和会议论文。担任软件工程领域权威期刊 IEEE Transactions on Software Engineering、Empirical Software Engineering 和 Journal of Systems and Software 的编委,担任软件工程领域知名国际会议 APSEC 2025和SANER 2023的大会主席,担任 Internetware 2024和 DSA 2021的程序委员会主席,经常性担任软件工程领域四大顶会的 PC Member。张涛博士主持包括国家自然科学基金和澳门科技发展基金在内的科研项目多项。
  • 胡海峰
    阿里巴巴
    高级技术专家
    演讲主题:AIOps 网络智能运维落地与实践
    议题简介:随着互联网业务的快速发展,传统网络运维模式面临着重复性答疑、运维效率低、人才培训成本高等问题。特别是在全球化背景下,如何在保证安全合规的前提下,输出可独立运维的工具成为了关键挑战。传统运维经验以文档或人脑为媒介,难以快速提升整体处理效率和稳定性。而基于大模型的智能运维(AIOps)技术为这些问题提供了新的解决方案。AIOps 平台的定位、核心能力及常见业务场景的实操经验展开,帮助一线业务同学快速了解和上手使用该平台,提升工作效率,实现更高效的网络运维管理。
    演讲提纲:
    1、AIOps 背景与现状;
    2、关键策略与路径;
    3、网络智能运维落地场景与最佳实践;
    4、里程碑与未来规划。
    听众收益:
    1、了解传统网络运维痛点,AIOPS 网络场景运维和最佳实践;
    2、基于 AIOPS 的网络自助诊断,自助答疑。
    个人简介: 胡海峰,阿里云游戏行业大客户技术服务经理,13年技术支持和技术服务经验,10多年网络技术实战经验,加入阿里云前曾在 Cisco 从事大客户技术支持工作,对云网络、传统网络都有较深的理解和丰富的实践经验。目前负责阿里公共云游戏行业客户的技术服务和业务稳定性保障,先后护航保障了多个百万级 PCU 的大型游戏项目稳定上线。协助客户结合云网络技术体系提供最佳实践/解决方案,助力云上客户业务系统高效运行。
  • 王汝鹏
     阿里巴巴
    高级技术专家
    演讲主题:AI 云上全链路可观测运维实践
    议题简介:在如今 AI 尤其是大模型飞速发展的背景下,AI 应用的运维工作变得越来越复杂、越来越繁重,尤其是 AI 任务涉及到训练、微调、推理等维度场景,如何完成 AI 应用高效地运营管理,现在已经成了非常重要的课题。为此我们带来了阿里云内部 AI 场景下,在云上全链路可观测的实践解决方案,一方面给大家分享我们的实践经验,另一方面也希望能够在 GOPS 大会上和各位同路人一起探讨 AI 可观测方向未来的发展道路。
    演讲提纲:
    1、AI 可观测技术发展;
    2、 关于 AI 可观测挑战的思考;
    3、AI 全链路可观测平台架构设计;
    4、痛点现状和应对方案;
    5、未来展望。
    听众收益:
    1、 了解 AI 领域尤其是大模型应用下,云上可观测技术的发展现状,应用以及未来发展;
    2、 了解大模型从训练、微调、部署、推理等场景下一站式全链路可观测的效果;
    3、 功能学习探讨,AI 可观测领域的发展道路。
    个人简介: 王汝鹏(花名:子潍),毕业于华中科技大学计算机专业,硕士学位。目前就职于阿里云,担任高级技术支持工程师职位。拥有6年互联网行业经验,专注于大数据和人工智能领域的研发和运维工作,同时也是 Apache 基金会的 Committer。
    熟悉 Hadoop、Spark 等大数据技术以及 AI 深度学习、大模型训练推理等技术。热衷于探索和发现行业前沿的技术,也希望能和各路方向的专家碰撞出技术的火花。
  • 徐思婕
    阿里巴巴
    高级技术专家
    演讲主题:软件数据智能化分析前沿领域的初步探索
    议题简介:软件数据智能化分析一直是软件工程研究领域的研究热点问题。随着诸如深度学习、大模型等人工智能新技术不断涌现,这些智能分析方法在各类软件开发和测试过程中所衍生的数据分析中取得了积极的效果,但也面临一些挑战。 我们的研究从使用过去传统的基于信息检索和机器学习的方法转向利用深度学习和大模型等新技术对软件工程和安全领域的很多问题(比如代码搜索、缺陷定位、优先级预测、恶意软件检测、智能合约漏洞检测等)提出了相应的解决方案,并开发了一系列工具。这些工具在相关任务上获得了性能上的提升,但同时也给予了我们更多的思考(诸如“大模型是否就是万能药?”)与启示。
    演讲提纲:
    1、软件数据智能化分析背景概述;
    2、软件数据智能化分析当前面临的挑战;
    3、如何利用大模型等人工智能新方法解决软件数据智能化分析当前面临的挑战;
    4、深度剖析大模型在软件数据智能化分析中的解释性问题。
    听众收益:
    1、了解大模型在软件数据智能化分析领域的前沿研究工作,应用场景及未来发展趋势;
    2、了解大模型在软件数据智能化分析领域的痛点问题;
    3、了解学术界在当前大模型时代对自动化软件工程的前沿研究,并探讨如何将学术界的新技术进行落地尝试;
    4、了解企业界如何与学术界协同,将基于大模型的 AI 运维工具在生产环境中部署实践并创造业务价值;
    5、了解企业界如何运用大模型技术和学术产出工具,在持续集成与监控场景中构建闭环反馈,实现运维智能化的持续迭代与优化。
    个人简介: 徐思婕,现任阿里云云智能集团技术专家,拥有7年 AI 领域实践经验,熟悉云计算与大模型应用。独立完成NPS数据分析及客服自动化工具开发,显著提升运营效率,主导碳排放预测与数据工程系统研发。学术阶段专注软件缺陷报告研究,发表 CCF B类论文,提出基于关联规则的缺陷预测方法。具备 Python、PyTorch、TensorFlow 等技术能力,主导 AI 文生图、图生图、文生文等多个项目,成功落地合同审查、数字人、多语种翻译及智能客服等应用,服务阿里云重点客户。擅长多模态推理、模型调优与工程链路搭建及PE流程,致力于为企业提供高效的大模型解决方案和技术支持。
  • 周金龙
    阿里巴巴
    资深架构师
    演讲主题:驾驭 AI 浪潮:升级构建云卓越架构
    议题简介:AI 时代,越来越多企业会基于大模型来构建企业自身的智能应用。落地 AI 应用是一件系统性工程,需要考虑系统本身的安全与稳定。同时 AI 也能够加持企业的日常运维,帮助客户更加高效地做好运维保障。基于阿里云相关 AI 产品的最佳实践及过去多年阿里在架构领域的实践经验总结,将 AI 应用架构设计总结成一系列的方法论和设计原则,形成一套标准的 AI 卓越架构框架。
    本次分享,我将深入解析 AI 卓越架构框架中的设计原则与最佳实践,旨在助力各位更高效地驾驭 AI 系统架构设计,实现技术与业务的双重卓越。
    演讲提纲:
    1、AI 应用架构面临的挑战;
    2、从云卓越架构升级到 AI 卓越架构;
    3、AI 助力企业智能运维;
    4、回顾与总结。
    听众收益:
    1、本次分享旨在阐明 AI 卓越架构最佳实践。我们会分享企业在构建 AI 应用架构过程中,如何做到系统高可用,包括从架构冗余设计、故障快恢、大模型端到端可观测等多个维度;还是在 AI 安全防护上,识别提示词攻击、内容安全风险潜在威胁,制定有效的应用策略,你都将获得具体可行的方案指导。
    2、此外,我们还将分享如何借助 AI 实现智能化运维实践,探索如何借助 AI 来提升企业对资源运维、系统安全稳定等进行大幅提效。期待这次分享能激发灵感,助你构筑更加可靠、安全且高效的AI应用架构。
    3、讲师金句(有态度的一个句子):AI 卓越架构,助力企业构建安全可靠的AI应用。
    个人简介: 周金龙(遥方),阿里云高级解决方案架构师。2011年加入阿里,先后建设了阿里集团 CMDB、DevOps、监控等 SRE 产品。2016年加入菜鸟技术团队主导云原生架构,参与了菜鸟全球多域混合云架构,菜鸟弹性伸缩架构建设。最近三年聚焦企业 IT 治理、企业上云用云等技术领域,服务过上百家头部客户,在云上安全、稳定、成本优化等领域拥有丰富经验。
  • 余涛
    阿里巴巴
    高级技术专家
    演讲主题:大模型在 IPC 领域的实践探索
    议题简介:IPC 行业作为 VL 模型的关键落地领域,系统讲解阿里云 VL 大模型如何在 IPC 领域发挥其优势,同时针对个性化的定制需求,如何进行模型微调,探索 VL 模型在 IPC 行业使用的最佳实践,展望未来的技术发展方向。
    演讲提纲:
    1、行业背景:IPC 行业的广阔前景;
    2、大模型应用场景:大预言模型+VL 模型;
    3、模型调用:API -》微调;
    4、展望:发展趋势及个人建议。
    听众收益:
    1、获取多模态模型应用的最佳实践;
    2、讲师金句(有态度的一个句子):绝知此事要躬行。
    个人简介:余涛,云计算相关领域
  • 顾贤杰
    网易
    资深运维专家
    演讲主题:复杂系统的稳定性治理实践
    议题简介:在网易内部存在内部私有云,k8s 容器,kvm 虚拟机,物理服务器等多种算力服务模式。相关算力资源的设计,交付有多样化的需求,同时围绕这些算力之上又有多样化的应用场景和部署模式。如何通过系统的组件治理,运维数据链路打通实现从底层服务器,容器,应用,中间件等多个维度的故障快速定位,实现持续的稳定性治理是一件非常具有挑战的事情。团队因为同时负责从底层物理服务器,私有云,k8s,应用,中间件服务等多层技术堆栈的运维工作,在问题发现,定位,解决方面面临了巨大的挑战。通过对运维自动化实践,告警治理,故障应急 SOP 等系统/能力的建设,着力降低运维技术堆栈的复杂度,持续沉淀运维技术资产等治理策略,持续实践并且提升1-5-10的能力。
    演讲提纲:
    1、复杂环境下遇到的稳定性治理难题;
    2、当前网易内部的稳定性情况和治理经验;
    3、稳定性运维的技术实践,包括自动化,告警治理,LLM 等技术的实践应用以及效果;
    4、对于复杂系统(云等环境)的稳定性治理的技术展望。
    听众收益:
    1、了解复杂环境下的运维稳定性治理面临的问题点,相互交流相关的问题经验;
    2、了解运维治理策略和技术方案在复杂环境下的应用效果;
    3、共同学习探索多种技术方案在生产环境的稳定性治理效果。
    个人简介: 顾贤杰,网易技术支持部 SRE 团队主管。团队负责网易内部多个产品线的运维支撑工作。长期关注 SRE 相关的技术和稳定性建设,主导建设了内部的基础运维框架和大部分的运维支撑系统。在运维自动化,系统稳定性框架建设均有相关的实践,并且在公司内部有应用落地,有丰富的产品运维经验和经历。
  • 李赛
    携程
    算法专家  
    演讲主题:大模型时代的智能化运维
    议题简介:随着 AI 能力的普及,OPS 工作正朝着更加智能化、自动化、实时化的方向发展。如何结合大模型、算法帮助提升运维工作效率,尤其是故障场景中的发现、分析、定位等环节的工作效率,成为行业趋势。
    围绕故障、告警的生命周期,我们通过大模型融合 AIOps 小模型的技术方案,设计面向快恢的故障分析系统,帮助运维提升故障定位效率,降低人工排障费力度,进而加快故障恢复。
    本次分享通过介绍携程基于大模型结合 AIOps 技术,聚焦故障1-5-10场景的智能化实践,希望能够帮助行业人员了解 OPS 如何结合大模型、算法来帮助提升1-5-10,进而提升效率和稳定性。
    演讲提纲:
    1、智能告警系统体系介绍;
    2、智能分析分析系统设计与实现;
    3、故障快恢系统设计与实现;
    4、QA。
    听众收益:
    1 、了解大型互联网告警分析和故障定位,如何基于大模型实现智能根因定位;
    2 、了解面向快恢的故障分析系统实现策略方法。
    个人简介:李赛 携程 AIOps 团队负责人,算法专家,主要负责携程 AIOps 技术体系, 包括智能告警、智能变更、容量治理、应用治理、根因定位等方向的工作,在人工智能技术结合运维场景方面有深入研究。多次分享技术主题,获得携程技术中心优秀讲师称号,曾多次出席过业界行业技术会议,其负责项目获得中国信通院“云服务运行安全创新成果奖”。
  • 李宝峰
     B 站
    资深 SRE 专家
    演讲主题:从 “能跑” 到 “跑稳”:推广搜业务的稳定性进阶实践
    议题简介:背景:作为一家内容平台,推荐和搜索是连接用户与信息的关键。推广搜业务稳定性对用户体验和商业价值至关重要。自媒体和 AIGC 时代内容井喷,精准有效分发是各家内容平台的核心课题,推广搜业务正是其关键体现。
    演讲提纲:
    1、推广搜业务形态及稳定性治理挑战;
    2、稳定性筑基:从标准化到风险前置的全链路防御;
    3、韧性升级:多活架构与应急响应的双保险机制;
    4、目标与未来展望。
    听众收益:
    1、能力提升:掌握推广搜领域从指标标准化到多活架构、应急响应体系的全栈稳定性方法论,明晰各模块协同逻辑;
    2、问题解决:获取应对链路观测盲区、变更风险、容量瓶颈、突发故障响应等实际问题的落地思路,包括多活架构下的容灾方案;
    3、效率优化:了解如何通过预案平台、1-5-10 应急体系、自动化分析等工具,降低故障响应成本,提升业务抗风险能力;
    4、全局视角:建立 “指标 - 观测 - 防御 - 应急 - 架构” 的完整认知,助力构建适配推广搜业务特性的高韧性稳定性保障体系。
    个人简介:李宝峰 ,2021年加入B站,负责商业化业务 SRE 工作,并逐步覆盖推荐与搜索、人工智能平台、机器学习平台等业务。深度参与业务标准化改造、稳定性建设、容量治理、成本优化、活动保障等相关工作。
  • 马恒洋
    小红书
    可观测产品负责人
    演讲主题:基于流量地图的活动保障体系实践与 AI 探索
    议题简介:敬请期待
    演讲提纲:
    1、小红书重大活动的稳定性保障挑战;
    2、面向活动备战和效果排障的流量地图实践;
    3、AI 驱动的业务+可观测性场景探索。
    听众收益:
    1、了解可观测性、技术风险、AIOPS 等领域现状;
    2、了解重大活动保障的相关事项,比如流量和容量预估、全链路压测等;
    3、共同学习探索大模型+可观测性的场景创新。
    个人简介:敬请期待
  • 郑欣
    高效运维社区
    资深技术专家
    演讲主题:从零到一:大模型技术在测试团队的应用探索与入门指南
    听众收益:
    1、快速建立大模型与测试工作的关联认知;
    2、掌握从零开始的落地实操路径;
    3、解锁团队协作与能力升级的新思路。
    个人简介:曾就职于 大连创盛,EMC²,立思辰,作业盒子等企业,担任测试管理相关工作。专注于测试团队效能提升改进,敏捷化转型,DevOps 改造等相关领域的工作。
  • 郑鸿鹏
    兴业证券
    信息技术部运维服务与研发处副总监
    演讲主题:基于数字孪生的证券公司运维实践
    议题简介:敬请期待
    演讲提纲:
    1、证券公司运维数字孪生实践背景;
    2、证券公司运维数字孪生建设思路;
    3、证券公司运维数字孪生应用情况;
    4、证券公司运维数字孪生展望。
    听众收益:
    1、了解证券公司运维背景和痛点以及数字孪生实战经验与落地思路;
    2、了解通过数字孪生实现证券公司运维管理实时可见、可管、可控,提升运维决策效率;
    3、了解数字孪生与 AI、自动化融合下,助力企业快速实现运维数字化转型。
    个人简介: 郑鸿鹏,运维研发团队负责人,主要负责 AIOps、DevOps 等运维数字化规划和运维一体化建设落地;参与证券期货业经营机构内部应用系统日志规范、运维指标体系等运维标准化工作;负责国产化数据库应用、监控数据治理、智能运维平台等课题研究,获得中国计算机用户协会云应用分会云鹰奖、ITRDC 行业优秀课题等奖项。
  • 李书培
    中国工商银行软件开发中心
    混沌工程牵头人
    演讲主题:混沌工程在工商银行的应用实践
    议题简介:随着业务的快速发展,系统底层分布式部署体系越来越复杂,交易的可靠性越来越重要,传统测试工具及测试环境下,无法系统性地验证在多个应用部署集群中存在的一些系统级异常问题。为了解决上述问题,工行引入了混沌工程的能力。混沌工程是在分布式系统上进行实验的学科,目的是建立系统对抵御生产环境中失控条件的能力和信心。工行通过实施混沌工程进行故障演练,评估环境异常和分布式集群多点故障对应用可用性影响,从而促进基础架构与应用架构双提升,保证基础设施平台和上层应用稳定运行。
    演讲提纲:
    1、混沌工程介绍;
    2、工行混沌工程落地实践;
    3、工程混沌工程实践成效。
    听众收益:
    1、了解金融行业企业级混沌演练平台如何建设落地;
    2、共同学习探索混沌演练平台的演进方向和价值。
    个人简介: 李书培,工行开发中心混沌工程牵头人,牵头混沌演练平台的体系建设,致力于通过体系化混沌演练能力守护提高应用系统稳定性。
  • 独立开发者李枫
    李枫
    独立开发者
    演讲主题:基于 Rust 的 Python 现代运维
    议题简介:近些年具备高安全性和高性能等特点的系统编程语言 Rust 的快速增长是整个IT行业一道十分引人注目的"风景线", Rust 的广泛应用不仅正在影响系统编程领域,而且对软件甚至硬件的各细分领域也产生了显著的冲击效应。随着以 AI 为中心的系统几乎无可争议地成为整个 IT 行业未来最重要的趋势,AI 领域事实上的"第一语言"Python及其生态产生着巨大的虹吸效应,凭借着 PyO3 等优秀开源项目提供的 Python 和 Rust 之间良好的互可操作性促进了两者在开源生态中越来越紧密地协作,而"意外"崛起的 Rust 正在对 Python 的实现、开发及运维进行全方位的渗透,同时 Rust 也在猛烈动摇着一直以来主要由 Go 构建的云基础设施。。。越来越多的 Python 开发者正在转向使用 Rust 实现的 Python 开发和运维环境。
    本议题正是对这一现象进行的探索与实践的总结,并将涵盖下列内容:
    1)将 Python 项目(特别是 AI 相关的)管理迁移到 uv(Rust 编写的性能优异的 Python 包/项目管理器)和 mise(Rust 编 写的支持多种编程语言的开发环境管理工具);
    2)通过 mise 支持使用 RustPython(Rust 实现的 Python 解释器/运行时)来运行 Python 程序;
    3) 探索由 Rust 实现的新兴框架与 Python 应用可能的集成;
    4)在基于 Rust 的容器类项目上运行 Python 程序。另附主要技术栈的相关链接如下:
    https://en.wikipedia.org/wiki/Python_(programming_language)https://en.wikipedia.org/wiki/Rust_(programming_language)https://github.com/PyO3/pyo3https://github.com/astral-sh/uvhttps://github.com/jdx/misehttps://github.com/RustPython/RustPythonhttps://rust-cloud-native.github.io
    演讲提纲:
    敬请期待
    听众收益:
    敬请期待
    个人简介: 李枫 ,先后就职于摩托罗拉, 三星等 IT 公司, 现为独立开发者。在移动平台上积累了十年以上的研发经验, 近几年主要专注于云计算/边缘计算基础设施(包括 AI, Virtualization, Program Runtime, Network, 5G, RISC-V, EDA 等软硬件领域)。 是《灰帽黑客 第4版:正义黑客的道德规范、渗透测试、攻击方法和漏洞分析技术》(ISBN:9787302428671)和《恶意网络环境下的Linux防御之道 》(ISBN: 9787115544384)中文版的主要译者。 对技术创新具有浓厚的兴趣和实践能力,热心参与开源社区的各种活动,多次参加各类 IT 会议并作技术分享。之前做过的各种技术演讲(皆为第一作者)可见于以下链接: https://github.com/XianBeiTuoBaFeng2015/MySlides
  • 贺安辉
    博睿数据
    产品中心总监
    演讲主题:大模型遇见可观测性:智能感知和根因分析的新实践
    议题简介:介绍在智能运维的探索中借助 LLM 技术在智能感知和根因分析方面的实践,让运维人员可以更加便捷的使用观测平台、快速获得应急响应过程中的根因分析结论。
    演讲提纲:
    1、LLM 在智能运维领域的关键进展;
    2、LLM 在智能感知方面的探索;
    3、LLM 在根因分析方面的探索。
    听众收益:
    1、了解 LLM 在智能运维领域的发展现状,应用场景及未来发展趋势;
    2、了解 AI + 可观测相结合所产生的创新场景;
    3、了解业界在智能运维领域的最新实践。
    个人简介: 贺安辉,目前担任博睿数据产品中心负责人, 16年智能运维领域从业经历,曾供职于中国工商银行、蚂蚁集团等企业,对运维体系、技术、产品形态和方法论有丰富的经验。
  • 李世岗
     荣耀
    手机互联网业务运维负责人
    演讲主题:荣耀互联网业务全链路压测及混沌演练实践探索
    议题简介:敬请期待
    演讲提纲:
    1、全链路压测及混沌演练背景概述;
    2、全链路压测及混沌演练的实践介绍;
    3、未来展望。
    听众收益:
    1、了解全链路压测及混沌演练在荣耀互联网业务的应用现状;
    2、了解全链路压测及混沌演练体系建设情况;
    3、共同学习探索行业,全链路压测及混沌演练领域建设思路。
    个人简介:李世岗荣耀手机互联网业务运维负责人,主导荣耀互联网业务的运维自动化建设、故障管理体系建设、SRE实践落地、容量管理等工作。GOPS全球运维大会金牌讲师
  • 黄志泳
     vivo
    互联网领域部署方向平台负责人
    演讲主题:从自动化到智能化——vivo互联网 CICD 部署的演进与提升
    议题简介:CICD 部署的演进,是驱动研发效能持续提升的核心引擎。vivo 互联网的 CICD 部署经历了从物理机时代的手工操作,到虚拟机阶段的脚本化,再到容器化时期的平台化与自动化,如今迈向全球化与智能化。
    我们通过 CICD 平台多次迭代,在国内实现了>95%的部署成功率,>97%的构建成功率和>99.95%的平台 SLA。面对全球化部署,我们构建了多活架构与多云部署的流水线,以应对多地域合规与一致性挑战。
    而今,智能时代带来新变革。我们正聚焦大模型部署,通过 GPU 智能调度、模型灰度发布及流量切分等能力,解决算力调度与复杂部署形态的难题。 未来,部署方向将从自动化走向智能化。通过持续改进和场景闭环,最终让业务获得更稳定、高效、可持续的价值交付。
    演讲提纲:
    1、开场:CICD 部署在价值交付中的重要性
    2、vivo 互联网 CICD 部署的发展历程
    1)物理机阶段 —— 刀耕火种;
    2)虚拟机阶段 —— 脚本化与半自动化;
    3)容器化阶段 —— 平台化与自动化;
    3、从国内到全球化的部署转变
    1) 国内业务部署的成熟度;
    2) 全球化部署的新挑战和复杂性;
    4、智能时代的大模型部署转变
    1)新业务场景的需求与挑战;
    2)大模型的部署实践;
    5、研发效能视角下的部署建设总结和未来蓝图
    听众收益:
    核心收益:通过本次分享,听众将全面认识vivo互联网领域 CICD 平台部署的演进,了解各场景提升部署稳定性与效能的实践方法。
    1、发展脉络:听众能够清晰认识 vivo 部署实践从物理机到虚拟机,再到容器化的演进历程,理解不同阶段部署模式、规模变化及对应的建设思路,从而建立对平台现状的整体认知。
    2、全球化建设:听众将了解全球化部署的复杂性,包括多地域、多云部署与合规挑战,并学习到统一部署规范、多活架构和自治化流水线等建设方向,收获支撑国际化业务的可落地方法论。
    3、智能化提效:在大模型时代,听众将掌握应对 GPU 资源稀缺和模型复杂度的方法,如智能调度、灰度发布、A/B 测试的机制,理解如何保障智能应用快速、安全、稳定地上线。
    最终收获:形成从演进脉络、全球化到智能化的系统认知,并获得可借鉴的实践思路,助力业务在不同阶段实现高效、稳定的价值交付。
    个人简介: 黄志泳,拥有超过10年经验的互联网技术管理专家,深耕研发效能与 CICD 领域。曾多次领导团队为大型企业构建金融级 CICD 平台,成功推动研发流程标准化与自动化落地,并助力企业通过信通院 DevOps 成熟度三级认证。现任 vivo 互联网 CICD 部署方向平台负责人,主导平台的架构重构与技术升级,将平台稳定性提升至99.95%,部署成功率提高至97%以上,有效支撑公司海内外业务的快速扩张与持续增长。
  • 尹飞
    申万宏源证券有限公司
    信息技术质量效能部工具平台组负责人
    演讲主题:面向证券行业持续测试的工具平台智能化建设之路
    议题简介:敬请期待
    演讲提纲:
    1、介绍证券行业持续测试的建设要求及申万工具平台能力建设全景。
    2、测试设计阶段典型工具平台建设
    2.1 申万测试大模型平台,解决需求评审,测试用例生成;
    2.2 单元测试,介绍申万测试覆盖率、单元测试建设实践;
    2.3 大模型加持下,代码评审+单元测试生成探索。(待定)
    3、回归测试阶段工具平台建设
    3.1 Web 端 UI 自动化解决方案;
    3.2 客户端 UI 自动化解决方案;
    3.3 移动端自动化测试解决方案;
    3.4 大模型加持下,传统 UI 自动化平台的升级探索。
    4、工具平台与 DevOps 集成的结合实践
    5、总结
    5.1大模型对现有工具平台的升级改造的实践经验;
    5.2 工具平台与 DevOps 结合的经验。
    听众收益:
    1、了解证券行业工具平台建设情况;
    2、了解大模型技术在证券行业工具平台侧的落地进展;
    3、了解大模型技术对传统工具平台改造的探索经验;
    4、了解测试工具平台与 DevOps 对接的实践经验。
    个人简介: 尹飞,申万宏源信息技术质量效能部,工具平台研发负责人,目前主要负责公司测试工具平台的研发、运营、运维工作,通过探索工具与 DevOps 结合,实现业务测试效果赋能。工作以来长期从事质量平台和智能化测试的开发、建设工作,并多次主导行业金融科技课题研究工作,获得优异成果。在 ICST 会议,发表 IEEE 论文一篇。
  • 朱甜甜
     携程旅游
    网络技术有限公司 SRE 专家
    演讲主题:节假日洪峰场景下携程全链路压测体系的搭建与实践
    议题简介:在节假日洪峰来临之前,对系统容量进行准确评估并做好资源准备,是业务峰值期间系统稳定的重要保障。在生产环境进行全链路压测是识别系统性能瓶颈和精确容量评估最直接最有效的手段,本次分享将向大家介绍携程在应对节假日及大型抢票活动场景时如何做好全链路压测工作,从真实场景出发介绍如何模拟真实用户进行完整的全链路压测,同时如何保障线上数据和服务安全。
    演讲提纲:
    一、携程全链路压测体系
    1、全链路压测的意义;
    2、携程全链路压测架构介绍;
    3、压测体系核心模块介绍。
    二、携程节假日压测实践
    1、制定压测计划;
    2、业务场景搭建;
    3、用户报文模拟;
    4、数据及服务隔离保障;
    5、压测实施及监控;
    6、压测复盘。
    听众收益:
    1、了解全链路压测架构体系;
    2、如何快速高效组织业务全链路压测。
    个人简介:朱甜甜, 2016年加入携程,携程全链路压测平台负责人,长期参与网站稳定性建设、服务高可用架构设计及隐患治理。主导实现携程完整的全链路压测体系,推动形成集团业务常态化压测体系,为节假日系统稳定提供有力保障。
  • 张琳宛
    国泰海通证券股份有限公司
    智能运维算法工程师
    演讲主题:大模型赋能智能运维:体系优化与 AIAgent 落地实践
    议题简介:本课题提出融合大模型技术的故障智能诊断与协同处理框架,构建“事前监控-事中响应-事后复盘”全流程智能化运维体系。智能监控体系通过优化日志和指标异常检测算法,降低误报率,提升检测精度。告警中心整合多源数据,构建分层关联模型,结合移动端作战室,缩短故障响应时间。故障智能诊断依托大模型构建知识图谱,实现告警解释、预案推荐及 AI Agent 协同排查。智能复盘机制基于数据快照与大模型分析生成报告,关联相似案例并迭代优化。实践表明,该框架提升了运维效率与系统稳定性,平均故障定位时间大幅缩短,关键业务系统可用性显著提高,为智能运维发展提供创新方案。
    演讲提纲:
    1、背景:传统运维在故障定位等方面的局限;
    2、方案:融合大模型的全流程智能运维框架;
    3、成果:智能监控、告警中心等模块的突破;
    4、价值:运维效率提升与系统稳定性增强。
    听众收益:
    1、了解大模型在故障诊断领域的创新应用 ;
    2、掌握智能运维体系的具体构建方法 ;
    3、 学习 AIAgent 落地技术优化及获取运维效率提升经验。
    个人简介:张琳宛,国泰海通证券股份有限公司智能运维算法工程师。应用数学博士,专注于将前沿算法应用于智能运维(AIOps)领域。目前负责公司智能运维平台核心算法的研发与优化工作,致力于通过数据驱动和智能算法提升系统稳定性与运维效率。凭借扎实的数理功底,专注于解决运维场景中的复杂问题,助力公司智能化运维能力的快速构建与发展。
  • 管鹤鸣
    腾讯
    游戏T12专家工程师
    演讲主题:腾讯游戏SRE在混沌工程及压测场景中的应用实践
    议题简介:随着网络游戏版号常态化、业务玩法的多样性演化以及基建快速发展,游戏架构的设计复杂度也越来越高,整体运营节奏,版本迭代也越来越快,对于业务可靠性越来越重要,传统的测试方法存在诸多弊端和问题。业务对外就像开盲盒,如果能提升开出爆款的概率是我们在技术运营路上不断思考和探索的目标。
    为了解决上述问题,腾讯游戏 SRE 通过引入混沌工程、AI 赋能以及压测提效等手段进行实践和探索。
    演讲提纲:
    1、海量业务上线前压测及容灾演练中的痛点;
    2、混沌工程 + AI,业务可靠性的关键钥匙;
    3、压测压的是降本增效。
    听众收益:
    1、了解游戏行业中混沌工程和压测的落地实践;
    2、数据驱动决策,分享AI在混沌工程和压测场景中的应用。
    个人简介:管鹤鸣,腾讯游戏上海 SRE 团队负责人,IEG TDR 技术运营专家,负责腾讯代理、自研、游戏出海全生命周期 SRE 支撑能力建设及保障工作,累计负责的游戏业务数量超过80+
  • 张连生
    咪咕互动娱乐公司
    高级质量管理工程师
    演讲主题:云游戏平台的用户体验质量保障
    议题简介:站在 SRE/DevOps 视角,云游戏平台其实是一条“超长链路在线服务”:客户端-边缘节点-云渲染集群-计费-账号-CDN-日志-监控。任何一个微服务或网络抖动,都会瞬间放大为用户侧“卡顿 + 投诉”。因此我们把质量监测从“测试工作”变为“运维工作”。本次分享将介绍咪咕互娱运维团队如何构建一套高效的自动化监测体系,模拟真实用户行为,7x24小时主动探测现网游戏全链路(登录、游戏、计费、退出)的健康度与体验质量。通过融合图像识别与性能监控技术,我们实现了问题的分钟级自动发现、归因与告警,将用户体验保障从被动救火转为主动守护,为云游戏的规模化运营提供了坚实的质量基石。
    演讲提纲:
    云游戏用户体验质量保障面临业务复杂度高、现网环境多变、手动测试效率低的核心痛点。本次分享将详解我们如何构建一套自动化拨测体系,以实现对现网海量游戏可用性与体验的7x24小时主动监控,从而满足运维质量提升的需求。
    1、体系构建: 分享如何设计覆盖“登录-下载-启动-核心玩法-计费-退出”全链路的自动化测试用例,模拟真实用户行为;
    2、技术实现: 介绍基于图像识别、性能数据采集与断言规则的关键技术,如何精准判断游戏状态与卡顿等异常;
    3、落地成效: 展示该体系如何实现问题分钟级发现、自动归因与告警,大幅提升现网问题定位效率,真正为用户体验保驾护航;
    4、未来展望: 探讨AI在智能异常预测与根因分析中的进一步应用。
    我们将分享实践中的挑战、选型思考与宝贵经验,为同行提供可借鉴的落地路径。
    听众收益:
    1、获取一套可落地的运维自动化监测框架思路,了解如何从0到1设计覆盖云游戏全链路的自动化监测方案,直接应用于自身运维质量提升;
    2、借鉴业界领先的云游戏质量主动运维模式,转变被动救火为主动守护,最终实现用户体验提升与运营成本降低的双重目标。
    个人简介: 张连生,互联网技术领域深耕20年的实践者。职业生涯始于摩托罗拉移动终端软件开发,先后在江苏移动和咪咕互娱从事研发、测试、运维和质量管理等工作。从零组建咪咕计费SDK团队并交付核心计费产品,牵头公司研发流程与质量体系的构建。申请专利30余件,授权10件。近年来专注于云游戏用户体验保障的前沿探索,通过构建运维团队自动化拨测体系为业务品质保驾护航。
  • 谢恒
    上海金融期货信息技术有限公司
    智能化生产线负责人
    演讲主题:智能化生产线建设的思考和实践
    议题简介:随着 AI 技术的快速发展,智能化正在重塑企业生产线的运作模式。本次演讲将深入探讨智能化转型为企业软件生产线建设带来的挑战与机遇,分享我们在实际落地过程中的宝贵经验和深度思考。
    演讲将围绕三个核心维度展开:首先分析智能化浪潮下企业面临的挑战和创新突破机会;接着通过具体落地场景剖析,揭示智能化在不同业务环节的应用策略和实施要点;最后展望智能化生产线的发展趋势,为未来布局提供前瞻性建议。
    演讲提纲:
    1、智能化给企业生产线带来的挑战和机会;
    2、落地场景和思考;
    3、智能化生产线未来展望。
    听众收益:
    1、智能化生产线实战经验分享 - 获得一线落地案例、常见陷阱识别方法和经过验证的最佳实践指南;
    2、企业级智能化协作新思路 - 掌握跨部门协同机制、团队能力建设方案和组织变革的核心策略。
    个人简介:谢恒,是上海金融期货信息技术有限公司智能化生产线负责人,DevOps Master 持证人,从事IT十余年,对云计算、容器化、敏捷交付、智能化应用等领域有丰富经验,建设了中金所的效能研发平台,实现了体系化、自动化和智能化交付,提升了研发运维交付效率,交付质量和安全性也有质的提升。先专注于智能化生产线建设工作。
  • 合作伙伴
    铂金赞助
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    https://www.bonree.com/
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    https://www.jfrogchina.com/
    黄金赞助
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    https://www.canway.net/
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    https://www.grandage.cn
    媒体及社区合作
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    https://infinilabs.cn/
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
    活动门票
    活动筹备中
    售票推广中
    活动结束
    选择票
    门票名称
    单价(¥)
    截止时间
    数量
    普通票
    4,200
    2025-10-18 18:00
    0
    1、可参加大会两日所有的技术演讲;
    2、不含酒店中午自助餐
    标准票
    4,700
    2025-10-18 18:00
    0
    1、可参加大会两日所有的技术演讲;
    2、包含酒店2天中午自助餐
    普通票团购
    4,200
    2025-10-18 18:00
    0
    1、可参加大会两日所有的技术演讲;
    2、不含酒店中午自助餐
    3、5张以上为团购
    标准票团购
    4,700
    2025-10-18 18:00
    0
    1、可参加大会两日所有的技术演讲;
    2、包含酒店2天中午自助餐
    3、5张以上为团购
    嘉宾普通票
    4,200
    2025-10-18 18:00
    0
    嘉宾标准票
    4,700
    2025-10-18 18:00
    0
    参展证
    4,200
    2025-10-18 18:00
    0

    退票说明:不支持退票

    优惠或邀请码
    票价
    0