端侧 AI 创新挑战赛|获奖名单
openlab_96bf3613
更新于 1天前
本次赛事共吸引 900多名 开发者报名,收到超 100 份高质量作品,覆盖智能家居、无障碍交互、科研辅助、教育、游戏、办公、工业巡检等多个真实场景。
参赛团队不仅展现了对 Qwen 大模型、OpenVINO™ 加速、MCP 协议、多智能体架构等前沿技术的深度掌握,更以 “本地运行、隐私优先、断网可用” 为共同准则,真正把 AI 落到了用户的设备上、生活中、生产力里。
本次评审团由英特尔 OpenVINO™ 中文社区、魔搭社区、阿里云、通义实验室、上海交通大学及蓝驰创投的技术专家、产品经理、学者与投资人共同组成。
感谢每一位开发者的热情参与和极致创新,让这场赛事成为端侧 AI 落地创新的一次生动缩影。经过激烈角逐与专业评审,以下团队脱颖而出,荣获奖项:
只需点击桌面悬浮球开启会议助手,系统就能实时录音、转字幕、翻译,并在会议结束时一键生成结构化纪要与自动提醒的待办事项,所有处理在本地完成,无需联网。
“FlowyAIPC” 是一款完全离线的本地智能会议助手,运行于支持 OpenVINO™ 的 x86/ARM 设备,集成 ASR 语音识别、大模型摘要与任务提取能力。用户无需切换多个软件,从记录、总结到任务分发,全部在单一界面内闭环完成,支持生成可搜索时间线、导出思维导图(PDF/PNG),并自动关联系统日历弹窗提醒。
项目基于本地大模型实现端侧全流程处理,最大亮点在于极致的隐私保障与异构计算优化:所有语音、文本、纪要均在设备本地处理,真正实现 “断网可用”;同时,团队利用 OpenVINO™ 对底层算子深度重构,精准调度 CPU、GPU 与 NPU 协同工作,使 AI 功能响应流畅、功耗可控,体验接近原生应用。这为金融、法律、研发等对数据敏感的办公场景提供了高可用、高安全的 AI 助手落地范式。
只需说一句 “早上七点如果室外温度低于十度帮我烧水洗澡”,系统就能自动生成可执行的跨品牌智能家居联动场景,无需写代码、不依赖云端。
“** AIoT” 是一款运行在端侧的智能家居场景编排系统,允许用户通过自然语言(如 “回家前开空调、拉窗帘”)描述需求,系统自动将其转换为可执行的设备联动逻辑,无需编程,也不依赖云端服务。
项目基于 Qwen3-1.7B 模型进行语义解析,输出结构化 JSON 表示,并自动渲染为 Blockly 可视化积木块,支持用户后续调整。整个流程从语言理解到设备控制形成闭环,部署于 Intel 端侧设备,并通过 OpenVINO™ 优化,实测推理速度达 Prompt 126 token/s、生成 32 token/s,支持断网运行。
系统已验证可接入米家、OpenHarmony 及私有协议设备,解决了传统智能家居配置复杂、生态割裂、依赖云平台等实际问题,展示了端侧大模型在家庭自动化场景中的可行路径。
拖入一段电影、剧集或 Vlog,系统就能自动识别语音、提炼高光片段、生成电影级旁白、合成情感化配音,并输出带字幕的横竖双版短视频,整个过程无需联网,所有模型运行在本地英特尔 AI PC 上,保护原创内容与商业素材安全。
“炉火多语种智能剪片端侧 Agent” 是一款面向短视频创作者的端侧多模态剪辑系统,部署于联想 ThinkBook 14 G6+(Intel Core Ultra 7 155H + Arc GPU + AI Boost NPU)。它整合 ASR 语音识别、Qwen3-8B 大模型内容提炼、MeloTTS 语音合成等能力,实现从长视频到 120–180 秒精彩短片的全自动生产,支持中英日韩等多语种输入与中文解说输出。
项目采用分阶段 Agent 架构:先用 SenseVoiceSmall 模型进行高精度语音转写;再由 Qwen3-8B-int4-ov 模型(经 OpenVINO™ 加速)分析字幕,智能筛选高光片段并生成剧本式旁白;接着通过 MeloTTS-OV 合成情感化语音,并完成音画对齐;最后采用 “先横后竖” 策略,自动生成 16:9 与 9:16 双版本视频。系统充分利用 CPU+GPU+NPU 异构计算,显著降低 token 成本与云端依赖,让个人创作者和企业用户都能在离线环境下高效产出专业级内容。
只需简单介绍,系统就能基于本地文件自动生成完整 PPT,内容可溯源、排版可编辑,全程在英特尔 AI PC 上本地运行,企业敏感数据不出设备。
“基于 AIPC 的办公文档智能体” 是一款端侧 PPT 创作 Agent,依托 Qwen3-8B-int4 + OpenVINO™ + SuperBuilder 轻量化部署于本地设备,支持从规划、生成到编辑的完整流程。系统引入 Logiliner_Source 溯源模型,确保每页内容均可追溯至原始文档,杜绝幻觉与泄密风险。
项目采用 端云协同架构:核心推理与 RAG 在本地完成,保障隐私;非敏感任务(如美化、排版)调用云端 MCP Server,兼顾效果与效率。即便普通 AI PC 也能流畅运行,为企业用户提供高安全、高可用的 AI 办公方案。
只需在实验过程中口述 “记录此刻现象”,系统就能自动拍照、转写语音、识别仪器读数,并在实验结束时生成结构化实验报告,全程无需联网,所有数据本地存储,彻底解放科研人员的双手与精力。
“端侧多模态实验记录助手(LabMate AI-PC)” 是一款运行于英特尔 AI-PC 的全本地实验伴侣,部署于 Intel Core Ultra 7 + Arc GPU 平台。系统通过语音 + 视觉双通道感知,实时捕捉实验操作、现象图像与口述内容,自动结构化入库,并支持基于本地知识库的语义回溯与问答。
项目基于通义千问全栈模型构建:使用 SenseVoiceSmall 实现低延迟语音转写与指令识别;Qwen2.5-VL-3B-INT4 理解实验台画面(如仪器、液位、颜色变化);Qwen3-8B-INT4 负责逻辑推理与报告生成;配合 Qwen Embedding + Reranker 实现高精度本地 RAG。所有模型经 OpenVINO™ 量化与异构调度(ASR 跑 CPU,VLM/LLM 跑 GPU),显存占用 <16GB,支持断网流畅运行。系统可自动生成日报、周报,大幅减少科研记录负担,为 “AI for Science” 提供真正可用的端侧范式。
窗口截图,系统能自动理解画面内容、并发掘因果关系,结构化入库,支持自然语言实时问答 “上周那个报错截图在哪?”,所有处理在本地完成,无需联网,让沉睡的截图成为可查询的知识资产。
“Causal-Link” 是一款运行于英特尔 AI-PC 的主动式端侧智能助手,基于 Rust + Tauri 前端与 Python 后端 Agent 构建,利用 Qwen2-VL-7B-int4-ov 视觉大模型实时解析屏幕内容,结合 ChromaDB 向量库 + CausalGraphDB 因果图谱,实现从像素到结构化知识的自动转化。
项目采用混合 RAG 架构:纯本地模式保障隐私,Live/Cahce 模式支持企业知识扩展;通过 MCP(Model Context Protocol) 暴露工具接口(如 get_operational_context、search_knowledge_base),实现与外部工具生态无缝集成;后台常驻视觉感知守护进程,结合 OpenVINO™ 加速,在 Intel Core Ultra 7 + NPU 上实现低延迟屏幕理解与主动提醒。系统基于英特尔 AI Assistant Builder 框架扩展,可以快速完成模型部署与异构调度,让 “知识到因果” 真正落地为日常生产力。
佩戴 “灵译双感手套”,听障人士可通过手势实时转为自然语音,健听者说话也能即时转为文字 + 手语动画,真正实现双向无障碍沟通 —— 所有计算在端侧哪吒派设备完成,延迟 < 1.5s,便携可用。
“灵译双感手套” 是一款运行在端侧的双向手语翻译系统,支持听障人士通过手势实时生成语音或文字,同时将健听者的语音转为文字和手语动画反馈,实现双向无障碍沟通。所有计算在本地完成,无需联网,系统端到端延迟低于 1.5 秒。
项目基于 Qwen 3-0.6B 模型,采用 LoRA 微调与权重合并技术,部署于哪吒派推理卡,结合 OpenVINO™ 加速,推理速度从 2 秒优化至 1.5 秒内。硬件使用 FPC 柔性电路板手套,集成 12 组六轴传感器和 8 组压力传感器,通过 NearLink 或 WiFi 传输数据。训练数据来自省残疾人联合会与开源数据集,经标注后达 4.57 万条,模型验证准确率 90.3%,有效应对现有设备 “笨重、高延迟、识别不准、出行无助” 等痛点。
将面部表情与手势融合,通过 AR 眼镜在端侧实现带情感理解的听障双向自然语言翻译,消除语序歧义,让沟通不止于字面。
“视映心言” 是一款基于 AR 眼镜与哪吒派的端侧情感化听障交互系统,支持听障人士通过手势与面部表情实时生成自然语言输出,将语音转为文字与手语动画显示在 AR 视野中,实现双向、带情感理解的沟通。全部计算在本地完成,无需联网。
项目针对手语翻译中 “语序差异大”“忽略表情情感”“人工资源稀缺(手译员:听障人群 = 1:2300)” 三大痛点,构建包含 5200 + 条手语 - 表情 - 自然语言对齐的垂直数据集。系统采用 Qwen3-0.6B 模型,通过 LoRA 微调与权重合并部署于哪吒派推理卡,结合 OpenVINO™ 加速,实现手势与表情双模态输入。硬件端使用 AR 眼镜捕获手部动作与面部表情,经本地推理后输出自然语言。据项目材料显示,该系统将听障者表达完整度提升 35%,消除 78% 的语义歧义。
"Locus" 在 iPhone 上跑通并优化 Qwen3-1.7B,实现 "写想法→自动分类→创建提醒 / 日历" 的一站式智能工作流,全程本地运行、无需联网,每次记录仅需 < 2 秒,彻底终结多 App 切换与信息碎片化。
"Locus" 是一款完全运行在端侧的本地 Agentic 笔记助手,支持用户写下任意想法后,系统自动完成分类、结构化、创建提醒或日历项,并通过 ReAct 架构多步推理调用工具自主完成任务。所有数据保留在设备本地,不上传云端,适用于 iOS 平台,保障隐私与效率。
项目针对 "信息碎片化(Obsidian/Notion/ 日历各自为政)"" 操作繁琐(选 App→选分类→打标签)""AI 与笔记割裂(来回切换、**粘贴)" 三大痛点,构建基于 Qwen3-1.7B-Q5_K_M(1.2GB)的端侧 AI 系统。围绕笔记核心("外置大脑"),设计三大职责分离的 AI 模块:智能分类(轻量推理)、Inline 对话(笔记内即时问答)、Agent 界面(多步推理 + 工具调用与笔记直接交互)。采用 GBNF 语法约束确保输出 100% 有效 JSON,结合 ReAct Agent 循环(Plan → Tool → Execute → Reflect)实现多轮推理与工具调用。部署于 iOS Metal GPU 优化加速环境,实测性能:分类延迟~1.4 秒,解码速度 17-33 tokens/s,Agent 单轮响应 1.9 秒,内存占用 1.6GB。系统支持捕获笔记、块编辑器、GRDB 持久化与 FTS5 全文搜索,并通过 Agent 界面自主调用日历 / 提醒,联网搜索等端侧 API 以及系统内置的编辑、检索笔记工具,实现 "零上下文切换",让用户在两秒内零负担记录所有想法,并由 AI 自动整理归档,真正实现 "外置大脑"
一款随着你的互动不断进化、拥有独立人格与情绪表达的 AI 伙伴,端侧驱动 Live2D 形象,3–5 秒内响应,让陪伴真正 “有温度、有记忆、有成长”。
“Molili AI 桌面宠物” 是一款本地运行的可成长陪伴型 AI Agent,能随用户的互动持续演化性格与习惯,提供有记忆、有温度、有个性的长期陪伴。
项目基于 Qwen3-8B-Int4 模型,采用 OpenVINO™ 量化加速,部署于 Intel® Ultra 9 笔记本,实现高效本地推理。系统首创 “双循环人格结构”—— 将人格拆分为稳定层(气质 Temper)与可演化层(特质 Trait、习惯 Habit),通过 “前思考→模型应答→后思考→提示词更新” 的闭环机制模拟人类性格成长;采用 Stateless 请求机制 精准控制上下文长度,提升小模型在本地运行时的稳定性与首 token 响应速度;情感表达基于 Izard 情绪向量模型,端到端驱动 Live2D 形象的表情与动作,使交互更自然、更富表现力。实测在本地设备上首 token 延迟 3–5 秒(@12K tokens),有效解决现有 AI 陪伴产品 “无真实人格”“交互机械”“依赖云端” 等痛点。
只需开启 GameSkill,系统就能在《无畏契约》中指导你精准投掷道具,在《英雄联盟》里实时推荐出装,在《CS2》复盘中自动生成 2D 战术沙盘并得到深度解析 —— 所有分析在本地完成,不读游戏内存、不联网、不影响公平性,真正做你专属的 “职业级陪练”。
“游戏技巧 AI 教练(GameSkill)” 是一款运行于英特尔 AI-PC 的端侧多游戏智能助手,支持 MOBA、FPS、自走棋等主流类型。系统通过 Qwen-VL 模型,实时理解游戏画面并给出指导建议。结合 YOLOv11 + ResNet50 定位关键元素,全程不干扰游戏帧率。
项目充分利用 Intel Core Ultra XPU(CPU+GPU+NPU)与独立显卡(Intel B60 等)的异构算力,将 AI 负载从游戏主线程剥离,实现高帧率下的低延迟分析;所有模型经 OpenVINO™ 优化,在本地完成推理,杜绝隐私泄露与外挂风险。目前已覆盖《无畏契约》《英雄联盟》《云顶之弈》《永劫无间》《CS2》等多款游戏,为普通玩家和职业战队提供可落地、高性价比的 AI 训练方案。
只需在 Verilog 编辑器中敲入一行代码,系统就能在 100 毫秒内高亮语法错误并定位行号;点击 “优化” 按钮,即可在不上传源码的前提下获得面积与功耗双优的电路方案 —— 所有计算在本地 AI PC 完成,教学代码 0 泄露,保护高校与企业核心 IP。
“芯绘云匠” 是一款面向高校与工程师的端侧智能硬件设计平台,运行于 Intel Core Ultra AI PC,集成 TinyBERT 语法检查模型与 Qwen2.5-7B-Coder 修复大模型,实现从实时查错、交互式修复到云端协同逻辑优化的完整教学闭环。系统通过 XPU 异构调度:NPU 负责毫秒级语法检测(92 样本 / 秒),GPU 运行 LLM 提供修复建议,CPU 协调云端贝叶斯优化,全程源码不出设备。
项目采用双模型驱动架构:轻量级 TinyBERT 经 OpenVINO™ 量化部署于 NPU,功耗降低 37.5%;Qwen2.5-7B-Coder 通过 LoRA 微调与 INT4 量化,显存占用仅 7GB,支持多方案修复与上下文问答;云端优化引擎基于 Yosys + ABC + Optuna,在不传输源码前提下,将 8 位累加器逻辑门数减少 22.6%。平台已在上海大学微电子学院试点,为硬件教育提供安全、高效、渐进式的 AI 教学新范式。
只需上传一份教学教案,系统就能基于 RAG 技术自动提取知识点,生成紧扣教学目标的随堂测验、单元卷或期中期末试卷,所有处理在本地 AI-PC 完成,不上传敏感教学资料,保护学校知识产权。
“有爱智能教育平台” 是一款覆盖从学前教育到高等教育的全学段 AI 教育系统,运行于英特尔 AI-PC。平台集成 Qwen3-8B 对话模型与 Qwen2.5-VL-7B 视觉模型,支持拍照解题、作文批改、数字人教师、证件照生成、班服试穿等多模态教学工具,并具备完整的在线学习闭环(课程、作业、错题本、仿真实验)。
平台融合了常规在线教育功能与 AI 创新工具,根据不同的教育阶段,提供不同的知识深度、教育形式的在线教育内容,通过个性化学习路径、智能化教学辅助,系统性解决教育内容生成、知识传递、学习体验优化等核心问题。比如,基于 RAG 技术,平台实现了通过教案内容生成紧扣教案的试卷的功能,极具商业落地可能。
只需要输入关键词,系统就能自动从各平台采集资讯,经过多智能体协作分析后,生成包含情感趋势、关系图谱、时间线与深度摘要的结构化报告,并通过邮件推送给你。
“信核” 是一款运行于英特尔 AI-PC 的本地 Multi-Agent 新闻舆情分析系统,基于 LangGraph 架构构建了 9 个专业智能体(采集、情感分析、关系图谱、趋势洞察、报告撰写等),形成 “采集 → 分析 → 总结” 三级子图工作流。系统支持双层循环控制:外层迭代提升报告质量,内层补全关键信息,并采用智能跳过策略(第二轮起仅执行必要分析),显著提升效率。
项目采用 Qwen3-8B-int4(文本) 与 Qwen3-VL-2B(图文 / 视频) 模型,通过 OpenVINO™ GenAI 实现异构加速:CPU 执行情感分析、NPU 处理关系图谱、GPU 负责重大事件深度解读,并利用 Continuous Batching Pipeline 优化吞吐。所有数据采集、分析、存储均在本地完成,用户阅读兴趣、搜索历史、分析结果不出设备,真正实现 “深度内容个性化,隐私数据本地化” 的新闻消费新范式。
拍照过程中只需点击 “AI 按钮”,手机就能实时生成一个半透明蓝框,引导你像玩 “连连看” 一样轻松构图 —— 无需联网、不传照片、秒级响应。
“AING” 是一款运行在端侧的 AI 摄影辅助应用,通过本地大模型实时分析摄像头画面,将摄影构图建议以可视化方式呈现,帮助普通用户在拍摄时对齐主体、提升成片质量。系统完全离线运行,不依赖云端服务,保障用户隐私。
项目采用 Qwen3-VL-2B-Instruct 模型,经 LoRA 微调并使用 Int8 量化,部署于 Alibaba MNN 推理引擎;同时集成 YOLOv11s(FP32) 用于目标实时跟踪,确保坐标精度与画面平滑。为规避移动端 GPU 内存不足问题,系统强制使用 CPU 推理,在 Redmi K70 等设备上实现稳定运行。
训练数据基于 CADB(Composition-Aware Image Aesthetics Asses**ent Dataset),筛选美学评分 >0.6 的图像,构建约 8000 条指令微调样本,使模型能理解 “三分法”“视线留白” 等构图原则。应用采用 “重影跟随” 交互方式,用户只需将人物对齐蓝色引导框即可完成专业级构图,解决了传统九宫格缺乏语义理解、云端方案延迟高等问题。
只需说一句 “帮我找一下备用灭火器在哪”,机器狗就能自主搜索目标、实时告警并生成报告,整个过程无需联网、数据不出本地。
“灵嗅” 是一款运行在端侧的智能安防巡检系统,部署于宇树 Unitree Go2 机器狗与 NVIDIA Jetson Orin NX 计算平台。系统通过本地大模型理解自然语言指令,驱动机器人执行动态搜索或标准化巡检任务,并记录关键事件,最终输出结构化报告。
项目基于 Qwen2.5-VL-3B-Int4 模型构建,采用分层异步感知架构:前端使用 Motion Gate + CLIP 初筛,付用结果自适应抽取关键帧并压缩,降低计算负载;认知中枢负责语义解析与后续行为决策;输出层控制机器人动作并生成全局记忆与报告。系统引入动态状态机管理多目标巡检进度,避免重复搜索;并通过 OCR 文本锚定与语义否决机制校正模型输出,提升决策可靠性。
系统支持两种模式:Task 0(开放语义搜索)可处理模糊指令,如 “寻找潜在安全隐患”,并将语义转化为视觉特征集进行主动搜索;Task 1(标准化巡检)则模拟内置的人工检查清单,逐项确认并记录,确保合规性。所有推理与控制均在本地完成,满足工业场景对数据隐私与低延迟的要求。
欢迎添加 OpenVINO 小助手微信 : OpenVINO-China